1. 从“看山是山”到“看山不是山”弱引力透镜宇宙学的精度困境如果你在十年前问我宇宙学里最让人头疼的问题是什么我可能会说是数据量不够。但今天情况完全反了过来。我们正处在一个数据爆炸的时代特别是对于弱引力透镜Weak Gravitational Lensing简称WL这个领域。大型巡天项目如欧几里得Euclid、薇拉·C·鲁宾天文台Vera C. Rubin Observatory的LSST以及中国的CSST正以前所未有的精度和广度描绘宇宙的“质量地图”。我们不再缺数据我们缺的是“信任”——对数据背后物理模型和统计推断过程的绝对信任。弱引力透镜的原理简单来说就像透过一块有波纹的玻璃看远处的星系。宇宙中无处不在的暗物质和普通物质构成了这块“玻璃”它们会弯曲背景星系发出的光线导致星系的形状发生极其微小的、统计上可测的形变。通过测量数百万甚至数十亿个星系的这种集体形变我们就能反推出宇宙中物质尤其是暗物质的分布进而约束宇宙学的基本参数比如暗能量状态方程、中微子质量、宇宙的几何结构等。这听起来很美对吧一个纯粹通过观测光就能“称量”宇宙的方法。然而魔鬼藏在细节里。这个“极其微小”的形变有多大通常只有星系本身形状涨落的1%左右。这意味着我们测量的信号极其微弱被淹没在巨大的“噪声”海洋中。这里的“噪声”不仅仅是仪器误差或天空背景光更本质的是星系自身那千奇百怪的、非圆形的本征形状。为了从噪声中提取信号我们需要对海量星系进行统计平均。这个过程从原始图像到最终的科学结论是一条漫长而复杂的“流水线”Pipeline。每一步都可能引入微小的、难以察觉的偏差这些偏差就是系统不确定性。它们不是随机的错误而是有固定模式的偏移会悄无声息地污染我们的宇宙学参数测量让结果产生系统性偏离。更棘手的是分布偏移。我们用来训练和验证数据处理算法、校正观测效应如大气扰动、仪器点扩散函数PSF的数据其分布与我们最终要应用到的真实巡天数据往往存在差异。比如我们用地面望远镜的优质、小样本数据来训练一个星系形状测量模型然后把它用到空间望远镜拍摄的、条件完全不同的大样本数据上。或者我们的宇宙学模拟是基于某种特定的暗物质模型如冷暗物质CDM但真实宇宙可能略有不同。这种训练集和测试集分布的不一致会导致模型在“实战”中表现失常其预测偏差会直接转化为系统误差混入科学结果。十年前我们或许还能靠物理学家和天文学家的经验与直觉手动调整模型参数勉强控制这些误差。但面对下一代巡天项目带来的PB级数据和亚百分之一级别的精度要求传统方法已经力不从心。这时机器学习尤其是深度学习从工具库的后排走到了舞台中央。它不再仅仅是一个“黑箱”分类器而是正在成为我们理解和量化这些系统不确定性与分布偏移的核心方法论。这不是用机器学习替代物理而是用机器学习武装物理让我们能更清晰、更诚实地看到数据背后的宇宙真相。接下来的内容我将结合一线数据处理的经验拆解机器学习是如何在这场“精度保卫战”中从多个维度切入并改变游戏规则的。2. 流水线中的“幽灵”系统不确定性的来源与机器学习量化要理解机器学习能做什么必须先弄清楚敌人在哪里。弱引力透镜宇宙学流水线通常包括几个核心环节图像预处理、天体检测与去混叠、星系形状测量、红移估计、以及最后的宇宙学参数统计推断。系统不确定性就像幽灵潜伏在每一个环节。2.1 星系形状测量从模型拟合到神经网络回归传统测量星系形状剪切Shear的金标准方法是模型拟合例如使用GALFIT或im3shape等软件用一个预定的光度分布模型如Sérsic模型去拟合星系的二维图像。这个过程需要精确知道每个星系的点扩散函数PSF因为PSF会模糊和扭曲星系的真实形状。问题在于PSF在视场中随时间和位置变化其模型本身就有不确定性。此外模型可能无法完美描述所有星系的真实光度分布特别是对于不规则或合并中的星系。机器学习在这里的第一次介入是作为校准器或模拟器。我们无法获得星系被引力透镜扭曲前的“真实”形状但我们可以用高精度的宇宙学模拟来生成海量的“虚拟宇宙”。在模拟中我们确切知道每个星系的输入剪切值真值和经过模拟望远镜PSF卷积后的图像。然后我们可以训练一个深度卷积神经网络CNN让它直接学习从模拟的星系图像到输入剪切值的映射关系。为什么CNN比传统模型拟合更有潜力应对系统不确定性对模型误设的鲁棒性CNN不依赖于一个参数化的星系光度模型。它通过多层卷积核自动学习图像的特征表示能够捕捉星系形态的复杂多样性包括那些难以用简单模型描述的结构。这减少了对星系物理模型假设的依赖从而降低了一类系统误差。端到端学习PSF效应我们可以将PSF的图像或参数作为额外的输入通道与星系图像一并输入网络。网络在训练过程中会自己学会如何从被PSF模糊的图像中“解卷积”出星系的真实形状。这比传统方法中先估计PSF、再做反卷积的两步走流程更直接可能减少误差传递。量化不确定性现代神经网络特别是那些集成贝叶斯思想的方法如蒙特卡洛Dropout、深度集成、贝叶斯神经网络不仅可以给出点估计预测的剪切值还能给出预测的不确定性。这个不确定性估计包含了模型因为输入数据噪声、PSF变化等产生的认知不确定性Epistemic Uncertainty。我们可以利用这个不确定性来给每个星系的测量值赋予一个权重在后续的统计中低置信度的测量对最终结果的贡献更小。实操心得在构建这样的训练集时最大的坑在于模拟的“真实性”。你的模拟必须尽可能覆盖真实数据中所有可能的形态、大小、亮度、噪声水平以及PSF形态。一个常见的错误是模拟的星系形态分布过于理想化导致训练出的网络对真实数据中某些罕见但存在的星系类型产生严重误判。我们的经验是采用基于真实星系图像进行“渲染”的方法或者使用生成对抗网络GAN来创造更逼真的模拟星系库能显著提升模型的泛化能力。2.2 光红移估计从模板匹配到概率密度函数预测星系的红移是将其二维天空位置映射到三维宇宙距离的关键。对于弱透镜我们需要知道每个星系或星系群的概率分布函数而不仅仅是一个点估计。因为错误的红移会错误地归算引力透镜的效率直接扭曲物质功率谱的测量。传统的光谱红移测量成本极高无法用于数十亿星系。因此我们依赖多波段测光数据通过将观测到的星系光谱能量分布SED与模板库匹配来估计红移。这种方法对模板的完备性和观测的测光校准精度极其敏感是系统误差的主要来源之一。机器学习特别是树模型如随机森林、XGBoost和全连接神经网络彻底改变了这个领域。我们不再进行直接的模板匹配而是将问题转化为一个监督学习回归或分类问题。机器学习如何降低红移估计的系统不确定性特征空间的灵活性我们可以输入星系的多个测光流量、颜色、形态参数甚至原始像素的某些摘要统计量。模型会自动学习这些特征与红移之间复杂的、非线性的关系而不受限于有限的物理模板。输出概率分布最先进的方法如使用混合密度网络MDN或分位数回归森林可以直接输出给定星系观测特征下其红移的完整条件概率分布P(z|data)。这个分布自然地包含了由于观测噪声、颜色-红移简并等引起的统计不确定性。在宇宙学分析中我们可以直接使用这个PDF而不是一个单一的红移值从而更准确地传播误差。无偏校正与转移学习即使机器学习模型在训练集通常是有光谱红移的样本上表现完美应用到更大的测光样本时仍可能因样本选择偏差或分布偏移而产生系统偏差。这里机器学习提供了强大的校正工具。例如我们可以使用重要性加权或域适应技术。具体来说我们可以训练一个分类器来区分“有光谱的样本”和“无光谱的测光样本”。这个分类器给出的权重可以用来重新加权训练样本使得加权后的训练集分布在特征空间上更接近目标测光样本的分布从而校准红移估计量。注意直接使用在光谱样本上训练的模型预测测光样本的红移是弱透镜分析中最危险的系统误差来源之一。必须进行严格的“无偏性”测试例如利用空间交叉关联技术或者将测光样本分割成多个子集检查其宇宙学信号的一致性。3. 当训练集遇到真实宇宙分布偏移的挑战与应对策略分布偏移是机器学习模型在弱透镜应用中面临的最大挑战也是其价值最能体现的地方。它主要出现在两个层面模拟与现实的差距以及有标签数据与无标签数据的差距。3.1 模拟到现实的域适应让模型“忘记”模拟的痕迹我们用于训练形状测量、红移估计等模型的数据绝大部分来自数值模拟。但模拟再精细也只是真实宇宙的近似。例如模拟中星系的形态分布、颜色分布、并合历史甚至噪声的统计特性都可能与真实数据存在系统性差异。一个在模拟数据上表现优异的模型应用到真实数据时性能可能急剧下降。解决这个问题的核心思想是域适应。我们希望模型学习的是“如何从图像中提取剪切信号”这个域不变的核心能力而不是记住模拟数据特有的“痕迹”。几种实用的域适应策略对抗性域适应在神经网络中引入一个域判别器。主网络特征提取器的目标是提取既能预测剪切值又让域判别器无法区分特征是来自模拟域还是真实域的特征。通过这种对抗训练迫使特征提取器忽略域特有的信息。在实践上我们可能没有真实数据的剪切真值但我们可以获取大量未标注的真实星系图像。对抗训练可以只利用这些无标签的真实数据来提升模型的泛化能力。自监督预训练与微调首先在大量的、无标签的真实星系图像上使用自监督学习如拼图游戏、对比学习对网络进行预训练。这让网络先学会理解真实星系图像的基本结构和特征而不依赖于模拟的标签。然后再用相对有限的、带标签的模拟数据对网络进行微调使其学会剪切估计这个特定任务。这种方法能有效利用海量无标签真实数据让模型的基础“视觉”能力更贴近现实。数据增强与风格迁移使用生成模型如CycleGAN将模拟图像“翻译”成具有真实数据“风格”如噪声纹理、PSF特征的图像同时保留其形状真值标签。用这种风格化后的模拟数据训练模型可以缩小域间差距。踩坑实录我们曾尝试将一个在高度理想化模拟上训练的CNN直接应用于早期巡天数据结果发现模型对某些类型的图像缺陷如宇宙线痕迹、卫星轨迹极度敏感产生了大量异常预测。后来我们在训练集中加入了经过简单模拟的这些缺陷并采用了对抗性域适应的思路让模型学会忽略这些与剪切信号无关的“干扰风格”模型的鲁棒性才得到质的提升。3.2 基于模拟的推断将系统不确定性直接纳入宇宙学参数估计这是目前最前沿、也最具潜力的方向之一。传统流程是数据 → 流水线可能带偏差→ 观测数据向量如剪切两点相关函数→ 与理论模型对比 → 得到宇宙学参数。系统误差在流水线环节被引入然后难以剥离地传递下去。基于模拟的推断的思路是既然我们的理论模型和流水线都可以用代码实现那我们何不把整个生成过程都放进一个大的贝叶斯推断框架里模拟器给定一组宇宙学参数θ和系统学参数η如形状测量偏差、红移分布偏差我们用数值模拟生成一个虚拟宇宙并应用完整的观测和数据处理流水线最终得到一个“模拟的观测数据向量”x_sim。推断引擎比较真实观测数据x_real和模拟数据x_sim通过贝叶斯方法如MCMC、嵌套采样反推最可能的参数θ和η。这里的挑战是每一次模拟和流水线运行都计算成本极高不可能在MCMC采样中运行成千上万次。机器学习的角色就是充当这个昂贵模拟器的快速代理模型。方法我们在参数空间θ, η中采样几百个点运行完整的昂贵模拟得到对应的x_sim。然后训练一个机器学习模型如高斯过程、归一化流或深度神经网络来学习从参数θ, η到数据向量x_sim的映射。这个训练好的代理模型可以在毫秒级内完成一次前向预测从而使得对整个高维参数空间进行高效的贝叶斯推断成为可能。优势这种方法最大的优点是自洽性。系统学参数η如校准偏差和宇宙学参数θ被同时拟合。模型的不确定性代理模型的预测误差可以被量化并纳入最终的参数误差条中。这相当于用机器学习构建了一个包含所有已知系统效应的、可微分的“虚拟宇宙实验室”。4. 实战构建一个集成机器学习应对系统误差的简化框架理论说了很多我们来看一个高度简化的、概念性的实战框架展示如何将上述机器学习模块集成到一个弱透镜分析流程中。假设我们有一个新的巡天数据块需要处理。4.1 阶段一数据准备与模拟生成首先我们需要两套数据真实数据经过基本预处理的巡天图像、星表包含位置、多波段流量等。模拟数据使用像UFig、GalSim或SLICS这样的工具生成与真实数据观测条件深度、点扩散函数、噪声水平匹配的模拟图像。关键是要生成多套模拟在不同的宇宙学参数和系统学参数例如人为引入不同水平的形状测量加乘偏差m和附加偏差c下进行。每一套模拟都必须有已知的“输入”剪切值和红移。4.2 阶段二训练校准与测量模型任务1训练红移分布预测模型输入模拟或已有光谱样本中星系的多波段测光特征颜色、流量比等。输出每个星系的红移概率分布函数PDF(z)。模型选择对于结构化数据XGBoost或LightGBM通常是强大且高效的起点。为了获得PDF可以使用分位数回归或将其转化为分类问题将红移区间分桶。更高级的用混合密度网络。关键步骤将模拟数据按特征空间分布通过重要性加权或域适应方法使其与真实数据的特征分布对齐。用对齐后的“加权”模拟数据训练最终模型。任务2训练星系形状测量模型输入模拟的星系切割图像多波段可选、对应的PSF图像。输出两个方向的剪切分量(g1, g2)以及预测的不确定性。模型选择卷积神经网络CNN如ResNet变体。在输出层除了回归值可以增加一个预测方差异方差不确定性。关键步骤在模拟数据中引入丰富的真实噪声、缺陷和PSF变化。可以采用对抗性训练将一部分未标注的真实星系图像作为“目标域”让模型学会提取域不变的特征。4.3 阶段三应用与宇宙学推断应用模型将训练好的红移模型和形状模型应用到真实巡天数据上得到每个星系的PDF(z)和(g1, g2, σ_g)。计算统计量根据红移PDF将星系分到不同的红移层Tomographic Bins。计算各层内以及层间的剪切两点相关函数ξ±(θ)这是标准的弱透镜观测数据向量。在计算时利用形状测量模型给出的不确定性σ_g对每个星系进行加权。基于模拟的推断构建代理模型在关心的(Ω_m, σ_8, w, m, c, ...)参数空间采样运行完整模拟流水线从宇宙模拟到图像生成到应用相同的机器学习模型进行测量得到对应的模拟ξ±(θ)。训练一个高斯过程回归或深度神经网络学习参数 - ξ±的映射。使用这个快速的代理模型在贝叶斯框架下如用emcee或PyMC3将真实的ξ±(θ)与代理模型预测进行拟合同时得到宇宙学参数和后验的系统学参数。4.4 核心注意事项与常见陷阱数据泄露确保用于最终宇宙学推断的真实数据在任何阶段都没有被用于训练模型的调整或选择。这需要严格的数据划分训练/验证/测试集且测试集应完全模拟“新巡天”的未知状态。模拟的局限性代理模型的好坏完全取决于基础模拟的覆盖范围和真实性。如果模拟没有覆盖某种重要的物理效应例如重子物理对星系形成的反馈那么代理模型也无法预测它这会导致无法被发现的残余系统误差。必须进行“模拟中的模拟”测试即在更复杂的模拟上测试你的流程。不确定性校准模型给出的预测不确定性无论是红移PDF还是形状误差是否可靠需要通过模拟进行校准测试例如检查PIT概率积分变换图确保不确定性是“诚实”的。计算资源平衡端到端的基于模拟的推断需要巨大的计算资源来生成训练代理模型所需的样本。需要在模拟的保真度、参数空间的维度和采样密度之间做出权衡。机器学习不是弱引力透镜宇宙学的“银弹”它本身也带来了新的复杂性如模型解释性、超参数选择、计算成本。但它为我们提供了一套强大的、系统的、可量化的工具来直面并约束那些曾经让我们夜不能寐的系统不确定性和分布偏移问题。它正在将弱透镜分析从一个依赖于众多经验校正的“工艺”转变为一个更自动化、更透明、不确定性更可追溯的“精密科学”流程。这个过程充满挑战但每解决一个问题我们就离那个未被模糊的、真实的宇宙图景更近一步。