1. 从“连接”到“几何”为什么我们需要一个统一的可塑性框架如果你在神经科学或机器学习领域待过一段时间肯定会遇到一个经典概念赫布可塑性。那句“一起放电的神经元会连接在一起”的格言几乎成了这个领域的“第一性原理”。无论是解释大脑如何学习还是构建类脑的人工神经网络赫布规则都是基石。但当我们试图用这个简单的规则去解释更复杂的现象比如记忆的长期巩固、遗忘或者网络如何稳定地存储海量模式而不发生灾难性干扰时问题就来了。传统的赫布模型无论是简单的乘积规则还是更复杂的STDP脉冲时间依赖可塑性往往是在一个预设的、固定的“连接强度空间”里打转。我们调整权重但很少去思考这些权重调整背后的“空间”本身是否合理以及所有调整是否遵循一个统一的、几何上优雅的法则。这就引出了标题中的两个核心概念Wasserstein几何和记忆巩固。前者来自最优传输理论是一种衡量概率分布之间“距离”的强大数学工具它考虑的是将一个分布“搬砖”到另一个分布的最小“工作量”。后者是神经科学中描述短期记忆如何转化为长期、稳定记忆的过程。乍一看一个来自纯数学一个来自生命科学风马牛不相及。但最近的一些前沿研究正在将它们联系起来其桥梁正是对赫布可塑性进行一种“几何化”的重新诠释。我个人的体会是这个方向代表了计算神经科学和理论机器学习的一个深刻转变从关注局部权重的调整规则转向关注整个神经网络表征分布的全局演化规律。我们不再仅仅问“这个突触应该加强还是减弱”而是问“整个网络的激活模式作为一个概率分布应该如何以一种能量最优的方式演化以达到期望的记忆状态” Wasserstein距离提供了一个绝佳的几何视角来回答这个问题。它天然地衡量了分布之间的差异并定义了分布空间里的一条“最短路径”。将赫布学习视为在这个Wasserstein空间中的梯度流就有可能为各种看似不同的可塑性规则如赫布学习、反赫布学习、归一化等提供一个统一的数学框架并自然地导出记忆巩固所需的稳定性条件。简单来说这个框架试图告诉我们大脑或类脑模型的学习可能是在遵循某种“几何节能”原则而记忆巩固就是这个动力系统收敛到一个稳定吸引子的过程。接下来我将拆解这个框架的几个核心层次并探讨其背后的动机、数学内涵以及潜在的应用场景。2. Wasserstein几何入门不只是距离更是“搬砖”的最优方案要理解这个统一框架首先得弄明白Wasserstein距离到底是什么以及它为什么比我们常用的KL散度、JS散度等更适合描述神经动力学。2.1 从欧式距离到分布距离的困境想象一下你有一堆沙丘一个概率分布想把它挪动并塑造成另一个指定的沙丘形状另一个概率分布。你怎么衡量这两个沙丘的“不同”最简单的方法是逐点比较高度但这忽略了沙土的“可移动性”。实际上你可以通过移动沙土来改变形状。Wasserstein距离也叫推土机距离衡量的就是把第一个分布“搬运”成第二个分布所需的最小“工作量”通常定义为移动距离的某个次幂的期望。公式上对于两个定义在空间Ω上的概率分布P和Q其p阶Wasserstein距离定义为W_p(P, Q) ( inf_{γ ∈ Γ(P, Q)} ∫_{Ω×Ω} d(x, y)^p dγ(x, y) )^{1/p}其中Γ(P, Q)是所有以P和Q为边缘分布的联合分布称为耦合的集合d(x, y)是底层空间中两点x和y的距离。这个“inf”就是在所有可能的“搬砖方案”耦合中寻找总搬运成本最低的那个。2.2 为什么是Wasserstein与KL散度的关键对比在机器学习中我们更熟悉KL散度。KL散度衡量的是用分布P去近似分布Q时的信息损失。但它有一个致命弱点当P和Q的支撑集即概率非零的区域没有重叠时KL散度会变成无穷大。这意味着即使两个分布的形状非常相似只要它们没有严格重叠的区域KL散度就无法提供有意义的梯度。注意这个特性使得KL散度在训练生成模型如GAN的初期时非常不稳定因为生成分布和真实分布很可能一开始就没有重叠。Wasserstein距离则没有这个问题。即使两个分布完全没有重叠只要你能定义一个合理的点间距离d(x, y)Wasserstein距离仍然是一个有限值并且能平滑地反映分布之间的“远近”。这对于描述神经网络的表征演化至关重要。网络的激活模式分布在学习过程中是连续变化的我们需要一个能提供平滑梯度的度量来引导这个变化。2.3 Wasserstein几何下的梯度流在定义了分布空间的距离后我们就可以在这个空间里谈论“梯度”了。假设我们有一个定义在分布空间上的“能量”函数E[ρ]比如衡量当前激活分布ρ与目标记忆分布ρ_target的差异那么Wasserstein梯度流描述了分布ρ随时间演化的最速下降方向∂ρ/∂t ∇·( ρ ∇(δE/δρ) )这里δE/δρ是能量E关于分布ρ的变分导数或称为第一变分在物理上可以理解为化学势。这个方程被称为梯度流方程或Jordan-Kinderlehrer-Otto (JKO) 格式。它的直观意义是概率质量“沙土”会沿着能量降低最快的方向“流动”而流动的驱动力正比于能量梯度的负值-∇(δE/δρ)流动的速率还受到当前分布密度ρ的影响密度高的地方“物质”多流动效应更明显。这是一个非常物理化的描述将概率分布的演化与流体力学联系了起来。3. Hebbian可塑性的几何化重构从局部规则到全局目标现在我们进入核心环节如何将经典的、局部的赫布可塑性规则解释为上述Wasserstein几何框架下的全局梯度流的一个特例3.1 经典Hebbian规则的局限与扩展标准的赫布规则通常写作Δw_ij ∝ x_i * x_j即突触权重w_ij的改变量与突触前神经元i的活动x_i和突触后神经元j的活动x_j的乘积成正比。这个规则是局部性的只依赖于一对神经元的活动。它会导致权重无界增长因此在实际生物模型或机器学习模型中必须引入额外的约束如权重衰减、归一化Oja规则或阈值。这些额外的约束常常是启发式的缺乏一个统一的优化目标。不同的约束会导致不同的学习动态这使得我们难以从一个更高的层面理解可塑性的本质。3.2 将神经网络活动视为一个分布几何化框架的第一步是改变视角。我们不再将神经网络视为N个神经元和N^2个权重的集合而是关注其集体活动状态所构成的概率分布。假设我们有一个神经元群体其活动水平可以用一个向量x表示。在给定输入刺激下网络会产生一个特定的活动模式。多次呈现不同刺激就会得到一个活动模式的经验分布ρ(x)。学习的目标是让这个活动分布ρ(x)能够很好地“匹配”或“表征”外部输入刺激的统计结构以及内部需要存储的记忆模式。3.3 设计一个“好”的能量函数在这个框架下赫布学习可以被重新解释为最小化一个定义在分布空间ρ(x)上的能量函数E[ρ]。这个能量函数通常包含两部分拟合项Fidelity Term迫使网络的活动分布接近期望的目标分布如记忆模式。这可以通过最小化Wasserstein距离W_2^2(ρ, ρ_target)来实现。正则项Regularization Term防止过拟合确保分布的平滑性和泛化能力。常见的选择是熵正则化H(ρ) ∫ ρ log ρ dx它倾向于让分布更分散、更均匀。因此一个典型的能量函数可能是E[ρ] W_2^2(ρ, ρ_target) λ H(ρ)其中λ是正则化系数。3.4 从全局能量到局部学习规则关键推导神奇的事情发生了。当我们计算上述能量E[ρ]在Wasserstein几何下的梯度流即JKO格式时在一定的近似和模型假设下例如假设神经元活动是连续的网络连接是全连接的且权重更新遵循某种平均场极限这个全局的分布演化方程可以退化为一系列局部的、类似于赫布规则的突触更新方程具体来说能量函数中Wasserstein距离项关于分布的变分导数会引入一个依赖于神经元活动相似性的“势能”项。在梯度流中这个势能项的梯度就成为了驱动突触权重变化的力。经过推导这个力正比于突触前后神经元活动的某种相关性度量其形式与广义的赫布规则包括Oja归一化等变体高度相似。实操心得这个推导过程涉及较多的数学如变分计算、平均场理论和随机过程。对于应用者而言关键不是复现推导而是理解其结论我们熟悉的赫布规则可以看作是一个更宏大的、旨在优化网络整体表征分布的梯度动力学所涌现出的局部现象。这就像微观分子的热运动宏观上表现为满足热力学定律的气体行为。3.5 统一框架的价值解释多样性一旦建立了这个几何视角许多不同的可塑性现象可以被统一理解标准赫布学习对应于能量函数中主要追求拟合目标分布正则化较弱的情况。反赫布学习抑制性可塑性可能对应于能量函数中某些特定的交互项或者是在优化过程中避免陷入不良局部极小点的动态表现。突触缩放与归一化可以自然地解释为梯度流中为了保持分布某些矩如总强度恒定而出现的约束或者是熵正则化项的直接体现。脉冲时间依赖可塑性STDP可以理解为在时间维度上Wasserstein距离被推广到了时空过程梯度流给出了依赖于脉冲精确时间的更新规则。这个框架的强大之处在于它用一个统一的优化目标最小化分布空间中的能量和统一的动力学Wasserstein梯度流生成了一整类可塑性规则而不是预先指定某一条规则。4. 记忆巩固作为Wasserstein空间中的吸引子动力学记忆巩固是这个统一框架最引人注目的应用场景之一。在神经科学中记忆巩固是指新形成的、不稳定的记忆痕迹海马体依赖通过系统水平的重组逐渐转化为稳定的、皮层依赖的长期记忆的过程。这个过程涉及突触的强化、系统水平的回放以及可能的结构性变化。4.1 记忆的分布表示在这个框架下一个“记忆”不再被看作是某个特定的神经元集合的固定激活模式而是被编码在网络活动空间中的一个概率分布。例如关于“猫”的记忆可能对应着视觉皮层神经元活动的一个特定分布ρ_cat。学习的过程就是让网络的活动分布能够趋近这个目标分布。4.2 巩固即优化过程的收敛短期记忆可以理解为网络活动分布ρ在能量地形中一个较浅的、不稳定的“洼地”。此时能量函数E[ρ]在ρ_cat附近有局部极小值但很容易被新的输入干扰或噪声推离。记忆巩固的过程则对应于一个更深层次的优化过程离线重播与反复优化睡眠或休息时的海马体回放可以被建模为在Wasserstein空间中沿着梯度流方向对能量函数进行反复的、离线的优化迭代。每次回放都相当于计算一次梯度下降步骤ρ_{t1} ρ_t - η ∇_W E[ρ_t]其中∇_W表示Wasserstein梯度。吸引子的深化与拓宽通过反复优化能量函数在目标记忆分布ρ_cat处的极小值会变得更“深”更稳定和更“宽”对微小扰动更鲁棒。这对应着生物上突触连接的强化、新树突棘的形成等结构性变化。从海马体到新皮质的转移在统一框架中海马体和新皮质可以被视为具有不同能量函数地形和不同时间常数的两个子系统。海马体快速学习地形陡峭但不稳定新皮质慢速学习地形平缓但稳定。巩固的过程可以建模为通过两个系统间的交互如梯度信息的传递将海马体中形成的较优分布ρ逐步“迁移”到新皮质的能量地形中并使其成为一个稳定的吸引子。4.3 遗忘与干扰的几何解释同样遗忘和记忆干扰在这个框架下也有清晰的解释灾难性干扰当网络学习一个新记忆ρ_dog时如果能量函数地形设计不好例如缺乏足够的正则化优化过程可能会严重扭曲原有的地形导致ρ_cat对应的吸引子消失或严重变形。这就是传统神经网络中灾难性遗忘的几何表现。弹性巩固一个设计良好的能量函数例如包含强熵正则化或引入参数化的“突触巩固”项能够在新记忆引入时最小化对旧记忆吸引子的扰动。这对应于生物学上提出的“突触巩固”假说即部分突触被标记为“重要”而受到保护。主动遗忘有时遗忘可能是主动的优化过程。如果某些记忆分布ρ与整体的、更一般的知识分布先验相冲突优化过程可能会主动削弱这些吸引子以提升整体的能量效率或泛化能力。5. 从理论到实践计算实现与应用展望理论再优美也需要落地。基于Wasserstein几何的赫布学习框架在计算上如何实现又有哪些潜在的应用场景5.1 计算挑战与近似算法直接在高维的分布空间上求解Wasserstein梯度流是计算上不可行的维度灾难。因此我们需要巧妙的近似参数化分布最常见的思路是将活动分布ρ假设为某个参数化分布族例如高斯分布这样就把无限维的分布空间优化问题转化为了对有限个参数均值、协方差的优化。此时Wasserstein距离对于高斯分布有闭式解计算变得可行。粒子方法用一组“粒子”即样本点来近似表示分布ρ。每个粒子代表网络在某个输入下的一个活动状态。Wasserstein梯度流可以转化为这些粒子在状态空间中的运动方程。这类似于在机器学习中训练一个“粒子生成模型”。对偶形式与Sinkhorn算法通过Wasserstein距离的对偶形式Kantorovich对偶并引入熵正则化我们可以使用高效的Sinkhorn迭代算法来近似计算Wasserstein距离及其梯度。这是当前计算最优传输的主流方法已被广泛应用于生成模型。与深度学习的结合我们可以构建一个深度神经网络其输出定义一个分布ρ_θ参数为θ。学习的目标是最小化W_2^2(ρ_θ, ρ_target)。通过使用对偶形式和梯度估计器如WGAN-GP中的方法我们可以用随机梯度下降来优化网络参数θ。在这个设定下网络的每一层权重更新都可以被解释为在实现某种形式的几何化赫布可塑性。5.2 在类脑计算与AI中的应用潜力这个框架为新一代的机器学习模型和神经形态计算架构提供了理论蓝图更鲁棒、更高效的持续学习通过将记忆巩固建模为Wasserstein空间中的吸引子深化我们可以设计新的算法来缓解灾难性遗忘。核心思想是在学习新任务时不仅约束权重变化的大小更约束网络表征分布的变化不要偏离旧任务太远用Wasserstein距离衡量。这比传统的弹性权重巩固EWC等方法更具几何直观性。无监督表征学习的统一视角许多无监督学习目标如自编码器、对比学习都可以被重新表述为最小化输入数据分布与网络内部表征分布之间的某种差异。Wasserstein距离提供了一个强大且通用的差异度量。几何化赫布框架暗示一个遵循类似原理的网络可以通过局部可塑性规则自发地学习到良好的数据表征。脉冲神经网络SNN的理论基础SNN的时空动态更加复杂。将Wasserstein几何推广到时空过程有望为STDP等脉冲依赖的可塑性规则提供一个统一的优化解释从而指导设计更生物合理、更高效的SNN学习算法。理解大脑的优化原理这个框架促使我们思考大脑是否在某种意义上是一个高效的“分布优化器”它是否在最小化某种全局的、与Wasserstein距离相关的能量函数这为计算神经科学提供了新的定量假设和建模工具。5.3 一个简单的概念验证模拟思路为了直观感受我们可以设计一个极简的模拟设定一个包含100个神经元的全连接网络活动为连续值。目标是在其活动空间中形成两个稳定的吸引子记忆模式对应两个高斯分布N(μ1, Σ)和N(μ2, Σ)。能量函数定义E[ρ] W_2^2(ρ, ρ1) W_2^2(ρ, ρ2) λ H(ρ)其中ρ1和ρ2是目标分布ρ是网络当前活动分布用一批输入刺激下网络响应的样本经验分布来近似。学习过程使用粒子方法。初始化网络权重和一批随机输入得到初始活动分布ρ0。在每次迭代中 a. 计算当前能量E[ρ]关于每个“粒子”即每个输入样本对应的网络活动向量的梯度。这个梯度可以通过求解Wasserstein距离的对偶问题使用Sinkhorn算法来近似。 b. 这个梯度定义了每个活动向量应该移动的方向。为了将这种分布层面的变化映射回网络权重我们可以使用一个简单的反馈权重的更新方向应使得网络在相同输入下其输出活动向梯度方向移动。这可以通过类似“目标传播”或构建一个使梯度下降的损失函数来实现。观察结果经过训练当你输入一个接近模式1的刺激时网络的活动会稳定在ρ1附近输入接近模式2的刺激时活动会稳定在ρ2附近。并且通过调整正则化系数λ你可以观察到记忆吸引子的“宽度”鲁棒性和“深度”稳定性的变化。实操心得虽然上述模拟简化了很多但它揭示了核心思想学习是在调整网络参数使得其输入-输出映射所诱导的分布能够以最小的Wasserstein“搬运成本”匹配目标记忆分布。实现这个模拟需要一定的最优传输和自动微分库如Python的POT, GeomLoss, JAX的知识。这个基于Wasserstein几何的赫布可塑性统一框架将神经计算从传统的权重空间提升到了表征分布的几何空间。它不仅仅是一个数学上的优雅统一更提供了一个强大的透镜让我们能够重新审视学习、记忆和遗忘的本质。它暗示了大脑可能遵循着某种深刻的几何优化原理也为构建更强大、更稳健的类脑人工智能开辟了一条充满希望的道路。当然这个理论框架仍处于发展初期如何将其与更详细的生物约束结合如何发展出更高效的计算算法都是未来值得深入探索的方向。对我而言最吸引人的是它提供了一种弥合微观可塑性规则与宏观认知功能之间鸿沟的可能性让我们看到那些看似简单的局部规则如何在全局几何的引导下涌现出智能的基石。