懒惰的宇宙：能量最小化如何连接物理与智能#

如果要用一句话概括宇宙最基本的运作原则，“能量最小化”可能是最有力的候选。

从物理系统寻找最低能态，到优化算法躲避局部最优，再到大脑的预测编码理论——一条隐秘而深刻的红线贯穿了近百年的科学史。本文追踪这条红线的完整演化。

百年思想链#

1
Ising 模型 (1925)
2
  │  物理系统向能量最低态演化
3
  │  H(σ) = -Σ J_ij σ_i σ_j
4
  │
5
  ├──→ 模拟退火 (1983)
6
  │      │  优化问题 = 找能量最低点
7
  │      │  P(accept) = e^{-ΔE/T}
8
  │      │
9
  │      └──→ 量子退火 (1998)
10
  │             │  量子隧穿克服局部最优
11
  │             │  H(t) = A(t)H_D + B(t)H_C
12
  │
13
  ├──→ Hopfield 网络 (1982)
14
  │      │  神经元 = 自旋
15
  │      │  记忆 = 能量基态
16
  │      │  E = -½ Σ W_ij S_i S_j
17
  │      │
18
  │      ├──→ Hebbian 学习：局部、生物合理，但无法信用分配
19
  │      │
20
  │      └──→ Backpropagation (1986)：精确但生物上不可行
21
  │             │
22
  │             └──→ Predictive Coding (1999)
23
  │                    │  层级化的误差单元
24
  │                    │  F = ½‖x - Wr‖²
25
  │                    │  ṙ = W^T e, ΔW ∝ e·r^T
26
  │                    │
27
  │                    └──→ 自由能原理 (2010)
28
  │                           大脑 = 最小化自由能的预测机器
29
  │                           统一感知、行动、学习

第一站：Ising 模型与统计物理#

1925 年，德国物理学家 Ernst Ising 在导师 Wilhelm Lenz 的指导下研究了一个看似简单的问题：一堆小磁针（自旋）放在一起，它们会集体指向同一个方向吗？

Ising 模型的哈密顿量：

H(\sigma) = -\sum_{\langle i,j\rangle} J_{ij} \sigma_i \sigma_j - \mu \sum_j h_j \sigma_j

每个自旋 $\sigma_i = \pm 1$ ，倾向于与邻居对齐以降低能量。系统在高温下是无序的（顺磁态），低温下自旋自发对齐（铁磁态）。临界温度 $T_c$ 处发生相变。

Ising 模型的深刻之处在于：它把”系统趋向能量最低态”变成了可计算的数学对象。 这一思想将在此后的一百年里不断变形、扩张，渗透到完全不同的学科领域。

第二站：退火——物理启发下的算法#

1983 年，Kirkpatrick 等人提出了模拟退火算法。核心洞察是：优化问题本质上是在寻找”能量最低点”——只不过这里的”能量”是目标函数。

对照表：

物理系统能量 → 目标函数 $f(x)$
温度 $T$ → “容忍坏解”的程度
Boltzmann 分布 → 解之间的转变规则

算法流程很简单：随机初始化 → 随机扰动生成新解 → 如果新解更好就接受，如果更差就以概率 $e^{-\Delta E/T}$ 接受（Metropolis 准则）→ 逐渐降温。

高温时系统可以探索整个解空间，随着温度降低逐渐收敛。但经典退火有一个致命缺陷：必须翻越能量势垒才能逃离局部最优。

1998 年，量子退火登场。利用量子隧穿效应——粒子有一定概率直接穿过势垒——量子退火可以绕过经典退火的瓶颈。任意 NP 组合优化问题都可以映射为 Ising 哈密顿量：

H(t) = A(t)\underbrace{(-\Gamma \sum_i \sigma_i^x)}_{\text{量子涨落}} + B(t)\underbrace{(-\sum_{i<j} J_{ij} \sigma_i^z \sigma_j^z - \sum_i h_i \sigma_i^z)}_{\text{目标函数}}

量子绝热定理保证：演化足够缓慢时，系统始终保持在瞬时基态，最终得到的就是最优解。

第三站：Hopfield 网络——神经元作为自旋#

1982 年，John Hopfield 做了一个大胆的类比：神经元就像 Ising 模型中的自旋——要么激活（ $+1$ ），要么未激活（ $-1$ ）。他在此基础上构建了 Hopfield 网络。

网络的能量函数（不考虑外部影响）：

E = -\frac{1}{2} \sum_{i,j} J_{ij} \sigma_i \sigma_j

这几乎就是 Ising 哈密顿量的翻版！Hopfield 的天才之处在于赋予了这个能量函数新的含义：记忆对应于能量地貌中的基态（低谷）。回忆过程就像将小球丢入记忆空间，小球沿能量梯度滚向最低点——那就是最匹配的记忆。

学习规则遵循 Hebbian 可塑性：“一起放电，一起连线。” 对于 $P$ 个记忆模式：

W_{ij} = \frac{1}{N} \sum_{\mu=1}^P \xi_i^\mu \xi_j^\mu

回忆时，神经元异步更新： $S_i \leftarrow \mathrm{sign}(\sum_j W_{ij} S_j)$ ，直到能量不再降低。

Hopfield 网络的优美之处在于——物理、计算和记忆，被同一个数学结构统一了。

但问题随之而来：Hebbian 学习是局部的（只需前后突触的活动信息），生物上合理，却无法进行信用分配——当网络输出错误时，不知道哪个神经元应该为错误负责。这就是多层学习中的核心难题。

第四站：从反向传播到预测编码#

1986 年，反向传播算法通过链式法则精确分配信用，一举解决了信用分配问题，成为深度学习的核心引擎。但它有一个公认的缺陷：生物上不可能——大脑中没有发现任何与反向传播对应的误差传输通路和权重对称机制。

1999 年，Rao 和 Ballard 提出了**预测编码（Predictive Coding, PC）**理论，巧妙地在生物合理性和计算效率之间找到了平衡。

PC 的核心思想彻底颠倒了传统的”大脑如照相机”的认知：

Top-Down 预测：高层区域根据内部模型向低层发送预测信号
Bottom-Up 误差：感官接收真实输入，产生预测误差 $\mathbf{e} = \mathbf{x} - W\mathbf{r}$
只有误差向上传递：这大大压缩了信息通路

PC 的自由能函数（也是要最小化的目标）：

F = \underbrace{\frac{1}{2} \|\mathbf{x} - W\mathbf{r}\|^2}_{\text{感官预测误差}} + \underbrace{\frac{\lambda}{2} \|\mathbf{r} - \mathbf{r}_{\text{prior}}\|^2}_{\text{先验预测误差}}

PC 有两个时间尺度的动力学：

快过程（推断/感知）：权重 $W$ 固定，神经元状态 $\mathbf{r}$ 沿梯度下降：

\dot{\mathbf{r}} = -\frac{\partial F}{\partial \mathbf{r}} = W^T \mathbf{e}

慢过程（学习）：状态 $\mathbf{r}$ 固定，突触权重 $W$ 沿梯度下降：

\Delta W \propto \mathbf{e} \cdot \mathbf{r}^T

对于单个突触： $\Delta w_{ij} \propto e_i \cdot r_j$ ——突触后误差 × 突触前活动。这是局部 Hebbian 可塑性的现代版本！PC 做到了反向传播能做的事（深度误差修正），却保持了 Hebbian 学习的局域性和生物合理性。

PC 的巧妙之处：每一层都有了自己的”质检员”（误差单元）。高层向下层发送预测，下层向上层反馈误差。PC 将全局大目标转化为每一层都能直接看到的局部小目标——神经元不需要等待全局指令，只需消除眼前的预测误差。

终点站：自由能原理#

2010 年，Karl Friston 将预测编码推向了极致——自由能原理宣称：任何自组织的生物系统，其行为都可以被理解为最小化变分自由能。

感知是推断（minimize prediction error），行动是主动采样（seek expected observations），学习是模型更新（refine the generative model）。所有认知功能——从视觉感知到注意力分配再到行动计划——在自由能框架下获得统一解释。

自由能原理是否过于泛化？它能否被证伪？这些争议还在继续，但它的理论雄心和数学优雅是毋庸置疑的。

三条红线#

回望这百年的思想演化，三条红线贯穿始终：

同一个数学结构：哈密顿量 / 能量函数 / 损失函数 / 自由能——都是要最小化的标量函数
同一种动力学：梯度下降——从 Ising 自旋更新到 Hopfield 状态更新到 PC 的 $\dot{\mathbf{r}} = W^T \mathbf{e}$
同一个核心原则：“大自然是懒惰的”（GL 理论）→“大脑是懒惰的”（自由能原理）

从一块磁铁到你的思维——宇宙用同一个数学原理运行了 140 亿年。

Eugene