Eugene

超导的两种语言：BCS 与 Ginzburg-Landau

Sat, 20 Jun 2026 00:00:00 GMT

超导的两种语言：BCS 与 Ginzburg-Landau

超导现象是 20 世纪物理学最迷人的发现之一。但在理解超导的过程中，物理学家们发展出了两种看似完全不同、实则深度互补的理论语言。本文试图回答：它们各自说了什么？如何构成完整的超导图景？

两种视角

维度	BCS 理论 (1957)	GL 理论 (1950)
视角	微观（从电子和声子出发）	宏观（从自由能和序参量出发）
核心概念	Cooper 对、电子-声子耦合、能隙	序参量 $\psi(\mathbf{r})$、自由能泛函、对称性破缺
核心方程	BCS 基态波函数、能隙方程	GL 自由能泛函 $F[\psi]$、GL 方程
回答的问题	为什么电子会配对？能隙从哪来？	超导态的宏观行为是什么？磁场如何穿透？
数学工具	量子多体理论、二次量子化	变分法、Landau 相变理论
适用范围	低温超导体（传统超导体）	所有超导体（包括高温超导）
给出	能隙、$T_c$、电子比热等微观量	$\xi$（相干长度）、$\lambda$（穿透深度）、$\kappa = \lambda/\xi$
不能给出	涡旋结构、界面能	配对机制、能隙微观起源

BCS：微观起源

BCS 理论回答了超导最根本的问题：电子为什么不再排斥，反而相互吸引？

想象一个电子在晶格中穿行。它带负电，会把周围带正电的离子实吸引过来。这些笨重的离子实移动缓慢，在电子身后留下一个局域的正电荷富集区。第二个路过的电子被这个正电区域吸引——间接地，两个电子之间产生了净吸引。

这种"电子-声子耦合"机制在费米面附近最为有效。Cooper 在 1956 年证明：只要存在微弱的吸引，费米海就是不稳定的（Cooper Instability）——电子会自发两两配对，形成总自旋为零（单态）、总动量为零的 Cooper 对。这个配对态的能量低于两个独立电子的能量，因此系统发生相变，进入超导态。

BCS 理论的成功在于它从一个简单的物理图像出发，定量预测了转变温度 $T_c$、能隙大小、电子比热等可观测量——这些后来都被实验精确验证。

GL：宏观行为

Landau 的相变哲学是：你不需要知道微观细节，序参量就足够描述一切。

Ginzburg 和 Landau 将这一哲学应用于超导。他们引入复序参量 $\psi(\mathbf{r})$，其模方 $|\psi|^2$ 等于超导电子的局域密度（即 Cooper 对密度）。在正常态，$\psi = 0$；在超导态，$\psi \neq 0$——序参量从零变为非零，是一种自发对称性破缺。

超导体的自由能展开为序参量的形式：

$$ F_s = F_n + \alpha|\psi|^2 + \frac{\beta}{2}|\psi|^4 + \frac{1}{2m}\left|\left(-i\hbar\nabla - \frac{2e\mathbf{A}}{c}\right)\psi\right|^2 + \frac{|\mathbf{H} - \mathbf{H}_a|^2}{8\pi} $$

其中 $\alpha \propto (T - T_c)$：温度高于 $T_c$ 时 $\alpha > 0$，自由能最低点在 $\psi = 0$（正常态）；温度低于 $T_c$ 时 $\alpha < 0$，自由能最低点在 $\psi \neq 0$（超导态）。

通过对 $\psi^*$ 和 $\mathbf{A}$ 分别变分，得到两个 GL 方程。从 GL 方程可以自然导出超导的两个特征长度：

相干长度 $\xi$：序参量受扰动后恢复到平衡的距离。$\xi$ 小 → 超导体"软"（像弹性物体，表面吸收能量阻止扰动传播）；$\xi$ 大 → 超导体"硬"（扰动像波一样传播）。
穿透深度 $\lambda$：磁场在超导体中的衰减距离。$\lambda$ 越大，磁场越容易穿透。

两类超导体：$\kappa = \lambda / \xi$ 的物理

定义 GL 参数 $\kappa = \lambda / \xi$。从表面能的竞争可以理解：

表面能 $E_S = E_C - E_B$
凝聚能损失 $E_C \sim \xi \times$（损失的 Cooper 对能量）
磁场能收益 $E_B \sim \lambda \times$（获得的磁场能）

当 $\kappa < 1/\sqrt{2}$（$\xi > \lambda$，相干长度主导）：表面能为正 → I 类超导体，只有一个临界磁场 $H_c$。当 $\kappa > 1/\sqrt{2}$（$\xi < \lambda$，穿透深度主导）：表面能为负 → II 类超导体，有两个临界磁场 $H_{c1}$ 和 $H_{c2}$。在 $H_{c1}$ 到 $H_{c2}$ 之间为混合态，磁场以量子化的磁通涡旋形式穿透——这正是 Abrikosov 预言的涡旋晶格。

互补而非对立

BCS 和 GL 不是竞争关系，而是互补的：

BCS 告诉你"为什么"——电子-声子耦合 → Cooper 对 → 能隙
GL 告诉你"干什么"——Meissner 效应、涡旋、磁通量子化
通过 Gor'kov 推导，BCS 的微观参数可以输入 GL 理论，两者在数学上是等价的
$\kappa = \lambda/\xi$ 的分类由 BCS 微观机制决定，但分类本身是 GL 宏观框架的产物

大自然的描述语言不止一种。微观与宏观，就像两种不同的坐标系，描写同一个物理实在的不同侧面。

懒惰的宇宙：能量最小化如何连接物理与智能

Sat, 20 Jun 2026 00:00:00 GMT

懒惰的宇宙：能量最小化如何连接物理与智能

如果要用一句话概括宇宙最基本的运作原则，"能量最小化"可能是最有力的候选。

从物理系统寻找最低能态，到优化算法躲避局部最优，再到大脑的预测编码理论——一条隐秘而深刻的红线贯穿了近百年的科学史。本文追踪这条红线的完整演化。

百年思想链

Ising 模型 (1925)
  │  物理系统向能量最低态演化
  │  H(σ) = -Σ J_ij σ_i σ_j
  │
  ├──→ 模拟退火 (1983)
  │      │  优化问题 = 找能量最低点
  │      │  P(accept) = e^{-ΔE/T}
  │      │
  │      └──→ 量子退火 (1998)
  │             │  量子隧穿克服局部最优
  │             │  H(t) = A(t)H_D + B(t)H_C
  │
  ├──→ Hopfield 网络 (1982)
  │      │  神经元 = 自旋
  │      │  记忆 = 能量基态
  │      │  E = -½ Σ W_ij S_i S_j
  │      │
  │      ├──→ Hebbian 学习：局部、生物合理，但无法信用分配
  │      │
  │      └──→ Backpropagation (1986)：精确但生物上不可行
  │             │
  │             └──→ Predictive Coding (1999)
  │                    │  层级化的误差单元
  │                    │  F = ½‖x - Wr‖²
  │                    │  ṙ = W^T e, ΔW ∝ e·r^T
  │                    │
  │                    └──→ 自由能原理 (2010)
  │                           大脑 = 最小化自由能的预测机器
  │                           统一感知、行动、学习

第一站：Ising 模型与统计物理

1925 年，德国物理学家 Ernst Ising 在导师 Wilhelm Lenz 的指导下研究了一个看似简单的问题：一堆小磁针（自旋）放在一起，它们会集体指向同一个方向吗？

Ising 模型的哈密顿量：

$$ H(\sigma) = -\sum_{\langle i,j\rangle} J_{ij} \sigma_i \sigma_j - \mu \sum_j h_j \sigma_j $$

每个自旋 $\sigma_i = \pm 1$，倾向于与邻居对齐以降低能量。系统在高温下是无序的（顺磁态），低温下自旋自发对齐（铁磁态）。临界温度 $T_c$ 处发生相变。

Ising 模型的深刻之处在于：它把"系统趋向能量最低态"变成了可计算的数学对象。 这一思想将在此后的一百年里不断变形、扩张，渗透到完全不同的学科领域。

第二站：退火——物理启发下的算法

1983 年，Kirkpatrick 等人提出了模拟退火算法。核心洞察是：优化问题本质上是在寻找"能量最低点"——只不过这里的"能量"是目标函数。

对照表：

物理系统能量 → 目标函数 $f(x)$
温度 $T$ → "容忍坏解"的程度
Boltzmann 分布 → 解之间的转变规则

算法流程很简单：随机初始化 → 随机扰动生成新解 → 如果新解更好就接受，如果更差就以概率 $e^{-\Delta E/T}$ 接受（Metropolis 准则）→ 逐渐降温。

高温时系统可以探索整个解空间，随着温度降低逐渐收敛。但经典退火有一个致命缺陷：必须翻越能量势垒才能逃离局部最优。

1998 年，量子退火登场。利用量子隧穿效应——粒子有一定概率直接穿过势垒——量子退火可以绕过经典退火的瓶颈。任意 NP 组合优化问题都可以映射为 Ising 哈密顿量：

$$ H(t) = A(t)\underbrace{(-\Gamma \sum_i \sigma_i^x)}{\text{量子涨落}} + B(t)\underbrace{(-\sum{i<j} J_{ij} \sigma_i^z \sigma_j^z - \sum_i h_i \sigma_i^z)}_{\text{目标函数}} $$

量子绝热定理保证：演化足够缓慢时，系统始终保持在瞬时基态，最终得到的就是最优解。

第三站：Hopfield 网络——神经元作为自旋

1982 年，John Hopfield 做了一个大胆的类比：神经元就像 Ising 模型中的自旋——要么激活（$+1$），要么未激活（$-1$）。他在此基础上构建了 Hopfield 网络。

网络的能量函数（不考虑外部影响）：

$$ E = -\frac{1}{2} \sum_{i,j} J_{ij} \sigma_i \sigma_j $$

这几乎就是 Ising 哈密顿量的翻版！Hopfield 的天才之处在于赋予了这个能量函数新的含义：记忆对应于能量地貌中的基态（低谷）。回忆过程就像将小球丢入记忆空间，小球沿能量梯度滚向最低点——那就是最匹配的记忆。

学习规则遵循 Hebbian 可塑性："一起放电，一起连线。" 对于 $P$ 个记忆模式：

$$ W_{ij} = \frac{1}{N} \sum_{\mu=1}^P \xi_i^\mu \xi_j^\mu $$

回忆时，神经元异步更新：$S_i \leftarrow \mathrm{sign}(\sum_j W_{ij} S_j)$，直到能量不再降低。

Hopfield 网络的优美之处在于——物理、计算和记忆，被同一个数学结构统一了。

但问题随之而来：Hebbian 学习是局部的（只需前后突触的活动信息），生物上合理，却无法进行信用分配——当网络输出错误时，不知道哪个神经元应该为错误负责。这就是多层学习中的核心难题。

第四站：从反向传播到预测编码

1986 年，反向传播算法通过链式法则精确分配信用，一举解决了信用分配问题，成为深度学习的核心引擎。但它有一个公认的缺陷：生物上不可能——大脑中没有发现任何与反向传播对应的误差传输通路和权重对称机制。

1999 年，Rao 和 Ballard 提出了**预测编码（Predictive Coding, PC）**理论，巧妙地在生物合理性和计算效率之间找到了平衡。

PC 的核心思想彻底颠倒了传统的"大脑如照相机"的认知：

Top-Down 预测：高层区域根据内部模型向低层发送预测信号
Bottom-Up 误差：感官接收真实输入，产生预测误差 $\mathbf{e} = \mathbf{x} - W\mathbf{r}$
只有误差向上传递：这大大压缩了信息通路

PC 的自由能函数（也是要最小化的目标）：

$$ F = \underbrace{\frac{1}{2} |\mathbf{x} - W\mathbf{r}|^2}{\text{感官预测误差}} + \underbrace{\frac{\lambda}{2} |\mathbf{r} - \mathbf{r}{\text{prior}}|^2}_{\text{先验预测误差}} $$

PC 有两个时间尺度的动力学：

快过程（推断/感知）：权重 $W$ 固定，神经元状态 $\mathbf{r}$ 沿梯度下降： $$ \dot{\mathbf{r}} = -\frac{\partial F}{\partial \mathbf{r}} = W^T \mathbf{e} $$

慢过程（学习）：状态 $\mathbf{r}$ 固定，突触权重 $W$ 沿梯度下降： $$ \Delta W \propto \mathbf{e} \cdot \mathbf{r}^T $$

对于单个突触：$\Delta w_{ij} \propto e_i \cdot r_j$——突触后误差 × 突触前活动。这是局部 Hebbian 可塑性的现代版本！PC 做到了反向传播能做的事（深度误差修正），却保持了 Hebbian 学习的局域性和生物合理性。

PC 的巧妙之处：每一层都有了自己的"质检员"（误差单元）。高层向下层发送预测，下层向上层反馈误差。PC 将全局大目标转化为每一层都能直接看到的局部小目标——神经元不需要等待全局指令，只需消除眼前的预测误差。

终点站：自由能原理

2010 年，Karl Friston 将预测编码推向了极致——自由能原理宣称：任何自组织的生物系统，其行为都可以被理解为最小化变分自由能。

感知是推断（minimize prediction error），行动是主动采样（seek expected observations），学习是模型更新（refine the generative model）。所有认知功能——从视觉感知到注意力分配再到行动计划——在自由能框架下获得统一解释。

自由能原理是否过于泛化？它能否被证伪？这些争议还在继续，但它的理论雄心和数学优雅是毋庸置疑的。

三条红线

回望这百年的思想演化，三条红线贯穿始终：

同一个数学结构：哈密顿量 / 能量函数 / 损失函数 / 自由能——都是要最小化的标量函数
同一种动力学：梯度下降——从 Ising 自旋更新到 Hopfield 状态更新到 PC 的 $\dot{\mathbf{r}} = W^T \mathbf{e}$
同一个核心原则："大自然是懒惰的"（GL 理论）→"大脑是懒惰的"（自由能原理）

从一块磁铁到你的思维——宇宙用同一个数学原理运行了 140 亿年。

新青年极客松

Thu, 01 Jan 2026 00:00:00 GMT

新青年极客松之旅 2026/01/19-2026/01/25

来之前的状态与问题：

很想成为e人，很想社交。✅

很想尝试与AI协作完成一个项目。✅（虽然我是被带飞的）

很想找到我小时候那个好奇疯狂的自己。✅（在这个比赛中我充满好奇）

很好奇我会在北大遇见什么样的人，我会不会不适应这样的环境？✅（遇见了一群包容度很高，也很愿意和人交流的人。）

很想知道我这自费去北京是否值得（打工人OS？✅（值得）

很想找到能够和我一样对于未来充满期待并且想在AI时代带着自己那颗赤子之心勇往直前的人。✅（找到了）

很想走出物理的世界去看看，真实的世界是什么样的？不同的人在一起会产生怎么样的火花？✅（真实世界充满各种不可预测，不可理瑜，不理性，疯狂，随机性，不同的人在一起产生了许许多多对于未来的期待与思考）

很想做AGI，数字生命（未完待续）

七天之旅：

就不详细展开了，大体说一下：我经历了什么？

第一天：高强度Social +组队破冰

认识了（潇潇姐，小冉，齐州，晨阳，琳娜，世纪，明轩）
收获了算命玄学背后的科学道理（和明轩的talk，以及使用它们的算命产品）
量子计算再续前缘（和琳娜与世纪兄的talk）
破冰活动（集体降杆，绕圈游戏-他的名字叫什么？，闭眼单腿站立，闭眼估计距离）
AI占卜五人组成立（潇潇姐，小冉，齐州，晨阳，我）

破冰组队---第一天就开始高强度social，在潇潇姐的主持下每个人（小冉，齐州，晨阳，琳娜，明轩）都表达了自己的想法，并且我当时并不想做AI占卜（学物理的请谅解），但是通过和明轩对于算命的聊天之后，我突然理解了这些玄学其中蕴含的一些道理（后面收获继续展开）。然后和琳娜的聊天，引起了好久之前量子计算的回忆（期待量子计算能快点出来促进AGI），在这个过程中，世纪兄被物理这个词吸引过来，加入了对于量子计算的聊天中。晚上，开始破冰环节，北大钱老师带我们玩了很多有意思的游戏，印象最深刻的是那个（他的名字叫什么，绕圈游戏）以及一些激活大脑的游戏（闭眼单腿站立，闭眼走路），最后确定了加入潇潇姐的队伍（AI 占卜五人组成立--潇潇姐，小冉，齐州，晨阳，我）

第二天：讲座+Social day

听了很多前辈创业的故事，以及对于AI创业局势的分析
王冲和老师的超声可穿戴技术（找到并跟随自己的心声）
讨论项目逻辑及安排
脑机接口及AGI的talk（和雅慧同频共振产生的能量漩涡）

白天听讲座，听到了很多前辈创业的故事，以及对于现在AI创业局势的分析（AI创业，正当其时，先装好 Claude Code）打破了我之前对于创业的理解（攒够足够的钱在创业，但是其实好的idea和团队自然可以吸引到行业的资金）。对于王冲和老师的讲座印象最深刻，同是科研的人，他的信念：“找到并跟随自己的心声”使得超声可穿戴技术成为了可能，对我启发很多。晚上，比赛开始，大家讨论整个项目的逻辑以及安排。有一件很重要的事情是，在最后做MVP的时候，听到隔壁组在讨论脑机接口，不知为何，一开始还有一些胆怯，后面竟然被吸引过去了，然后认识了雅慧和修宽，和雅慧聊了很久，有很多对于未来相同的期待与见解，都是比较crazy的人，遇到了同频的人（至于为什么？我的猜想是-每个人心底里的想法其实会生出波，如果大体相同或者一致就会导致共振（其实就像波动里面的两个波相遇的干涉相长）产生巨大的能量场，具体细节还有待证明），最后和修宽，鋆浩，雅慧，小冉夜游北大，到北京大学西门仍意犹未尽，心底的那颗火苗被点燃了（那天晚上非常激动，以至于没睡着）。

第3-6天：高强度work-讨论+Coding

主要的Coding是晨阳做的（晨阳还是大一，未来可期）
我和齐州主要做的是通过Vide-coding来补充和修改一些功能，挑一些毛病
产品的讲故事和商业模式是潇潇姐和小冉做的（她们的工作能力真的是生平仅见，表格化，积极沟通，小冉的高能量）
具体的项目可以进入：drealm.art进行使用，同时也可以联系我加入我们的天使用户群。
在最后一天和whise AI的胡老师交流AI算命，强化学习与深度学习，AGI，脑机接口，以及他们做AI教育的运营模式与思路。胡老师做的AI教育真的很有意义，希望后面能够将这个东西引入中国。

第7天：项目路演+加高强度social

通过4天整个团队的齐心协力，拿到了一个在意料之外的结果-三等奖。（开心）
下午的自助餐真的是我这辈子吃过最好吃的资助（可能是因为我太饿了，哈哈哈），然后和世纪，天宇在极客松聊出了物理会议的感觉，哈哈哈哈
闭幕式各种合影，social ，唱歌-我在未来等你（我的第二超能力-音感）
晚上和（小冉，齐州，雅慧，修宽，承鑫-江西老乡）去吃海底捞，偶遇胡老师，范老师，周老师（缘分），拼桌海底捞，强行给小冉过生日（一个网红脸红了），闲聊，玩小姐牌（惩罚是喝酒，厕所牌被我带回酒店了，我是饭桌上唯一有厕所自由的人，hhh）

总结与收获：

认识了一群有意思，Open，有能量的伙伴（潇潇姐，小冉，齐州，晨阳，琳娜，世纪，明轩，雅慧，修宽，承鑫，胡育华老师，范志凯老师，周海冰老师）。
见识了许多有趣好玩，自己从未尝试过的事情与idea
找到了并更加确信自己未来想要努力且向往的方向（脑机，agi，数字生命）
一个好的环境是容许任何想法同时存在的。
一个人的能量是小的，但是通过不断尝试，找到与自己同频的人，在世界大舞台中可以激荡出更大的水花。

最后，虽然很舍不得这样的环境，但是人生还是要向前走的，未来已至，只是还未均匀，希望我们都能带着这段记忆以及各自的梦想，共同奔赴这个均匀的未来！-（苟富贵，勿相忘）

图片集（未p，待上传）：

Train Dreams（铁道幻影）

Thu, 01 Jan 2026 00:00:00 GMT

电影的中文名字是铁道幻影（不是训练你的梦想）这是一个伐木工的故事，Robert从小被父母丢弃，放在一个火车上，他在一个小镇上长大，他一直都不怎么说话，直到他遇见了自己的一生挚爱。他和她一起在小河边建立了自己的小屋，并且有了自己的孩子Kate。但是Robert在伐木的季节就要跟随着伐木队出去伐木，所以陪伴家人的时间很短。在伐木队的时间，Robert见识到了世界的冰冷，中国工人被虐待（自己却无能为力，没有帮助），自己的工友也一个个死亡，有的被自己的仇人追杀，有的在与树木的斗争中死亡（被砸死），就好像一种诅咒，Robert也觉得自己有一天也会受到惩罚。有一天他终于害怕了，离开了伐木队，坐火车回家，可是悲剧诞生了，她的家人在一场大火中离他而去了，他没有找到她们的踪迹，但是一直不相信她们的死亡，于是他在烧焦的土地上与狗生活，建立起了一个家，等待着她们回来。但是现实是残酷的，在这里，他可以看到听到许多她们的声音，可是这些都是幻觉，仿佛世界在惩罚他，可是他从小就是孤独的啊！就这样随着时间的流逝，他逐渐明白了人生的意义，不再坚守在这片从烧焦到再次焕发勃勃生机的土地，他去到大城市，看到了人类登上外太空，自己体验了飞机，看到了自己的苍老，以及世界的美好，在天空上飞翔的那一刻，他与世界连接起来，感叹到：世界是多么美啊！可是自己已经没有时间再去体验，最终回到从前那个小木屋，走向了人生的终点。

Robert的一生是孤独的，在孤独中行走仿佛是他唯一的办法。他从火车上孤独的来，仿佛做了一个梦，最终又孤独的走。即使孤独，但是他仍然有许多值得回忆的经历以及世界的美好。因此放下执念，多体验与世界的连接与美好，才是生命的更高层次。

单分量超导

Mon, 29 Dec 2025 00:00:00 GMT

1.单分量超导

什么是超导？

首先在一个金属导体中，电子围绕在原子核周围，有许多自由电子在固体的晶格中运动。而超导现象，最常见的就是磁悬浮了，磁悬浮的意思是当给一个固体下方打入磁场，此时固体克服重力漂浮起来，但是在室温下，这种现象不存在，只有在极低温下才会出现，但是为什么这个固体会漂浮，这就是超导理论所解释的了。

解释超导现象的理论有两个，其一是BCS理论，其二是GL理论，前者通过微观解释超导现象（从Cooper pair 出发），后者通过宏观的自由能取极小值出发。

BCS理论：

1.固体中的电子：

由于固体内部的周期性结构，相当于给电子施加了一个周期性的边界条件，根据量子力学，其空间波函数由下面的平面波表示： $$ \psi_\mathbf{k}(\mathbf{r})=e^{i\mathbf{k}\cdot\mathbf{r}}u_\mathbf{k}(\mathbf{r}) $$ 右边的第一项表示由于固体中的周期性边界条件，电子在固体内像自由粒子一样以波矢k沿着晶体运动，而第二项表示电子在固体中一个晶格内（周期）的行为。

电子除了空间分布，还有其自身的运动（自旋s = 1/2），电子可以处于自旋向上或者自旋向下。

固体内有许多处于不同状态的电子（$E_k = \frac{\hbar^2 k ^2}{2m}$），根据Pauli不相容原理：任何的两个电子不能够处于完全相同的量子态（空间+自旋）。

为了简化，先不考虑电子的自旋，那么每一个能级Ek上要么只有一个电子，要么就没有电子，那么可以导出Fermi-Dirac 统计（在能级E处，电子的占据概率是多少）（差一个推导）： $$ f(E)=\frac{1}{e^{(E-E_F)/k_BT}+1} $$ 其中 $E_F$表示电子的Fermi Energy，表示在温度T=0时，电子占据概率为1的最大占据能量，如下图：

因为电子的波矢是一个矢量，并且以相同长度波矢运动的电子处于同一个球面上：

在T等于0时，最大半径的球面就是Fermi面，此时低能级依次全部被占据，当温度升高时，由于热激发，开始有电子从跳跃到更高的能级（上面的f（E）图也能很好的表示这个特征）。

2.Fermi Surface 上的两个电子

两个电子（速度为$v_F \sim10^6\mathrm{~m/s})$）经过费米面，此时费米海已经填满了

首先，两个电子之间有column排斥作用（就好像两个电子之间存在一个弹簧，两个电子靠的很近就会排斥，拉的太远会吸引），它们存在如下的Column作用力：

所以费米面应该是排斥这个电子的，但是由于电子在晶格中运动，晶格由正殿的离子实组成，这当电子1路过的时候，周围的正离子都会靠近这个电子，于是晶格发生了一定的形状变化，导致了局域的正电荷密度增加。

电子2随后经过了这个区域，就被之前电子1吸引的正电荷所吸引，但是由于电子的速度极快，最后看起来电子2被电子1吸引。

有一个形象的比喻：快电子利用笨重的正离子背景做了一个“局部的正电荷陷阱”，并在自己离开后坑了后面来的电子一把。

后果是：两个电子在费米面形成Cooper-Pair，两个电子之间的吸引是由于电子声子耦合超过了两个电子之间的Column 相互作用

3.Cooper-Pair：

Cooper 在1956年证明，在费米海背景下，只要在 Fermi 面附近存在微弱的吸引相互作用，两个电子就能形成能量低于 $2E_F$ 的束缚态（Cooper 对）。

这意味着我们原本认为稳固的费米海基态其实是不稳定的（Cooper Instability）。因为系统总是倾向于处于能量最低的状态，既然形成配对可以降低能量，那么费米面附近的电子就会纷纷两两配对，发生相变。

这种 Cooper 对通常具有以下特征：

动量相反 $(\mathbf{k}, -\mathbf{k})$：为了保证质心动量为零，利用整个费米面的相空间。
自旋相反 $(\uparrow, \downarrow)$：利用单态（Singlet）配对满足交换反对称性。

那么 BCS 理论（1957）在此基础上，进一步计算了在电子电子之间吸引作用下，这个电子气体系统的能谱，并且发现打开了一个Gap。

4.简化模型

首先看一个简化模型，假设两个电子之间的相互作用为： $$ V_{\mathbf{k},\mathbf{q}}= \begin{cases} -V & \text{if } E_{F}<\epsilon_{\mathbf{k}}, \epsilon_{\mathbf{q}} < E_{F}+\Delta E \ 0 & \text{otherwise} \end{cases} \quad(4) $$ 上面这个作用势表明，对于两个电子k电子，q电子，而言，当它们的能量处于这个范围内时，感受到的势是-V。

并且假设这个Cooper pair 的波函数为： $$ \psi(\mathbf{r_1,r_2})=\sum_\mathbf{k}\left(g_\mathbf{k}e^{i\mathbf{k}(\mathbf{r_1-r_2})}\right)\left(|\uparrow\downarrow\rangle-|\downarrow\uparrow\rangle\right). $$ 其中上式右边的第一项中的就包含了动量之和为0： $$ \psi_{1spatial} = e^{ik_1\cdot r_1} \ \psi_{2spatial} = e^{ik_2\cdot r_2} $$ 因为动量之和为0，所以 $\hbar k_1+\hbar k_2 = 0 $,于是令k1 = k ，则k2 = -k ,于是两个电子的空间波函数项为： $$ \psi_{spatial}(\mathbf{r_1,r_2}) =\psi_{1spatial}\otimes\psi_{2spatial} =\sum_\mathbf{k}\left(g_\mathbf{k}e^{i\mathbf{k}(\mathbf{r_1-r_2})}\right) $$ 其中对于所有的波矢线性叠加，表示将所有的动量可能都考虑进去，$g_k$为叠加因子（或者说，现在还不知道Cooper-Pair 的波函数是什么？那么我们先用我们已知的平面波基底对其展开，然后代入薛定谔方程中求解系数）

然后代入薛定谔方程中： $$ \left[H_0(\mathbf{r_1})+H_0(\mathbf{r_2})+V(\mathbf{r_1}-\mathbf{r_2})\right]\psi(\mathbf{r_1},\mathbf{r_2})=E\psi(\mathbf{r_1},\mathbf{r_2}) $$ 其中H_0(r1)与H_0(r2)分别代表了两个自由电子的动能算符： $$ H_0(\mathbf{r1}) = \frac{-\hbar^2 \nabla_1^2}{2m} \ H_0(\mathbf{r2}) = \frac{-\hbar^2 \nabla_2^2}{2m} $$ 因为有： $$ H_0(\mathbf{r1})e^{i\mathbf{k\cdot r_1}} = \frac{\hbar^2 k^2}{2m}e^{i\mathbf{k\cdot r_1}} $$ 于是假设 $\hbar^2 k ^2/2m = \epsilon_k$ ,对于2电子的计算一样，于是就有： $$ \sum_\mathbf{k}g_\mathbf{k}\left[2\epsilon_\mathbf{k}+V(\mathbf{r_1}-\mathbf{r_2})\right]e^{i\mathbf{k}(\mathbf{r_1}-\mathbf{r_2})}=E\sum_\mathbf{k}g_\mathbf{k}e^{i\mathbf{k}(\mathbf{r_1}-\mathbf{r_2})}. $$ 然后两边乘以 $e^{-i\mathbf{q(r_1-r_2)}}$并对整个空间积分（位置空间）：

可以写为：

BCS理论表明，电子之间的吸引相互作用会导致一种能量更低的Cooper Pair的状态，那么问题是：既然这种吸引相互作用在室温甚至更高温度都存在，或者说这是一种结构上的效果，那么为什么在室温或者其他温度，Cooper-Pair 很难形成？

原因是：在室温下热涨落太剧烈了，在两个电子结合形成Cooper对之后，能量会相比于之前降低一点，但是这个Gap很小，在室温下，环境温度提供能量，导致电子的热涨落太剧烈，使得电子之间的Pair 断开。

Ginzburg - Landau Theory

GL 理论对于超导现象给出了宏观描述，它引入了一个序参量 $\psi(\mathbf{r})$,它的模方代表在超导体中某一个位置的Cooper- Pair的密度 $n_s(\mathbf{r})$: $$ |\psi(\mathbf{r})|^2 = n_s(\mathbf{r}) $$ 当序参量等于0，就说明这个地方没有超导态（SuperConductivity State ---SS）只有Normal State（正常态，简称NS）。不等于0说明这里有SS。

GL理论的关键在于，它运用了大自然的懒惰性，即：

大自然是懒惰的，系统将处于自由能最小的状态

于是，他们假设超导体的自由能可以展开成序参量模方的形式： $$ F_s=F_n+\underbrace{\alpha|\psi|^2+\frac{\beta}{2}|\psi|^4}\text{相变势能项}+\underbrace{\frac{1}{2m}|(-i\hbar\nabla-\frac{2eA}{c})\psi|^2}\text{动能梯度项}+\underbrace{\frac{|H(r)-H_a|^2}{8\pi}}_\text{磁场能} $$ 其中Fn代表Normal State的自由能,

相变势能项 $(\alpha|\psi|^2 + \frac{\beta}{2}|\psi|^4)$: 这是描述相变的核心。$\beta$ 是一个正的常数，$\alpha$ 依赖于温度，$\alpha \propto (T - T_c)$：（添加图像解释）

当 $T > T_c$ 时，$\alpha > 0$，能量最低点在 $\psi = 0$（正常态）。
当 $T < T_c$ 时，$\alpha < 0$，能量最低点在 $\psi \neq 0$，导致自发对称性破缺，进入超导态。

动能梯度项存在是为了防止序参量的模方发生巨大的变化（因为自由能是要取最小值的，既然要避免这种情况发生，那么对于优化问题，加上这一项即可）

磁场能量：因为凝聚成超导（形成Cooper-Pair ）会降低系统的自由能（相变势能项），但是形成超导体后需要付出大量抗磁的能量代价，那么II类超导体其实就是在权衡这两点，所以引入了磁通涡旋，两者之间得到了权衡。

需要解释两点：

为什么相变的势能项的幂次是这样的？
动能项为什么多了一个 $\frac{2eA}{c}$

1. 对自由能求极值

对于自由能取极值有两种方式得到两个方程：

GL第一方程（$\frac{\partial F}{\partial \psi^*} = 0$）： $$ \alpha\psi+\beta|\psi|^2\psi+\frac{1}{2m}(-i\hbar\nabla-\frac{2eA}{c})^2\psi=0 $$
超导电流方程（$\frac{\partial F}{\partial A} = 0$）： $$ j=\frac{2e}{m}\mathrm{Re}\left{\psi^*(-i\hbar\nabla-\frac{2eA}{c})\psi\right} $$ （添加对于两个方程的推导）

2. 两个长度

通过上面对于自由能取极值可以得到两个长度，相干长度 $\xi$和渗透长度 $\lambda$

相干长度：

对于一个超导体，假设此时它体内Cooper-Pair的密度均匀，每个地方的序参量相同 $\psi_0$。

此时突然将超导体的边界的序参量变成0（？什么操作），相干长度表示这个操作影响了多少长度的超导体，即表明了这个超导体是软的（相干长度小）还是硬的（相干长度大），如果是软的（像一个具有弹性的物体），它会在表面吸收一定能量，阻止这个影响传播，如果是硬的，那么这个影响就好像波一样向超导体内部传播。

那么如何定义这个相干长度呢？

首先假设无磁场的情况（$A = 0$）那么GL第一方程变为： $$ \frac{-\hbar^2}{2m}\frac{d^2\psi}{dx^2}+\alpha\psi+\beta\psi^3=0 $$ 当离边界很远时 $x \to \infty$（这里的x就是离边界的距离）（补充一个超导体的坐标图），此时序参量稳定于 $\psi_0$，并且几乎不发生空间变化，那么此时第一项的二阶导数为0，且此时T<Tc（$\alpha <0$）, 有： $$ \psi_0^2=\frac{-\alpha}{\beta}=\frac{|\alpha|}{\beta} $$ 然后严格求解这个方程，首先令任意位置的序参量与平衡态序参量之间有一定的倍数关系f(这个倍数关系是x的函数)： $$ \psi(x) = f(x)\psi_0 $$ 则GL第一方程转换为： $$ \frac{-\hbar^2}{2m}\psi_0\frac{d^2f}{dx^2}+\alpha(\psi_0f)+\beta(\psi_0f)^3=0 $$ 两边同时除以 $\psi_{0}$，并把 $\alpha$ 也就是 $-|\alpha|$ 代入： $$ -\frac{\hbar^{2}}{2m} \frac{d^{2}f}{dx^{2}} - |\alpha|f + \beta\psi_{0}^{2}f^{3} = 0 $$ 利用第二步的结论 $\beta\psi_{0}^{2} = |\alpha|$，方程变成了： $$ -\frac{\hbar^{2}}{2m} \frac{d^{2}f}{dx^{2}} - |\alpha|f + |\alpha|f^{3} = 0 $$ 第五步：提取特征长度我们把带有导数的项移到一边，其他的移到另一边，并两边同除以 $|\alpha|$： $$ \frac{\hbar^{2}}{2m|\alpha|} \frac{d^{2}f}{dx^{2}} = f - f^{3} $$ 现在请仔细看左边的系数：

系数 $\times \frac{d^{2}f}{dx^{2}}$ = 无量纲数

$\frac{d^{2}f}{dx^{2}}$ 的量纲是 $\frac{1}{长度^{2}}$。
为了让等式两边都无量纲，前面的系数必须具有长度${}^{2}$ 的量纲。

所以前面这个系数是长度平方单位，于是定义这个平方为$\xi^2$： $$ \xi^2(T)=\frac{\hbar^2}{2m|\alpha|} $$ 方程变为： $$ \xi^2\frac{d^2f}{dx^2}+f-f^3=0 $$ 这个方程的解析解为： $$ f(x)\approx\tanh\left(\frac{x}{\sqrt{2}\xi}\right) $$ 当 x = $\xi$时，序参量恢复到平衡态的66%。

相干长度的正式定义是：描述超导序参量（波函数）受扰动后恢复的距离。

穿透深度：

当一个超导体内部的序参量基本稳定，维持在 $\psi_0$左右，此时对超导体施加一个磁场，从GL理论给出的超导电流方程： $$ j=\frac{2e}{m}\mathrm{Re}\left{\psi^*(-i\hbar\nabla-\frac{2eA}{c})\psi\right} $$ 当序参量在各个位置稳定的时候，内部的空间变化项就为0，这个电流方程退化为London 方程： $$ \mathbf{j}= - \frac{4 e^2}{mc}|\psi_0|^2\mathbf{A} $$ 根据London 方程，超导体内部形成的电流是与磁场产生的矢势（$\mathbf{B = \nabla \times A}$）成反比的,所以得出超导体是抗磁的，超导电流越大的地方，磁场越小。

自然而然，有一个问题，施加的这个磁场能够在超导体内部穿透多远？

根据Ampere’s Law ，磁场与电流的关系如下： $$ \nabla \times \mathbf{H} = \frac{4\pi}{c}\mathbf{j} $$ 对于两个再次进行Curl操作（$\nabla \times$)，得： $$ \nabla \times (\nabla \times \mathbf{H}) = \frac{4\pi}{c}\nabla \times \mathbf{j} $$ 左边根据规则- $\nabla\times(\nabla\times\mathbf{F})=\nabla(\nabla\cdot\mathbf{F})-\nabla^{2}\mathbf{F}$,第一项为0（ $\nabla \cdot \mathbf{H} = 0$）,右边代入London 方程，得到： $$ -\nabla^2\mathbf{H} = - \frac{16\pi e^2}{mc^2}|\psi_0|^2(\nabla \times \mathbf{A})=- \frac{16\pi e^2}{mc^2}|\psi_0|^2\mathbf{H} $$ 这即是超导体内部磁场所满足的方程，如果仅考虑一维的穿透的话，这个方程的解为： $$ \mathbf{H} = \exp(-\frac{x}{\lambda}),\quad\lambda(T) =\sqrt{\frac{mc^2}{16\pi e^2|\psi_0|^2}} $$ 其中的 $\lambda$称为磁场在超导体中的穿透深度，因为对于这个一维解而言，当x = $\lambda$时磁场强度开始趋于0。根据平衡态序参量的定义 $\psi_0^2=\frac{-\alpha}{\beta}=\frac{|\alpha|}{\beta}$，穿透深度为： $$ \lambda(T) =\sqrt{\frac{mc^2\beta}{16\pi e^2|\alpha|}} $$ 穿透深度顾名思义，其越大，磁场越容易穿过超导体，反之亦然。

两类超导体：

GL理论定义了一个系数来区别两类超导体，这个系数为： $$ \kappa = \frac{\lambda}{\xi} $$ 如果 $\kappa > 1/\sqrt{2}$,即为I类超导体，如果小于则为II类超导体。

可以从表面能来理解这种分类。

表面能（Surface Energy）：

有一个超导体，它其中有相干长度这么长的区域是NS（正常态），剩下的区域全部是SS，那么表面能表示，你要形成这么一个状态的超导体所需要的能量（就好像在这个超导体里面放一堵墙）。 $$ E_S = E_C-E_B $$ 其中Es表示表面能，Ec代表这个过程中亏损的能量，Eb代表这个过程超导体获得的能量。

分别来看Ec和Eb：

这个过程中亏损的能量是损失了相干长度这么宽的Cooper-Pair的凝聚能。--- $\xi \times \text{损失的Cooper 凝聚能}$
获得的能量是带来了穿透深度这么长的磁场能---- $\lambda \times \text{磁场能}$

那么当损失大于收益时，表面能为正，那么此时为I类超导，即此时的相干长度比穿透深度长（为什么？磁场能与Cooper的凝聚能相当。）

损失小于收益时，表面能为负，此时为II类超导，相干长度比穿透深度短。

所以区分I类超导与II类超导的一个角度时，超导体内部磁场能量与Cooper凝聚能量的一个fighting。

I类超导：“比较硬且纯净的超导”，其相干长度大于穿透长度，两败俱伤，因为超导体损失的Cooper能量大于磁场的能量。（比较硬是因为，相干长度长，外部的影响可以传到超导体很深的位置）

II类超导：“比较软且有杂质的超导”，其相干长度短于穿透长度，内部的Cooper对形成了妥协，让磁场穿入超导体（但不是随便穿入磁场，而是以一个磁通涡旋穿入）。要形成II类超导体，可以往超导体内部加入一定量的杂质，这样会使得超导体内部电子的自由程变短（自由程即电子自由运动的一个距离），那么此时超导体的相干长度也会变小，那么此时穿透深度就会大于相干长度了。

上图左边是I类超导，右图是II类超导，I类超导只有一个临界磁场（当磁场超过之后，整个超导态被破环）。II类超导有两个临界磁场，当磁场超过Hc1时超导态转变为混合态（此时允许磁场进入，但是与超导态共存，磁场周围形成许多超导电流屏蔽磁场的影响），当磁场超过Hc2时，与I类超导一样超导态被完全破环。

有一个小问题：根据上面的定义，哪一类超导适合做强磁场下的线圈材料？

磁通涡旋：

II 类超导体表面能为负，让磁场进入超导体，问题是这个磁场如何进入超导体，或者说超导体中的Cooper-Pair 如何与这个磁场相互权衡？

Abrikosov提出了一种磁通涡旋来解释II类超导体中的磁场在超导体中如何穿过。

如上图，穿过超导体的磁场，被超导电流环绕在半径为 $\xi$的圆内，但是磁场在离中心 $\lambda$的时候显著减弱，为什么这个超导电流的方向与磁场矢势的方向一样呢？（由London方程，超导电流应该是抵消磁场的！）**首先我们看一个更加普遍的超导电流公式。

超导电流方程： $$ \mathbf{j_s}=\frac{2e}{m}\mathrm{Re}\left{\psi^(-i\hbar\nabla-\frac{2e\mathbf{A}}{c})\psi\right} $$ London方程在超导体内部序参量 $\psi$处处相等时得出的： $$ \mathbf{j_s}= - \frac{4 e^2}{mc}|\psi_0|^2\mathbf{A} $$ 那么如果在II类超导体的情况，在这个涡旋的中心，序参量为0，也就是说这个均匀的实心球体中间被挖了一个洞，则超导电流方程的第一项空间变化就不为0，那么此时空间变化项： $$ \nabla \psi = (\nabla{|\psi|})e^{i\phi} +|\psi|(i\nabla\phi)e^{i\phi} $$ 然后计算实部部分 $\mathrm{Re}\left{\psi^(-i\hbar\nabla-\frac{2e\mathbf{A}}{c})\psi\right}$： $$ \mathrm{Re}\left{\psi^*(-i\hbar\nabla-\frac{2e\mathbf{A}}{c})\psi\right} = \ \mathrm{Re}\left{-i\hbar |\psi|\nabla{|\psi|}+\hbar|\psi|^2\nabla\phi - \frac{2e\mathbf{A}}{c}|\psi|\right} $$ 第一项为纯虚数，则有： $$ \mathbf{j_s}= \frac{2e}{m}(\hbar\nabla\phi- \frac{2e\mathbf{A}}{c})|\psi|^2 $$ 根据流体方程： $$ \mathbf{j_s} = n_s (2e) \mathbf{v_s} = |\psi|^2(2e)\mathbf{v_s} $$ 可以得到超导电流速度满足： $$ \mathbf{v_s} =\frac{1}{m}(\hbar\nabla\phi- \frac{2e\mathbf{A}}{c}) $$ 那么这个涡旋周围的超导电流有两项，一项是由空间序参量变化导致的（拓扑项），另一项是超导体希望通过反向电流来抵消磁场（抗磁项是London方程所描述的，但是这种情况只适用于Meissner State---完全抗磁态），通过这样一个General的超导电流方程，就可以解释为什么此时超导电流的方向与磁场矢势的方向一致（拓扑项大于抗磁项）。

那么这个涡旋有什么有趣的物理特征呢？----磁通量子

磁通量子：

首先序参量 $\psi(\mathbf{r})$ 是一个复数场： $$ \psi(\mathbf{r}) = |\psi(\mathbf{r})| e^{i\phi(\mathbf{r})} $$ 这里的 $\phi(\mathbf{r})$ 是相位。

由于序参量具有单值性---如果在超导体内部画一个闭合回路，序参量沿着这个回路走一圈，物理状态不变，序参量保持不变，但是相位不需要变回原来的相位，只要相差 $2\pi$的整数倍即可（$e^{i(\phi + 2\pi n)} = e^{i\phi}$）,用数学公式表达就是，相位梯度的环路积分为 $2n\pi$: $$ \oint_C \nabla \phi \cdot d\mathbf{l} = 2\pi n, \quad n \in \mathbb{Z} $$ 在超导电流速度方程的拓扑项中也有相位梯度的变化，有： $$ \nabla \phi = \frac{m}{\hbar}\mathbf{v}_s + \frac{2e}{\hbar c}\mathbf{A} $$ 然后取离这个涡旋比较远半径的闭合回路（回路半径远大于穿透深度），则此时超导电流为0，这超导电流的速度 = 0，然后对于回路积分得到： $$ \oint_C \nabla \phi \cdot d\mathbf{l} = \frac{2e}{\hbar c} \oint_C \mathbf{A} \cdot d\mathbf{l} $$ 左边根据波函数的单值性，为 $2n\pi$，右边根据Stokes 定理及（$\nabla \times A = B$）： $$ \oint_C \mathbf{A} \cdot d\mathbf{l} = \iint_S (\nabla \times \mathbf{A}) \cdot d\mathbf{S} = \iint_S \mathbf{B}\cdot d\mathbf{S} = \Phi $$ 因此得到对于这个围绕涡旋的回路而言，： $$ \Phi = n \left( \frac{2\pi \hbar c}{2e} \right) = n \left( \frac{hc}{2e} \right) = n\Phi_0 $$ 其中 $\Phi_0$就成为磁通量子，表明穿过II类超导体的涡旋所携带的磁通量只能是磁通量子的整数倍。

Josephson 效应：

拓扑物态前置知识

Sun, 28 Dec 2025 00:00:00 GMT

Band Structure Theory

拓扑物态中，主要研究的是对于不同结构（具有不同对称性的材料）的物体，其内部电子的能带结构与拓扑之间的关系。因此，物体中的电子的能级就显得尤为重要了。

首先，固体中的电子波函数遵循量子力学且受晶格周期性的影响（对称性也有）。

电子的量子力学：

量子力学的基本方程是薛定谔方程： $$ i \hbar \frac { \partial \Psi } { \partial t } = H \Psi $$ 其中 $\Psi$是电子的波函数，H是电子的哈密顿量（能量函数）。

电子的H即它的能量为： $$ H = \frac{p^2}{2m} + V(x) $$ 其中p为电子的动量，V(x)为电子在环境中所受的势能。

电子的波函数为 $\Psi(x,t)$ ,需要注意以下几点：

波函数是一个Complex Number。
H是Hermitian的（$H^{\dagger} = H = \left( (H)^{T} \right)^{*}$）
$| \Psi | ^ { 2 } = \Psi ^ { * } \Psi \propto n _ { e }$（$n_e$ 表示电子的密度）
如果有N个电子，这N个电子的系统的波函数：$\Psi_N = \psi_1 \otimes \psi_2 \otimes \psi_3 \otimes \cdots \otimes \psi_N$，并且其中任意两个波函数之间都是正交的（$\langle \psi_i | \psi_j \rangle = \delta_{ij}$）---这是由Pauli不相容原则保证的（Pauli 不相容原则：不可能存在两个处于相同状态的电子。）

如果假设电子的波函数满足： $$ \Psi(x,t) = \sum_n e^{-i \frac{E_n t}{\hbar}} \psi_n(x) $$ 代入薛定谔方程得到定态薛定谔方程： $$ H\psi_n(x) = E_n\psi_n(x) $$ 如果把H看成矩阵的话，$\psi_n$是H的特征值为En的特征向量，$E_n$是H的本征值。

Tight Binding Model

如果将固体内的电子当成主体的话，近自由电子模型将电子看作在整个晶格中自由奔跑的平面波。

紧束缚模型将电子在整个晶体中的波函数 $\psi_k(r)$看作在某一个原子附近的运动与不同原子之间的运动（平面波）的叠加： $$ \psi_{\mathbf{k}}(\mathbf{r}) = \frac{1}{\sqrt{N}} \sum_{\mathbf{R}} e^{i \mathbf{k} \cdot \mathbf{R}} \phi(\mathbf{r} - \mathbf{R}) $$ 其中 $e^{i\mathbf{k\cdot R}}$是电子在原子间的周期性运动。这个周期性运动是由晶格的平移对称性保证的（平移对称性使得动量守恒，所以电子的波函数在原子间像一个自由的平面波， $p = \hbar k$，即波矢不变）。

那么电子在原子附近(在某一个原子中)的运动如何表达呢？ $\phi$

单原子附近有许多离散的轨道（如1s,2p等），TBM（Tight binding mode）假设电子在原子轨道内并不动，但是它有可能跳跃到相邻的轨道内。

通过求解电子在单原子内部的定态薛定谔方程，得到原子内轨道 ${\ket{\psi_a}}$,不同的下标a代表不同的轨道的电子波函数，在不同的轨道内电子的能量为 $E_a$。这些轨道构成了一组正交完备集，满足： $$ \left{ \begin{array}{l} \langle \psi_a | \psi_b \rangle = \delta_{ab} \ \sum\limits_a | \psi_a \rangle \langle \psi_a | = I \end{array} \right. $$ 那么对于任意的波函数 $\ket{\psi}$和H都可以展开成： $$ |\psi\rangle = \sum_a c_a |\psi_a\rangle $$ $$ H = \sum_{ab} H_{ab} |a\rangle\langle b| $$

其中 $H_{ab} = \langle \psi_a | H | \psi_b \rangle$，表示H在这组基下的矩阵元。

Example：三角形的原子

假设电子运动在三个原子之间，每个原子都有一个轨道，记为： $\ket{0},\ket{1},\ket{2}$。首先电子的哈密顿量（能量是多少？），TBM假设了电子是在轨道之间跳跃，电子跳跃在原子之间就会形成化学键，形成化学键之后结构更稳定，体系的能量就越低。那么H可写为： $$ H = -t \left( |0\rangle\langle 1| + |1\rangle\langle 2| + |2\rangle\langle 0| \right) + \text{h.c.} $$ 前面这个-t（t是一个跳跃的系数，负号为了保证电子发生跳跃的时候，系统的能量降低。）这一项代表了，电子从1跳到0，0跳到2，2跳到1，顺时针的情况，那么后面的h.c代表的就是逆时针的跳跃可能性（为了保证H的厄米性）

其中 $\ket{0}\bra{1}$为什么代表了电子从1跳到0呢？，解释如下：

如果此时电子处于轨道1（$\ket{1}$），将这一项作用上去有： $$ |0\rangle\langle1|1\rangle = |0\rangle $$ 即输入是1，而输出的是0轨道，因此表示电子从1跳到0。

Bloch Theorem For Bulk Electrons

有了上面的TBM的基础之后，我们将记号变得紧凑一些。

在固体物理中，晶格是可以由原胞通过周期性平移得到的。

Bloch Theorem给出，电子在整个晶格中的波函数可以写成原胞之间的平面波和在单个原胞内行为的叠加： $$ \psi_{(l,n)} = e^{i k n} \cdot u_l $$ $(l,n)$表示在第n个原胞内的电子在轨道l上的波函数（这里表示的是1维晶格的情况，可以把这个拓展到3维的情况，kn--> $\mathbf{k\cdot R_n}$,其中 $R_n = p\mathbf{a}+q\mathbf{b}+r\mathbf{c}$, a,b,c代表构成晶格原胞的基矢量）

k表示电子在晶体中的动量，范围是 $[-\pi,\pi]$，这个范围在晶格的倒空间中表示一个布里渊区。

那么在这个表示下的H的矩阵元为： $$ H_{(l,m),(l',n)}= H_{(l,m-n),(l',0)} $$ 为什么这是成立的呢？因为晶格的周期性平移的特点，第二个参数m描述的是在第m个原胞上，所有的原胞在某种意义上等价。

首先实空间的波函数满足的定态薛定谔方程为： $$ \sum_{l', m} H_{(l,n), (l',m)} \psi_{(l',m)} = E \psi_{(l,n)} $$ 代入bloch 定理下的波函数： $$ \psi_{(l,n)} = e^{ikn} u_l(k) $$ 消去因子： $$ \sum_{l', m} H_{(l,n), (l',m)} e^{ik(m-n)} u_{l'}(k) = E(k) u_l(k) $$ 整理求和项： $$ \sum_{l'} \left[ \sum_{m} H_{(l,n), (l',m)} e^{ik(m-n)} \right] u_{l'}(k) = E(k) u_l(k) $$ 根据平移不变的假设： $$ H_{(l,n), (l',m)} = H_{(l, n-m), (l', 0)} $$ 可以得到： $$ H(k){ll'} = \sum{m} H_{(l,-m), (l',0)} e^{-ikm} $$ 最后的形式是： $$ \sum_{l'} H(k){ll'} u{l'}(k) = E(k) u_l(k) $$ 矩阵形式： $$ H(k) u(k) = E(k) u(k) $$

Example：SSH model

k.p Perturbation Theory

对于在倒空间的H(k)，如果只关心k = 0 附近的能量，或者Energy Gap（Energy Gap是定义在价带与导带之间的最小间隔）

可以对H(k)在 k = 0 附近做Taylor expansion： $$ H(k) \approx \underbrace{H(k=0)}{H_0(k)} + \underbrace{k H'(k=0) + \frac{k^2}{2} H''(k=0)}{\text{Perturbation } V(k)} $$ 通过量子力学中的微扰论可以得到。

能量的一阶微扰修正是： $$ E_1^{(n)} = \langle n | V(k) | n \rangle $$ 二阶微扰为： $$ E_{2}^{(n)}(k) = \sum_{m \neq n} \frac{|\langle n | V | m \rangle|^{2}}{E_{0}^{(n)} - E_{0}^{(m)}} $$ 得出第n个本征态的能量为： $$ E^{(n)}(k=0) \approx E_0^{(n)}(k=0) + \langle n | V(k=0) | n \rangle +\sum_{m \neq n} \frac{|\langle n | V | m \rangle|^{2}}{E_{0}^{(n)} - E_{0}^{(m)}} $$ 后面两项分别是1阶和2阶微扰。

在k = 0 处，电子波包在晶体中传播的速度为 $\mathbf{v}g(\mathbf{k})$: $$ \mathbf{v}g(\mathbf{k}) = \frac{1}{\hbar} \nabla{\mathbf{k}} E(\mathbf{k}) $$ 以及电子波包的有效质量 $m^$: $$ \left( \frac{1}{m^} \right){ij} = \frac{1}{\hbar^2} \frac{\partial^2 E}{\partial k_i \partial k_j} $$ 代入对应的E，可以得到电子在第n个能级的传播速度 $v_n$ 和有效质量($m_n$)： $$ V_n = \partial_k E^{(n)}(k) \big|_{k=0} = \langle n | H'(k=0) | n \rangle $$

$$ m_n^{-1} = \partial_k^2 E^{(n)}(k) \big|{k=0} = \langle n | H''(k=0) | n \rangle + 2 \sum{m \neq n} \frac{|\langle n | H' | m \rangle|^2}{E_0^{(n)} - E_0^{(m)}} $$

Ising model 到 Predictive Coding-能量最小化的自然演进

Tue, 25 Nov 2025 00:00:00 GMT

摘要：

本文系统探讨了统计物理模型与神经计算理论之间的深刻联系，阐述了基于"能量最小化"原理的计算框架如何从物理系统延伸至生物智能。

文章首先回顾了Ising模型及其哈密顿量形式，并以此为基础介绍了**模拟退火（Simulated Annealing）与量子退火（Quantum Annealing）**算法。通过类比物理系统寻找最低能态的过程，解释了如何利用热涨落和量子隧穿效应克服局部极小值，从而解决复杂的组合优化问题（如NP问题）。

随后，文章将物理自旋映射为神经元，引入了Hopfield神经网络。基于Hebbian学习规则，文章展示了神经网络的记忆存储与提取本质上是在塑造能量地貌（Energy Landscape），即通过突触权重的调整使得记忆状态对应于系统的能量基态。

最后，针对传统Hebbian学习缺乏全局误差传导机制（信用分配问题）的局限，文章重点介绍了**预测编码（Predictive Coding, PC）理论。作为神经科学的前沿理论，PC通过构建分层高斯生成模型，引入了"状态单元"与"误差单元"的双重结构。文章详细推导了PC的自由能函数及动力学方程，揭示了大脑如何通过快速的神经元状态更新（感知推断）与慢速的突触权重更新（学习）**来最小化预测误差。结论指出，Predictive Coding在保持局部计算（生物学合理性）的同时，实现了类似反向传播的深度误差修正能力，为理解大脑的高级认知功能提供了强有力的数学解释。

关键词： Ising模型，模拟退火，量子退火，Hopfield网络，Hebbian学习，预测编码 (Predictive Coding)，自由能原理，能量地貌

1.Ising Model

基本概念：统计物理中用于描述铁磁性的数学模型。系统由许多离散变量（自旋）组成，每个自选变量的取值为 $+1$ 或 $-1$。
哈密顿量 (能量函数)：

$$ \begin{aligned} H(\sigma) = -\sum_{\langle i,j\rangle} J_{ij} \sigma_i \sigma_j - \mu \sum_{j} h_j \sigma_j \end{aligned} $$
- 其中 $J_{ij}$ 代表每个自旋之间的相互作用强度，$h_j$ 代表外部磁场。第一项是相互作用能，第二项是外部磁场的能量。
- 通过这个哈密顿量，就可以研究这个系统的相变过程以及其相变温度Tc。

2. 模拟退火算法（Simulated annealing）

解决的问题：

优化问题经常出现在我们的生活当中，比如：

如何在最短的时间内到达学校？
如何以最低的价格买到想要购买的东西？
如何选择合适的路线使得行驶的距离最短？

这些问题在我们生活中其实不知不觉地在被解决，比如导航的app，购物的app，都无时无刻地在计算对于一类优化问题的最优解。

那么它们是如何来解决优化问题的呢？

物理上的启发：

首先，一个优化问题可以转化成，假如你在一群山之间，这些山的高度不一样，你如何找到这群山中最低的地方。从物理的角度上说，就是如何找到一个能量（势能）最低点。

模拟退火算法就是物理学家类比固体退火过程得出的。

固体在温度比较高的时候，此时固体内部的原子剧烈运动（热运动剧烈的程度与温度相关），逐渐降温（退火过程）整个系统接近平衡，最终就会达到一个平衡态，这个平衡态的能量最低。

其中，固体在温度T时处于能量E的状态的概率遵循Boltzmann分布： $$ P(E) \propto e^{-E/(kT)} $$ 那么物理学家就将这么一个过程类比到一个优化问题：

将一个物理系统的能量类比为优化问题的目标函数 $f(x)$。
温度T类比为在寻找最优解过程中"容忍坏解"的程度。
物理系统的状态类比为优化问题的一个候选解。
物理系统遵循Boltzmann分布的特性类比为优化问题中不同解之间的转变规则。

具体算法：

对于一个优化问题 $\min_{x} f(x)$，$f(x)$ 是目标函数。

模拟退火算法的流程如下：

随机初始化一个解 $f(x_0)$
在当前解附近 生成一个新解 f(x)
根据能量变化 ΔE =f(x)-f(x0) 来决定是否接受新解：
- 若更好（ΔE < 0）：必然接受
- 若更差（ΔE > 0）：以概率 $$ P = \exp(-\Delta E / T) $$ 接受
逐渐降低温度 T
当温度很低时系统趋于稳定，返回最终解

那么其中有一个问题？

在算法的第二步中，如何选择/生成这样一个新解？（解决方案：随机生成但是随着温度的下降随机性变小。）

3 .量子退火算法

首先，在经典中，想要找到全局的最优解需要翻过一些山峰。

但是在量子中有一个著名的效应是量子隧穿效应，也就是说，当这个小球面对一个山峰时，它有概率直接穿过到达这座山的另一侧。

那么这样一种神奇的效应正好可以克服经典模拟退火算法容易陷入局部最优解的问题，它使得候选解可以更快地离开局部最优。

Ising model的引入

在组合优化问题中有这样一条定理：

任意NP类型组合优化问题（SAT、Max-Cut、TSP、Partition、QUBO…）其目标函数都可以转成 二值变量的二次型： $$ E(x) = x^T Q x $$ 其中 $x_i \in {0,1}$ 或 $x_i=\pm1$。

而Ising model的哈密顿量： $$ H = -\sum_{i<j} J_{ij} \sigma_i^z \sigma_j^z - \sum_i h_i \sigma_i^z $$ 可以发现，Ising model中的能量函数与组合优化问题中二值变量的二次型类似，其中自旋的取值为正负1。因此可以通过Ising model 的哈密顿量来表达所有NP类型的组合问题的哈密顿量。

具体流程

首先我们将目标函数类比为经典Ising model的哈密顿量：经典 Ising 哈密顿量（目标函数）： $$ H_C = -\sum_{i<j} J_{ij} \sigma_i^z \sigma_j^z - \sum_i h_i \sigma_i^z $$ 其中：

$\sigma_i^z$ 是 Pauli Z 矩阵
自旋向上对应 $s_i = +1$，向下对应 $s_i = -1$

然后我们加入一个量子涨落（一个外部的扰动/影响），使得整个系统可以进行量子隧穿： $$ H_D = -\Gamma \sum_i \sigma_i^x $$ 其中：

$\sigma_i^x$ 会翻转自旋（量子涨落）
$\Gamma$ 是横场强度（影响整个系统x方向上的自旋）

将两个项结合就是总的哈密顿量： $$ H(t) = A(t) H_D + B(t) H_C $$ 边界条件： $$ \begin{aligned} A(0) &= 1,\quad B(0) = 0 && \text{（完全量子）} \ A(T) &= 0,\quad B(T) = 1 && \text{（完全经典）} \end{aligned} $$ 从初始哈密顿量： $$ H(0) = H_D $$ 一开始系统的状态为： $$ |\psi(0)\rangle = \bigotimes_i \frac{|0\rangle_i + |1\rangle_i}{\sqrt{2}} $$ 也就是 所有自旋均匀叠加，完全无偏（这么选择的原因是：这个状态是 $\sigma_x$的本征态，并且这个态可以通过演化到达其他所有的状态，因此就允许了系统在一开始能够对于整个状态空间的量子态进行搜索）。

最终哈密顿量： $$ H(T) = H_C $$ 最终哈密顿量的基态即为优化问题的最优解（因为基态的能量最低，前面将优化问题的目标函数类比为Ising model的能量，那么最优解对应的态自然就是基态）。

那么现在有1个问题：

如何保证系统能够演化到最终的最优解的状态？----（量子绝热定理）

Hopfield 神经网络

Ising model 是固定不同自旋之间的耦合强度 $J_{ij}$，通过改变温度，来观察这些自旋之间的集体行为（相变，相变温度 $T_c$）。那么基于Ising model 的Quantum Annealing 其实也是同理的。

人大脑中的神经元与自旋类似。当人接收到外部信息时，这些神经元要么处于激活状态（+1），要么处于未激活状态（-1），并且神经元之间由突触连接，这个连接的强度变化由早期的Hebbian Theory决定：

当对于某一个事件而言，若两个神经元之间同时处于激活状态，那么它们之间的连接强度增强。

由此，Hopfield就联想到了物理中的Ising Model： $$ E=-\frac{1}{2}\sum_{i,j}J_{ij}\sigma_i\sigma_j $$ 这里不考虑外部影响，只考虑神经元之间的耦合，每个神经元都与其他所有的神经元有连接（这个连接时对称的，即A和B之间的耦合强度 $J_{AB} = J_{BA}$）。

仅仅用Ising model来解释神经元之间的连接是不够的，还需要解释，一个神经网络是如何学习与回忆的。

记忆：

在解释神经网络是如何学习与回忆之前，有一个重要的概念就是记忆。在Ising model 中基态是能量最低的态，量子退火算法也是通过找到基态，从而找到了最优解，那么神经网络中也有一个基态，这个基态对应着记忆。

为什么记忆就是基态呢？

可以这样理解，当你在处理某一类的问题时，就像将小球丢进一个记忆空间中（这个记忆空间其实是你学习过程中形成的），当你在回忆你的记忆时，其实就是小球滚动寻找下图中最低点的过程（寻找基态的过程）

学习：

假设有N个神经元，正在学习某一个方面的内容，接收信息，更新N个神经元之间的连接强度 $W_{ij}$: $$ W_{ij}=\frac{1}{N}\sum_{\mu=1}^P\xi_i^\mu\xi_j^\mu $$ 其中i,j 表示不同的神经元。

Tips:

P表示接受的信息有P个patterns ，比如说你在学习如何识别图片中的内容，你接收到了三张图片（"A"，"B"，"笑脸"），此时就有3个Patterns的信息
$\xi_j^\mu$表示第j个神经元对于第 $\mu$个pattern的反应，比如对于图片A，3号神经元是Active的，但是4号神经元却是睡觉。
重复学习会导致什么结果？

回忆：

当你完成了对于某一个方面内容的学习，下一次你需要这方面内容的时候，你就需要去回忆--找到这个记忆--找到当前记忆空间中的最低谷。

此时，神经元之间的强度固定（其实应该是减弱的，但是是整体减弱，所以忽略），但是此时你神经元的状态却是随机的，所以回忆的过程是：在记忆空间中，随机地释放小球，让小球寻找记忆的过程。

举一个具体的例子就是，比如说图片识别，当一个神经网络学会了图像识别，当放一个模糊的照片给神经网络，让其进行识别，那么此时网络就会按照如下的规则来更新每个神经元的状态： $$ S_i\leftarrow\mathrm{sign}\left(\sum_jW_{ij}S_j\right) $$ 这个规则要表达的意思其实是将第i个神经元周围所有神经元的状态及其突触连接强度综合起来，去更新其状态。sign函数是一个符号函数，内部结果大于0，则返回1，反之-1。

问题：

重复学习在神经网络中的效果是什么？
如果神经元之间的连接强度不对称会发生什么

展望与思考

量子退火算法使用Ising model，通过加入量子涨落，并缓慢地降温，使得系统一开始可以探索所有可能性的空间，最后让基态落在最优解上。

Hopfield 神经网络通过Ising model 与神经元网络之间的类比，并结合神经科学中的Hebbian learning theory ，使得神经网络有了学习，回忆等功能。

那么问题是：随着神经科学的不断进步，人类对于大脑的研究更加深入，Hebbian learning theory 可不可以替换成现在对于神经元研究最新的理论，使得这个神经网络更加强大呢？

答案是：Predictive Coding

Predictive Coding

传统的认知观点认为大脑像一个"照相机"：接收外界信号 -> 处理信号 -> 产生感知。 Predictive Coding（PC） 则认为大脑有两层-高层区域和底层区域，其中高层区域负责预测，底层区域负责接收真实的输入，比如当我们看到一个只有两个腿的动物，高层就会认为我们看到的是一个人，而底层告诉高层，看到的是一个袋鼠，那么这时候就产生了误差。：

自顶向下（Top-Down）的预测： 大脑的高层区域（概念层）时刻在根据记忆和经验，向低层区域（感觉层）发送"预测"信号（它认为现在的世界是什么样的）。
自底向上（Bottom-Up）的误差： 感觉器官接收真实的输入。如果输入和预测不一致，就会产生**"预测误差"（Prediction Error）**。
误差传递与更新： 只有这个"误差"信号会向上传递，用来修正高层的模型。

因此PC认为大脑的核心目标是最小化高层区域的预测误差。其数学过程如下：

我们将 Predictive Coding 看作一个分层高斯生成模型（Hierarchical Gaussian Generative Model）。为了简化，我们只看两层：

观测层 (Level 0): $\mathbf{x}$ (感觉输入)
隐层 (Level 1): $\mathbf{r}$ (大脑内部的表征/状态)

1. 定义能量函数 (The Energy Function)

在物理学中，系统倾向于演化到能量最低的状态。在这里，我们定义一个目标函数 $F$（即变分自由能的简化形式，在统计学上等价于负对数似然），它衡量了"预测误差"的大小。

假设高层 $\mathbf{r}$ 通过权重矩阵 $W$ 线性预测低层，预测值为 $\hat{\mathbf{x}} = W\mathbf{r}$。

此时，预测误差 $\mathbf{e}$ 为：

$$\mathbf{e} = \mathbf{x} - W\mathbf{r}$$

为了同时满足"解释数据"和"先验约束（Prior）"，总能量 $F$ 通常被定义为：

$$ \begin{aligned} F &= \underbrace{\frac{1}{2} \lVert \mathbf{x} - W\mathbf{r} \rVert^2}{\text{Sensory Prediction Error}} \ &\quad + \underbrace{\frac{\lambda}{2} \lVert \mathbf{r} - \mathbf{r}{\text{prior}} \rVert^2}_{\text{Prior Prediction Error (Regularization)}} \end{aligned} $$ 为简化讨论，我们暂时忽略先验项，只关注第一项（感觉误差）。

2. 两个过程：推断 (Inference) 与学习 (Learning)

Predictive Coding 的核心在于它将神经网络的运作分为了两个不同时间尺度的动力学过程：快过程（神经元活动）**和**慢过程（突触可塑性）。两者都是为了最小化 $F$。

A. 快过程：神经元状态更新 (Inference)

当一张图片 $\mathbf{x}$ 输入进来时，权重 $W$ 是固定的。网络需要调整神经元状态 $\mathbf{r}$，使其生成的预测尽可能接近 $\mathbf{x}$。这就是"感知"。

我们在 $\mathbf{r}$ 空间进行梯度下降：

$$\dot{\mathbf{r}} = -\frac{\partial F}{\partial \mathbf{r}}$$

计算梯度：

$$\frac{\partial F}{\partial \mathbf{r}} = \frac{\partial}{\partial \mathbf{r}} \left( \frac{1}{2} (\mathbf{x} - W\mathbf{r})^T (\mathbf{x} - W\mathbf{r}) \right) = -(\mathbf{x} - W\mathbf{r})^T W = -\mathbf{e}^T W$$

所以，神经元的动力学方程为：

$$\dot{\mathbf{r}} = W^T \mathbf{e}$$

物理直觉： 这是一个局部计算。误差 $\mathbf{e}$ 在底层计算出来，通过转置矩阵 $W^T$（反馈连接）传回高层，驱动 $\mathbf{r}$ 改变，直到预测误差最小化（即 $\dot{\mathbf{r}} \to 0$）。

B. 慢过程：突触权重更新 (Learning)

这是你最关心的部分。当我们推断出较好的 $\mathbf{r}$ 后（或者在推断的同时），我们需要更新突触权重 $W$，以便下次能更准地预测。

我们在参数 $W$ 空间进行梯度下降：

$$\dot{W} = -\mu \frac{\partial F}{\partial W}$$

其中 $\mu$ 是学习率。计算梯度：

$$\frac{\partial F}{\partial W} = -(\mathbf{x} - W\mathbf{r}) \mathbf{r}^T = -\mathbf{e} \mathbf{r}^T$$

所以，权重的更新规则为：

$$\Delta W \propto \mathbf{e} \cdot \mathbf{r}^T$$

或者写成张量形式（针对单个权重 $w_{ij}$）：

$$\Delta w_{ij} \propto e_i \cdot r_j$$

PC与Hopfield 神经网络的区别：

Hopfield 神经网络中的神经元是局部的，它只关心他和邻居有没有同时处于激活状态，但是不知道整体网络的目标是什么？（例如：这张图是不是猫？），所以当这个网络变深之后，就不知道哪个神经元应该为错误的输出负责，去纠正错误。

现代深度学习使用反向传播解决了这个谁应该为错误负责的问题。具体是这样：比如当我们在做图像识别的时候，当我识别出的图片与目标图片存在偏差的时候，这时候计算出一个损失函数，这个损失函数通过反向传播可以看到谁对这个偏差的影响更大，此时通过调整对应的神经元即可修正这个偏差。但是问题是，大脑中并没有这种误差传导通路。

PC 的巧妙之处： PC 引入了一种层级化的**"预测-纠错"机制**。你可以把它理解为每一层都有了自己的"质检员"（误差单元）。其中高层向下层发送预测，下层向上层反馈误差。通过这种结构，PC 将原本遥不可及的"全局大目标"，转化为了每一层都能直接看到的"局部小目标"。神经元不再需要等待全局指令，只需要消除眼前的预测误差，就能自动引导整个网络走向最优解。

参考文献

Ernst Ising (1925). Beitrag zur Theorie des Ferromagnetismus. Zeitschrift für Physik.
Kirkpatrick, S., Gelatt, C. D., & Vecchi, M. P. (1983). "Optimization by Simulated Annealing". Science, 220(4598), 671-680.
Kadowaki, T., & Nishimori, H. (1998). "Quantum annealing in the transverse Ising model". Physical Review E, 58(5), 5355.
Farhi, E., et al. (2001). "A Quantum Adiabatic Evolution Algorithm Applied to Random Instances of an NP-Complete Problem". Science, 292(5516), 472-475.
Hebb, D. O. (1949). The Organization of Behavior: A Neuropsychological Theory. Wiley.
Hopfield, J. J. (1982). "Neural networks and physical systems with emergent collective computational abilities". Proceedings of the National Academy of Sciences (PNAS), 79(8), 2554-2558.
Amit, D. J., Gutfreund, H., & Sompolinsky, H. (1985). "Spin-glass models of neural networks". Physical Review A, 32(2), 1007.
Rao, R. P., & Ballard, D. H. (1999). "Predictive coding in the visual cortex: a functional.
Friston, K. (2010). "The free-energy principle: a unified brain theory?". Nature Reviews Neuroscience, 11(2), 127-138.
Whittington, J. C., & Bogacz, R. (2017). "An approximation of the error backpropagation algorithm in a predictive coding network with local hebbian synaptic plasticity". Neural Computation, 29(5), 1229-1262.
Millidge, B., Tschantz, A., & Buckley, C. L. (2021). "Predictive Coding: A Theoretical and Experimental Review". arXiv preprint arXiv:2107.12979.

三人行

Thu, 20 Nov 2025 00:00:00 GMT

三人行讲的是2033年的赵左右对于现在的生活并不满意，通过时间旅行技术想要回到过去（2008）改变自己的人生，他化名荀未来回到2008年遇到了过去（赵左右）与未来的自己（赵了），未来的自己想阻止他改变它的人生，因为另一种人生的他失去了他所爱之人。就这样两个人通过时空旅行改变了过去的自己，虽然最后赵左右成功带着他们的影响继续一个人生活，但是因为时间的影响，他逐渐发现无论自己如何试图改变，但始终战胜不了时间，不能够改变自己的人生。其实这种全知人生的无奈才是时间最痛苦的事，人生的快乐其实就是就是对于未来人生的未知，未知即未来。最后荀未来不忍心看到过去的自己这样挣扎的活着，他出手帮助过去的自己抹去了对于未来所知的一切，让时间回归正轨，但是这么多的努力真的无法改变什么吗？当然有！赵左右与徐图图之间的爱无法被时间改变！未来就是未知，但是爱或者感觉是永恒的，找到自己所爱的事，不后悔，不试图知晓未来或者改变过去，享受人生的未知，全知是如此的枯燥，探索体验才能在无数条可能的人生道路中走向那条属于自己的道路。

毕业论文｜Chapter 3 — Shor 算法

Fri, 09 May 2025 00:00:00 GMT

量子纠缠的应用

可能很多人会想，量子纠缠这么神秘，众多科学家历经坎坷终于证明了量子纠缠存在的合理性。那么它有什么用呢？或者说，它能够解决哪些问题呢？

对于量子纠缠，首先想到的是Alice和Bob双方共享的Bell态，只要有一方对于自己的系统进行测量，无论多远，都会影响另一方的测量结果，即纠缠的关联性。那么由此，我们可以联想到它与并行计算有同理之处，只不过，量子纠缠里的并行是双方互相影响的并行，而并行计算里是计算机对于一个大任务进行分解成许多小的，可以独立执行，或者合作完成的子任务，然后将这些子任务分配给多个处理器，让其同时进行计算。

那么这一并行或者关联的特性，能够让量子纠缠碰撞出怎么样的火花呢？首先想到的就是针对大数分解的Shor算法，它可以有效的解决应用数学里最有趣的问题之一—将大数分解成多个素数，它可以用来破解常用的RSA加密方案。

Shor算法

一些前置知识

数论知识

素数

我们说一个数$a$是素数（prime number），是指它只有1和它本身作为因数（即$a$只能被1和它本身整除）。举一些例子，比如35，它的因子是：1，5，7，35，所以他不是素数，又比如71，它的因子是：1，71，所以它是素数。

共素

如果我们说两个自然数$a和b$共素（互质），也就是说，他们的最大公因数为1（记为$\gcd(a,b)=1$）。

最大公因数（the greatest common divisor）

两个数$a和b$的最大公因数为$\gcd{(a,b)}$，具体的计算过程如下：

写出a的因子
写出b的因子
最后通过比较找到两者都有的最大因子。

举个例子，比如计算24和88的最大公因数：

1. 24的因子有：1，2，3，4，6，8，12，24
1. 88的因子有：1，2，4，8，11，22，44。
1. 所以他们的最大公因子是8。

模N

我们说一个整数的模N，即用这个数Q去除以N取余数的操作，那么自然而然这个可能的余数就会组成一个模N意义下的整数集合$\Z_N$（即所有可能的余数）是： $$ \Z_N = {0，1，2，\dots，N-1} $$ 比如，$Q=6 ，N =5，那么Q \pmod N = 6%5 = 1$

模N的乘法群

模N群就是有所有与N共素的整数在模N意义下构成的乘法群，这个群记为$\Z_N^{\ast}$,群中的元素a满足条件：

$$ a \in Z ,1\leq a <N , \gcd{(a,N)} =1 $$

该群的运算是模N下的乘法运算：

$$ a\cdot b \pmod N $$ 该群的性质有：

单位元1的存在性：$\gcd{(1,N)}=1$，符合模N群的定义，即单位元1存在并且$a \cdot 1 \equiv a \pmod N$。
逆元的存在性：$\forall a \in \Z_N^{\ast} ,\exist a^{-1}$ ,使得： $$ a \cdot a^{-1} = 1 \pmod{N} $$
封闭性：如果$a，b \in \Z_N^*$，则有$\gcd{(ab,N)} = 1$，即a，b的乘积也在模N群中
阶为r，表示与N互质的整数的个数，即这个群的大小

下图就是单位元上的六个单位根，可以将其看成模6群的几何结构（因为两者同构）

抽屉原理

在数学上，抽屉原理是指当n个物品放入m个抽屉时，若n>m，则至少有一个抽屉里面有多个物品。比如一个数量足够大的人群中，一定有同一天出生的人，但是抽屉原理不会告诉你他们是谁？但是一定存在。

时间复杂度

在计算机科学中，时间复杂度是一个函数，它定性的描述某一个算法的运行时间随着输入规模增长的速度。比如说一个算法的时间复杂度是$O(n)$，那么当该算法的输入变成两倍，那么运行时间也变成两倍。这么做的意义是：衡量算法的实际表现，因为在实际使用一个算法的时候，往往不会去考虑输入数据的规模，所以一个复杂度小的算法对于输入的数据的适应性就好。下面是常见的时间复杂度的排序（从上到下是由快到慢）：

时间复杂度	名称
$O(1)$	常数时间
$O(\log n)$	对数时间
$O(n)$	线性时间
$O(n \log n)$	线性对数时间
$O(n^2)$	二次时间（平方）
$O(n^3)$	三次时间（立方）
$O(2^n)$	指数时间
$O(n!)$	阶乘时间

量子相位估计：

量子相位估计（Quantum Phase Estimation），和他的名字一样是估计相位，这个相位是算符U本征方程$U\ket{\psi} = e^{2\pi i\theta}\ket{\psi}$中的$\theta$。具体流程如下：

首先准备好一个初态$\ket{\Psi_0}=\ket{0}^{\otimes n}\ket{\psi}$，其中$\ket{\psi}=\sum_{j=0}^{2^m-1}\alpha_j\ket{j}$是代表m个qubit的状态，其中j代表不同的长度为m的二进制串的值。
然后对前面n个qubit做Handmard 门操作$H^{\otimes n}\otimes I_m$,得到态$\ket{\Psi_1}$,即： $$ \begin{aligned} \ket{\Psi_1} &= (H^{\otimes n}\otimes I_m)(\ket{\Psi_0}) = \frac{1}{2^{\frac{n}{2}}}(\ket{0}+\ket{1})^{\otimes n }\ket{\psi} \ &= \frac{1}{2^{n/2}}\sum_{j = 0}^{2^n-1}\ket{j}\ket{\psi} \end{aligned} $$
对态$\ket{\Psi_1}$做受控U门操作，$U = \sum_{k=0}^{2^n-1}\ket{k}\bra{k}\otimes U^k$,由此得到态$\ket{\Psi_2}$: $$ \begin{aligned} \ket{\Psi_2} &=\sum_{k=0}^{2^n-1}\ket{k}\bra{k}\otimes U^k\left(\frac{1}{2^{n/2}}\sum_{j = 0}^{2^n-1}\ket{j}\otimes\ket{\psi}\right) \ &= \frac{1}{2^{n/2}}\sum_{k=0}^{2^n-1}\sum_{j=0}^{2^n-1}\ket{k}\delta_{jk}\otimes e^{2\pi ik\theta}\ket{\psi} \ &= \frac{1}{2^{n/2}}\sum_{j=0}^{2^n-1}e^{2\pi ij\theta}\ket{j}\otimes \ket{\psi} \ &= \ket{\Phi_2} \otimes\ket{\psi} \end{aligned} $$ 所以这就由对于纠缠态$\ket{j}\ket{\psi}$的操作，使得$\ket{\psi}$中信息（本征值中的相位），传递到了前一部分的叠加态的振幅当中。
对态$\ket{\Psi_2}$中的$\ket{\Phi_2}$进行大小为N=$2^n$量子傅立叶逆变换（$QFT_{2^n}^{-1}$）,得到态$\ket{\Phi_3}$。量子傅立叶变换为(上式为变换，下式为逆变换)： $$ \begin{aligned} QFT_N \ket{x} &= N^{-1/2} \sum_{k=0}^{N-1} e^{\frac{2\pi i}{N} kx} \ket{k} \ QFT_N^{-1} \ket{k} &= N^{-1/2} \sum_{x=0}^{N-1} e^{-\frac{2\pi i}{N} kx} \ket{x} \end{aligned} $$ 那么对于态$\ket{\Phi_2}$进行$QFT_{2^n}^{-1}$，得到： $$ \begin{aligned} \ket{\Phi_3} &= QFT_{2^n}^{-1} \left( \frac{1}{2^{n/2}} \sum_{j=0}^{2^n - 1} e^{2\pi i j \theta} \ket{j} \right) \ &= \frac{1}{2^{n/2}} \sum_{j=0}^{2^n - 1} e^{2\pi i j \theta} \left(\frac{1}{2^{n/2}} \sum_{x=0}^{2^n-1} e^{\frac{-2\pi ijx}{2^n}} \ket{x} \right) \ &= \frac{1}{2^{n}} \sum_{j=0}^{2^n -1} \sum_{x=0}^{2^n -1} \exp{\left( 2\pi ij \left(\theta -\frac{jx}{2^n}\right)\right)} \ket{x} \end{aligned} $$
然后对上面的态在计算基${\ket{x}}$测量，测得不同x的概率为：$|c_x|^2$,并且我们定义$2^n \theta = a+2^n \delta$，其中$a$是最接近$2^n\theta$的整数，所以$2^n \delta$要满足$0\leq|2^n\delta|\leq 1/2$(因为，如果a是2.4，那么估计值就是2，误差为0.4,如果a = 2.7，那么估计值为3，误差为0.3，所以$2^n \delta$不会超过0.5)。由于这个定义，$c_x$就变成了： $$ c_x = \frac{1}{2^n}\sum_{j=0}^{2^n-1} e^{\frac{2\pi ij}{2^n}(x-a)}e^{2\pi i\delta j} $$
测量态$\ket{\Phi_3}$,我们可以从式8中发现，测量到$x = 2^n\theta$的概率最高（因为此时处于干涉相加，所以系数最大），因此对于量子相位估计来说，想要估计的量$\theta$被放在测量概率最大的态上。

连分数算法

当我们有一个实数$\alpha$，我们想要找到两个自然数$b和c$使得$\frac{b}{c}=\alpha$。

具体流程是这样的：

首先我们对$\alpha$做连分数展开，得到一个整数序列$[a_0;a_1,a_2,\dots,a_n]$，并满足： $$ \alpha = a_0 + \cfrac{1}{a_1 + \cfrac{1}{a_2 + \cfrac{1}{\ddots + \cfrac{1}{a_k}}}} $$
具体获得这个序列的方法如下：
1. $a_0 = \lfloor x \rfloor$（取整数部分）
2. 令 $x_1 = \frac{1}{x - a_0}$
3. $a_1 = \lfloor x_1 \rfloor$
4. 重复上面的abc，直到误差足够小或达到预定项数。
然后生成收敛值序列${\frac{p_0}{q_0},\frac{p_1}{q_1},\dots,\frac{p_n}{q_n}}$,其中p_i,q_i的计算过程如下:
1. 初始化：$p_0 = a_0,q_0=1$;
2. $p_1 =a_0a_1+1,q_1 = a_1$;
3. 对于$i \geq 2$的情况： $$ \begin{aligned} p_i &= a_ip_{i-1}+p_{i-2} \ q_i &= a_iq_{i-1}+q_{i-2} \end{aligned} $$
这个收敛值序列的值会越来越接近我们的实数$\alpha$,所以最后我们可以选取符合我们要求的$p_i和q_i$作为我们的$b和c$。

可以举一个例子，当我们有一个实数M = 0.833984375（约等于$\frac{427}{512}$）,我们通过上面的算法可以先得到连分数序列[0;1,5,42,2]，然后计算得到收敛值序列：$[\frac{0}{1},\frac{1}{1},\frac{5}{6},\frac{211}{253},\frac{427}{512}]$，我们可以看到最后一个收敛值就是我们要得到的分数。

密码破解

对于平时用的加密方案RSA，其加密原理是：

随机的选择两个大素数 $p和q$，其中 $p，q$分别代表公钥和私钥，你可以理解为，公钥是公开的，而私钥是你自己的
计算模数 $n = p\times q$,这个模数 $n$是公钥和私钥的公共部分
计算欧拉函数 $\phi(n) = (p-1)(q-1)$
计算公钥指数e：在范围 $[1,\phi(n)]$内选择公钥指数e，并且公钥指数e和欧拉函数 $\phi(n)$ 互质(Coprime)
计算私钥指数d：让 $e \times d \equiv 1 \pmod{\phi(n)}$，即d是e关于模 $\phi(n)$的乘法逆元。
最终生成了公钥$(e，n)$，私钥$(d，n)$

如果在什么都不知道的前提下，想要直接以暴力的手段破解某一个加密文件，那么就需要分解大整数n为两个大素数p和q，而分解大数这一问题在经典下最快的算法（数域筛选法）的时间复杂度（近似）是： $$ \exp(((\frac{64}{9})^{1/3})+o(1))(\log n)^{1/3}(\log{\log n})^{2/3}) $$ 虽然不是指数时间，但也比多项式时间慢很多，当解决n比较大（大约1024位）的密钥时，这个算法就不可用了。

Shor算法的逻辑：

前面说了，经典计算里面可以通过并行计算来加速任务的完成时间，那么分解大数的问题可不可以用并行计算来处理，答案是并行计算的加速效果是线性的，而shor算法具有指数级的加速效果，并且shor算法的时间复杂度是： $O((\log{n})^3)$，所以经典中的并行计算对于任务的加速效果并不如shor算法。

那么Shor算法的逻辑是什么呢？

首先任务是：给出一个大数M，我们需要找到M的整数因子（两个大素数），这就排除了M是偶数的可能性（如果是偶数的话，2自然就是M的一个因子，并且2是比较小的素数，这就使得这个密钥不再安全），并且当M分解成一个素数和另一个非素数，我们可以逐步迭代使得M最终分解成多个素数的乘积（这里可以注释一下给一个例子）。

要解决这个问题有两部分：

简化（Reduction）：将分解问题转换为周期查找问题（Order- Finding，后面简记为OF）
解决OF问题：用量子相位估计算法来解决OF问题，其中又包含了估计相位，以及提取周期两步

简化

首先我们在区间 $[2,M)$ 随机选择一个整数$a$，然后我们去计算 $\gcd{(a,M)}$ ($a和M的最大公约数$)，那么就会有两种情况：
1. $\gcd{(a,M)} \neq 1$，即它们的最大公约数是G，那么M就可以分解成G和 $\frac{M}{G}$（ $\gcd{(a,M) = G}$ 表明G是M的因子，即M可以被G整除），这时候整个算法结束。
2. $\gcd{(a,M)} = 1$，那么此时 $a和M共素$，则 a在模M整数乘法群（群里的元素都是和M共素且属于模M群）里，记为 $a \in \Z_M^{*}$。（后面基本上讨论的都是这个情况）
如果属于步骤1的第二种情况，那么通过乘法群的逆元的存在性，则a在模M整数乘法群中存在逆元 $a^{-1}$使得： $$ a \times a^{-1} = 1 \pmod{M} $$ 后面的 $1 \pmod{M}$表示在模M群里面的单位元1。
然后由我们选择的a来生成包含不同幂次a的序列： $$ X：{a^1,a^2,\dots} $$

这个序列的长度是无限的,因为我们可以对a不断做取幂处理，由于$a \in \Z_{M}^{\ast}$，所以每一个幂次的$a$在 $\Z_M^\ast$中都有一个对应的元素，即： $$ \forall k \in \N ,\exist Z_{k} \in \Z_{M}^{\ast}，Z_k = a^k \pmod{M} $$ 而$Z_M^\ast$里面包含的元素是有限的（仅包含0，1，2，$\dots$，M-1）。因此我们有：

无数多个幂次的a（可以看出无数多个小球）。
每一个幂次的$a^k$都会对应着$\Z^{\ast}_M$中的某一个元素，而$\Z_M^{\ast}$里面的元素是有限的（可以看成不同的抽屉）。

由于抽屉原理，当我们有足够多的小球，那么就一定存在$i,j \in \R\text{ and } i <j$，使得： $$ a^i = a^j \pmod{M} \quad/a^j = a^i \pmod{M} $$ 即两个小球对应于同一个抽屉。然后由于 $a^j和a^i$$在\Z_M^\ast$ 中存在逆元$a^{-j}和a^{-i}$，所以在等式两边乘$a^{-i}$： $$ a^j*a^{-i} = a^{j-i} = 1 \pmod{M} $$ 记$r = j-i$,这个r就是a在模M群中的阶（order），它说明了序列X是周期性的。

因此对于$\gcd{(a,M)} = 1$情况，我们就可以通过找到r来对M进行分解，具体的过程如下：
1. 找到r后，首先判断r是不是偶数，如果不是，那么就需要重新寻找r
2. 如果r为偶数，那么 : $$ a^r -1 =(a^{r/2}-1)(a^{r/2}+1) \equiv 0 \pmod{M} $$ 这就说明M可以整除$(a^{r/2}-1)(a^{r/2}+1)$。（可以注释一下为什么到这没有完成分解）

解决OF问题

所以现在分解M的问题就转变为找a的序列周期r的问题。

首先给定了目标分解数M，和一个任意选择的$a$，我们想要找到周期r满足： $$ a^r = 1\pmod{M} $$ shor算法本质上就是通过量子相位估计（QPE），估计出一个结果（包含r的分数），然后用连分数算法将周期r提取出来。对于shor算法的QPE，它的算符U定义为：

$$ U|k\rangle = \begin{cases} \ket{a^k \pmod{M}} & 0 \le k < M \ \ket{k} & M \le k < 2^n . \end{cases} $$ 上面定义表达的意思是，当$k \in \Z_M^\ast$，则计算得到相应$a^k$在$\Z_M^\ast$中对应的元素,如果不在，那么就返回$k$本身。因为我们知道序列X存在最小的周期r，所以当我作用r次U到同一个态$\ket{k}$ ，那么这时候就会返回$\ket{k}$，即$U^r\ket{k} = \ket{k}$，因此$U^r = I$。

假设U的本征态为$\ket{\psi}$，其本征值为$\omega$,则有： $$ U\ket{\psi} = \omega\ket{\psi} \ U^r\ket{\psi} = \ket{\psi}=\omega^r \ket{\psi} $$ 所以有$\omega^r =1$,所以$\omega_r^k = e^{\frac{i2\pi k}{r}}$,这里的角标r说明U有r个特征向量${\ket{\psi_j}}$，每个的特征值为$\omega^j_r$。（这里用几何解释就是：r次单位根，见下图）。

可以发现${\ket{a^0},\ket{a^1},\dots,\ket{a^{r-1}}}$也构成算符U的一组基矢，我们可以用它们来表示${\ket{\psi_j}}$，关系是(这其实像离散的傅立叶变换)： $$ \ket{\psi_j} = r^{-1/2}\sum_{k=0}^{r-1} w_{r}^{-kj}\ket{a^k} $$ 这里其实也可以用U作用到$\ket{\psi_j}$来验证，然后对$\ket{\psi_j}$求和得到： $$ \frac{1}{\sqrt{r}}\sum_{j=0}^{r-1}\ket{\psi_j} = \frac{1}{r}\sum_{j=0}^{r-1}\sum_{k=0}^{r-1}\omega_r^{jk}\ket{a^k} \ =\ket{1} + \frac{1}{r}\sum_{k=0}^{r-1} ( \sum_{j=0}^{r-1}\omega_r^{jk}) \ket{a^k} =\ket{1} $$ 第一个等号是因为$\omega_r^{jk}=\omega_r^{-jk} = e^{2\pi ijk/r}$,最后一个等号是因为： $$ \sum_{j=0}^{r-1}e^{2\pi jk/r} = \frac{1-e^{2\pi ik}}{1-e^{2\pi ik/r}} = 0 $$ 可以参考等比数列求和公式。

有了这个关系我们就可以通过制备态$\ket{1}$，然后展开得到U的每一个本征态，即$\ket{1} = \frac{1}{\sqrt{r}}\sum_{j=0}^{r-1}\ket{\psi_j}$。

Shor算法寻找r的过程是：

首先根据M来确定说需要的量子比特数n，要满足:$2^n>M$，所以$n =\lceil \log_2 M \rceil$，例如，当M = 31时，n = 5（通常来说只需要满足$n =\lceil \log_2 M \rceil$，但是可以证明2n个比特数可以以足够的精度来寻找周期r）。
然后制备初态$\ket{\Phi_0} = \ket{0}^{\otimes{2n}}\ket{1}$（左边是第一寄存器，右边是第二寄存器），我们知道可以通过展开得到： $$ \ket{\Phi_0} = \ket{0}^{\otimes{2n}}\frac{1}{\sqrt{r}}\sum_{j=0}^{r-1}\ket{\psi_j} $$
对第一寄存器做Hadamard操作$H^{\otimes2n}\otimes I_m$，得到态 $$ \ket{\Phi_1} = (H\ket{0})^{\otimes 2n}\frac{1}{\sqrt{r}}\sum_{j=0}^{r-1}\ket{\psi_j} \ = \frac{1}{2^n} \sum_{x=0}^{2^{2n}-1}\ket{x}\frac{1}{\sqrt{r}}\sum_{j=0}^{r-1}\ket{\psi_j} $$
然后对整个系统做受控$U_c$操作，得到态$\ket{\Phi_2}$: $$ \ket{\Phi_2} = U_c(\ket{\Phi_1}) = (\sum_{k = 0}^{2^{2n}-1}\ket{k}\bra{k}\otimes U^k) \ket{\Phi_1} \ =\frac{1}{2^n} \sum_{x=0}^{2^{2n}-1}\sum_{k=0}^{2^{2n}-1}\delta_{kx}\ket{k}(\frac{1}{\sqrt{r}}\sum_{j=0}^{r-1}U^{k}\ket{\psi_j}) \ =\frac{1}{2^n} \sum_{x=0}^{2^{2n}-1}\sum_{k=0}^{2^{2n}-1}\delta_{kx}\ket{k}(\frac{1}{\sqrt{r}}\sum_{j=0}^{r-1}\omega_j^k\ket{\psi_j}) \ =\frac{1}{2^n} \frac{1}{\sqrt{r}}\sum_{x=0}^{2^{2n}-1}\sum_{j=0}^{r-1}\omega^x_j \ket{x}\ket{\psi_j} = \frac{1}{\sqrt{r}}\sum_{j=0}^{r-1}\ket{\phi_j}\ket{\psi_j} $$ 其中$\ket{\phi_j}=\frac{1}{2^n}\sum_{x=0}^{2^{2n}-1}e^{2\pi ijx/r}\ket{x}$，从上式可以看出，我们如果对上面的态进行测量，我们测量到每一个结果$\ket{\phi_j}$的概率都是一样的，都是$\frac{1}{r}$，所以我们在做完测量之后不能够知道是哪个$j$。
然后对第一个寄存器做逆量子傅立叶变换$QFT_{2^{2n}}^{-1}$，得到即： $$ QFT_{2^{2n}}^{-1}\ket{\phi_j}=\frac{1}{2^{n}}\sum_{x=0}^{2^{2n}-1}e^{\frac{2\pi ijx}{r}}\frac{1}{2^{n}}\sum_{k=0}^{2^{2n}-1}e^{\frac{-2\pi ikx}{2^{2n}}}\ket{k} \ =\sum_{k=0}^{2^{2n}-1}\frac{1}{2^{2n}}\left( \sum_{x=0}^{2^{2n}-1} \exp\left( 2\pi ix\left(\frac{j}{r} - \frac{k}{2^{2n}}\right) \right) \right)\ket{k} \ =\sum_{k=0}^{2^{2n}-1}c_k \ket{k} $$ 我们可以看到对于这个态，如果我们以基${\ket{k}}$测量，那么我们测量到$k=2^{2n}\frac{j}{r}$结果的概率最大。

这里可能有一个问题，这里只是测量到的概率最大，但是不一定就会测量到这个包含$r的k$。但是我们完全可以多做几次测量，来确保这个结果就是包含$r$的那个结果。
在得到包含r的测量结果k之后，我们就可以对其除以$2^{2n}$，就可以得到一个实数$G=\frac{j}{r}$，但是j我们无从得知，所以我们不能直接计算得到r。

这时候就可以用上面的连分数算法来提取得到，但是需要注意的是，在取r实际上是取符合要求的分母$q_k$(在收敛值序列中)，并且这个分母不能大于要分解的目标$M$。
最后，对于$\gcd{(a,M)} = 1$情况，在找到估计的r后，我们就可以对M进行分解了，具体的分解过程如下：
1. 找到r后，首先判断r是不是偶数，如果不是，那么就需要重新寻找r
2. 如果r为偶数，那么 : $$ a^r -1 =(a^{r/2}-1)(a^{r/2}+1) \equiv 0 \pmod{M} $$ 这就说明M可以整除$(a^{r/2}-1)(a^{r/2}+1)$。（可以注释一下为什么到这没有完成分解）
3. 然后计算$\gcd{(a^{r/2}-1,M)}和\gcd{(a^{r/2}+1,M)}$，得出M得两个因子。

Conclusion(总结)

我们通过shor算法实现了对于大数的分解，其中量子纠缠的作用体现在受控U门操作那里，他仅用了一次操作就将本征态的信息（本征值中的r）转移到了第一寄存器的系数上，使得测量概率和需要估计的r有关。

附录:

注意$\Z_*$最好用$\Z_{\ast}${\ast}
格式要紧凑，行内公式前后不要留空格。

AI|Why Machines Learn?

Sat, 19 Apr 2025 00:00:00 GMT

Why machines learn？

Chapter1:Deseperatly seeking pattern

从现象出发

这里面的pattern其实就是数据中某种模式特征，打个比方，每一个人对于每一年每一个季度的天气的理解和判断，都是基于一段时间（几年）的生活，通过观察每一年的天气（数据），然后得出一些经验（特征）。

然而令人惊讶的是，小小的鸭苗在没有父母的帮助下，也可以从运动的物体中找到一定的规律，这些规律可以是相似之处，也可以是不同之处，比如，小鸭苗如果看见有5个黑鸭苗和2个白鸭苗的队伍，它会知道自己是黑的还是白的，并且知道黑色和白色的差别，最后他会加入到其中一个队伍里面。

这就是令人惊讶的动物的学习能力。在早些年，就有科学家提出"动物（人）是怎么学习的"这一问题，他们就想到先从学习数据中的特征入手，于是就有科学家开发了Perceptron（感知机）来模拟人类的思考。当你给这个感知机下面这些数据的时候：

$x_1$	$x_2$	$y$
4	2	8
1	2	5
0	5	10
2	1	4

我们只需要通过一点点的观察和心算就能够发现这组数据中存在的关系是： $$ y = x_1+2x_2 $$

而对于现在的机器而言无非就是一个Regression算法，这个算法的意思是：你给他很多的train data（有input和output），然后它会通过学习这些数据来给出这些量之间的线性关系（$y =w_1x_1+w_2x_2+b$），也就是学习得到 $w_1,w_2$(系数，weight)以及偏差（截距）。

然后你可以通过一些测试数据来判读这一组系数的好坏（离最优的系数差多远，最优的系数当然是通过每一个数据点，但是实际上并不能很好的做到），最后得到这组数据的最优解，接下来你就可以通过这样的关系来predict不同的input，会有怎么样的output了。就好像天气一样，你可以通过之前每一天的数据来预测之后的数据一样，只不过天气与很多因素有关。

所以Regression Method的具体步骤是：

给他一定的训练数据，并且指定一开始的 $w_1,w2，b$
然后计算这一组的系数所给出的output $y_{predict}和y_{train}$之间的差距，然后通过这个差距反过来调节系数
不断的执行，直到这个差距小到我们的要求为止

神经元的逻辑化

言归正传（Regression后面还会系统的说明），我们也许可以通过理解机器是怎么学习的来完全理解人类是怎么学习的（这里我的理解是我们可以在让机器逐步学会学习的过程中，不断地深化我们对于自己学习过程的理解）。

19世纪，图灵等科学家就认为logic和computation之间有很深厚的联系，他们断言"所有的计算都可以被简化为某种逻辑"。然后就引出了这样一个问题：既然人脑是可以执行计算的，那么它是怎么样执行逻辑操作的（它底层是否像逻辑门一样呢？）。

带着这样的问题，有生物学家通过类比一个神经元：

图中Dendrites就是神经元的树突，它负责接受各种刺激，树突中间的就是细胞体，他可以处理树突接受到的刺激（相当于进行计算），然后Axon（轴突）负责转递细胞体的结果到Axon terminals（端粒），端粒在将这个结果传递给周边其他的神经元。

然后生物学家希望把这一机构转化为一个简单的计算模型，理由是：他很像一个机器，你给他一个输入（刺激），他就会给输出。因此他们想要通过类比用神经元来构建逻辑AND，OR操作。

他们首先将这个神经元定义为这个样子：

上图的左侧就是给神经元的输入，然后中间的g，f就代表的是神经元对于输入的处理，然后再到右侧的输入y（其实我们可以在g，f的中间再加一个传输的过程，就是将g的处理结果传输到下一个f神经元处）。

然后这里假设 $x_1，x_2 \in {0,1}$,并且神经元会这样处理输入：

Sum = x1+x2
If $Sum\geq \theta :y=1$

else:y = 0

所以这里我们就可以认为g其实就是对输入做了一个加法，而f函数就是对g的输出做了一个判断，但是这个 $\theta$要根据具体的情况而定的（这也是人脑的神秘之处），这一整个可以表示为：

$$ f(g(x)) = \begin{cases}0, & g(x) < \theta \ 1, & g(x) \geq \theta \end{cases} $$

有了这样的前提，我们就可以来设计基础的布尔逻辑门的操作了。

首先对于AND逻辑来说：

x1	x2	sum	x1 And x2
0	0	0	0
0	1	1	0
1	0	1	0
1	1	2	1

我们可以看到这么一个逻辑对于Sum小于等于1的输出都是0，而大于1的就是1，所以我们要神经元完成这个逻辑只需要将 $\theta = 2$ ,得到：

$$ f(g(x)) = \begin{cases}0, & g(x) < 2 \ 1, & g(x) \geq 2 \end{cases} $$

对于OR逻辑操作也是同理，读者可以自行一试（答案是 $\theta=1$）。

但是这里有一个比较有意思的问题：但神经元需要处理不同种类的逻辑的时候，他是如何调整这个 $\theta$的值呢？

Tips:下次记得分段公式要三条斜杆（调试了一上午）

Learning From Mistakes：

我们常说，要从失败中汲取教训，这句话对于早期的Machine来说有所表现。早期Rosenblatt和Nagy 开发出的Mark I神经网络模型（就是根据前面的神经元模型建造的，这个名字让我想起Severance的Mark 🤣），这个模型能够识别图片的字母（20*20像素的图片）。但是据我们所知，光学识别系统也可以完成一样的工作，那么我们可以说它们是等价的吗？

不可以，因为Mark I的工作原理与光学识别系统之间还是有所不同。

光学系统识别图片上的字母（OCR）就像一个经过训练的侦探。它首先"清理"图像，使其更易于分析（预处理）。然后，"划分"图像，找到哪里有文本，并将文本分解成独立的字母（分割）。接着，"观察"每个字母的特点（特征提取），最后根据这些特点与已知字母的特征进行"对比"，从而确定这个字母是哪个（分类和识别）。

而Mark I识别图片中的字母则是通过学习，这个学习的过程是：每次当它错误的识别这个图像的时候，通过一定的反馈来学习如何识别图片的字母，本质上就是学习如何区分不同种类的字母。

那么，具体在Perceptron里面是如何实现的呢？算法上其实和前面的神经元很像，就像下图一样：

它的过程是这样的：

首先计算 $Sum = w_1x_1+w_2x_2+b$，
然后 If: $Sum \leq 0 : y = 1$ ;

Else: y =-1.

整个过程可以简化为两个函数$g和f$，一个函数$g$负责做求和操作： $$ g(\vec{x}) = \sum_{i=1}^{n} w_ix_i+b,\quad 其中\vec{x} = (x_1,\dots,x_n) $$ 然后函数f做判断： $$ f(g(x)) = \begin{cases}-1, & g(x) < 0 \ 1, & g(x) \geq 0 \end{cases} $$ 我们可以看到这个操作与前面有一点不一样，但都是先对于输入进行一定的处理，然后进行判断。然后我们看看这样的操作可以如何区分不同的种类的字母。先举个例子：

如何判断一个人是否肥胖呢？首先，我们有一个用于训练的数据集${x_{train}=(x_1,x_2,index)}$，每个人都有特定的身高（$x_1$）和体重（$x_2$）以及是否肥胖的指标（index），例如一个人（100kg，160cm，1（是））就表示他体重100kg，身高160cm，属于肥胖人群。如果我们将瘦的人标记为三角形，胖的人标记为圆形，那么这个数据集在坐标轴就会如下图所示：

我们可以看到，Mark I在学习如何将这样的数据集分成两部分，即学习数据中的某种规律（学习这条separating line 的slope和bias），但是这样分类的学习有一定的前提：

我们所提供的数据集是可以分的

并且这种通过training data学习到的分类模型，在面对不在training data里面的数据的时候并不能100%地做出正确的分类，这是因为，我们可以看到上图中，三角形所在的区域和圆形所在的区域之间存在很多条可以区分训练数据的直线，所以仅仅通过训练数据来训练这个分类模型是不够的，它还得用一些testing data来进行反馈（这里很像人，人在看了很久的书之后，你要让他在新的环境下去实践，才会提高人对于这本书的掌握。）

所以Learning from mistake 还是有一定部分从人类角度的启发的。并且我们可以看到上面神经元最后的输出其实可以是任意的数，那就使得这个神经元可以做的事情很多了

毕业论文｜Chapter 1 — 量子纠缠的早期视角

Wed, 16 Apr 2025 00:00:00 GMT

量子纠缠的早期视角

EPR佯谬

一般的纠缠态

一个最经典的纠缠态的例子就是：在计算基矢 (Computational basis) 中，如果对于一个两个量子比特的系统（包含了两个子系统 Alice 和 Bob），总状态是：

$$ \ket{\psi} = \frac{1}{\sqrt{2}}(\ket{0}\ket{1} + \ket{1}\ket{0}) $$

其中 $\ket{0}\ket{1}$ 表示一个复合系统，等价于 $\ket{0} \otimes \ket{1}$，左边代表系统 I 的状态，右边表示系统 II 的状态。

那么对于这个系统，如果测量到 A 系统的状态是 $\ket{0}$，那么 B 系统的状态就是 $\ket{1}$；另一种情况也是一样的，这个形式与式（8）具有相似之处。

所谓“纠缠”就是：对一个系统的观测结果会瞬间影响另一个系统的状态，而且这种影响是非局域性的（无论两个系统相距多远），这就像一种“幽灵般的超距作用”。

EPR佯谬

对于纠缠这个概念，最早的启发来自 Einstein 与其合作者在 1935 年发表的论文：

"Can Quantum-Mechanical Description of Physical Reality Be Considered Complete?"
—— 量子力学中对物理现实的描述是完整的吗？

他们认为量子力学的表述是不完备的，并提出了一个纠缠系统的思考实验。他们首先定义了“物理现实中的元素”（Elements of Physical Reality）：

定义：
如果我们可以在不干扰系统的前提下，准确预测该系统中某一物理量的值，那么就存在一个物理现实的元素对应于这个物理量。

然后他们将这个标准应用到一个复合量子系统：两个相距很远的粒子（编号为 1 和 2），其状态由如下纠缠波函数描述：

$$ \psi(x_1, x_2, p_1, p_2) = \delta(x_1 - x_2 - L)\delta(p_1 + p_2) $$

其中 $\delta$ 并不是真正的 Dirac delta 函数，而是一个归一化的尖峰函数；$L$ 是一个相对于粒子间相互作用而言非常大的距离。

这个波函数的物理意义是：

两个粒子之间的距离几乎是 $L$；
总动量几乎为 $0$；
而且 $x_1 - x_2$ 和 $p_1 + p_2$ 是可同时观测的对易算符。

💡 注：你也可以在这里插入一个 delta 函数图像来辅助理解。

对于这个状态来说，我们对单个粒子的状态（位置或动量）是一无所知的；我们只知道两个粒子之间的差值（距离、动量和）可以确定。

如果我们测量粒子 1 的位置 $x_1$，我们可以准确预测粒子 2 的位置：$x_2 = x_1 - L$。
根据 EPR 的论点：由于两个粒子此时不再相互作用，粒子 1 的测量不会干扰粒子 2，因此 $x_2$ 对应着一个物理现实元素。
同理，如果我们测量粒子 1 的动量 $p_1$，就能预测粒子 2 的动量：$p_2 = -p_1$，因此 $p_2$ 也对应一个物理现实元素。

但是，根据量子力学的基本原理（不确定性原理）：

$$ \Delta x \cdot \Delta p \geq \frac{\hbar}{2} $$

当粒子的位置被精确测量（$\Delta x = 0$）时，其动量的测量精度就必须变差（$\Delta p \to \infty$），所以不能同时确定位置与动量。

因此，EPR 论文指出：我们从测量粒子 1 就可以同时“知道”粒子 2 的位置和动量，这与量子力学的不确定性原理矛盾。

🧠 结论：这说明量子力学对物理现实的描述是不完备的。

EPR 因此推测：存在某些“隐藏变量”（目前未知），使得这些物理量实际上是可以同时确定的。这就是“隐变量理论”（Hidden Variables Theory）的雏形。论文并未给出这种理论的构造，但为后来的 Bell 不等式与实验验证奠定了基础。

附录

毕业论文｜Chapter 2 — Bell 不等式与 CHSH 博弈

Wed, 16 Apr 2025 00:00:00 GMT

量子纠缠的验证

Bell不等式

要验证量子纠缠态的存在性，我们首先要证明隐变量理论的矛盾性，这样就证明了非局域性是量子力学的本质特征。前面EPR论文提出了量子力学的不完备性，而应该由额外的变量来补充的论据。这些变量试图去恢复理论中的局域性（一个系统上的测量结果不受过去与之相互作用且遥远系统的影响）和因果性。在之后的一段时间里，有许多试图去完善隐变量理论的工作，但是均已失败告终。

Bell通过将隐变量理论数学化并加入局域性假设，证明了其与量子力学的统计预测不相容（具有矛盾），即非局域性是量子力学的典型特征。

斯特恩-格拉赫实验

（斯特恩-格拉赫实验可以展开说）

考虑一对自旋为$\frac{1}{2}$的粒子，整个系统处于自旋单态（总自旋为0），两个粒子自由地朝反方向运动。自旋单态的表达式为：

$$ \ket{\psi} = \frac{1}{\sqrt{2}}(\ket{\uparrow \downarrow} - \ket{\downarrow \uparrow}) $$

式中$\ket{\uparrow\downarrow}$表示两粒子系统的状态，也可写成$\ket{\uparrow} \otimes \ket{\downarrow}$（左边为粒子1的自旋状态），$\ket{\uparrow}$表示单个粒子自旋向上，$\ket{\downarrow}$表示自旋向下。

定义粒子1和2的自旋算符$\vec{\sigma_1}$和$\vec{\sigma_2}$（Pauli算符形式，自旋算符与Pauli算符的关系为$\vec{S} = \frac{\hbar}{2}\vec{\sigma}$）。通过斯特恩-格拉赫实验测量某个方向（例如$\vec{a}$为粒子1的测量方向）的自旋分量。

测量粒子1的$\vec{\sigma_1} \cdot \vec{a}$可能得到$+1$或$-1$。由于系统反对称性（可补充解释），此时测量粒子2的$\vec{\sigma_2} \cdot \vec{a}$结果必然与粒子1相反（$-1$或$+1$）。

隐变量理论的数学化

Bell通过以下两个假设引出隐变量原理：

局域性假设：若两粒子自旋的测量在空间分离的方向进行，则一个磁铁的方向（测量粒子1的方向）不会影响另一个磁铁的测量结果。
因果性假设：通过测量$\sigma_1$的某个方向分量，可预测对应方向粒子2的自旋分量结果。

假设1指定了隐变量理论的局域性；假设2说明测量结果可被提前预测，对应隐变量$\lambda$的存在性（$\lambda$可以是单变量、一组变量或函数）。测量结果满足：

$$ A(\vec{a}, \lambda) = \pm 1, \quad B(\vec{b}, \lambda) = \pm 1 $$

隐变量理论的期望值为：

$$ P(\vec{a}, \vec{b}) = \int d\lambda , \rho(\lambda) A(\vec{a}, \lambda) B(\vec{b}, \lambda) $$

而量子力学对自旋单态的期望值为：

$$ \langle \vec{\sigma}_1 \cdot \vec{a} ; \vec{\sigma}_2 \cdot \vec{b} \rangle = -\vec{a} \cdot \vec{b} $$

主要证明

Bell不等式的推导步骤如下：

归一化条件：$\int d\lambda , \rho(\lambda) = 1$
测量结果限制：$A(\vec{a}, \lambda), B(\vec{b}, \lambda) = \pm 1$
引入新方向$\vec{c}$，计算差值：

$$ P(\vec{a}, \vec{b}) - P(\vec{a}, \vec{c}) = \int d\lambda , \rho(\lambda) A(\vec{a}, \lambda) A(\vec{b}, \lambda) \left[ A(\vec{b}, \lambda) A(\vec{c}, \lambda) - 1 \right] $$

取绝对值并利用积分性质，最终得到Bell不等式：

$$ |P(\vec{a}, \vec{b}) - P(\vec{a}, \vec{c})| \leq 1 + P(\vec{b}, \vec{c}) $$

验证实例

取$\vec{a} = (0,0,1)$, $\vec{b} = (1,0,0)$, $\vec{c} = (1/\sqrt{2}, 0, 1/\sqrt{2})$：

$P(\vec{a}, \vec{b}) = 0$
$P(\vec{a}, \vec{c}) = -1/\sqrt{2}$
$|P(\vec{a}, \vec{b}) - P(\vec{a}, \vec{c})| = 1/\sqrt{2} \approx 0.707$
$1 + P(\vec{b}, \vec{c}) = 1 - 1/\sqrt{2} \approx 0.293$

显然$0.707 > 0.293$，违反Bell不等式，说明隐变量理论无法解释量子力学预测。 $$ f(g(x)) = \begin{cases} 0, & g(x) < 2 \ 1, & g(x) \geq 2 \end{cases} $$

结论

通过证明Bell不等式在量子力学中不成立，表明非局域性是量子力学的本质特征，从而验证了量子纠缠的合理性。

CHSH游戏：

上面描述了两种可行的实验方案，但是其实还有一种更容易理解的思想实验（CHSH游戏），通过这个游戏的分析表明任何经典的局部隐变量理论都不能够解释量子纠缠的情况。由于该游戏确实在物理上可实现，因此就证明了经典物理从根本上无法解释某些量子现象，至少在“局部”层面上无法解释。

CHSH游戏的定义:

游戏有三个人,一个Alice,一个Bob,一个裁判:

首先,裁判以均匀的概率随机地选定两个数 $x，y\in {0,1}$
然后，裁判把 $x$给Alice，$y$给Bob
最后，Alice$需要给出回应a \in {0,1}$,Bob也需要给出回应$b\in{0,1}$

如果$x = y = 1$，则只有当Alice和Bob要给出不一样的回应才可以获胜；对于其他的情况，则需要Alice和Bob的回应一样才能获胜。

经典情况：

在经典情况下，如果我们去找一个对于这个游戏的最优策略，那么只需要找到胜率最高的那种策略，根据下面的分析：

$x$	$y$	最佳的
0	0	$a和b相同$
0	1	$a和b相同$
1	0	$a和b相同$
1	1	$a和b不同$

我们可以从上面的表格看到，有三种情况都需要Alice和Bob选择一样的回应，所以对于经典的最优解就是：Alice和Bob两者的回应保持相同，则获胜的概率最大为 $\frac{3}{4}$（对于这种策略，四种情况只有一种情况输）。

量子情况：

对于量子情况，首先介绍一些对于量子比特和量子态的基础知识。

基态：

让$s_1\dots s_n \in {0,1}^n$是一个长度为n的二进制串，$i\in {0,1,\dots,2^{n}-1}$是对应二进制串的值，比如n=2，那么此时二进制串为$s_1s_2={00,01,10,11}$,对应这四个二进制串的值为0,1,2,3。然后根据这个我们可以定义 $\ket{s_1\dots s_n}$是一个长度为 $2^n$的向量，假设这个向量里面的二进制串所对应的值为 $i$，则这个向量的第 $i+1$个位置为1，其余的位置为0，这个向量$\ket{s_1\dots s_n}$我们就称之为n个量子比特的基态。对于n=2(两个量子比特)的情况，那么就有 $\ket{00},\ket{01},\ket{10,\ket{11}}$这些基态，这些基态分别对应(下面的基态都是列向量）： $$ \begin{aligned} \ket{00} &= [1,0,0,0]^T,\quad \ket{01} = [0,1,0,0]^T \ \ket{10} &= [0,0,1,0]^T,\quad \ket{11} = [0,0,0,1]^T \end{aligned} $$

量子态：

定义：n个量子比特的量子态是一个向量 $\vec{x}$: $$ \begin{aligned} \vec{x} &= x_{0\dots0}\ket{0\dots0}+ \dots + x_{1\dots1}\ket{1\dots1} \ &= \sum_{S\in{0,1}^n} x_s \ket{S} \end{aligned} $$ 上式中 $S$是遍历所有长度是n的二进制串，并且 $\vec{x}$满足归一化条件： $$ |x_{0\ldots0}|^2 + \cdots + |x_{1\ldots1}|^2 = 1. $$

系数 $x_{0\dots0},\dots,x_{1\dots1}$可以是复数，但是我们只考虑它们是实数的情况。

量子门：

就像函数 $f(x)$一样，有输出对应着输入，这个函数相当于对这个输入做了某种操作；那么对应某个系统的量子态，我们应该如何去操作它改变它呢？上面我们提到了量子态是一个向量 $\vec{x}$,那么量子门操作就是 $f(\vec{x})$,并且要遵循如下的性质：

归一化：对于所有满足归一化条件的 $\vec{x}$，在经过量子门操作之后的量子态 $\vec{y}=f(\vec{x})$也要满足归一化关系。
线性操作（可以在附录说一下为什么线性是必要的）：对于所有的可能的输入的向量 $\vec{a}，\vec{b}$以及所有实数 $c$，我们有 $f(\vec{a}+\vec{b})=f(\vec{a})+f({\vec{b}})$和 $f(c\vec{a})=cf(\vec{a})$.

对于满足上面两个性质的量子门操作，我们称之为线性量子门。

量子系统，孤立系统：

对于要如何去实现这样的二进制的量子态我们可以直接想到的是电子，我们可以依靠电子的自旋量子数是1/2的特性（这个特性使得电子再任意方向上的自旋都有两个本征态，自旋向上，自旋向下）去实现基态是 $\ket{0},\ket{1}$的量子系统。顺着这个思路，我们可以得出量子系统其实就是多个有顺序的电子的集合表示为 $E =(e_1,\dots,e_n)$。

因为每个电子要么自旋向上（0）要么自旋向上（1），所以这个量子系统的状态一定是二进制串 $S = s_1\dots s_n\in{0,1}^n$中的一个，那么我们可以将测量这个量子系统中每一个电子的自旋的过程描述为 $E \to S$

在大部分情况下，我们只关心庞大世界中的某一个系统，那么此时这个孤立系统是怎么样的，和复合系统的区别是什么？一个孤立的量子系统 $E$之所以孤立是因为他的测量事件和其他量子系统的测量是独立的，即：

这个孤立系统的测量事件：$E \to S$与所有其他的系统的测量 $E’ \to S'$是独立的，也就是这个系统的测量结果并不会影响其他系统的结果。

上面我们提到了测量事件和测量结果，那么对于一个处于某一个量子态的量子系统E，这些是如何定义的呢？

测量公理：

假设 $E$是一个由n个电子 $(e_1,\dots,e_n)$ 组成的孤立量子系统，根据前面的定义，我们可以用一个向量 $\vec{x}$来表示这个系统的状态，如果我们去测量这个系统的状态，可能的结果是所有二进制串（长度为n） $S\in{0,1}^n$中的一个，或者说这个系统的状态是不同基态的组合： $$ \ket{\psi} = \sum_{S\in{0,1}^n}x_s\ket{S} $$ 那么此时我们知道当我们观测这个系统的时候，这个系统一定会处于基态中的一个，但是在观测前我们也许可以知道我们测量得到不同基态的概率 $|x_s|^2$,测量公理定义了这样的概率是： $$ Pr [E \to S] =|x_s|^2 $$ 以及将我们可能对这个处于 $\vec{x}$ 孤立系统E做出的物理操作定义为一个量子门 $f$，这样就使得前面有关与量子门的操作和定义能够在实际物理世界中存在对应。

总而言之，这个公理将一个孤立的系统描述为某一个量子态，以及每一个物理上的操作（Physical process）描述为某一个量子门。

张量积（Tensor Product）：

回想一下我们CHSH游戏中指定了Alice和Bob共享一个EPR对 $\ket{\psi}=\frac{1}{\sqrt{2}}(\ket{00}+\ket{11})$,那么这个状态其实是Alice的电子和Bob的电子相组合成的系统（但是这个两个系统之间有纠缠）。前面我们知道对于一个系统的状态可以用一个向量 $\vec{x}=(x_1,\dots,x_n)^T$（长度为n）来描述，如果此时还有另一个系统状态是 $\vec{y}=(y_1,\dots,y_m)^T$（长度为m），那么两个系统组合起来的状态由向量 $\vec{\Phi}$ 表示，那么这个向量应该如何定义呢？

向量的张量积：

我们这里引入向量之间的张量积，定义为： $$ \vec{\Phi} = \vec{x}\otimes\vec{y} $$ 并且这个向量 $\vec{\Phi}$的长度是nm，并且 $\otimes$被称之为张量积。向量$\vec{x}$和向量$\vec{y}$之间的张量积定义为： $$ \vec{x}\otimes\vec{y} = (a_1b_1,a_1b_2,\dots,a_nb_{n-1},a_nb_n $$ 比如，但两个系统（$E_1，E_2$）的状态分别为 $\vec{a}=(a_1,a_2)$和 $\vec{b}=(b_1,b_2,b_3)$，那么这两个系统组合的状态 $\vec{\psi}$为： $$ \begin{aligned} \vec{\psi} = \vec{a}\otimes \vec{b} &= [a_1(b_1,b_2,b_3),,a_2(b_1,b_2,b_3)] \ &= (a_1b_1,a_1b_2,a_1b_3,a_2b_1,a_2b_2,a_2b_3) \end{aligned} $$

不同孤立系统状态的张量积：

上面对于两个系统组合起来的张量积表示有一个前提条件就是，它们两个都是孤立系统，即它们不能有相互作用或者纠缠（如EPR态）。它表述为一个定理：

如果两个系统 $E_1$和 $E_2$都是孤立的系统，并且两个分别由向量 $\vec{x}$和$\vec{y}$表示，则它们的联合系统状态 $E_1E_2$ 用向量 $\vec{x}\otimes\vec{y}$表示

作用在两个系统的量子门的张量积：

我们已经定义了两个孤立系统的联合状态是怎么样的，那么我们想，如果我们想对系统（A和B）进行物理操作（相当于作用量子门）,那么这些操作是如何影响整个系统的联合状态的呢？我们可以定义：

让 $f：V^n\to V^n$表示对于系统A的一个线性操作（线性的量子门），$g:V^m\to V^m$表示对于系统B的一个线性操作，则对于这整个系统的联合状态 $\vec{a}\otimes\vec{b}$而言，我们对于整个系统的操作 $f\otimes g$作用效果为： $$ (f\otimes g)(\vec{a}\otimes\vec{b}) = f(\vec{a})\otimes g(\vec{b}) $$ 这里对于整个系统AB的操作 $f\otimes g$ 可以由一个公理指定（$f$作用与A系统，$g$作用于B系统）。（此处可以说明一下这里如果两个操作并不同时发生，这个定义还是有效的吗？，因为两个系统是孤立系统，所以互不影响。）

CHSH游戏的一种解法：

在CHSH游戏中，我们让Alice和Bob共享一个Bell态 $\frac{1}{\sqrt{2}}(\ket{00}+\ket{11})$，将第一个电子分配给Alice（左边的比特），将第二个电子分配给Bob（右边的比特），那么此时Alice和Bob都可以测量各自电子的自旋，并且得到的结果要么是+1要么是-1，最后将测量的结果回应给裁判（但是这里的结果是+1，-1，我们之后会处理将这个测量结果和0，1对应起来）但是此时两者是严格正相关的，也就是当Alice测量的+1的时候，整个系统的状态就塌缩到 $\ket{00}$，那么这时候Bob测量的结果就一定是+1，另一种情况也是一样。

这种情况下恰好就对应了经典情况下的最优策略（始终保持Alice和Bob的回应相同），这也就说明了为什么在量子情况要用Bell态，因为在Alice和Bob不对Bell态做出任何操作的情况下，就已经处于经典情况胜率的上界（75%）了。

所以如果要找到比经典情况最优策略胜率更高的策略，那么Alice和Bob就必须对这个Bell态进行物理操作了。

旋转门的引入：

因为我们知道，Alice和Bob都是将各自电子自旋的测量结果（进行处理），最后返回给裁判是0和1，但是其实对于电子的自旋测量可以改变方向，那么就需要引入一个量子门操作 $R_{\theta}$，它的几何意义其实就是将二维空间中的某一个向量顺时针旋转 $\theta$角度，由此可以得到他的数学定义是^1：

$$ \begin{aligned} R_{\theta}(a_1\ket{0}+a_2\ket{1}) &= (a_1\cos{\theta}-a_2\sin{\theta})\ket{0} \ &\quad + (a_1\sin{\theta}+a_2\cos{\theta})\ket{1} \end{aligned} $$

有了旋转门之后，Alice和Bob就可以分别对于各自的电子进行旋转，之后再执行测量操作，我们可以将Alice和Bob的操作记为 $R_{A_{0,1}}\otimes R_{B_{0,1}}$，这里的角标对应着，当Alice或者Bob收到x或者y为0和1的情况。

胜率的定义：

我们这里将Alice和Bob的总胜率定义为 $w$。在CHSH游戏中，Alice和Bob分别收到来自裁判的x,y，Alice和Bob分别给出回应a，b。对于每一对可能的$(x,y)$，他们获胜的条件可以简化为： $$ a \oplus b = x \cdot y $$ 前面是逻辑上的异或操作（简而言之就是相同为0，不同为1），后面是普通的乘法操作（只有当 $x=y=1$时，右边才等于1）[^2]

假设对于每一种 $(x,y)$的胜率记作 $Pr[win|(x,y)]$，由于每种 $(x,y)$出现的概率相同都是1/4，所以总的胜率 $w$为： $$ w=\frac{1}{4}\sum_{(x,y)}Pr[win|(x,y)] $$

测量结果的处理：

我们知道Alice和Bob对于任意方向电子自旋的测量结果是+1/-1，但是游戏规则中需要Alice和Bob做出回应0/1，那么我们就需要做出如下的处理： $$ a = \frac{1 - a^\ast}{2}, \quad b = \frac{1 - b^\ast}{2} $$ 这里的 Alice和Bob的测量结果$a^\ast=\pm1,b^\ast=\pm1$，而 $a$和$b$就是Alice和Bob对于测量结果处理之后给裁判各自的回应，回应0就对应着测量结果1，回应1就对应测量结果是-1。

因此上面对于a,b的获胜条件，转化为测量结果$ a^\ast $和 $ b^\ast $的获胜条件为：

$$ \begin{aligned} a \oplus b &= x \cdot y \ \left(\frac{1-a^\ast}{2}\right)\oplus\left(\frac{1-b^\ast }{2}\right) &= x \cdot y \end{aligned} $$

代入之后第二个式子可以用一个公式化简： $$ u \oplus v = u+v-2uv $$ 上面的 $u和v$都代表的是二进制数。所以得到： $$ \begin{aligned} \frac{1-a^\ast b^\ast}{2} &= x \cdot y \ a^\ast b^\ast &= 1-2xy \end{aligned} $$

我们可以用一个表格看到$1-2xy$其实可以等价为$(-1)^{xy}$：

$x$	$y$	$xy$	$1-2xy$	$(-1)^{xy}$
0	0	0	1	1
0	1	0	1	1
1	0	0	1	1
1	1	1	-1	-1

由此可以得到获胜条件变成Alice和Bob的测量结果要满足： $$ a^\ast b^\ast =(-1)^{xy} $$

用测量结果的乘积表示赢的概率：

记任意一次测量 $(a^\ast,b^\ast)$的概率分布为${P_{++},P_{+-},P_{-+},P_{--}}$为对应结果的概率，角标的左边表示Alice的测量结果，右边表示Bob的测量结果，正负号代表测量结果为1和-1。所以双方测量结果乘积的期望是： $$ E[a^\ast b^\ast]=(+1)P_{++}+(-1)P_{+-}+(-1)P_{-+}+(1)P_{--} $$

因为赢得条件是$a^\ast b^\ast =(-1)^{xy}$，所以对于每一种情况的$(x,y)$而言，获胜的概率$Pr[win|(x,y)]$就等价于 $Pr[a^\ast b^\ast=(-1)^{xy}]$。

对于任意一次测量$(a^\ast,b^\ast)$的概率分布${P_{++},P_{+-},P_{-+},P_{--}}$，有： $$ Pr[a^\ast b^\ast=(-1)^{xy}] = \sum_{a^\ast b^\ast=(-1)^{xy}}Pr[a^\ast,b^\ast] $$ 式中$Pr[a^\ast,b^\ast]$代表两者测量的概率分布（离散的），所以对于等式的右侧，我们可以分两种情况： $$ \sum_{a^\ast b^\ast=(-1)^{xy}} \mathrm{Pr}[a^\ast,b^\ast] = \begin{cases} P_{++}+P_{--}, & (-1)^{xy}=+1 \ P_{+-}+P_{-+}, & (-1)^{xy}=-1 \end{cases} $$

可以看到： $$ \begin{aligned} P_{++}+P_{--} &= \frac{1}{2}\left[1+(P_{++}+P_{--}-P_{+-}-P_{-+})\right] \ &= \frac{1}{2}(1+E[a^\ast b^\ast]) \end{aligned} $$ 第二个等号是由归一化 $P_{++}+P_{+-}+P_{-+}+P_{--}=1$。同样的，对于$P_{-+}+P_{+-}$有： $$ P_{-+}+P_{-+}=\frac{1}{2}(1-E[a^\ast b^\ast]) $$

所以可以得到： $$ Pr[win|x,y]=\frac{1+(-1)^{xy}E[a^\ast b^\ast]}{2} $$

在Alice和Bob收到$(x,y)$后，他们对应的做出对于各自电子自旋测量方向的旋转操作$A_x$和$B_y$，对于他们共享的Bell态$\ket{\psi}$而言就是量子门操作$A_x \otimes B_y$，那么他们测量结果的乘积的期望$E[a^\ast b^\ast]$就是： $$ E[a^\ast b^\ast] = \bra{\psi}A_x \otimes B_y\ket{\psi} $$

然后将这个期望值代入式23，再将式23代入总的获胜概率$w$的定义，得到： $$ \begin{aligned} \omega&=\frac{1}{4}\sum_{x,y}\frac{1+(-1)^{xy},\langle\psi|A_x\otimes B_y|\psi\rangle}{2} \ &=\frac{1}{2}+\frac{1}{8}\sum_{x,y}(-1)^{xy},\langle\psi|A_x\otimes B_y|\psi\rangle. \end{aligned} $$

我们可以定义总获胜概率为$w$和失败概率为$L$，以及两者之间的差值为$D=w-L$[^3]，然后 $$ D = w-(1-w) = 2w-1 $$

所以要得到总的获胜概率的上界等价于找到D的上界，由上可以得到： $$ \begin{aligned} D&=2\omega-1=2\left[\frac{1}{2}+\frac{1}{8}\sum_{x,y}(-1)^{xy}\langle\psi|A_x\otimes B_y|\psi\rangle\right]-1 \ &=\frac{1}{4}\sum_{x,y\in{0,1}}(-1)^{xy},\langle\psi|A_x\otimes B_y|\psi\rangle. \end{aligned} $$

那么现在应该如何找到这个D的上界呢？

如果根据量子力学的期望的定义，D可以写成： $$ D=\frac{1}{4}\left(\langle A_0B_0\rangle+\langle A_0B_1\rangle+\langle A_1B_0\rangle-\langle A_1B_1\rangle\right) $$ 其中，$\langle A_0B_0\rangle$表示在量子态 $\ket{\psi}$下算符 $A_0 \otimes B_0$的期望值，其余同理。

然后定义四个投影算符 $P,P',Q,Q'$，我们可以看成是一个投影操作，那么这个算符的本征值只有两个0和1[^4]，我们作用到Alice和Bob各自电子上的算符仅仅改变了电子的自旋方向，但是所得到的测量值还是+1和-1，所以可以做出如下的变换： $$ \begin{aligned} A_0 &= 2P-1 \ B_0 &= 2Q'-1 \ A_1 &= 2Q-1 \ B_1 &= 2P'-1 \end{aligned} $$ 做出这个变换的理由是：我们对于电子的旋转的操作总可以等效成将电子的自旋向某个方向投影，并且保持了测量值的不变性。

然后定义R： $$ R =\langle A_0B_0\rangle+\langle A_0B_1\rangle+\langle A_1B_0\rangle-\langle A_1B_1\rangle $$

令$C =A_0B_0+A_0B_1+A_1B_0-A_1B_1$ 可以得到： $$ R =\langle C\rangle $$ 其中： $$ C = A_0(B_1+B_0)+A_1(B_0-B_1) $$

然后我们计算$C^2$，因为$A_0，A_1，B_0，B_1$的本征值都是 $\pm 1$，所以有： $$ A_0^2=A_1^2=B_0^2=B_1^2=1 $$ [^5]

由此可以推出： $$ C^2 = 4+[A_0,A_1][B_1,B_0] $$ 其中$[A,B]$表示算符的对易子$AB-BA$，从这个等式可以看出，在经典情况下，Alice和Bob并不做出任何操作，所以等式右侧的第二项就是0，但是这一项正表现出了量子的非定域性特点。

然后我们将变换关系29，代入计算得到： $$ C^2 =4+16[P,Q][P',Q'] $$

由于P，Q都是投影算符，所以有： $$ P^2 = P ,\quad Q^2=Q ,\quad P^{\dagger} =P,\quad Q^{\dagger} = Q $$

因为$A_0 = 2P-1$，所以： $$ \begin{aligned} A_0^2 &= (2P-1)(2P-1) \ &=4P^2-4P+I \ &=4P^2-4P^2+I \ &=I \end{aligned} $$ 所以$|A_0|=1$，同理$A_1^2 = I$，$|A_1|=1$。

我们想得到$[P,Q]$的范围，有$|A_0|，|A_1|=1$，以及： $$ \begin{aligned} [A_0,A_1] &= (2P-I)(2Q-I)-(2Q-I)(2P-I) \ &=4(PQ-QP) \ &=4[P,Q] \end{aligned} $$

所以我们有$[P,Q] = \frac{1}{4}[A_0,A_1]$。所以现在的想法是找一下$[A_0.A_1]$的范围。

考虑$[A_0,A_1]$的范数（大小），再根据三角不等式，可以得到： $$ \begin{aligned} |[A_0,A_1]|&=|A_0A_1-A_1A_0| \ &\leq |A_0A_1|+|A_1A_0| \ &\leq 2|A_0||A_1|=2 \end{aligned} $$

然后根据$[P,Q] = \frac{1}{4}[A_0,A_1]$，得到： $$ |[P.Q]| \leq \frac{1}{2} $$

对于$[P',Q']$的范数也同理小于等于二分之一，所以对于式（35）而言有范数形式： $$ |C^2| = 4+16|[P,Q][P',Q']| $$

又因为$|[P.Q][P',Q']|\leq |[P,Q]||[P',Q']|$(三角不等式)，所以： $$ \begin{aligned} |C^2| &\leq 4+16|[P,Q]||[P',Q']| \ &\leq 4+16\times\frac{1}{4} \leq 8 \end{aligned} $$ 第二个不等式代入了$|[P,Q]| \leq \frac{1}{2}$和$|[P',Q']| \leq \frac{1}{2}$。所以得到了$|C| \leq 2\sqrt{2}$ 这一结论。

因为$R = \langle C\rangle$，所以对于R的绝对值有： $$ |R| = |\bra{\psi}C\ket{\psi}| \leq |\psi||C\psi| = |C\psi| $$ 上式中不等号是由于施瓦茨不等式$|uv|\leq |u||v|$，最后的等号是因为$\ket{\psi}$是单位向量（所以它的模是1）。

然后通过算符范数的定义：$|C|$是拉伸向量的最大的因子[^6]。由这个定义我们可以得到： $$ |C| = \sup_{|\psi|=1}{|C\psi|} $$ 其中$\sup$是对于所有满足要求的$\psi$找到目标函数的上界。于是对于式（19）有： $$ |R| \leq |C\psi| \leq \sup_{|\psi|=1}{|C\psi|}=|C| $$

所以对于$|R|^2$有： $$ |R|^2 \leq |C|^2 = |C^2| \leq 8 $$ [^7]

所以，对于R来说，有$|R| \leq 2\sqrt{2}$。然后根据定义$D = \frac{1}{4}R$，得到总胜率和总败率之间的偏差D的上界是$\frac{\sqrt{2}}{2}$，即： $$ D = \frac{1}{4}R \leq \frac{\sqrt{2}}{2} $$

最后我们通过$D = 2w-1$，得到量子情况下，总胜率$w$的上界为： $$ w = \frac{D+1}{2} \leq \frac{\sqrt{2}}{4}+\frac{1}{2} \approx 85% $$

所以可以通过CHSH游戏[^8]表明，通过两个距离很远（足以排除以光速进行信息传递）的双方，各自可以访问（可以测量并且操作）一个量子纠缠态的一半，通过合适的测量操作，可以给出比经典最优策略更优的量子策略。因此对于这个游戏的分析表明没有经典的隐变量理论（局域性理论）可以解释量子纠缠所带来的一系列的相关性（一方的测量可以非局域性地影响另一方的测量结果）和后果（比经典更优的策略）。

[^2]: 原文注释：CHSH游戏的规则是：当 $x=y=1$时，Alice和Bob的回应 $a和b$要不一样（$a\oplus b=1$）才能获胜，剩下的情况需要 $a和b要一样$（$a\oplus b=0$）才能获胜 [^3]: 原文注释：这里总是认为我们的策略总是让Alice和Bob的获胜概率大于他们失败的概率，因为就算是不改变Bell态，获胜的概率都是75% [^4]: 原文注释：why？ [^5]: 原文注释：解释放在附录里面 [^6]: 原文注释：详细定义见附录 [^7]: 原文注释：上式中$|C|^2 = |C^2|$对于一般的normal算符是成立的（具体证明在附录） [^8]: 原文注释：CHSH游戏是可以在实验上实现的

Eugene

超导的两种语言：BCS 与 Ginzburg-Landau

超导的两种语言：BCS 与 Ginzburg-Landau

两种视角

BCS：微观起源

GL：宏观行为

两类超导体：$\kappa = \lambda / \xi$ 的物理

互补而非对立

相关概念

懒惰的宇宙：能量最小化如何连接物理与智能

懒惰的宇宙：能量最小化如何连接物理与智能

百年思想链

第一站：Ising 模型与统计物理

第二站：退火——物理启发下的算法

第三站：Hopfield 网络——神经元作为自旋

第四站：从反向传播到预测编码

终点站：自由能原理

三条红线

相关概念

新青年极客松

新青年极客松之旅 2026/01/19-2026/01/25

来之前的状态与问题：

七天之旅：

总结与收获：

图片集（未p，待上传）：

相关概念

Train Dreams（铁道幻影）

相关概念

单分量超导

1.单分量超导

什么是超导？

BCS理论：

1.固体中的电子：

2.Fermi Surface 上的两个电子

3.Cooper-Pair：

4.简化模型

Ginzburg - Landau Theory

1. 对自由能求极值

2. 两个长度

穿透深度：

两类超导体：

磁通涡旋：

磁通量子：

Josephson 效应：

相关概念

拓扑物态前置知识

Band Structure Theory

电子的量子力学：

Tight Binding Model

Bloch Theorem For Bulk Electrons

k.p Perturbation Theory

相关概念

Ising model 到 Predictive Coding-能量最小化的自然演进

摘要：

1.Ising Model

2. 模拟退火算法（Simulated annealing）

解决的问题：

物理上的启发：

具体算法：

3 .量子退火算法

Ising model的引入

具体流程

Hopfield 神经网络

记忆：

学习：

回忆：

问题：

展望与思考

Predictive Coding

1. 定义能量函数 (The Energy Function)

2. 两个过程：推断 (Inference) 与 学习 (Learning)

A. 快过程：神经元状态更新 (Inference)

B. 慢过程：突触权重更新 (Learning)

PC与Hopfield 神经网络的区别：

参考文献

相关概念

三人行

相关概念

毕业论文｜Chapter 3 — Shor 算法

量子纠缠的应用

2. 两个过程：推断 (Inference) 与学习 (Learning)