有序补丁理论 (OPT)
附录 T-9:维护周期、MDL 剪枝与恢复条件
2026年5月11日 | DOI: 10.5281/zenodo.19300777
原始任务 T-9:维护周期与恢复装置 问题: 主论文 §3.6.3–§3.6.6 定义了方程 T9-1 至 T9-13(维护周期算子 \mathcal{M}_\tau、MDL 剪枝 \Delta_{\mathrm{MDL}}、巩固增益 \Delta K_{\text{compress}}、REM 重要性加权 w(b))。附录 T-12(叙事漂移)与 T-13(行动漂移)将这一装置作为承重结构加以引用。当前框架缺少一个统摄性的附录,用以 (i) 明确命名形式原语,(ii) 区分主论文中由 \Delta_{\mathrm{MDL}} < 0 隐含而未明示的四种剪枝模态,(iii) 定义恢复条件,以及 (iv) 为各推论性附录提供一个可稳定引用的形式目标。T-9 正是为填补这一空缺而设。 交付内容: 处于与 T-2 / T-15 相同认识论层级的统摄性附录(结构对应,而非封闭定理)。相较主论文新增的内容包括:显式的预测增益定义 G_i(t,\tau)、以资源容量为首要项的维护成本分解、四种剪枝模态的区分、恢复条件,以及推论链。
闭合状态:结构对应(与 T-2 / T-15 同层级)。 本附录不是一个封闭定理附录。它整合了已在预印本 §3.6 中运作的维护周期装置,并补入主论文未包含的四项形式内容:显式预测增益、资源容量成本框架、四种剪枝模态,以及恢复条件。§2 中关于 OpenAI 审阅的保留意见已被遵守:(i) 剪枝阈值以可与 T-12 尚待完成的通道独立性重述(第 4 阶段)相协调的形式呈现;(ii) 现有主论文方程 T9-3 / T9-4 按引用原样保留,而 T-9 将资源容量细化作为附加的形式层引入,而非对既有引用形式进行无提示改动;(iii) 资源容量成本居于首位,K-复杂性则作为结构对应意义下的近似。未闭合边缘(§9):资源容量与 K-复杂性的记账方式,仍需在 T-12 的重述落地后与之完成全面协调。
§1. 设定——主动模型组件
编解码器 K_\theta 由一组主动模型组件 \{\theta_i\}_{i \in I} 构成,其中每个 \theta_i 都是编解码器中一个可寻址的结构单元——生成先验、习得的特征检测器、循环堆栈、长程耦合,或任何其他参与生成编解码器预测 \pi_t 及其随时间演化的更新算子 \mathcal{U} 的原语。集合 \{\theta_i\} 在任一给定时刻都是有限的,但可通过巩固而扩展(Pass II,预印本 §3.6.4),也可通过剪枝而收缩(Pass I,预印本 §3.6.3)。
就 T-9 而言,这些组件被视为既定:T-9 并不推导何以某个 \theta_i 而非另一个会构成“自然的”组件,因为那是一个超出有序补丁理论 (OPT) 范围的表征学习问题。维护周期装置作用于编解码器所允许的任何分解之上。
维护周期算子 \mathcal{M}_\tau(预印本公式 T9-2)在低负载区间(R_{\text{req}}(t) \ll C_{\max})作用于现象状态张量 P_\theta(t)。T-9 将三次遍历(剪枝、巩固、预测分支集采样)展开为下文 §2–§6 中的显式形式原语;随后,§7 中的推论链则通过这些原语追踪叙事漂移(T-12)与行动漂移(T-13)。
§2. 预测增益 G_i(t, \tau)
分量 \theta_i 在长度为 \tau 的窗口上的预测增益,衡量的是在保持其他分量固定时,该分量对编解码器在输入流上的预测性能贡献了多少:
G_i(t, \tau) \;:=\; I\!\left(\theta_i \,;\, X_{t+1:t+\tau} \mid \theta_{-i}\right) \tag{T9.2-1}
其中,\theta_{-i} 表示除 \theta_i 之外的编解码器其余部分,而 I(\cdot ; \cdot \mid \cdot) 是条件互信息。条件形式在这里至关重要:它所隔离的是 \theta_i 的边际预测贡献,而不是它与其他重叠分量共同构成的联合贡献。
与主论文公式 T9-3 的比较。 主论文中的 MDL 剪枝量为
\Delta_{\mathrm{MDL}}(\theta_i) \;=\; I\!\left(\theta_i\,;\,X_{t+1:t+\tau} \mid \theta_{-i}\right) - \lambda K(\theta_i) \tag{T9-3, preprint §3.6.3}
T-9 将第一项明确命名为 G_i(t,\tau),以便能够将“预测增益”这一原语与阈值形式的剪枝条件分开引用。这纯粹是记号上的整合;不等式本身保持不变。
窗口长度 \tau。 预测增益依赖于窗口长度。较短的 \tau 捕捉细时间尺度上的预测(运动控制、工作记忆);较长的 \tau 捕捉结构性预测(语义规律性、叙事连贯性)。维护周期的第一遍剪枝是在较长 \tau 的区间上评估的,在该区间中,真正无用的分量满足 G_i \to 0。相比之下,第二遍整合则是在较短 \tau 的区间上进行优化,在那里,重叠分量之间的冗余会变得显著。
§3. 维护成本 C_i —— 资源容量优先
组件 \theta_i 的维护成本有两种彼此兼容的表述形式。
形式 3.1 —— 资源容量(T-9 的主要形式)。 组件的成本,是它在编解码器运行基底中所占据的资源容量:
C_i \;:=\; c_i^{\text{params}} + c_i^{\text{memory}} + c_i^{\text{compute}} + c_i^{\text{channel}} \tag{T9.3-1}
其中四类预算分别为:参数槽位(权重或连接的数量);内存占用(以存储的比特数计);计算成本(每周期的操作次数);以及通道容量(该组件在马尔可夫毯边界 \partial_R A 处消耗的带宽比特数)。每个 c_i 原则上都是可观测的——对于生物编解码器,可通过代谢与生理测量获得;对于合成编解码器,则可通过直接仪器测量获得。
形式 3.2 —— K-复杂度近似。 主论文公式 T9-3 使用 \lambda K(\theta_i),其中 K(\theta_i) 是该组件的前缀柯尔莫哥洛夫复杂度:
C_i^{\text{K-approx}} \;:=\; \lambda \cdot K(\theta_i) \tag{T9.3-2}
这是一种结构对应近似:K-复杂度是上半可计算的,并且在不同组件之间并不严格可加(删除某一组件,未必会使最短描述长度恰好减少其独立的 K(\theta_i),因为组件之间可能共享结构)。因此,资源容量形式(T9.3-1)对于操作性主张而言是主要形式;而 K-复杂度形式则保留用于那些可接受可加性近似的理论分析。
为何有两种形式。 OpenAI 对 T-12 的审阅(appendix-corrections 备忘录 §2.8)正确指出,K-复杂度在组件之间并不可加,并建议对于操作性主张采用资源容量度量。T-9 因而将资源容量作为主要形式,但仍保留 K-复杂度形式,因为现有主论文公式 T9-3 以及 T-12 的定理 T-12 证明都引用了 K-复杂度形式。对于 v3.7.0 或更高版本中的清理修订而言,资源容量细化是针对 §3.6.3 / §3.6.4 / T-12 / T-13 更为整洁的表述;T-9 同时提供这两种形式,从而使最终清理能够以连贯方式执行,而不必要求所有引用这些位置的内容同时一并修复。
\lambda 的调节。 在形式 3.2 中,参数 \lambda 用于权衡预测增益与复杂度成本。经验上观察到,\lambda 会随情感状态而变化——较高的 |E(b)|(预印本公式 T9-10)会在组件层面上有效提高 \lambda,使带有情感标记的组件更不易被剪枝。这就是对情绪记忆增强的形式化说明(预印本 §3.6.5,Pass III)。
§4. 剪枝条件——阈值形式
剪枝条件采用阈值形式,而不是主论文公式 T9-4 的严格正值形式。OpenAI 对 T-12 的审阅(appendix-corrections 备忘录 §2.8 更正 3)正确指出,将严格的 I = 0 作为剪枝条件过于脆弱:现实中的组件即使其主要预测作用已被滤波输入排除,仍可能保有微弱的间接预测贡献。
阈值形式的剪枝条件为:
\text{Prune } \theta_i \quad \text{if} \quad G_i(t, \tau) \;<\; C_i \;-\; \epsilon \tag{T9.4-1}
其中 \epsilon > 0 是一个小的保留缓冲,用于调节编解码器的剪枝激进程度。其等价不等式形式为:
G_i(t, \tau) - C_i \;<\; -\epsilon \quad \Longleftrightarrow \quad I\!\left(\theta_i; X_{t+1:t+\tau} \mid \theta_{-i}\right) \;<\; C_i - \epsilon \tag{T9.4-2}
与主论文公式 T9-4 的比较。 主论文将 \Delta_{\mathrm{MDL}}(\theta_i) < 0 写作触发剪枝的条件,这对应于 \epsilon = 0——严格的收支平衡点。T-9 通过引入保留缓冲 \epsilon 对其进行了推广,这更准确地刻画了生物性剪枝动力学(其中微小的预测贡献会在瞬时噪声下被保留下来)以及合成编解码器的剪枝超参数(其中基于阈值的删除是标准做法)。
当 \epsilon \to 0 时,可恢复严格收支平衡的情形,因此 T-9 的形式并不会使 T-12 和 T-13 中现有的 T9-4 引用失效;它是对其的推广。
对叙事漂移的含义(交叉参见 T-12)。 在滤波输入 X' = \mathcal{F}(X) 且被排除信号为 \mathcal{X}_{\text{excl}} 的条件下,那些其预测贡献仅指向 \mathcal{X}_{\text{excl}} 的组件 \theta_i,在滤波后的流上满足 G_i(t, \tau) \to 0(因为其目标在观测输入中缺失)。于是,剪枝条件 (T9.4-1) 被触发,因为对于任何正的成本分量,都有 0 < C_i - \epsilon。T-12 定理 T-12 的不可逆性结果正是由这一触发机制以及下文 §5 中的四模态区分共同导出的。
§5. 四种剪枝模态
剪枝操作(T9.4-1)在编解码器中允许四种彼此不同的实现方式,它们具有不同的可逆性性质。这一区分对于恢复条件(§6)以及 T-12 更正 1(appendix-corrections 备忘录 §2.8)中关于叙事漂移不可逆性的主张都至关重要。
模态 5.1 — 可逆抑制。 将分量 \theta_i 的输出权重降为零(或降至某个参与阈值以下),但该分量的参数与结构仍保存在编解码器中。恢复是直接的:重新加权即可恢复该分量。这一操作构成了条件作用中行为消退的基础(条件反应减弱,但痕迹仍然保留),也构成了神经网络中 dropout 式正则化的基础。
模态 5.2 — 权重衰减。 在与 \propto \lambda 成正比的正则化压力下,该分量的参数持续衰减并趋向某个默认状态。该分量并未被删除,但其保真度会下降;如果默认状态本身具有信息性,则仍可能实现部分恢复。
模态 5.3 — 表征性遗忘。 在巩固过程中(Pass II,preprint §3.6.4),该分量的参数被竞争性分量覆写。其结构槽位仍然保留,但特定表征已经丢失。恢复要求在后续某个维护周期中重新暴露于相关输入流之下,而且这种恢复只是部分的(重新学得的表征在细粒度细节上不同于原始表征)。
模态 5.4 — 架构性剪枝。 该分量的参数及其结构槽位都被删除;编解码器架构本身被缩减。在编解码器层面上,恢复是不可能的——该分量必须通过一次完整的学习过程从零重新生长出来。这是不可逆的模态。
过滤输入下的模态分类。 T-12 定理 T-12 的“不可逆性”主张(按现有 preprint 的表述)要求采用模态 5.4(架构性剪枝),并排除模态 5.1–5.3。T-9 将这种模态依赖性明确化;v0.4 appendix-corrections 备忘录 §2.8 更正 1(“irreversible 应当以 no protected archive / no replay buffer / no external teacher / no architectural reserve capacity / continued operation under the same filter / pruning is literal capacity deletion, not reversible suppression 为条件”)与模态 5.4 的解读是一致的。
真实的生物编解码器与合成编解码器通常都会呈现多种模态的混合,其中模态 5.4 通常保留给那些在多个维护周期中持续被剪除的分量。在持续过滤输入之下,从可逆剪枝向不可逆剪枝的转变,正是慢性叙事漂移(T-12)背后的结构性机制。
§6. 恢复条件
若存在某种过程,能够将被剪除的组分 \theta_i 恢复为重新参与编解码器的活跃部分,则该组分是可恢复的。在恢复窗口 \tau_R 上,其恢复概率为:
P\big(\text{recover } \theta_i \mid \tau_R\big) \;=\; P\big(\text{Modality 5.1 or 5.2}\big) \cdot p_{\text{restore}}(\tau_R) \;+\; P\big(\text{Modality 5.3 or 5.4}\big) \cdot p_{\text{regrow}}(\tau_R) \tag{T9.6-1}
第一项涵盖可逆或部分可逆的剪除(抑制、权重衰减);第二项涵盖表征性遗忘与架构性剪除,在这些情形下,恢复需要外部输入。
只有在以下三个条件中至少有一个成立时,恢复才为正:
受保护的记忆。 编解码器在未被剪除的基底中保留了 \theta_i 的归档表征(独立缓存、版本控制备份、在神经生理上受保护并被巩固到不同区域的记忆)。在此条件下,模态 5.1 与 5.3 可以恢复。
外部教师 / 再暴露。 编解码器暴露于包含信号 \mathcal{X}_{\text{excl}} 的输入流,而该信号正是被剪除组分原先所追踪的信号。在后续某个维护周期的第二阶段中进行的主动再学习,会重建该组分(但需注意细粒度保真性方面的限制)。在此条件下,只要时间足够,四种模态都可以恢复,尽管模态 5.4 需要一次与最初习得相当的完整学习过程。
架构储备。 编解码器具有尚未承诺给特定组分的结构槽位,因此可以分配出来承载重新生长出的表征。这一条件决定了模态 5.4 的恢复在机制上是否根本可能。
如果 (1)、(2)、(3) 均不成立,则对所有 \tau_R,都有 P(\text{recover}\, \theta_i \mid \tau_R) = 0,且该剪除是永久性的。
基底保真条件。 T-12 的基底保真条件(定理 T-12b——穿过马尔可夫毯的 \delta-独立输入通道的冗余性)是条件 (2) 在线系尺度上的对应物:这些通道确保输入流即使在外部机制 \mathcal{F} 的滤除之下,仍持续包含与基底相关的信号。T-9 的恢复条件则给出了其在编解码器内部的实现:受保护的组分、回放缓冲区、架构储备。
§7. 推论——叙事漂移与行动漂移
T-9 的原始要素支撑了两条在附录 T-12 与 T-13 中展开的推论链。
推论 7.1 —— 叙事漂移(T-12)。 在持续的滤波输入 X' = \mathcal{F}(X) 排除了信号 \mathcal{X}_{\text{excl}} 的条件下: - 那些预测增益仅存在于 \mathcal{X}_{\text{excl}} 上的分量 \theta_i,在经过滤波的流上满足 G_i(t, \tau) \to 0。 - 剪枝条件(T9.4-1)会在所有此类分量上被触发。 - 若该剪枝属于模态 5.4(架构性)——而这在跨越多个维护周期的持续滤波下占主导——且恢复条件(§6 第 1–3 项)均不成立,则对 \mathcal{X}_{\text{excl}} 的建模能力将被永久丧失。 - 编解码器无法从其内部检测到自身能力的丧失(因为已丧失的分量不再参与预测误差的生成),从而重现了 T-12a 关于不可辨识性的主张。
完整的形式化处理见 T-12;T-9 提供了 T-12 更正 1 所要求的、关于“不可逆”的模态特定解读。
推论 7.2 —— 行动漂移(T-13)。 对未使用分支的行为评估能力进行编码的分量: - 其预测增益 G_i(t, \tau) 是相对于输入流中实际实现的分支结果来衡量的;如果某些分支从未被选择,则这些评估器就不会获得训练信号。 - 当未使用评估器的 G_i 下降到低于 C_i - \epsilon 时,剪枝条件被触发。 - 在模态 5.4 下,该评估器会被永久剪除;编解码器将在相应的行动域中变得自信而无能。
T-13 的命题 T-13.P1(行动漂移)是这一编解码器内部机制在线系尺度(行为库)上的实例。
交叉参照:线系层级的维护周期。 附录 T-15 §3 展开了生命体内部维护周期与系统发育精炼之间的结构对应关系。T-9 的四种剪枝模态分别映射为:暂时性的生态位收缩(5.1)、放松选择下的线系漂移(5.2)、生态位置换(5.3)以及线系灭绝(5.4)。恢复条件(§6)则映射到系统发育冗余:受保护的避难所(1)、在生态位恢复下的生态再暴露(2),以及发育储备能力(3)。
§8. 与主论文 §3.6 方程的关系
T-9 起到的是整合作用,而非替代作用。主论文中的方程 T9-1 至 T9-13(预印本 §3.6.1–§3.6.6)均按原引文保留;T-9 引入了额外的形式原语与细化内容,作为对它们的补充。
| 主论文 | T-9 |
|---|---|
| T9-1 (K(P_\theta(t)) \le C_{\text{ceil}}) — 总复杂度上限 | §1 设定 |
| T9-2 (\mathcal{M}_\tau : P_\theta(t) \to P_\theta(t + \tau)) — 维护周期算子 | §1 设定 |
| T9-3 (\Delta_{\mathrm{MDL}}(\theta_i) = I(\theta_i; X \mid \theta_{-i}) - \lambda K(\theta_i)) — MDL 剪枝量 | §2 预测增益 G_i + §3 维护成本 C_i(形式 3.2 的 K-近似) |
| T9-4(若 \Delta_{\mathrm{MDL}} < 0 则剪枝)— 剪枝条件 | §4 阈值形式(T9.4-1,其中 \epsilon \to 0) |
| T9-5(Landauer 剪枝成本)— 热力学下界 | §5 模态依赖性(不可逆性适用于模态 5.4) |
| T9-6 (\Delta K_{\text{prune}}) — 剪枝容量恢复 | §3 + §5(资源—容量形式使这种核算在各模态上可加) |
| T9-7 / T9-8 (\Delta K_{\text{compress}}) — 巩固增益 | §1 设定(Pass II)— T-9 不重新推导巩固过程 |
| T9-9 / T9-10 (w(b), E(b)) — REM 重要性加权 | §3(\lambda 的情感调谐)— T-9 不重新推导 REM 采样 |
| T9-11 — REM 采样分布 | 不变 — T-9 不重新推导 Pass III |
| T9-12 / T9-13 — 净复杂度预算 | §1 设定 — T-9 的资源—容量形式细化了预算核算 |
T-9 中净新增的内容: 显式的预测增益 G_i(t,\tau) 定义(§2);以资源—容量成本框架为主的表述(§3 形式 3.1);带保留缓冲 \epsilon 的阈值形式剪枝条件(§4);四种剪枝模态(§5);恢复条件(§6);对 T-12 不可逆性主张的模态特定解读(§7.1)。
§9. 开放边缘问题
与 T-12 的通道独立性重述(第 4 阶段)之协调。 T-12 已进入附录修正队列(v0.4 §2.8),将对通道独立性条件作出重述:独立的是滤波机制,而非信号。T-9 的剪枝条件(§4)与恢复条件(§6)均按与该重述相协调的方式撰写,但一旦重述后的通道独立性定义正式确立,T-12 的定理 T-12 证明仍需重新审查。具体而言:T-12 §3.1 中关于不可逆性的论断目前引用 T9-3 / T9-4;在 v3.7.0 清理后,应改为引用 T-9 的 §4 阈值形式 + §5 模态分类 + §6 恢复条件,并将不可逆性的解读限制在“无恢复条件”情形下的模态 5.4。待定。
资源容量与 K-复杂度记账的协调统一。 §3 同时提供了两种形式,但并未推导它们之间的定量对应关系。对于某些组件类别,这两者关系密切(例如,对记忆化查找表而言,C_i^{\text{params}} \sim K(\theta_i) 在常数因子内成立);而对另一些类别,它们则显著分离(跨组件共享的组合结构会带来 K-复杂度节省,而资源容量形式无法捕捉这一点)。最好在 v3.7.0 或之后版本中完成这种协调。待定。
虚拟解读中立性(v3.6.21)。 完全虚拟的常驻状态解读(主文 §8.6.1)将维护周期重述为通过滤波器之流的属性,而非一台运行中的机器的属性,但这并不意味着对 Form 3.1 / Form 3.2 的记账层级进行重新分层:Form 3.1(资源容量)仍是所有操作性论断的首要形式,T-12 的实际证明也继续使用它。流原生的可压缩性解读仅作为 T-12 §3.1 所注明的解释层进入。上文所述的 K-可加性协调,才是未来任何 Form 重新分层应当展开论证之处——而不是虚拟解读本身。待定(不要将其与 v3.7.0 清理混为一谈)。
\epsilon
的经验校准。 (T9.4-1) 中的保留缓冲 \epsilon
是一个有效的剪枝超参数。其经验生物学取值可来自神经剪枝研究(突触衰减阈值、树突棘保留率),或来自
opt-ai-subject 原型中的 Δ_self^op 渐近实验。T-9
并未推导出一个具体数值。待定。
与维护周期经验预测的交叉链接。 预印本 §3.6.7 列出了维护周期(睡眠 / 梦境 / 巩固)的经验预测。T-9 的四种剪枝模态给出了更细粒度的预测:例如,“REM 梦境会不成比例地采样高重要性分支”(预印本 §3.6.5,Pass III)这一预测,可以分解为关于不同类型表征的模态特异性预测——这些表征究竟是由模态 5.1(针对剪枝的按重要性加权保留)所保留,还是由模态 5.4 所删除(在清醒经验中缺失高重要性分支时,会导致相应评估器的架构性删除)。待定。
本附录作为 OPT 项目代码库的一部分,与 opt-theory.md 一并维护。对预印本 §3.6 中维护周期原语的引用予以保留;T-9 则补充了显式预测增益 G_i(§2)、资源容量成本(§3 Form 3.1)、带保留缓冲 \epsilon 的阈值形式剪枝条件(§4)、四种剪枝模态(§5)以及恢复条件(§6)。相关推论引用:T-12(叙事漂移)§3.6.3;T-13(Action-Drift)§6;T-15(系统发育稳定性滤波器)§3。