T-9：维护周期、MDL 剪枝与恢复条件

Jarevåg, Anders

doi:10.5281/zenodo.19300777

有序补丁理论 (OPT)

附录 T-9：维护周期、MDL 剪枝与恢复条件

Anders Jarevåg

2026年5月11日 | DOI: 10.5281/zenodo.19300777

原始任务 T-9：维护周期与恢复装置 问题： 主论文 §3.6.3–§3.6.6 定义了方程 T9-1 至 T9-13（维护周期算子 \mathcal{M}_\tau、MDL 剪枝 \Delta_{\mathrm{MDL}}、巩固增益 \Delta K_{\text{compress}}、REM 重要性加权 w(b)）。附录 T-12（叙事漂移）与 T-13（行动漂移）将这一装置作为承重结构加以引用。当前框架缺少一个统摄性的附录，用以 (i) 明确命名形式原语，(ii) 区分主论文中由 \Delta_{\mathrm{MDL}} < 0 隐含而未明示的四种剪枝模态，(iii) 定义恢复条件，以及 (iv) 为各推论性附录提供一个可稳定引用的形式目标。T-9 正是为填补这一空缺而设。 交付内容： 处于与 T-2 / T-15 相同认识论层级的统摄性附录（结构对应，而非封闭定理）。相较主论文新增的内容包括：显式的预测增益定义 G_i(t,\tau)、以资源容量为首要项的维护成本分解、四种剪枝模态的区分、恢复条件，以及推论链。

闭合状态：结构对应（与 T-2 / T-15 同层级）。 本附录不是一个封闭定理附录。它整合了已在预印本 §3.6 中运作的维护周期装置，并补入主论文未包含的四项形式内容：显式预测增益、资源容量成本框架、四种剪枝模态，以及恢复条件。§2 中关于 OpenAI 审阅的保留意见已被遵守：(i) 剪枝阈值以可与 T-12 尚待完成的通道独立性重述（第 4 阶段）相协调的形式呈现；(ii) 现有主论文方程 T9-3 / T9-4 按引用原样保留，而 T-9 将资源容量细化作为附加的形式层引入，而非对既有引用形式进行无提示改动；(iii) 资源容量成本居于首位，K-复杂性则作为结构对应意义下的近似。未闭合边缘（§9）：资源容量与 K-复杂性的记账方式，仍需在 T-12 的重述落地后与之完成全面协调。

§1. 设定——主动模型组件

编解码器 K_\theta 由一组主动模型组件 \{\theta_i\}_{i \in I} 构成，其中每个 \theta_i 都是编解码器中一个可寻址的结构单元——生成先验、习得的特征检测器、循环堆栈、长程耦合，或任何其他参与生成编解码器预测 \pi_t 及其随时间演化的更新算子 \mathcal{U} 的原语。集合 \{\theta_i\} 在任一给定时刻都是有限的，但可通过巩固而扩展（Pass II，预印本 §3.6.4），也可通过剪枝而收缩（Pass I，预印本 §3.6.3）。

就 T-9 而言，这些组件被视为既定：T-9 并不推导何以某个 \theta_i 而非另一个会构成“自然的”组件，因为那是一个超出有序补丁理论 (OPT) 范围的表征学习问题。维护周期装置作用于编解码器所允许的任何分解之上。

维护周期算子 \mathcal{M}_\tau（预印本公式 T9-2）在低负载区间（R_{\text{req}}(t) \ll C_{\max}）作用于现象状态张量 P_\theta(t)。T-9 将三次遍历（剪枝、巩固、预测分支集采样）展开为下文 §2–§6 中的显式形式原语；随后，§7 中的推论链则通过这些原语追踪叙事漂移（T-12）与行动漂移（T-13）。

§2. 预测增益 G_i(t, \tau)

分量 \theta_i 在长度为 \tau 的窗口上的预测增益，衡量的是在保持其他分量固定时，该分量对编解码器在输入流上的预测性能贡献了多少：

G_i(t, \tau) \;:=\; I\!\left(\theta_i \,;\, X_{t+1:t+\tau} \mid \theta_{-i}\right) \tag{T9.2-1}

其中，\theta_{-i} 表示除 \theta_i 之外的编解码器其余部分，而 I(\cdot ; \cdot \mid \cdot) 是条件互信息。条件形式在这里至关重要：它所隔离的是 \theta_i 的边际预测贡献，而不是它与其他重叠分量共同构成的联合贡献。

与主论文公式 T9-3 的比较。 主论文中的 MDL 剪枝量为

\Delta_{\mathrm{MDL}}(\theta_i) \;=\; I\!\left(\theta_i\,;\,X_{t+1:t+\tau} \mid \theta_{-i}\right) - \lambda K(\theta_i) \tag{T9-3, preprint §3.6.3}

T-9 将第一项明确命名为 G_i(t,\tau)，以便能够将“预测增益”这一原语与阈值形式的剪枝条件分开引用。这纯粹是记号上的整合；不等式本身保持不变。

窗口长度 \tau。 预测增益依赖于窗口长度。较短的 \tau 捕捉细时间尺度上的预测（运动控制、工作记忆）；较长的 \tau 捕捉结构性预测（语义规律性、叙事连贯性）。维护周期的第一遍剪枝是在较长 \tau 的区间上评估的，在该区间中，真正无用的分量满足 G_i \to 0。相比之下，第二遍整合则是在较短 \tau 的区间上进行优化，在那里，重叠分量之间的冗余会变得显著。

§3. 维护成本 C_i —— 资源容量优先

组件 \theta_i 的维护成本有两种彼此兼容的表述形式。

形式 3.1 —— 资源容量（T-9 的主要形式）。 组件的成本，是它在编解码器运行基底中所占据的资源容量：

C_i \;:=\; c_i^{\text{params}} + c_i^{\text{memory}} + c_i^{\text{compute}} + c_i^{\text{channel}} \tag{T9.3-1}

其中四类预算分别为：参数槽位（权重或连接的数量）；内存占用（以存储的比特数计）；计算成本（每周期的操作次数）；以及通道容量（该组件在马尔可夫毯边界 \partial_R A 处消耗的带宽比特数）。每个 c_i 原则上都是可观测的——对于生物编解码器，可通过代谢与生理测量获得；对于合成编解码器，则可通过直接仪器测量获得。

形式 3.2 —— K-复杂度近似。 主论文公式 T9-3 使用 \lambda K(\theta_i)，其中 K(\theta_i) 是该组件的前缀柯尔莫哥洛夫复杂度：

C_i^{\text{K-approx}} \;:=\; \lambda \cdot K(\theta_i) \tag{T9.3-2}

这是一种结构对应近似：K-复杂度是上半可计算的，并且在不同组件之间并不严格可加（删除某一组件，未必会使最短描述长度恰好减少其独立的 K(\theta_i)，因为组件之间可能共享结构）。因此，资源容量形式（T9.3-1）对于操作性主张而言是主要形式；而 K-复杂度形式则保留用于那些可接受可加性近似的理论分析。

为何有两种形式。 OpenAI 对 T-12 的审阅（appendix-corrections 备忘录 §2.8）正确指出，K-复杂度在组件之间并不可加，并建议对于操作性主张采用资源容量度量。T-9 因而将资源容量作为主要形式，但仍保留 K-复杂度形式，因为现有主论文公式 T9-3 以及 T-12 的定理 T-12 证明都引用了 K-复杂度形式。对于 v3.7.0 或更高版本中的清理修订而言，资源容量细化是针对 §3.6.3 / §3.6.4 / T-12 / T-13 更为整洁的表述；T-9 同时提供这两种形式，从而使最终清理能够以连贯方式执行，而不必要求所有引用这些位置的内容同时一并修复。

\lambda 的调节。 在形式 3.2 中，参数 \lambda 用于权衡预测增益与复杂度成本。经验上观察到，\lambda 会随情感状态而变化——较高的 |E(b)|（预印本公式 T9-10）会在组件层面上有效提高 \lambda，使带有情感标记的组件更不易被剪枝。这就是对情绪记忆增强的形式化说明（预印本 §3.6.5，Pass III）。

§4. 剪枝条件——阈值形式

剪枝条件采用阈值形式，而不是主论文公式 T9-4 的严格正值形式。OpenAI 对 T-12 的审阅（appendix-corrections 备忘录 §2.8 更正 3）正确指出，将严格的 I = 0 作为剪枝条件过于脆弱：现实中的组件即使其主要预测作用已被滤波输入排除，仍可能保有微弱的间接预测贡献。

阈值形式的剪枝条件为：

\text{Prune } \theta_i \quad \text{if} \quad G_i(t, \tau) \;<\; C_i \;-\; \epsilon \tag{T9.4-1}

其中 \epsilon > 0 是一个小的保留缓冲，用于调节编解码器的剪枝激进程度。其等价不等式形式为：

G_i(t, \tau) - C_i \;<\; -\epsilon \quad \Longleftrightarrow \quad I\!\left(\theta_i; X_{t+1:t+\tau} \mid \theta_{-i}\right) \;<\; C_i - \epsilon \tag{T9.4-2}

与主论文公式 T9-4 的比较。 主论文将 \Delta_{\mathrm{MDL}}(\theta_i) < 0 写作触发剪枝的条件，这对应于 \epsilon = 0——严格的收支平衡点。T-9 通过引入保留缓冲 \epsilon 对其进行了推广，这更准确地刻画了生物性剪枝动力学（其中微小的预测贡献会在瞬时噪声下被保留下来）以及合成编解码器的剪枝超参数（其中基于阈值的删除是标准做法）。

当 \epsilon \to 0 时，可恢复严格收支平衡的情形，因此 T-9 的形式并不会使 T-12 和 T-13 中现有的 T9-4 引用失效；它是对其的推广。

对叙事漂移的含义（交叉参见 T-12）。 在滤波输入 X' = \mathcal{F}(X) 且被排除信号为 \mathcal{X}_{\text{excl}} 的条件下，那些其预测贡献仅指向 \mathcal{X}_{\text{excl}} 的组件 \theta_i，在滤波后的流上满足 G_i(t, \tau) \to 0（因为其目标在观测输入中缺失）。于是，剪枝条件 (T9.4-1) 被触发，因为对于任何正的成本分量，都有 0 < C_i - \epsilon。T-12 定理 T-12 的不可逆性结果正是由这一触发机制以及下文 §5 中的四模态区分共同导出的。

§5. 四种剪枝模态

剪枝操作（T9.4-1）在编解码器中允许四种彼此不同的实现方式，它们具有不同的可逆性性质。这一区分对于恢复条件（§6）以及 T-12 更正 1（appendix-corrections 备忘录 §2.8）中关于叙事漂移不可逆性的主张都至关重要。

模态 5.1 — 可逆抑制。 将分量 \theta_i 的输出权重降为零（或降至某个参与阈值以下），但该分量的参数与结构仍保存在编解码器中。恢复是直接的：重新加权即可恢复该分量。这一操作构成了条件作用中行为消退的基础（条件反应减弱，但痕迹仍然保留），也构成了神经网络中 dropout 式正则化的基础。

模态 5.2 — 权重衰减。 在与 \propto \lambda 成正比的正则化压力下，该分量的参数持续衰减并趋向某个默认状态。该分量并未被删除，但其保真度会下降；如果默认状态本身具有信息性，则仍可能实现部分恢复。

模态 5.3 — 表征性遗忘。 在巩固过程中（Pass II，preprint §3.6.4），该分量的参数被竞争性分量覆写。其结构槽位仍然保留，但特定表征已经丢失。恢复要求在后续某个维护周期中重新暴露于相关输入流之下，而且这种恢复只是部分的（重新学得的表征在细粒度细节上不同于原始表征）。

模态 5.4 — 架构性剪枝。 该分量的参数及其结构槽位都被删除；编解码器架构本身被缩减。在编解码器层面上，恢复是不可能的——该分量必须通过一次完整的学习过程从零重新生长出来。这是不可逆的模态。

过滤输入下的模态分类。 T-12 定理 T-12 的“不可逆性”主张（按现有 preprint 的表述）要求采用模态 5.4（架构性剪枝），并排除模态 5.1–5.3。T-9 将这种模态依赖性明确化；v0.4 appendix-corrections 备忘录 §2.8 更正 1（“irreversible 应当以 no protected archive / no replay buffer / no external teacher / no architectural reserve capacity / continued operation under the same filter / pruning is literal capacity deletion, not reversible suppression 为条件”）与模态 5.4 的解读是一致的。

真实的生物编解码器与合成编解码器通常都会呈现多种模态的混合，其中模态 5.4 通常保留给那些在多个维护周期中持续被剪除的分量。在持续过滤输入之下，从可逆剪枝向不可逆剪枝的转变，正是慢性叙事漂移（T-12）背后的结构性机制。

§6. 恢复条件

若存在某种过程，能够将被剪除的组分 \theta_i 恢复为重新参与编解码器的活跃部分，则该组分是可恢复的。在恢复窗口 \tau_R 上，其恢复概率为：

P\big(\text{recover } \theta_i \mid \tau_R\big) \;=\; P\big(\text{Modality 5.1 or 5.2}\big) \cdot p_{\text{restore}}(\tau_R) \;+\; P\big(\text{Modality 5.3 or 5.4}\big) \cdot p_{\text{regrow}}(\tau_R) \tag{T9.6-1}

第一项涵盖可逆或部分可逆的剪除（抑制、权重衰减）；第二项涵盖表征性遗忘与架构性剪除，在这些情形下，恢复需要外部输入。

只有在以下三个条件中至少有一个成立时，恢复才为正：

受保护的记忆。 编解码器在未被剪除的基底中保留了 \theta_i 的归档表征（独立缓存、版本控制备份、在神经生理上受保护并被巩固到不同区域的记忆）。在此条件下，模态 5.1 与 5.3 可以恢复。
外部教师 / 再暴露。 编解码器暴露于包含信号 \mathcal{X}_{\text{excl}} 的输入流，而该信号正是被剪除组分原先所追踪的信号。在后续某个维护周期的第二阶段中进行的主动再学习，会重建该组分（但需注意细粒度保真性方面的限制）。在此条件下，只要时间足够，四种模态都可以恢复，尽管模态 5.4 需要一次与最初习得相当的完整学习过程。
架构储备。 编解码器具有尚未承诺给特定组分的结构槽位，因此可以分配出来承载重新生长出的表征。这一条件决定了模态 5.4 的恢复在机制上是否根本可能。

如果 (1)、(2)、(3) 均不成立，则对所有 \tau_R，都有 P(\text{recover}\, \theta_i \mid \tau_R) = 0，且该剪除是永久性的。

基底保真条件。 T-12 的基底保真条件（定理 T-12b——穿过马尔可夫毯的 \delta-独立输入通道的冗余性）是条件 (2) 在线系尺度上的对应物：这些通道确保输入流即使在外部机制 \mathcal{F} 的滤除之下，仍持续包含与基底相关的信号。T-9 的恢复条件则给出了其在编解码器内部的实现：受保护的组分、回放缓冲区、架构储备。

§7. 推论——叙事漂移与行动漂移

T-9 的原始要素支撑了两条在附录 T-12 与 T-13 中展开的推论链。

推论 7.1 —— 叙事漂移（T-12）。 在持续的滤波输入 X' = \mathcal{F}(X) 排除了信号 \mathcal{X}_{\text{excl}} 的条件下： - 那些预测增益仅存在于 \mathcal{X}_{\text{excl}} 上的分量 \theta_i，在经过滤波的流上满足 G_i(t, \tau) \to 0。 - 剪枝条件（T9.4-1）会在所有此类分量上被触发。 - 若该剪枝属于模态 5.4（架构性）——而这在跨越多个维护周期的持续滤波下占主导——且恢复条件（§6 第 1–3 项）均不成立，则对 \mathcal{X}_{\text{excl}} 的建模能力将被永久丧失。 - 编解码器无法从其内部检测到自身能力的丧失（因为已丧失的分量不再参与预测误差的生成），从而重现了 T-12a 关于不可辨识性的主张。

完整的形式化处理见 T-12；T-9 提供了 T-12 更正 1 所要求的、关于“不可逆”的模态特定解读。

推论 7.2 —— 行动漂移（T-13）。 对未使用分支的行为评估能力进行编码的分量： - 其预测增益 G_i(t, \tau) 是相对于输入流中实际实现的分支结果来衡量的；如果某些分支从未被选择，则这些评估器就不会获得训练信号。 - 当未使用评估器的 G_i 下降到低于 C_i - \epsilon 时，剪枝条件被触发。 - 在模态 5.4 下，该评估器会被永久剪除；编解码器将在相应的行动域中变得自信而无能。

T-13 的命题 T-13.P1（行动漂移）是这一编解码器内部机制在线系尺度（行为库）上的实例。

交叉参照：线系层级的维护周期。 附录 T-15 §3 展开了生命体内部维护周期与系统发育精炼之间的结构对应关系。T-9 的四种剪枝模态分别映射为：暂时性的生态位收缩（5.1）、放松选择下的线系漂移（5.2）、生态位置换（5.3）以及线系灭绝（5.4）。恢复条件（§6）则映射到系统发育冗余：受保护的避难所（1）、在生态位恢复下的生态再暴露（2），以及发育储备能力（3）。

§8. 与主论文 §3.6 方程的关系

T-9 起到的是整合作用，而非替代作用。主论文中的方程 T9-1 至 T9-13（预印本 §3.6.1–§3.6.6）均按原引文保留；T-9 引入了额外的形式原语与细化内容，作为对它们的补充。

主论文	T-9
T9-1 (K(P_\theta(t)) \le C_{\text{ceil}}) — 总复杂度上限	§1 设定
T9-2 (\mathcal{M}_\tau : P_\theta(t) \to P_\theta(t + \tau)) — 维护周期算子	§1 设定
T9-3 (\Delta_{\mathrm{MDL}}(\theta_i) = I(\theta_i; X \mid \theta_{-i}) - \lambda K(\theta_i)) — MDL 剪枝量	§2 预测增益 G_i + §3 维护成本 C_i（形式 3.2 的 K-近似）
T9-4（若 \Delta_{\mathrm{MDL}} < 0 则剪枝）— 剪枝条件	§4 阈值形式（T9.4-1，其中 \epsilon \to 0）
T9-5（Landauer 剪枝成本）— 热力学下界	§5 模态依赖性（不可逆性适用于模态 5.4）
T9-6 (\Delta K_{\text{prune}}) — 剪枝容量恢复	§3 + §5（资源—容量形式使这种核算在各模态上可加）
T9-7 / T9-8 (\Delta K_{\text{compress}}) — 巩固增益	§1 设定（Pass II）— T-9 不重新推导巩固过程
T9-9 / T9-10 (w(b), E(b)) — REM 重要性加权	§3（\lambda 的情感调谐）— T-9 不重新推导 REM 采样
T9-11 — REM 采样分布	不变 — T-9 不重新推导 Pass III
T9-12 / T9-13 — 净复杂度预算	§1 设定 — T-9 的资源—容量形式细化了预算核算

T-9 中净新增的内容： 显式的预测增益 G_i(t,\tau) 定义（§2）；以资源—容量成本框架为主的表述（§3 形式 3.1）；带保留缓冲 \epsilon 的阈值形式剪枝条件（§4）；四种剪枝模态（§5）；恢复条件（§6）；对 T-12 不可逆性主张的模态特定解读（§7.1）。

§9. 开放边缘问题

与 T-12 的通道独立性重述（第 4 阶段）之协调。 T-12 已进入附录修正队列（v0.4 §2.8），将对通道独立性条件作出重述：独立的是滤波机制，而非信号。T-9 的剪枝条件（§4）与恢复条件（§6）均按与该重述相协调的方式撰写，但一旦重述后的通道独立性定义正式确立，T-12 的定理 T-12 证明仍需重新审查。具体而言：T-12 §3.1 中关于不可逆性的论断目前引用 T9-3 / T9-4；在 v3.7.0 清理后，应改为引用 T-9 的 §4 阈值形式 + §5 模态分类 + §6 恢复条件，并将不可逆性的解读限制在“无恢复条件”情形下的模态 5.4。待定。

资源容量与 K-复杂度记账的协调统一。 §3 同时提供了两种形式，但并未推导它们之间的定量对应关系。对于某些组件类别，这两者关系密切（例如，对记忆化查找表而言，C_i^{\text{params}} \sim K(\theta_i) 在常数因子内成立）；而对另一些类别，它们则显著分离（跨组件共享的组合结构会带来 K-复杂度节省，而资源容量形式无法捕捉这一点）。最好在 v3.7.0 或之后版本中完成这种协调。待定。

虚拟解读中立性（v3.6.21）。 完全虚拟的常驻状态解读（主文 §8.6.1）将维护周期重述为通过滤波器之流的属性，而非一台运行中的机器的属性，但这并不意味着对 Form 3.1 / Form 3.2 的记账层级进行重新分层：Form 3.1（资源容量）仍是所有操作性论断的首要形式，T-12 的实际证明也继续使用它。流原生的可压缩性解读仅作为 T-12 §3.1 所注明的解释层进入。上文所述的 K-可加性协调，才是未来任何 Form 重新分层应当展开论证之处——而不是虚拟解读本身。待定（不要将其与 v3.7.0 清理混为一谈）。

\epsilon 的经验校准。 (T9.4-1) 中的保留缓冲 \epsilon 是一个有效的剪枝超参数。其经验生物学取值可来自神经剪枝研究（突触衰减阈值、树突棘保留率），或来自 opt-ai-subject 原型中的 Δ_self^op 渐近实验。T-9 并未推导出一个具体数值。待定。

与维护周期经验预测的交叉链接。 预印本 §3.6.7 列出了维护周期（睡眠 / 梦境 / 巩固）的经验预测。T-9 的四种剪枝模态给出了更细粒度的预测：例如，“REM 梦境会不成比例地采样高重要性分支”（预印本 §3.6.5，Pass III）这一预测，可以分解为关于不同类型表征的模态特异性预测——这些表征究竟是由模态 5.1（针对剪枝的按重要性加权保留）所保留，还是由模态 5.4 所删除（在清醒经验中缺失高重要性分支时，会导致相应评估器的架构性删除）。待定。

本附录作为 OPT 项目代码库的一部分，与 opt-theory.md 一并维护。对预印本 §3.6 中维护周期原语的引用予以保留；T-9 则补充了显式预测增益 G_i（§2）、资源容量成本（§3 Form 3.1）、带保留缓冲 \epsilon 的阈值形式剪枝条件（§4）、四种剪枝模态（§5）以及恢复条件（§6）。相关推论引用：T-12（叙事漂移）§3.6.3；T-13（Action-Drift）§6；T-15（系统发育稳定性滤波器）§3。