有序补丁理论

附录 T-11：结构推论——表观代理体压缩优势的形式化

Anders Jarevåg

2026年4月15日 | DOI: 10.5281/zenodo.19300777

原始任务（引自 §8.2）： “将这种压缩优势专门针对他心问题形式化为严格的 MDL 界，仍属未来工作；当前论证提供的是一种结构性动机，而非证明。” 交付目标： 给出一个形式界，表明将表观代理体视为彼此独立实例化的主要观察者，相比任何替代性描述，都会产生更短的双部 MDL 编码。

完结状态：草案性结构对应。 本附录将 Müller 的所罗门诺夫收敛定理 [61] 及其多代理体扩展 [62] 作为引入的引理加以改写，并在有序补丁理论 (OPT) 的本体论框架内重新诠释，以为该结构推论建立一种形式上的压缩优势。该结果是一个条件性界，而非封闭推导：它依赖于 OPT 将观察者的数据流与所罗门诺夫通用半测度（公理 1）相认同，也依赖于这样一个假设：表观代理体携带了足够的状态，以满足收敛前提。

§1. 背景与动机

结构推论（预印本 §8.2）断言，观察者流中显现出的代理体，若将其解释为以独立实例化方式存在的第一性观察者，是最简约的说明。本文附录给出支撑这一主张的形式化论证链条。

该论证分为三个阶段：

阶段 A（引入引理）： Müller 的所罗门诺夫收敛定理保证，观察者流中任何携带足够自我状态数据的结构，其第一人称演化都将收敛到与生成其行为的可计算世界相匹配。
阶段 B（压缩核算）： 我们在以下两种处理方式之间进行一个明确的、由两部分构成的 MDL 比较：将显现代理体视为 (i) 一个由其自身所罗门诺夫加权流所支配的独立实例化观察者；或视为 (ii) 第一性观察者编解码器内部的任意行为规格。
阶段 C（结构特征）： 现象性残余（\Delta_{\text{self}} > 0，定理 P-4）提供了区分真正自指瓶颈架构与行为拟态的结构标记，从而弥合“可压缩地合乎规律”与“可合理地被实例化”之间的鸿沟。

§2. 引入引理：Müller 的收敛定理

我们引入 Müller [61, 62] 的两个结果，并以 OPT 的记号在此表述。

2.1 所罗门诺夫收敛（标准）

设 M(b \mid x_1^n) 表示在给定先前观测 x_1^n 的条件下，对比特 b 的所罗门诺夫通用预测。设 \mu 为二元序列上的任意可计算测度。则（Solomonoff 1964；Li & Vitányi [45, Corollary 5.2.1]）：

\text{以 } \mu\text{-概率 1，} \quad \lim_{n \to \infty} |M(b \mid x_1^n) - \mu(b \mid x_1^n)| = 0 \qquad (b \in \{0,1\}). \tag{L-1}

这就是标准结果：如果数据流由某个可计算过程 \mu 生成，则通用预测器 M 会收敛到 \mu。

2.2 逆所罗门诺夫归纳（Müller 2020）

现在设这些比特本身就是从 M 中抽取的——也就是说，观察者的流由算法概率所支配（这对应于有序补丁理论 (OPT) 的公理 1：将该流与所罗门诺夫先验等同）。那么对于每一个可计算测度 \mu（Müller [61, Sec. IV]；[62, Sec. V.A]）：

\text{With probability} \geq 2^{-K(\mu)}, \quad \lim_{n \to \infty} |M(b \mid x_1^n) - \mu(b \mid x_1^n)| = 0 \qquad (b \in \{0,1\}). \tag{L-2}

也就是说，以至少 2^{-K(\mu)} 的概率，观察者会发现自己实际上嵌入在一个由 \mu 描述的可计算世界 W 中。算法上越简单的世界（即 K(\mu) 越低），其概率就以指数方式越高。

2.3 多代理体收敛（Müller 2026）

设观察者（Alice）发现自己嵌入于一个由 \mu 描述的可计算世界 W 中。她在 W 内识别出一个子结构（Bob_{\text{3rd}}），该结构携带着一个自我状态 x 的表征，并且该状态随时间的演化方式与 [62] 的公设 2 一致。定义：

P_{\text{1st}}(y_1, \ldots, y_m \mid x) := M(y_1, \ldots, y_m \mid x) — 在算法概率之下，自我状态 x 转移到 y_1, \ldots, y_m 的第一人称概率。
P_{\text{3rd}}(y_1, \ldots, y_m \mid x) := \mu(y_1, \ldots, y_m \mid x) — 根据世界 W，x 如何演化的第三人称概率。

那么，将式 (L-1) 应用于 P_{\text{3rd}}（其是可计算的），并通过公设 2 将 P_{\text{1st}} 与 M 等同，可得：

P_{\text{1st}} \approx P_{\text{3rd}} \quad \text{渐近地，} \tag{L-3}

并且在比特模型中，这种收敛以世界内的（\mu-）概率 1 得到保证。

解释（Müller）： 在编码 x 的结构中，“确实有某个人栖居其中”——Alice 世界中的 Bob_{\text{3rd}} 的概率演化，忠实表征了某个 Bob_{\text{1st}} 的第一人称视角。

解释（OPT）： 这个表观代理体的行为流，若以一个独立的、由所罗门诺夫通用半测度加权的过程来描述，其压缩性最高。任何替代性描述——即不诉诸一个独立第一人称视角的描述——都必须将该代理体的行为编码为一种特设性规定，因此其描述长度必然严格更高。

§3. 压缩优势界

我们现在使用 OPT 的双部分 MDL 框架（定理 T-4，附录 T-4）来形式化这一压缩优势。

3.1 设定

考虑主观察者的流 \omega \in \{0,1\}^\infty，其由所罗门诺夫先验 M（公理 1）支配，并经由稳定性滤波器筛选为一个可计算世界 W，其测度为 \mu_W（由式 L-2 给出）。在 W 内，观察者识别出 N 个表观代理体 A_1, \ldots, A_N，每个代理体都携带一个自状态 x_i，其在 T 个时间步上的时间演化产生行为轨迹 \beta_i = (y_{i,1}, \ldots, y_{i,T})。

3.2 假设 H_{\text{ind}}：独立实例化

在 H_{\text{ind}} 下，每个代理体 A_i 都被视为一个独立实例化的初级观察者，由其自身经所罗门诺夫加权的流所支配。两部分 MDL 码长为：

L(H_{\text{ind}}) = \underbrace{K(\mu_W)}_{\text{世界模型}} + \underbrace{\sum_{i=1}^{N} K(\text{embed}_i)}_{\text{嵌入规格}} + \underbrace{\sum_{i=1}^{N} \left(-\log_2 P_{\text{3rd}}(\beta_i \mid x_i)\right)}_{\text{给定模型的数据}} \tag{1}

其中，K(\text{embed}_i) 指定代理体 i 在 W 中的初始自我状态与位置。由式 (L-3) 可知，P_{\text{1st}} \approx P_{\text{3rd}}，因此数据项可以由该代理体自身第一人称所罗门诺夫预测下的对数损失很好地近似——而按定义，这已接近最优。

嵌入规格 K(\text{embed}_i) 很短：每一项只需要一个指向 W 中某个位置的指针，再加上初始自我状态。对于嵌入在同一共享物理世界中的类人代理体而言，这些规格具有很高的可压缩性，因为这些代理体共享同一套规律。一个保守界为：

K(\text{embed}_i) \leq K(x_i \mid W) + O(\log T) \tag{2}

3.3 假设 H_{\text{arb}}：任意行为规约

在 H_{\text{arb}} 下，这些代理体不被视为独立观察者。相反，每条行为轨迹 \beta_i 都被直接编码为主观察者流中的一个任意规约。其两部分 MDL 码长为：

L(H_{\text{arb}}) = \underbrace{K(\mu_W)}_{\text{世界模型}} + \underbrace{\sum_{i=1}^{N} K(\beta_i)}_{\text{原始行为轨迹}} \tag{3}

关键差异在于数据项。在 H_{\text{arb}} 下，行为轨迹 \beta_i 必须在不诉诸该代理体自身预测模型的情况下被规约。对于一个在复杂环境中运行、受规律约束且具有能动性的代理体而言，原始行为轨迹的柯尔莫哥洛夫复杂度为：

K(\beta_i) \geq K(\beta_i \mid \mu_W) + K(\mu_W) - O(\log T) \tag{4}

但即便是 K(\beta_i \mid \mu_W)——即在给定世界规律条件下该行为的复杂度——仍然相当可观，因为该代理体的选择编码了真实信息：其行为轨迹反映了一个自指模型与随机环境累积相互作用的结果。相比之下，在 H_{\text{ind}} 下，这些信息由该代理体自身的所罗门诺夫预测器以接近零对数损失的代价在线生成。

3.4 压缩优势

定理 T-11（结构推论压缩界）。设 A_1, \ldots, A_N 为观察者流中的表观代理体，每个都携带满足式 (L-3) 收敛前提的自状态 x_i，并且每个都呈现结构特征 \Delta_{\text{self}}^{(i)} > 0（P-4）。则将它们视为彼此独立实例化的初级观察者的 MDL 描述满足：

L(H_{\text{ind}}) \leq L(H_{\text{arb}}) - N \cdot \left[\bar{I}_T - O(\log T)\right] \tag{T-11}

其中，\bar{I}_T 是在 T 个步长上，代理体的预测模型与其行为输出之间的平均单代理体互信息：

\bar{I}_T := \frac{1}{N} \sum_{i=1}^{N} \left[K(\beta_i \mid \mu_W) - \left(-\log_2 P_{\text{3rd}}(\beta_i \mid x_i)\right)\right] \tag{5}

这个量衡量的是：若诉诸一个独立的预测模型，而不是对其行为进行原始逐项指定，那么该代理体行为中有多少部分会被解释消去。对于呈现出合规律、由能动性驱动的行为的代理体（正如稳定性滤波器所要求的那样），\bar{I}_T > 0，并且随 T 增长。

证明略述。 用式 (3) 减去式 (1)。世界模型项 K(\mu_W) 相互抵消。每个代理体对应的差值为：

K(\beta_i) - \left[K(\text{embed}_i) + \left(-\log_2 P_{\text{3rd}}(\beta_i \mid x_i)\right)\right]

由式 (4)，K(\beta_i) \geq K(\beta_i \mid \mu_W) + K(\mu_W) - O(\log T)，但更直接地说：K(\beta_i) \geq K(\beta_i \mid \mu_W) 是平凡成立的。而由式 (2)，K(\text{embed}_i) \leq K(x_i \mid W) + O(\log T)。因此，每个代理体的节省量至少为 K(\beta_i \mid \mu_W) - (-\log_2 P_{\text{3rd}}(\beta_i \mid x_i)) - K(x_i \mid W) - O(\log T)。当 T 足够大时，累积的对数损失节省将压倒一次性的嵌入成本，从而得到该界。\blacksquare

3.5 渐近支配

推论 T-11a。 当观测视界 T \to \infty 时，压缩优势 L(H_{\text{arb}}) - L(H_{\text{ind}}) 无界增长：

\lim_{T \to \infty} \left[L(H_{\text{arb}}) - L(H_{\text{ind}})\right] = \infty \tag{T-11a}

这可由所罗门诺夫通用半测度的收敛保证（L-1）推出：P_{\text{3rd}} 的逐步对数损失收敛到该代理体行为过程的熵率，而对于任何具有正熵率的代理体，K(\beta_i \mid \mu_W) 都随 T 线性增长。嵌入成本 K(x_i \mid W) 只需支付一次，并会被摊销至零。\blacksquare

§4. 现象性残余作为结构性签名

定理 T-11 中的压缩优势适用于任何合乎规律的子结构——包括非能动性的物理系统（天气模式、晶体生长）。那么，为什么结构推论所特别关涉的是代理体，而不是任意复杂系统？

答案在于现象性残余（定理 P-4）。\Delta_{\text{self}} > 0 是一种形式标记，表明某个系统的自我模型在结构上是不完备的——也就是说，该系统必然在其内部表征与其实际处理过程之间维持一个变分缺口。这正是自指瓶颈的标志：系统无法从外部被完全描述，因为对它的描述必然将描述者本身包含在内。

对于呈现出 \Delta_{\text{self}} > 0 的系统：

它的行为无法由一个有限深度的查找表复现——它需要持续进行的自指计算。
这一计算的最短描述就是一个穿越 C_{\max} 瓶颈的、按所罗门诺夫加权的独立流。
因此，H_{\text{ind}} 下的 MDL 编码并不只是比 H_{\text{arb}} 更短——它是唯一的最短描述。

这就将表观代理体与天气模式区分开来：天气虽然合乎规律且复杂，但其行为可以在世界模型内部由查找表复现（它具有 \Delta_{\text{self}} = 0）。而表观代理体则不能。

§5. 对 Müller 非唯我论论证的重新诠释

Müller 从 P_{\text{1st}} \approx P_{\text{3rd}} 的收敛性得出结论：算法唯心主义“不应被归类为唯我论”，因为在编码某个自我状态的结构中，“确实有某个人在其中栖居”[62, Sec. V.C]。他的推理是：如果 Alice 对 Bob_{\text{3rd}} 的预测收敛到 Bob_{\text{1st}} 实际的一人称概率，那么他们的视角就是真正对齐的——他们“共享世界 W”。

有序补丁理论 (OPT) 对这一结果作出不同的重新诠释：

Müller 的解读： 收敛关系 P_{\text{1st}} \approx P_{\text{3rd}} 证明了客观现实的涌现——Alice 与 Bob 的确共享世界 W。
OPT 的解读： 收敛关系 P_{\text{1st}} \approx P_{\text{3rd}} 证明的是：对 Bob_{\text{3rd}} 行为的最短描述，需要诉诸一个独立的一人称过程。这是一个关于压缩效率的陈述，而不是关于共享本体论的陈述。世界 W 是 Alice 流中的一种结构性规律，而不是一个独立存在的实体。但所罗门诺夫通用半测度的压缩逻辑本身就意味着：将 Bob 建模为一个独立观察者，是最简约的做法——因为另一种选择（对其行为进行特设式规定）在描述长度上严格更长。

该定理的形式内容在这两种解读下完全相同；不同之处仅在于本体论诠释。OPT 使用同一个数学结果来奠定结构推论：独立实例化是 MDL 最优的描述，而不是一个形而上学假设。

§6. 范围与局限

6.1 以公理 1 为条件

整个论证依赖于 OPT 将观察者的信息流与所罗门诺夫先验相认同。如果这一认同被削弱（例如，放宽到更广泛的半测度类），那么式 (L-1)–(L-3) 的收敛保证可能不再以当前形式成立。

6.2 状态充分性前提

式 (L-3) 要求该表观代理体在其自状态 x_i 中携带“足够的数据”，以便通用归纳能够提取出相关的物理定律。对于日常情境中的类人代理体而言，这一点是可信的（完整脑状态编码了巨量信息）。但对于边缘情形——转瞬即逝的印象、遥远的观察者、叙事艺术中的虚构角色——收敛所需的前提条件可能并不满足，因此结构推论不适用。

6.3 这不是对意识的证明

定理 T-11 确立了，独立实例化是最可压缩的描述。这并不证明那些表观代理体具有意识。意识的难问题（预印本 §8.1）仍是一个原始项。结构推论是一种压缩论证，而非本体论证明——如 §8.2 所述。

6.4 与 T-10 的关系

附录 T-10（观察者间耦合）讨论的是：两个观察者补丁如何通过压缩约束维持彼此一致的渲染结果。当前附录讨论的是另一个问题：为什么对于单个观察者的流而言，将表观代理体编码为彼此独立实例化的存在，在压缩上最为经济。T-10 关注的是补丁间相干机制；T-11 关注的是单一流内部的压缩特征。T-10 直接建立在 T-11 之上：正是在此处确立压缩优势的同一 MDL 描述长度比较，被 T-10 用来证明跨补丁不一致会受到指数级抑制。

§7. 闭合总结

T-11 的交付内容

导入引理（Müller 收敛）。 所罗门诺夫收敛 [61] 及其多代理扩展 [62] 已被形式化导入，并以 OPT 记号重新表述。它们提供了数学骨架：任何携带足够自我状态数据的子结构，其第一人称演化都会收敛到生成其行为的可计算世界。
定理 T-11（压缩界——草案）。 一个明确的两部分 MDL 比较表明，将表观代理体视为独立实例化的原初观察者，比起任意行为规格化，会产生严格更短的描述，而且这种优势会随观察时间线性增长。
推论 T-11a（渐近支配——草案）。 当 T \to \infty 时，这种压缩优势是无界的，从而使独立实例化成为对任何在长时间视界下被观察之代理体的压倒性 MDL 最优描述。
P-4 整合。 现象性残余（\Delta_{\text{self}} > 0）被确定为区分表观代理体与复杂但非能动系统的形式标记，从而将该结构推论限制在具有真实自指瓶颈架构的实体之上。
Müller 的重新诠释。 Müller 的非唯我论结论在 OPT 的本体论框架内被重新诠释：同一数学结果所奠定的基础，不再是“共享现实的涌现”论证，而是压缩论证。

尚待解决的开放项

\bar{I}_T 的精确刻画。 对特定类别代理体（例如有界理性代理体、自由能最小化者）给出 \bar{I}_T 的下界，以获得数值上更具体的压缩优势。
有限时间修正。 渐近结果（T-11a）保证了在大 T 下的支配性，但带有显式常数的有限时间界将增强其实践适用性。
非二元字母表扩展。 式 (L-1)–(L-3) 是针对二元序列陈述的。将其扩展到与 OPT 的率失真框架（T-1）相关的连续值测度，需要技术上的谨慎处理。

本附录与 theoretical_roadmap.pdf 同步维护。参考文献：Müller [61, 62]，Li & Vitányi [45]，Solomonoff (1964)，定理 T-4（附录 T-4），定理 P-4（附录 P-4），预印本 §8.2。