有序补丁理论

附录 T-1：稳定性滤波器

Anders Jarevåg

2026年4月3日 | DOI: 10.5281/zenodo.19300777

原始任务 T-1：稳定性滤波器——完整的率失真规范 问题： 香农的率失真理论要求给出：一个源 X、一个重构字母表，以及一个失真函数 d(x, \hat{x})。预印本在未为 OPT 的基底明确这三个要素的情况下，调用了 R_{pred}(D)。 交付内容： 为 OPT 的率失真问题给出完整的 (\mathcal{X}, \hat{\mathcal{X}}, P_X, d) 规范。

本次修订区分了超额熵与统计复杂度，证明了有限视界下的 predictive-KL 恒等式，证明了一般下界 R_{T,h}(D)\ge E_{T,h}-D，并陈述了该下界何时取得的精确等号判据。C_{\max} 仍然是一个经验参数，而不是由率失真形式主义导出的量。
结项状态： 部分解决。四元组规范、predictive-KL 恒等式，以及一般下界 R_{T,h}(D) \geq E_{T,h}(\nu) - D 已经确立，并给出了精确的等号成立判据。先前那个泛化的闭式断言 R(D) = C_\mu - D 已被撤回；正确结果是该下界。C_{\max} 仍然是一个经验参数，而不是由率失真形式主义导出的量。

§0. 表述层级

工作性表述。 固定 T,h<\infty。令 X:=X_{1:T} 表示过去区块，Y:=X_{T+1:T+h} 表示在固定可计算平稳遍历测度 \nu\in\mathcal M 下的未来前瞻区块。定义有限视界预测信息 E_{T,h}(\nu):=I(X;Y). 当无限视界极限存在时，定义超额熵 E_\nu := I(\overleftarrow X;\overrightarrow X). 若 S 表示完整的 \epsilon-机因果状态，则定义统计复杂度 C_{\mu,\nu}:=H(S). 这些是彼此不同的量。本附录中的有限视界率失真问题是以 E_{T,h} 而非 C_{\mu,\nu} 来表述的。所罗门诺夫通用半测度 \xi 仅作为元先验加权进入（预印本公式 1）：各个 R(D) 曲线都是针对每个测度 \nu 分别计算的。需要完整混合测度 \xi 的结果将另行陈述。

§1. 完整四元组规范

1.1 源 X 与分布 P_X

固定一个定义在 \{0,1\}^\infty 上的可计算平稳遍历测度 \nu \in \mathcal{M}。该源即为按 \nu 分布的过程 (X_t)_{t \ge 1}。在元先验角色中，预印本公式 (1) 中的 \xi 以 w_\nu \approx 2^{-K(\nu)} 为每个此类 \nu 赋权。对于 \mathcal{M} 的一个固定成员，我们记 P_X = \nu。下文所有结果都逐测度地适用于 \nu；所罗门诺夫联系则通过 §4 中的支配界进入。

1.2 复制字母表 \hat{X}

对固定的 T,h，在过去块上定义一个有限视界的预测等价关系： x \sim_h x' \iff \nu(Y\in A\mid X=x)=\nu(Y\in A\mid X=x') \quad\text{对所有可测 }A\subseteq\{0,1\}^h\text{ 都成立。} 设 S_h 为 X 在 \sim_h 下的等价类。则 S_h 是在视界 h 上由 X 预测 Y 的极小充分统计量。

完整的 \epsilon-machine 因果状态 S 是当推广到半无限过去与完整未来时所得到的无限视界对象。本附录在有限视界的推导中使用 S_h，并将 S 保留给完整因果状态的极限。

可计算性状态。 对于一般可计算的 \nu，本附录并不主张预测状态划分可被精确计算。这里将其视为一个理想化的可测对象。只有对于被明确识别出的子类（如有限记忆过程），才主张其精确可计算性。

1.3 失真函数 d_h(x, z)

失真函数是 KL 预测散度： d_h(x,z):=D_{\mathrm{KL}}\!\big(P_\nu(Y\mid X=x)\,\|\,P_\nu(Y\mid Z=z)\big). 这里 Z 是由编码器 p(z\mid x) 产生的表征变量。当 Z=S_h 时，这就是精确的预测状态失真；当 Z 是一种粗化或随机代码时，P_\nu(Y\mid Z=z) 就是所诱导的预测律。

完整四元组

元素	定义
X	(X_t)_{t \ge 1} — 在 \nu \in \mathcal{M} 下的平稳遍历过程
\hat{X}	S_h — 有限视界预测状态
P_X	\nu — \mathcal{M} 的固定可计算成员；所罗门诺夫通用半测度 \xi 是元先验
d_h(x, z)	D_{\mathrm{KL}}( P_\nu(\cdot\\|x) \\| P_\nu(\cdot\\|z) ) — 视界 h 上的 KL 预测散度

§2. 四元组下 R_{T,h}(D) 的推导

§1 中四元组的率失真函数为：

R_{T,h}(D) = \min_{p(z|x) : \mathbb{E}[d_h(X,Z)] \le D} I(X ; Z)

2.1 KL 失真恒等式

令 X:=X_{1:T}，Y:=X_{T+1:T+h}，并令 Z 为由编码器 p(z\mid x) 产生的任意表征。由于 Z-X-Y 构成一个马尔可夫链， \mathbb E[d_h(X,Z)] = \mathbb E\!\left[D_{\mathrm{KL}}(P(Y\mid X)\|P(Y\mid Z))\right] = H(Y\mid Z)-H(Y\mid X) = I(X;Y\mid Z). 等价地， \mathbb E[d_h(X,Z)] = I(X;Y)-I(Z;Y)=E_{T,h}(\nu)-I(Z;Y). 因此，失真约束 \mathbb E[d_h(X,Z)]\le D 等价于 I(Z;Y)\ge E_{T,h}(\nu)-D.

2.2 信息瓶颈重述

失真约束将允许的编码器空间限制为满足 \mathbb{E}[d_h(X,Z)] \le D 的那些编码器。这与对 I(Z;Y) 施加下界约束精确对应，从而得到受约束的信息瓶颈问题。由于可达区域 \{(I(Z;Y), I(X;Z))\} 在标准的时间共享论证下是凸的，强对偶性成立。这使得我们可以使用信息瓶颈拉格朗日量（Tishby、Pereira 与 Bialek，1999 [28]）进行精确重述： \mathcal{L}[p(z|x)] = I(X ; Z) - \beta \cdot I(Z ; Y) 其中拉格朗日乘子 \beta 由 D 决定。IB 拉格朗日量描绘了压缩率与预测保真度之间的帕累托前沿。

2.3 主定理：一般下界与等号判据

我们为率失真函数建立如下界：

命题（一般下界与等号判据）。
对于任意编码器 p(z\mid x)，令 D:=\mathbb E[d_h(X,Z)]. 则 I(X;Z)=E_{T,h}(\nu)-D+I(X;Z\mid Y). 因此， R_{T,h}(D)\ge E_{T,h}(\nu)-D. 对于紧致的有限重构字母表，在连续性保证编码器上的下确界可达的情形下，给定失真 D 处取等号，当且仅当存在某个达到该失真的编码器，并满足 I(X;Z\mid Y)=0. 对于确定性编码器 Z=g(X)，这等价于 H(Z\mid Y)=0.

在零失真处，极小充分统计量 S_h 达到 R_{T,h}(0)=I(X;S_h)=H(S_h). 注意，一般而言，这个零失真率 H(S_h) 严格高于下界 E_{T,h}。二者之差是非负间隙 H(S_h) - E_{T,h} = H(S_h|Y)。从物理上看，这一间隙表征了过去中具有结构性的“存储信息”：仅凭未来窗口本身无法将其恢复。在零失真处取等号（H(S_h|Y)=0）是一种高度退化的情形，对复杂过程而言通常并不成立。

在完整因果状态极限下， R(0)=C_{\mu,\nu}=H(S). 这仅在特殊情形下才等于 E_\nu；一般而言，E_\nu < C_{\mu,\nu}。

2.4 更粗再现字母表下的行为

对于任意确定性的粗化 Z=g(S_h)， I(X;Z)=I(Z;Y)+I(X;Z\mid Y)=E_{T,h}(\nu)-D+I(X;Z\mid Y)\ge E_{T,h}(\nu)-D. 非负的松弛项 I(X;Z\mid Y) 仅当粗化后的表征能够由未来窗口 Y 恢复时才会消失。因此，更粗的字母表通常会产生严格位于直线 E_{T,h}-D 之上的率失真曲线。该直线是一个普适的下界，而不是通常可达到的包络线。任何在实践中可计算的编解码器都会对因果状态采用有限记忆近似，因此其曲线都位于这一界之上。

2.5 边界评估

极限	数值	解释
D = 0	R_{T,h}(0) = I(X; S_h)	精确的预测状态压缩；保留最大信息量
D = E_{T,h}	R_{T,h}(E_{T,h}) = 0	平凡表征；所有预测信息均被丢弃
D = D_{\min}	R_{T,h}(D_{\min}) \ge E_{T,h}(\nu) - D_{\min}	可行观察者的最小下界；稳定性滤波器阈值

(注：在无限时域极限下，零速率点对应的失真为 E_\nu，而不是 C_{\mu,\nu})

§3. C_{\max} — 表征与障碍

3.1 无限视界收敛引理

主定理（§2.3）为有限 (T, h) 情形建立了下界 R_{T,h}(D) \ge E_{T,h}(\nu) - D。现在我们说明，这一结果可推广到无限视界设定。

引理（无限视界扩展）。设 \nu 是定义在 \{0,1\}^\infty 上的平稳遍历测度。则：

E_{T,h}(\nu) = I(X_{1:T}\,;\,X_{T+1:T+h}) 关于 T 与 h 都是非递减的（由数据处理不等式可知：在平稳性条件下，对更长区块进行条件化，不会降低过去与未来之间的互信息）。
极限 E_\nu := \lim_{T,h \to \infty} E_{T,h}(\nu) 由单调收敛定理存在（可能为 +\infty）。
对每个固定的 D \ge 0，序列 R_{T,h}(D) 关于 T 是非递减的（更长的过去不可能降低最优压缩速率），并且关于 h 也是非递减的。关于 h 的单调性的证明略述： 失真函数在未来 h+1 步上分解为 d_{h+1}(x, z) = D_{\mathrm{KL}}\!\left(P_\nu(\cdot \mid x) \,\|\, P_z(\cdot \mid z)\right)，并可由链式法则写成 d_h(x,z) + D_{\mathrm{KL}}\!\left(P_\nu(X_{T+h+1} \mid x, X_{T+1:T+h}) \,\|\, P_z(X_{T+h+1} \mid z, X_{T+1:T+h})\right)。由于第二项非负，故逐点有 d_{h+1} \geq d_h。因此约束集合 \{P(z|x) : E[d_{h+1}] \leq D\} \subseteq \{P(z|x) : E[d_h] \leq D\}，而在更小的可行集上取极小值不可能降低速率：R_{T,h+1}(D) \geq R_{T,h}(D)。
因而，R_\nu(D) := \lim_{T,h \to \infty} R_{T,h}(D) 存在。

由于 R_{T,h}(D) \ge E_{T,h}(\nu) - D 在每一个有限阶段都成立，且两边都单调收敛，因此该下界可传递到极限：

R_\nu(D) \ge E_\nu - D

这就是下文命题 T-1a 与 T-1c 所援引的无限视界下界。注意： 对于满足 E_\nu = +\infty 的过程（例如当 k \to \infty 时的高阶 de Bruijn 循环），该下界是平凡成立的；对于任何有限的 C_{\max}，这类过程都被排除在观察者相容集合 O_{C_{\max},D_{\min}} 之外。

3.2 由稳定性滤波器对 M 的划分 — 命题 T-1a

命题 T-1a（非平凡划分）。
固定经验性的 C_{\max}>0、\Delta t>0 与 D_{\min}\ge0。定义 O_{C_{\max},D_{\min}} := \{\nu\in\mathcal M: R_\nu(D_{\min})\le C_{\max}\Delta t\}. 则 O_{C_{\max},D_{\min}} 及其补集均非空。

证明。 常值过程属于 O_{C_{\max},D_{\min}}，因为它具有 E_\nu=0 且 R_\nu(D)=0。
对于补集，取一个阶数为 k 的二元 de Bruijn 循环过程：即一个周期为 2^k、相位均匀的平稳遍历二元过程，其中每个长度为 k 的词在每个循环中恰好出现一次。对于该过程， E_\nu=C_{\mu,\nu}=k. 因此 R_\nu(D_{\min})\ge k-D_{\min}. 选取 k>C_{\max}\Delta t + D_{\min}，即可得到 R_\nu(D_{\min})>C_{\max}\Delta t，故 \nu\notin O_{C_{\max},D_{\min}}。\square

3.3 C_{\max} 的定义/刻画 — T-1b

定义 T-1b（经验性带宽参数）。
C_{\max} 被视为一个经验性的意识可及带宽参数，且外在于率失真形式主义。给定 C_{\max}，定义与观察者相容的类别 O_{C_{\max},D_{\min}} := \{\nu\in\mathcal M: R_\nu(D_{\min})\le C_{\max}\Delta t\}. 如果希望对一个单独指定的参考类 \mathcal{O}_{ref} 进行概括，可定义 C^{ref}_{max}:=\frac{1}{\Delta t}\sup_{\nu\in\mathcal{O}_{ref}}R_\nu(D_{\min}). 这是所选类别的一个概括性统计量，而不是该类别本身的定义。

3.4 非涌现屏障 — 证明略述 T-1c

证明略述 T-1c（仅凭 \xi 不存在有限的普适上界）。
所罗门诺夫通用半测度 \xi 对每一个可计算测度 \nu\in\mathcal M 都赋予正的先验权重。类 \mathcal M 包含平稳遍历的二元过程，其超额熵 E_\nu 可以任意大（例如，上述 de Bruijn 族）。由于 R_\nu(D_{\min})\ge E_\nu-D_{\min}, 因此，不存在仅由 \xi 单独推出、对整个支撑集都成立的 R_\nu(D_{\min}) 的有限上界。故而，任何有限的 C_{\max} 都需要超出裸所罗门诺夫先验之外的额外经验输入或类别限制性输入。 \square

§4. 与所罗门诺夫元先验的联系

§1中的四元组与§2中的 R(D) 推导，都是按每个测度 \nu 分别陈述的。所罗门诺夫联系——即元先验 \xi 如何对观察者兼容的流赋权——是一种结构对应，而非一种推导。

对于任意观察者兼容的 \nu \in O_{C_{\max},D_{\min}}，率失真平衡保证压缩流 z_{0:T} 是稳定性滤波器所选出的表征。所罗门诺夫先验 \xi 为该 \nu 赋予权重 w_\nu \approx 2^{-K(\nu)}：更简单（K 更低）的观察者兼容过程，在 \xi 下呈指数级更可能。这正是简约性论证（附录 T-4）的形式化表达：稳定性滤波器在 \xi 上运作时，会选择能够落入带宽约束之内的最简单编解码器。

T-4b 中的支配界可直接适用：对于任意可计算的物理学测度 \nu，只要 K(\nu) < \infty：

-\log \xi(y_{1:T}) \le -\log \nu(y_{1:T}) + K(\nu)

这保证了 OPT 的元先验 \xi 对观察者兼容流所赋予的概率，绝不会低于任何固定的可计算物理模型，至多只差该模型自身的描述长度 K(\nu)。

§5. 体验比特量子 h^\ast（E-1 预览）

给定对 C_{\max} 的经验取值，以及一个经验性的意识更新时间窗 \Delta t，定义 h^*:=C_{\max}\Delta t. 对于 C_{\max}\approx 10 bits/s 且 \Delta t\in[50,80] ms， h^*\approx 0.5\text{–}0.8 比特/每个意识时刻。

任何满足 E_{T,h}(\nu) - D_{\min} > h^\ast 的平稳遍历过程 \nu \in \mathcal{M}，都会合法触发叙事崩解。这是因为 R_{T,h}(D_{\min}) \ge E_{T,h} - D_{\min} > h^\ast = C_{\max} \Delta t，从而明确违反了相容性判据。然而，这只是坍塌的一个充分条件，而非严格必要条件：由于该下界很少是紧的（一般而言依 §2.4 有 R_{T,h} > E_{T,h} - D_{\min}），即使在 E_{T,h} - D_{\min} \le h^\ast 时，过程也可能发生叙事崩解。这为 E-1 提供了定量预测；对 \Delta t \in [40, 300] ms 取值的敏感性讨论见 E-1 附录。

§6. 闭合性总结

T-1 交付内容——修订后状态

四元组已在有限视界的预测设定中得到明确规定。
预测-KL 恒等式已被正确推导。
通用定理 R(D)=C_\mu-D 已被替换为正确的下界 R_{T,h}(D)\ge E_{T,h}-D 并附有精确的等号成立判据 I(X;Z\mid Y)=0。
零失真编码由最小充分统计量 S_h 加以刻画；在完整因果状态极限下，R(0)=C_{\mu,\nu}。
C_{\max} 被视为经验量，而非内部推导所得。
h^*=C_{\max}\Delta t 是经验参数化，而不是来自 §2 的定理。

本附录作为 OPT 项目仓库的一部分进行维护，并与 theoretical_roadmap.pdf 一并保存。