有序補丁理論

附錄 T-1：穩定性濾波器

Anders Jarevåg

2026年4月3日 | DOI: 10.5281/zenodo.19300777

原始任務 T-1：穩定性濾波器——完整的率失真規格 問題： 香農的率失真理論要求：一個來源 X、一個重建字母表，以及一個失真函數 d(x, \hat{x})。預印本援引了 R_{pred}(D)，卻未為 OPT 的基底明確指定這三個要素。 交付內容： 為 OPT 的率失真問題給出完整的 (\mathcal{X}, \hat{\mathcal{X}}, P_X, d) 規格。

本次修訂區分了超額熵與統計複雜度，證明了有限視界下的 predictive-KL 恆等式，證明了一般下界 R_{T,h}(D)\ge E_{T,h}-D，並陳述了該下界何時取得的精確等號條件。C_{\max} 仍是經驗參數，而非由率失真形式主義導出的量。
結案狀態： 部分解決。四元組規格、predictive-KL 恆等式，以及一般下界 R_{T,h}(D) \geq E_{T,h}(\nu) - D 均已建立，且附有精確的等號成立條件。先前較為籠統的封閉形式主張 R(D) = C_\mu - D 已被撤回；正確結果是該下界。C_{\max} 仍是經驗參數，而非由率失真形式主義導出的量。

§0. 表述層級

工作性表述。 固定 T,h<\infty。令 X:=X_{1:T} 表示過去區塊，並令 Y:=X_{T+1:T+h} 表示在固定的可計算平穩遍歷測度 \nu\in\mathcal M 下的未來前瞻區塊。定義有限視界的預測資訊 E_{T,h}(\nu):=I(X;Y). 當無限視界極限存在時，定義超額熵 E_\nu := I(\overleftarrow X;\overrightarrow X). 若 S 表示完整的 \epsilon-machine 因果狀態，則定義統計複雜度 C_{\mu,\nu}:=H(S). 這些是彼此不同的量。本附錄中的有限視界率失真問題是以 E_{T,h} 表述，而非以 C_{\mu,\nu} 表述。所羅門諾夫通用半測度 \xi 僅作為後設先驗加權引入（預印本公式 1）：各別的 R(D) 曲線皆是針對每一個測度 \nu 分別計算。凡是需要完整混合 \xi 的結果，將另行陳述。

§1. 完整四元組規格

1.1 來源 X 與分佈 P_X

固定一個可計算的平穩遍歷測度 \nu \in \mathcal{M} 於 \{0,1\}^\infty 上。來源即為依照 \nu 分佈的過程 (X_t)_{t \ge 1}。就元先驗的角色而言，預印本式（1）中的 \xi 會以 w_\nu \approx 2^{-K(\nu)} 對每個此類 \nu 加權。對於 \mathcal{M} 中固定的一個成員，我們寫作 P_X = \nu。以下所有結果皆逐測度 \nu 成立；所羅門諾夫的連結則透過 §4 中的支配界進入。

1.2 再生字母表 \hat{X}

對固定的 T,h，在過去區塊上定義一個有限視界的預測等價關係： x \sim_h x' \iff \nu(Y\in A\mid X=x)=\nu(Y\in A\mid X=x') \quad\text{對所有可測 }A\subseteq\{0,1\}^h. 令 S_h 為 X 在 \sim_h 之下的等價類。則 S_h 是在視界 h 下，從 X 預測 Y 的最小充分統計量。

完整的 \epsilon-machine 因果狀態 S，是在轉向半無限過去與完整未來時所得到的無限視界對象。本附錄以 S_h 用於有限視界的推導，並保留 S 以表示完整因果狀態的極限。

可計算性狀態。 對一般可計算的 \nu，本附錄並不主張預測狀態劃分可被精確計算。此處將其視為一個理想化的可測對象。只有對明確辨識出的子類別（例如有限記憶過程），才主張其精確可計算性。

1.3 失真函數 d_h(x, z)

失真函數即為 KL 預測散度： d_h(x,z):=D_{\mathrm{KL}}\!\big(P_\nu(Y\mid X=x)\,\|\,P_\nu(Y\mid Z=z)\big). 此處的 Z 是由編碼器 p(z\mid x) 產生的表徵變數。當 Z=S_h 時，這就是精確的預測狀態失真；當 Z 是一種粗化或隨機編碼時，P_\nu(Y\mid Z=z) 則是所誘導出的預測律。

完整四元組

元素	定義
X	(X_t)_{t \ge 1} — 在 \nu \in \mathcal{M} 下的平穩遍歷過程
\hat{X}	S_h — 有限視界預測狀態
P_X	\nu — \mathcal{M} 的固定可計算成員；所羅門諾夫通用半測度 \xi 為後設先驗
d_h(x, z)	D_{\mathrm{KL}}( P_\nu(\cdot\\|x) \\| P_\nu(\cdot\\|z) ) — 視界 h 上的 KL 預測散度

§2. 四元組下 R_{T,h}(D) 的推導

§1 中四元組的率失真函數為：

R_{T,h}(D) = \min_{p(z|x) : \mathbb{E}[d_h(X,Z)] \le D} I(X ; Z)

2.1 KL 失真恆等式

令 X:=X_{1:T}、Y:=X_{T+1:T+h}，並令 Z 為任一由編碼器 p(z\mid x) 所產生的表徵。由於 Z-X-Y 構成一條馬可夫鏈， \mathbb E[d_h(X,Z)] = \mathbb E\!\left[D_{\mathrm{KL}}(P(Y\mid X)\|P(Y\mid Z))\right] = H(Y\mid Z)-H(Y\mid X) = I(X;Y\mid Z). 等價地， \mathbb E[d_h(X,Z)] = I(X;Y)-I(Z;Y)=E_{T,h}(\nu)-I(Z;Y). 因此，失真約束 \mathbb E[d_h(X,Z)]\le D 等價於 I(Z;Y)\ge E_{T,h}(\nu)-D.

2.2 資訊瓶頸的重述

失真約束將可允許的編碼器空間限制為滿足 \mathbb{E}[d_h(X,Z)] \le D 的那些編碼器。這恰好對應於為 I(Z;Y) 設定下界，從而得到受約束的資訊瓶頸問題。由於在標準的時間共享論證下，可達區域 \{(I(Z;Y), I(X;Z))\} 具有凸性，因此強對偶成立。這使我們得以使用資訊瓶頸拉格朗日量（Tishby, Pereira & Bialek 1999 [28]）進行精確重述： \mathcal{L}[p(z|x)] = I(X ; Z) - \beta \cdot I(Z ; Y) 其中拉格朗日乘子 \beta 由 D 決定。IB 拉格朗日量描繪出壓縮率與預測保真度之間的帕累托前沿。

2.3 主要定理：一般下界與等號判準

我們建立速率—失真函數的界限：

命題（一般下界與等號判準）。
對任意編碼器 p(z\mid x)，令 D:=\mathbb E[d_h(X,Z)]. 則 I(X;Z)=E_{T,h}(\nu)-D+I(X;Z\mid Y). 因此， R_{T,h}(D)\ge E_{T,h}(\nu)-D. 對於緊緻的有限重構字母表，若連續性保證對編碼器的下確界可被取到，則在給定失真 D 下，等號成立當且僅當存在某個達成該失真的編碼器，且滿足 I(X;Z\mid Y)=0. 對於確定性編碼器 Z=g(X)，這等價於 H(Z\mid Y)=0.

在零失真時，最小充分統計量 S_h 可達成 R_{T,h}(0)=I(X;S_h)=H(S_h). 請注意，一般而言，這個 H(S_h) 的零失真速率嚴格高於下界 E_{T,h}。兩者之差是非負間隙 H(S_h) - E_{T,h} = H(S_h|Y)。這個間隙在物理上表示過去中結構性「已儲存資訊」：僅靠未來視窗本身無法將其恢復。零失真下等號成立（H(S_h|Y)=0）是一種高度退化的情形，對複雜過程而言通常並不成立。

在完整因果狀態極限下， R(0)=C_{\mu,\nu}=H(S). 這僅在特殊情況下才等於 E_\nu；一般而言，E_\nu < C_{\mu,\nu}。

2.4 較粗再現字母表的行為

對於任意確定性的粗化 Z=g(S_h)， I(X;Z)=I(Z;Y)+I(X;Z\mid Y)=E_{T,h}(\nu)-D+I(X;Z\mid Y)\ge E_{T,h}(\nu)-D. 非負的鬆弛項 I(X;Z\mid Y) 只有在粗化後的表徵可由未來視窗 Y 回復時才會消失。因此，較粗的字母表通常會產生嚴格位於直線 E_{T,h}-D 之上的率失真曲線。該直線是一個普遍的下界，而非一般情況下可達成的包絡線。任何在實務上可計算的編解碼器，都會對因果狀態採用有限記憶近似，因此其曲線會位於此下界之上。

2.5 邊界評估

極限	數值	詮釋
D = 0	R_{T,h}(0) = I(X; S_h)	精確的預測狀態壓縮；保留最大資訊量
D = E_{T,h}	R_{T,h}(E_{T,h}) = 0	平凡表徵；所有預測資訊皆被捨棄
D = D_{\min}	R_{T,h}(D_{\min}) \ge E_{T,h}(\nu) - D_{\min}	可行觀察者的最低下界；穩定性濾波器門檻

(註：在無限視界極限下，零速率點位於失真 E_\nu，而非 C_{\mu,\nu})

§3. C_{\max} — 表徵與障礙

3.1 無限視域收斂引理

主定理（§2.3）對有限 (T, h) 建立了下界 R_{T,h}(D) \ge E_{T,h}(\nu) - D。現在我們說明，這一結果可延伸至無限視域的情形。

引理（無限視域延伸）。設 \nu 為定義於 \{0,1\}^\infty 上的平穩遍歷測度。則：

E_{T,h}(\nu) = I(X_{1:T}\,;\,X_{T+1:T+h}) 對 T 與 h 皆為非遞減（由資料處理不等式可知：在平穩性條件下，對更長區塊進行條件化，不會降低過去與未來之間的互資訊）。
由單調收斂可知，極限 E_\nu := \lim_{T,h \to \infty} E_{T,h}(\nu) 存在（可能為 +\infty）。
對每個固定的 D \ge 0，序列 R_{T,h}(D) 對 T 為非遞減（更長的過去不可能降低最佳壓縮率），且對 h 亦為非遞減。關於 h 上單調性的證明略述如下： 失真函數在未來 h+1 步上可分解為 d_{h+1}(x, z) = D_{\mathrm{KL}}\!\left(P_\nu(\cdot \mid x) \,\|\, P_z(\cdot \mid z)\right)，依鏈式法則可寫為 d_h(x,z) + D_{\mathrm{KL}}\!\left(P_\nu(X_{T+h+1} \mid x, X_{T+1:T+h}) \,\|\, P_z(X_{T+h+1} \mid z, X_{T+1:T+h})\right)。由於第二項非負，故逐點有 d_{h+1} \geq d_h。因此，限制集合 \{P(z|x) : E[d_{h+1}] \leq D\} \subseteq \{P(z|x) : E[d_h] \leq D\}，而在較小的可行集合上取極小值，不可能使速率下降：R_{T,h+1}(D) \geq R_{T,h}(D)。
因此，R_\nu(D) := \lim_{T,h \to \infty} R_{T,h}(D) 存在。

由於 R_{T,h}(D) \ge E_{T,h}(\nu) - D 在每一個有限階段都成立，且兩側皆單調收斂，因此此下界可傳遞至極限：

R_\nu(D) \ge E_\nu - D

這就是下文命題 T-1a 與 T-1c 所援引的無限視域下界。注意： 對於滿足 E_\nu = +\infty 的過程（例如當 k \to \infty 時的高階 de Bruijn 迴圈），此下界是平凡成立的；對任何有限的 C_{\max} 而言，這類過程皆被排除於 observer-compatible 集合 O_{C_{\max},D_{\min}} 之外。

3.2 由穩定性濾波器對 M 所作的劃分 — 命題 T-1a

命題 T-1a（非平凡劃分）。
固定經驗上的 C_{\max}>0、\Delta t>0 與 D_{\min}\ge0。定義 O_{C_{\max},D_{\min}} := \{\nu\in\mathcal M: R_\nu(D_{\min})\le C_{\max}\Delta t\}. 則 O_{C_{\max},D_{\min}} 與其補集皆非空。

證明。 常數過程屬於 O_{C_{\max},D_{\min}}，因為它具有 E_\nu=0 且 R_\nu(D)=0。
對於補集，取一個階數為 k 的二元 de Bruijn 週期過程：這是一個週期為 2^k、相位均勻的平穩遍歷二元過程，其中每個長度為 k 的字都在每一個週期中恰好出現一次。對此過程， E_\nu=C_{\mu,\nu}=k. 因此 R_\nu(D_{\min})\ge k-D_{\min}. 選取 k>C_{\max}\Delta t + D_{\min}，即可得 R_\nu(D_{\min})>C_{\max}\Delta t，故 \nu\notin O_{C_{\max},D_{\min}}。\square

3.3 C_{\max} 的定義／刻畫 — T-1b

定義 T-1b（經驗性頻寬參數）。
C_{\max} 被視為一個經驗性的意識可及頻寬參數，且外在於率失真形式主義。給定 C_{\max}，定義與觀察者相容的類別 O_{C_{\max},D_{\min}} := \{\nu\in\mathcal M: R_\nu(D_{\min})\le C_{\max}\Delta t\}. 若希望對一個另行指定的參考類別 \mathcal{O}_{ref} 加以摘要，則定義 C^{ref}_{max}:=\frac{1}{\Delta t}\sup_{\nu\in\mathcal{O}_{ref}}R_\nu(D_{\min}). 這是所選類別的一個摘要統計量，而不是該類別本身的定義。

3.4 非湧現障壁 — 證明綱要 T-1c

證明綱要 T-1c（僅由 \xi 無法得到有限的通用上界）。
所羅門諾夫通用半測度 \xi 對每一個可計算測度 \nu\in\mathcal M 都賦予正的先驗權重。類別 \mathcal M 包含平穩遍歷的二元過程，其超額熵 E_\nu 可以任意大（例如上文的 de Bruijn 族）。由於 R_\nu(D_{\min})\ge E_\nu-D_{\min}, 因此，無法僅從 \xi 導出對整個支撐集皆成立的有限上界 R_\nu(D_{\min})。故任何有限的 C_{\max} 都必須依賴於裸的所羅門諾夫先驗之外，額外的經驗性輸入或對類別的限制。 \square

§4. 與所羅門諾夫後設先驗的關聯

§1 的四元組與 §2 的 R(D) 推導，都是以每一測度 \nu 為單位陳述。所羅門諾夫連結——亦即後設先驗 \xi 如何對觀察者相容的流賦予權重——是一種結構對應，而非導出關係。

對於任意觀察者相容的 \nu \in O_{C_{\max},D_{\min}}，率失真平衡保證壓縮流 z_{0:T} 是穩定性濾波器所選出的表徵。所羅門諾夫先驗 \xi 對此 \nu 指派權重 w_\nu \approx 2^{-K(\nu)}：較簡單（較低 K）的觀察者相容過程，在 \xi 之下呈指數性地更為可能。這正是簡約性論證（附錄 T-4）的形式化表達：穩定性濾波器在 \xi 上運作時，會選出在頻寬限制內最簡單的編解碼器。

T-4b 的支配界可直接適用：對任意可計算的物理測度 \nu，只要 K(\nu) < \infty：

-\log \xi(y_{1:T}) \le -\log \nu(y_{1:T}) + K(\nu)

這保證 OPT 的後設先驗 \xi，對觀察者相容流所指派的機率，不會低於任何固定可計算物理模型所給出的機率，至多只差該模型自身的描述長度 K(\nu)。

§5. 體驗位元量子 h^\ast（E-1 預覽）

給定 C_{\max} 的經驗性取值，以及一個經驗性的意識更新時間窗 \Delta t，定義 h^*:=C_{\max}\Delta t. 對於 C_{\max}\approx 10 bits/s 且 \Delta t\in[50,80] ms， h^*\approx 0.5\text{–}0.8 即每個意識時刻約為 0.5–0.8 bits。

任何滿足 E_{T,h}(\nu) - D_{\min} > h^\ast 的平穩遍歷過程 \nu \in \mathcal{M}，都將合法地觸發敘事崩解。這是因為 R_{T,h}(D_{\min}) \ge E_{T,h} - D_{\min} > h^\ast = C_{\max} \Delta t，明確違反了相容性準則。然而，這只是坍塌的充分條件，而非嚴格必要條件：由於此下界很少是緊的（依 §2.4，通常有 R_{T,h} > E_{T,h} - D_{\min}），因此即使在 E_{T,h} - D_{\min} \le h^\ast 時，過程仍可能發生敘事崩解。這為 E-1 提供了定量預測；對 \Delta t \in [40, 300] ms 之選取的敏感性，將於 E-1 附錄中討論。

§6. 收束總結

T-1 交付項目 — 修訂後狀態

四元組已在有限視界的預測設定中被明確規定。
預測-KL 恆等式已被正確推導。
一般性定理 R(D)=C_\mu-D 已由正確的下界取代： R_{T,h}(D)\ge E_{T,h}-D 並附帶精確的等號成立準則 I(X;Z\mid Y)=0。
零失真編碼由最小充分統計量 S_h 加以刻畫；而在完整因果狀態極限下，R(0)=C_{\mu,\nu}。
C_{\max} 被視為經驗性的，而非內部導出。
h^*=C_{\max}\Delta t 是經驗參數化，而非來自 §2 的定理。

本附錄作為 OPT 專案儲存庫的一部分維護，並與 theoretical_roadmap.pdf 並列。