有序補丁理論

附錄 T-1:穩定性濾波器

Anders Jarevåg

2026年4月3日 | DOI: 10.5281/zenodo.19300777


原始任務 T-1:穩定性濾波器——完整的率失真規格 問題: 香農的率失真理論要求:一個來源 X、一個重建字母表,以及一個失真函數 d(x, \hat{x})。預印本援引了 R_{pred}(D),卻未為 OPT 的基底明確指定這三個要素。 交付內容: 為 OPT 的率失真問題給出完整的 (\mathcal{X}, \hat{\mathcal{X}}, P_X, d) 規格。

本次修訂區分了超額熵統計複雜度,證明了有限視界下的 predictive-KL 恆等式,證明了一般下界 R_{T,h}(D)\ge E_{T,h}-D,並陳述了該下界何時取得的精確等號條件。C_{\max} 仍是經驗參數,而非由率失真形式主義導出的量。
結案狀態: 部分解決。四元組規格、predictive-KL 恆等式,以及一般下界 R_{T,h}(D) \geq E_{T,h}(\nu) - D 均已建立,且附有精確的等號成立條件。先前較為籠統的封閉形式主張 R(D) = C_\mu - D 已被撤回;正確結果是該下界。C_{\max} 仍是經驗參數,而非由率失真形式主義導出的量。


§0. 表述層級

工作性表述。 固定 T,h<\infty。令 X:=X_{1:T} 表示過去區塊,並令 Y:=X_{T+1:T+h} 表示在固定的可計算平穩遍歷測度 \nu\in\mathcal M 下的未來前瞻區塊。定義有限視界的預測資訊 E_{T,h}(\nu):=I(X;Y). 當無限視界極限存在時,定義超額熵 E_\nu := I(\overleftarrow X;\overrightarrow X). S 表示完整的 \epsilon-machine 因果狀態,則定義統計複雜度 C_{\mu,\nu}:=H(S). 這些是彼此不同的量。本附錄中的有限視界率失真問題是以 E_{T,h} 表述,而非以 C_{\mu,\nu} 表述。所羅門諾夫通用半測度 \xi 僅作為後設先驗加權引入(預印本公式 1):各別的 R(D) 曲線皆是針對每一個測度 \nu 分別計算。凡是需要完整混合 \xi 的結果,將另行陳述。


§1. 完整四元組規格

1.1 來源 X 與分佈 P_X

固定一個可計算的平穩遍歷測度 \nu \in \mathcal{M}\{0,1\}^\infty 上。來源即為依照 \nu 分佈的過程 (X_t)_{t \ge 1}。就元先驗的角色而言,預印本式(1)中的 \xi 會以 w_\nu \approx 2^{-K(\nu)} 對每個此類 \nu 加權。對於 \mathcal{M} 中固定的一個成員,我們寫作 P_X = \nu。以下所有結果皆逐測度 \nu 成立;所羅門諾夫的連結則透過 §4 中的支配界進入。

1.2 再生字母表 \hat{X}

對固定的 T,h,在過去區塊上定義一個有限視界的預測等價關係: x \sim_h x' \iff \nu(Y\in A\mid X=x)=\nu(Y\in A\mid X=x') \quad\text{對所有可測 }A\subseteq\{0,1\}^h. S_hX\sim_h 之下的等價類。則 S_h 是在視界 h 下,從 X 預測 Y 的最小充分統計量。

完整的 \epsilon-machine 因果狀態 S,是在轉向半無限過去與完整未來時所得到的無限視界對象。本附錄以 S_h 用於有限視界的推導,並保留 S 以表示完整因果狀態的極限。

可計算性狀態。 對一般可計算的 \nu,本附錄並不主張預測狀態劃分可被精確計算。此處將其視為一個理想化的可測對象。只有對明確辨識出的子類別(例如有限記憶過程),才主張其精確可計算性。

1.3 失真函數 d_h(x, z)

失真函數即為 KL 預測散度: d_h(x,z):=D_{\mathrm{KL}}\!\big(P_\nu(Y\mid X=x)\,\|\,P_\nu(Y\mid Z=z)\big). 此處的 Z 是由編碼器 p(z\mid x) 產生的表徵變數。當 Z=S_h 時,這就是精確的預測狀態失真;當 Z 是一種粗化或隨機編碼時,P_\nu(Y\mid Z=z) 則是所誘導出的預測律。

完整四元組

元素 定義
X (X_t)_{t \ge 1} — 在 \nu \in \mathcal{M} 下的平穩遍歷過程
\hat{X} S_h — 有限視界預測狀態
P_X \nu\mathcal{M} 的固定可計算成員;所羅門諾夫通用半測度 \xi 為後設先驗
d_h(x, z) D_{\mathrm{KL}}( P_\nu(\cdot\|x) \| P_\nu(\cdot\|z) ) — 視界 h 上的 KL 預測散度

§2. 四元組下 R_{T,h}(D) 的推導

§1 中四元組的率失真函數為:

R_{T,h}(D) = \min_{p(z|x) : \mathbb{E}[d_h(X,Z)] \le D} I(X ; Z)

2.1 KL 失真恆等式

X:=X_{1:T}Y:=X_{T+1:T+h},並令 Z 為任一由編碼器 p(z\mid x) 所產生的表徵。由於 Z-X-Y 構成一條馬可夫鏈, \mathbb E[d_h(X,Z)] = \mathbb E\!\left[D_{\mathrm{KL}}(P(Y\mid X)\|P(Y\mid Z))\right] = H(Y\mid Z)-H(Y\mid X) = I(X;Y\mid Z). 等價地, \mathbb E[d_h(X,Z)] = I(X;Y)-I(Z;Y)=E_{T,h}(\nu)-I(Z;Y). 因此,失真約束 \mathbb E[d_h(X,Z)]\le D 等價於 I(Z;Y)\ge E_{T,h}(\nu)-D.

2.2 資訊瓶頸的重述

失真約束將可允許的編碼器空間限制為滿足 \mathbb{E}[d_h(X,Z)] \le D 的那些編碼器。這恰好對應於為 I(Z;Y) 設定下界,從而得到受約束的資訊瓶頸問題。由於在標準的時間共享論證下,可達區域 \{(I(Z;Y), I(X;Z))\} 具有凸性,因此強對偶成立。這使我們得以使用資訊瓶頸拉格朗日量(Tishby, Pereira & Bialek 1999 [28])進行精確重述: \mathcal{L}[p(z|x)] = I(X ; Z) - \beta \cdot I(Z ; Y) 其中拉格朗日乘子 \betaD 決定。IB 拉格朗日量描繪出壓縮率與預測保真度之間的帕累托前沿。

2.3 主要定理:一般下界與等號判準

我們建立速率—失真函數的界限:

命題(一般下界與等號判準)。
對任意編碼器 p(z\mid x),令 D:=\mathbb E[d_h(X,Z)]. I(X;Z)=E_{T,h}(\nu)-D+I(X;Z\mid Y). 因此, R_{T,h}(D)\ge E_{T,h}(\nu)-D. 對於緊緻的有限重構字母表,若連續性保證對編碼器的下確界可被取到,則在給定失真 D 下,等號成立當且僅當存在某個達成該失真的編碼器,且滿足 I(X;Z\mid Y)=0. 對於確定性編碼器 Z=g(X),這等價於 H(Z\mid Y)=0.

在零失真時,最小充分統計量 S_h 可達成 R_{T,h}(0)=I(X;S_h)=H(S_h). 請注意,一般而言,這個 H(S_h) 的零失真速率嚴格高於下界 E_{T,h}。兩者之差是非負間隙 H(S_h) - E_{T,h} = H(S_h|Y)。這個間隙在物理上表示過去中結構性「已儲存資訊」:僅靠未來視窗本身無法將其恢復。零失真下等號成立(H(S_h|Y)=0)是一種高度退化的情形,對複雜過程而言通常並不成立。

在完整因果狀態極限下, R(0)=C_{\mu,\nu}=H(S). 這僅在特殊情況下才等於 E_\nu;一般而言,E_\nu < C_{\mu,\nu}

2.4 較粗再現字母表的行為

對於任意確定性的粗化 Z=g(S_h) I(X;Z)=I(Z;Y)+I(X;Z\mid Y)=E_{T,h}(\nu)-D+I(X;Z\mid Y)\ge E_{T,h}(\nu)-D. 非負的鬆弛項 I(X;Z\mid Y) 只有在粗化後的表徵可由未來視窗 Y 回復時才會消失。因此,較粗的字母表通常會產生嚴格位於直線 E_{T,h}-D 之上的率失真曲線。該直線是一個普遍的下界,而非一般情況下可達成的包絡線。任何在實務上可計算的編解碼器,都會對因果狀態採用有限記憶近似,因此其曲線會位於此下界之上。

2.5 邊界評估

極限 數值 詮釋
D = 0 R_{T,h}(0) = I(X; S_h) 精確的預測狀態壓縮;保留最大資訊量
D = E_{T,h} R_{T,h}(E_{T,h}) = 0 平凡表徵;所有預測資訊皆被捨棄
D = D_{\min} R_{T,h}(D_{\min}) \ge E_{T,h}(\nu) - D_{\min} 可行觀察者的最低下界;穩定性濾波器門檻

(註:在無限視界極限下,零速率點位於失真 E_\nu,而非 C_{\mu,\nu})


§3. C_{\max} — 表徵與障礙

3.1 無限視域收斂引理

主定理(§2.3)對有限 (T, h) 建立了下界 R_{T,h}(D) \ge E_{T,h}(\nu) - D。現在我們說明,這一結果可延伸至無限視域的情形。

引理(無限視域延伸)。設 \nu 為定義於 \{0,1\}^\infty 上的平穩遍歷測度。則:

  1. E_{T,h}(\nu) = I(X_{1:T}\,;\,X_{T+1:T+h})Th 皆為非遞減(由資料處理不等式可知:在平穩性條件下,對更長區塊進行條件化,不會降低過去與未來之間的互資訊)。
  2. 由單調收斂可知,極限 E_\nu := \lim_{T,h \to \infty} E_{T,h}(\nu) 存在(可能為 +\infty)。
  3. 對每個固定的 D \ge 0,序列 R_{T,h}(D)T 為非遞減(更長的過去不可能降低最佳壓縮率),且對 h 亦為非遞減。關於 h 上單調性的證明略述如下: 失真函數在未來 h+1 步上可分解為 d_{h+1}(x, z) = D_{\mathrm{KL}}\!\left(P_\nu(\cdot \mid x) \,\|\, P_z(\cdot \mid z)\right),依鏈式法則可寫為 d_h(x,z) + D_{\mathrm{KL}}\!\left(P_\nu(X_{T+h+1} \mid x, X_{T+1:T+h}) \,\|\, P_z(X_{T+h+1} \mid z, X_{T+1:T+h})\right)。由於第二項非負,故逐點有 d_{h+1} \geq d_h。因此,限制集合 \{P(z|x) : E[d_{h+1}] \leq D\} \subseteq \{P(z|x) : E[d_h] \leq D\},而在較小的可行集合上取極小值,不可能使速率下降:R_{T,h+1}(D) \geq R_{T,h}(D)
  4. 因此,R_\nu(D) := \lim_{T,h \to \infty} R_{T,h}(D) 存在。

由於 R_{T,h}(D) \ge E_{T,h}(\nu) - D 在每一個有限階段都成立,且兩側皆單調收斂,因此此下界可傳遞至極限:

R_\nu(D) \ge E_\nu - D

這就是下文命題 T-1a 與 T-1c 所援引的無限視域下界。注意: 對於滿足 E_\nu = +\infty 的過程(例如當 k \to \infty 時的高階 de Bruijn 迴圈),此下界是平凡成立的;對任何有限的 C_{\max} 而言,這類過程皆被排除於 observer-compatible 集合 O_{C_{\max},D_{\min}} 之外。

3.2 由穩定性濾波器對 M 所作的劃分 — 命題 T-1a

命題 T-1a(非平凡劃分)。
固定經驗上的 C_{\max}>0\Delta t>0D_{\min}\ge0。定義 O_{C_{\max},D_{\min}} := \{\nu\in\mathcal M: R_\nu(D_{\min})\le C_{\max}\Delta t\}. O_{C_{\max},D_{\min}} 與其補集皆非空。

證明。 常數過程屬於 O_{C_{\max},D_{\min}},因為它具有 E_\nu=0R_\nu(D)=0
對於補集,取一個階數為 k 的二元 de Bruijn 週期過程:這是一個週期為 2^k、相位均勻的平穩遍歷二元過程,其中每個長度為 k 的字都在每一個週期中恰好出現一次。對此過程, E_\nu=C_{\mu,\nu}=k. 因此 R_\nu(D_{\min})\ge k-D_{\min}. 選取 k>C_{\max}\Delta t + D_{\min},即可得 R_\nu(D_{\min})>C_{\max}\Delta t,故 \nu\notin O_{C_{\max},D_{\min}}\square

3.3 C_{\max} 的定義/刻畫 — T-1b

定義 T-1b(經驗性頻寬參數)。
C_{\max} 被視為一個經驗性的意識可及頻寬參數,且外在於率失真形式主義。給定 C_{\max},定義與觀察者相容的類別 O_{C_{\max},D_{\min}} := \{\nu\in\mathcal M: R_\nu(D_{\min})\le C_{\max}\Delta t\}. 若希望對一個另行指定的參考類別 \mathcal{O}_{ref} 加以摘要,則定義 C^{ref}_{max}:=\frac{1}{\Delta t}\sup_{\nu\in\mathcal{O}_{ref}}R_\nu(D_{\min}). 這是所選類別的一個摘要統計量,而不是該類別本身的定義。

3.4 非湧現障壁 — 證明綱要 T-1c

證明綱要 T-1c(僅由 \xi 無法得到有限的通用上界)。
所羅門諾夫通用半測度 \xi 對每一個可計算測度 \nu\in\mathcal M 都賦予正的先驗權重。類別 \mathcal M 包含平穩遍歷的二元過程,其超額熵 E_\nu 可以任意大(例如上文的 de Bruijn 族)。由於 R_\nu(D_{\min})\ge E_\nu-D_{\min}, 因此,無法僅從 \xi 導出對整個支撐集皆成立的有限上界 R_\nu(D_{\min})。故任何有限的 C_{\max} 都必須依賴於裸的所羅門諾夫先驗之外,額外的經驗性輸入或對類別的限制。 \square


§4. 與所羅門諾夫後設先驗的關聯

§1 的四元組與 §2 的 R(D) 推導,都是以每一測度 \nu 為單位陳述。所羅門諾夫連結——亦即後設先驗 \xi 如何對觀察者相容的流賦予權重——是一種結構對應,而非導出關係。

對於任意觀察者相容的 \nu \in O_{C_{\max},D_{\min}},率失真平衡保證壓縮流 z_{0:T} 是穩定性濾波器所選出的表徵。所羅門諾夫先驗 \xi 對此 \nu 指派權重 w_\nu \approx 2^{-K(\nu)}:較簡單(較低 K)的觀察者相容過程,在 \xi 之下呈指數性地更為可能。這正是簡約性論證(附錄 T-4)的形式化表達:穩定性濾波器在 \xi 上運作時,會選出在頻寬限制內最簡單的編解碼器。

T-4b 的支配界可直接適用:對任意可計算的物理測度 \nu,只要 K(\nu) < \infty

-\log \xi(y_{1:T}) \le -\log \nu(y_{1:T}) + K(\nu)

這保證 OPT 的後設先驗 \xi,對觀察者相容流所指派的機率,不會低於任何固定可計算物理模型所給出的機率,至多只差該模型自身的描述長度 K(\nu)


§5. 體驗位元量子 h^\ast(E-1 預覽)

給定 C_{\max} 的經驗性取值,以及一個經驗性的意識更新時間窗 \Delta t,定義 h^*:=C_{\max}\Delta t. 對於 C_{\max}\approx 10 bits/s 且 \Delta t\in[50,80] ms, h^*\approx 0.5\text{–}0.8 即每個意識時刻約為 0.5–0.8 bits。

任何滿足 E_{T,h}(\nu) - D_{\min} > h^\ast 的平穩遍歷過程 \nu \in \mathcal{M},都將合法地觸發敘事崩解。這是因為 R_{T,h}(D_{\min}) \ge E_{T,h} - D_{\min} > h^\ast = C_{\max} \Delta t,明確違反了相容性準則。然而,這只是坍塌的充分條件,而非嚴格必要條件:由於此下界很少是緊的(依 §2.4,通常有 R_{T,h} > E_{T,h} - D_{\min}),因此即使在 E_{T,h} - D_{\min} \le h^\ast 時,過程仍可能發生敘事崩解。這為 E-1 提供了定量預測;對 \Delta t \in [40, 300] ms 之選取的敏感性,將於 E-1 附錄中討論。


§6. 收束總結

T-1 交付項目 — 修訂後狀態

  1. 四元組已在有限視界的預測設定中被明確規定。
  2. 預測-KL 恆等式已被正確推導。
  3. 一般性定理 R(D)=C_\mu-D 已由正確的下界取代: R_{T,h}(D)\ge E_{T,h}-D 並附帶精確的等號成立準則 I(X;Z\mid Y)=0
  4. 零失真編碼由最小充分統計量 S_h 加以刻畫;而在完整因果狀態極限下,R(0)=C_{\mu,\nu}
  5. C_{\max} 被視為經驗性的,而非內部導出。
  6. h^*=C_{\max}\Delta t 是經驗參數化,而非來自 §2 的定理。

本附錄作為 OPT 專案儲存庫的一部分維護,並與 theoretical_roadmap.pdf 並列。