有序補丁理論

附錄 T-11：結構推論——表觀代理體壓縮優勢的形式化

Anders Jarevåg

2026年4月15日 | DOI: 10.5281/zenodo.19300777

原始任務（出自 §8.2）：「將此壓縮優勢明確形式化為專門針對他心情形的嚴格 MDL 界限，仍有待未來工作；目前的論證是一種結構性動機，而非證明。」 交付內容： 給出一個形式界限，說明將表觀代理體視為彼此獨立實例化的主要觀察者，會比任何替代性描述產生更短的雙部分 MDL 編碼。

完結狀態：草稿性結構對應。 本附錄將 Müller 的所羅門諾夫收斂定理 [61] 及其多代理延伸 [62] 視為引入的引理，並在 OPT 的本體論框架內重新詮釋，以為結構推論建立一項形式上的壓縮優勢。此結果是一個條件性界限，而非封閉式推導：它依賴 OPT 將觀察者的流與所羅門諾夫先驗相識別（公理 1），並依賴這樣的假設：表觀代理體攜帶了足夠的狀態，以滿足收斂之前提條件。

§1. 背景與動機

結構推論（預印本 §8.2）主張，觀察者串流中所顯現的代理體，若以其作為主要觀察者而被獨立實例化來解釋，在簡約性上最為有利。本附錄提供支持此一主張的形式鏈條。

此一論證分為三個階段：

階段 A（引入引理）： Müller 的所羅門諾夫收斂定理保證，觀察者串流中任何承載足夠自我狀態資料的結構，其第一人稱演化都將收斂，並與生成其行為的可計算世界相匹配。
階段 B（壓縮核算）： 我們明確進行一個由兩部分構成的 MDL 比較：將表觀代理體視為 (i) 受其自身所羅門諾夫加權串流支配、且被獨立實例化的觀察者，與視為 (ii) 主要觀察者編解碼器內部的一個任意行為規格，兩者之間加以比較。
階段 C（結構特徵）： 現象性殘餘（\Delta_{\text{self}} > 0，定理 P-4）提供了一個結構性標記，用以區分真正具自我指涉瓶頸架構者與行為模仿，從而彌合「可壓縮地合乎法則」與「可合理視為已被實例化」之間的落差。

§2. 引入引理：Müller 的收斂定理

我們引入 Müller [61, 62] 的兩項結果，並以 OPT 的記號在此表述。

2.1 所羅門諾夫收斂（標準）

令 M(b \mid x_1^n) 表示在先前觀測 x_1^n 已知的條件下，對位元 b 的所羅門諾夫通用預測。令 \mu 為二元序列上的任意可計算測度。則（Solomonoff 1964；Li & Vitányi [45, Corollary 5.2.1]）：

\text{以 } \mu\text{-機率一而言，} \quad \lim_{n \to \infty} |M(b \mid x_1^n) - \mu(b \mid x_1^n)| = 0 \qquad (b \in \{0,1\}). \tag{L-1}

這是標準結果：若資料流由某個可計算過程 \mu 生成，則通用預測器 M 會收斂至 \mu。

2.2 逆所羅門諾夫歸納（Müller 2020）

現在假設這些位元是由 M 本身抽取——亦即，觀察者的流由演算法機率所支配（這對應於 OPT 的公理 1：將該流識別為所羅門諾夫先驗）。那麼對於每一個可計算測度 \mu（Müller [61, Sec. IV]；[62, Sec. V.A]）：

\text{以至少} \geq 2^{-K(\mu)} \text{的機率，} \quad \lim_{n \to \infty} |M(b \mid x_1^n) - \mu(b \mid x_1^n)| = 0 \qquad (b \in \{0,1\}). \tag{L-2}

也就是說，以至少 2^{-K(\mu)} 的機率，觀察者會發現自己實際上嵌入於一個由 \mu 描述的可計算世界 W 之中。演算法上越簡單的世界（較低的 K(\mu)）其機率會以指數方式更高。

2.3 多代理體收斂（Müller 2026）

假設觀察者（Alice）發現自己嵌入於一個由 \mu 描述的可計算世界 W 之中。她在 W 內辨識出一個子結構（Bob_{\text{3rd}}），此子結構承載了一個自我狀態 x 的表徵，而該狀態會隨時間演化，且其方式與 [62] 的公設 2 一致。定義：

P_{\text{1st}}(y_1, \ldots, y_m \mid x) := M(y_1, \ldots, y_m \mid x) — 在演算法機率之下，自我狀態 x 轉移至 y_1, \ldots, y_m 的第一人稱機率。
P_{\text{3rd}}(y_1, \ldots, y_m \mid x) := \mu(y_1, \ldots, y_m \mid x) — 依據世界 W 而言，x 如何演化的第三人稱機率。

那麼，將式 (L-1) 套用於 P_{\text{3rd}}（其為可計算的），並透過公設 2 將 P_{\text{1st}} 與 M 等同，可得：

P_{\text{1st}} \approx P_{\text{3rd}} \quad \text{asymptotically,} \tag{L-3}

且在位元模型中，這種收斂以世界內（\mu-）機率一得到保證。

詮釋（Müller）： 在編碼 x 的結構之中，「確實有某個主體棲居其中」—— Alice 的世界裡 Bob_{\text{3rd}} 的機率演化，忠實表徵了某個 Bob_{\text{1st}} 的第一人稱視角。

詮釋（OPT）： 這個表觀代理體的行為流，若以壓縮性來看，最簡潔的描述方式是將其視為一個獨立的、受所羅門諾夫通用半測度加權的過程。任何替代性描述——亦即不訴諸一個獨立第一人稱視角的描述——都必須把該代理體的行為編碼為一種特設規定，而其描述長度將嚴格更高。

§3. 壓縮優勢界限

我們現在使用 OPT 的雙部 MDL 框架（定理 T-4，附錄 T-4）來形式化壓縮優勢。

3.1 設定

考慮主要觀察者的流 \omega \in \{0,1\}^\infty，其由所羅門諾夫先驗 M（公理 1）所支配，並經由穩定性濾波器篩選為一個可計算世界 W，其測度為 \mu_W（依據式 L-2）。在 W 之內，觀察者辨識出 N 個表觀代理體 A_1, \ldots, A_N，每一個都攜帶一個自我狀態 x_i，其在 T 個步驟中的時間演化會產生一條行為軌跡 \beta_i = (y_{i,1}, \ldots, y_{i,T})。

3.2 假設 H_{\text{ind}}：獨立實例化

在 H_{\text{ind}} 之下，每個代理體 A_i 都被視為一個獨立實例化的主要觀察者，並由其自身經所羅門諾夫通用半測度加權的流所支配。其兩部分 MDL 碼長為：

L(H_{\text{ind}}) = \underbrace{K(\mu_W)}_{\text{world model}} + \underbrace{\sum_{i=1}^{N} K(\text{embed}_i)}_{\text{embedding specs}} + \underbrace{\sum_{i=1}^{N} \left(-\log_2 P_{\text{3rd}}(\beta_i \mid x_i)\right)}_{\text{data given model}} \tag{1}

其中，K(\text{embed}_i) 指定代理體 i 在 W 中的初始自我狀態與位置。依據式 (L-3)，P_{\text{1st}} \approx P_{\text{3rd}}，因此資料項可由該代理體自身第一人稱所羅門諾夫預測下的對數損失良好近似——而這依定義已接近最優。

嵌入規格 K(\text{embed}_i) 很短：每一項只需要一個指向 W 中某個位置的指標，再加上初始自我狀態。對於嵌入於共享物理世界中的類人代理體而言，這些規格具有高度可壓縮性，因為這些代理體共享相同的定律。一個保守的界為：

K(\text{embed}_i) \leq K(x_i \mid W) + O(\log T) \tag{2}

3.3 假設 H_{\text{arb}}：任意行為規格

在 H_{\text{arb}} 之下，這些代理體不被視為獨立的觀察者。相反地，每一條行為軌跡 \beta_i 都被直接編碼為主要觀察者流中的一個任意規格。其兩部分 MDL 碼長為：

L(H_{\text{arb}}) = \underbrace{K(\mu_W)}_{\text{世界模型}} + \underbrace{\sum_{i=1}^{N} K(\beta_i)}_{\text{原始行為軌跡}} \tag{3}

關鍵差異在於資料項。在 H_{\text{arb}} 之下，行為軌跡 \beta_i 必須在不訴諸該代理體自身預測模型的情況下被加以規定。對於一個在複雜環境中運作、受規律支配且由能動性驅動的代理體而言，原始行為軌跡的柯爾莫哥洛夫複雜度為：

K(\beta_i) \geq K(\beta_i \mid \mu_W) + K(\mu_W) - O(\log T) \tag{4}

然而，即使是 K(\beta_i \mid \mu_W)——亦即在給定世界規律時該行為的複雜度——仍然相當可觀，因為代理體的選擇編碼了真實資訊：其行為軌跡反映了一個自我指涉模型與隨機環境累積互動的結果。相較之下，在 H_{\text{ind}} 之下，這些資訊是由代理體自身的所羅門諾夫預測器以近乎零對數損失成本在線生成的。

3.4 壓縮優勢

定理 T-11（結構推論壓縮界）。設 A_1, \ldots, A_N 為觀察者串流中的表觀代理體，每一者皆攜帶自我狀態 x_i，並滿足式 (L-3) 的收斂前提，且各自展現結構特徵 \Delta_{\text{self}}^{(i)} > 0（P-4）。則將它們視為彼此獨立實例化之主要觀察者的 MDL 描述，滿足：

L(H_{\text{ind}}) \leq L(H_{\text{arb}}) - N \cdot \left[\bar{I}_T - O(\log T)\right] \tag{T-11}

其中，\bar{I}_T 是在 T 個步驟上，代理體的預測模型與其行為輸出之間、以每代理體平均計的互資訊：

\bar{I}_T := \frac{1}{N} \sum_{i=1}^{N} \left[K(\beta_i \mid \mu_W) - \left(-\log_2 P_{\text{3rd}}(\beta_i \mid x_i)\right)\right] \tag{5}

此量衡量的是：若訴諸一個獨立的預測模型，而非直接對其行為作原始指定，則該代理體行為中有多少部分可被解釋消去。對於展現出合律且由能動性驅動之行為的代理體（如穩定性濾波器所要求），\bar{I}_T > 0，且會隨 T 增長。

證明略述。 以式 (3) 減去式 (1)。世界模型項 K(\mu_W) 相互抵消。每個代理體的差值為：

K(\beta_i) - \left[K(\text{embed}_i) + \left(-\log_2 P_{\text{3rd}}(\beta_i \mid x_i)\right)\right]

由式 (4) 可知，K(\beta_i) \geq K(\beta_i \mid \mu_W) + K(\mu_W) - O(\log T)，但更直接地說：K(\beta_i) \geq K(\beta_i \mid \mu_W) 是平凡成立的。而由式 (2) 可得，K(\text{embed}_i) \leq K(x_i \mid W) + O(\log T)。因此，每個代理體所節省的描述長度至少為 K(\beta_i \mid \mu_W) - (-\log_2 P_{\text{3rd}}(\beta_i \mid x_i)) - K(x_i \mid W) - O(\log T)。當 T 充分大時，累積的對數損失節省將支配一次性的嵌入成本，從而得到該界。\blacksquare

3.5 漸近支配性

推論 T-11a。 當觀察視界 T \to \infty 時，壓縮優勢 L(H_{\text{arb}}) - L(H_{\text{ind}}) 會無界增長：

\lim_{T \to \infty} \left[L(H_{\text{arb}}) - L(H_{\text{ind}})\right] = \infty \tag{T-11a}

這可由所羅門諾夫通用半測度的收斂保證（L-1）推出：P_{\text{3rd}} 的每步對數損失會收斂至該代理體行為過程的熵率，而對任何具有正熵率的代理體而言，K(\beta_i \mid \mu_W) 都會隨 T 線性增長。嵌入成本 K(x_i \mid W) 只需支付一次，並會在攤銷後趨近於零。\blacksquare

§4. 現象性殘餘作為結構性標記

定理 T-11 中的壓縮優勢適用於任何合乎規律的子結構——包括非能動性的物理系統（天氣型態、晶體生長）。那麼，為何結構推論特別關注的是代理體，而不是任意複雜系統？

答案在於現象性殘餘（定理 P-4）。\Delta_{\text{self}} > 0 是一個形式標記，表示某個系統的自我模型在結構上是不完備的——亦即，一個系統必然在其內部表徵與其實際處理之間維持一個變分落差。這正是自我指涉瓶頸的標誌：該系統無法從外部被完整描述，因為對它的描述必然包含描述者本身。

對於呈現 \Delta_{\text{self}} > 0 的系統：

其行為無法由有限深度的查找表重現——它需要持續進行的自我指涉計算。
此一計算的最短描述就是一條穿越 C_{\max} 瓶頸、具有獨立性的所羅門諾夫加權流。
因此，在 H_{\text{ind}} 之下的 MDL 編碼不僅比 H_{\text{arb}} 更短——它更是唯一的最短描述。

這一點將表觀代理體與天氣型態區分開來：天氣雖然合乎規律且複雜，但其行為可以在世界模型內由查找表重現（它具有 \Delta_{\text{self}} = 0）。表觀代理體則不能。

§5. 對 Müller 非唯我論論證的重新詮釋

Müller 由 P_{\text{1st}} \approx P_{\text{3rd}} 的收斂得出結論：演算法唯心論「不應被歸類為唯我論」，因為在編碼某個自我狀態的結構中，「確實有某個人在其中安住」[62, Sec. V.C]。他的推理是：如果 Alice 對 Bob_{\text{3rd}} 的預測收斂到 Bob_{\text{1st}} 實際的第一人稱機率，那麼他們的視角就是真正對齊的——他們「共享世界 W」。

有序補丁理論 (OPT) 對此結果作出不同的重新詮釋：

Müller 的解讀： 收斂 P_{\text{1st}} \approx P_{\text{3rd}} 證明了客觀實在的湧現——Alice 與 Bob 確實共享世界 W。
OPT 的解讀： 收斂 P_{\text{1st}} \approx P_{\text{3rd}} 證明，對 Bob_{\text{3rd}} 行為的最短描述會訴諸一個獨立的第一人稱過程。這是關於壓縮效率的陳述，而不是關於共享本體論的陳述。世界 W 是 Alice 串流內部的一種結構性規律，而不是一個獨立存在的實體。然而，所羅門諾夫通用半測度的壓縮邏輯本身就蘊含：將 Bob 建模為一個獨立觀察者，是最簡約的做法——因為另一種選項（以特設方式逐項指明他的行為）在描述長度上嚴格更長。

在這兩種解讀之下，該定理的形式內容完全相同；不同之處只在於本體論詮釋。OPT 使用同一個數學結果來奠定其結構推論：獨立實例化是 MDL 最優的描述，而不是一項形上學假設。

§6. 範圍與限制

6.1 以公理 1 為條件

整個論證取決於 OPT 將觀察者之流與所羅門諾夫先驗加以識別。若這種識別被削弱（例如放寬為更廣泛的一類半測度），則方程式（L-1）–（L-3）的收斂保證可能無法以目前形式成立。

6.2 狀態充分性前提

式 (L-3) 要求，表觀代理體必須在其自我狀態 x_i 中攜帶「足夠的資料」，使通用歸納能夠提取出相關的物理定律。對於日常情境中的類人代理體而言，這是合理的（完整的大腦狀態編碼了極其龐大的資訊）。但對於邊界情況——短暫印象、遙遠觀察者、敘事藝術中的虛構角色——收斂所需的前提可能不成立，因此結構推論不適用。

6.3 這不是意識的證明

定理 T-11 確立，獨立實例化是最可壓縮的描述。這並不證明那些表面上的代理體具有意識。意識的難問題（預印本 §8.1）仍是一個原初項。結構推論是一個壓縮論證，而不是本體論證明——如 §8.2 所述。

6.4 與 T-10 的關係

附錄 T-10（觀察者間耦合）處理的是：兩個觀察者補丁如何透過壓縮約束維持彼此一致的渲染結果。當前附錄處理的則是另一個問題：為何對於單一觀察者的流而言，將表觀代理體編碼為彼此獨立實例化的存在，具有最高的可壓縮性。T-10 關注的是補丁間相干性的機制；T-11 關注的則是單一流內部的壓縮特徵。T-10 直接建立在 T-11 之上：正是此處用以確立壓縮優勢的同一套 MDL 描述長度比較，在 T-10 中被用來證明跨補丁的不一致性會受到指數級抑制。

§7. 結語摘要

T-11 的交付成果

導入引理（Müller 收斂）。 所羅門諾夫收斂 [61] 及其多代理體擴展 [62] 已被形式化導入，並以 OPT 記號重新表述。它們提供了數學骨幹：任何攜帶足夠自我狀態資料的子結構，其第一人稱演化都會收斂到生成其行為的可計算世界。
定理 T-11（壓縮界限 — 草案）。 一個明確的雙部分 MDL 比較顯示，將表觀代理體視為彼此獨立實例化的主要觀察者，會比任意行為規格給出嚴格更短的描述，而且此優勢會隨觀察時間線性增長。
推論 T-11a（漸近支配 — 草案）。 當 T \to \infty 時，壓縮優勢是無界的，這使得對任何在長時間視域下被觀察的代理體而言，獨立實例化成為壓倒性地符合 MDL 最優的描述。
P-4 整合。 現象性殘餘 (\Delta_{\text{self}} > 0) 被辨識為區分表觀代理體與複雜但非能動系統的形式標記，從而將此結構推論限制於具有真正自我指涉瓶頸架構的實體。
Müller 的重新詮釋。 Müller 的非唯我論結論在 OPT 的本體論框架內被重新詮釋：同一數學結果所奠定的基礎，在此支撐的是壓縮論證，而非共享實在湧現的論證。

尚待解決的開放項目

\bar{I}_T 的精確刻畫。 對特定類型的代理體（例如有界理性代理體、自由能最小化者）給出 \bar{I}_T 的下界，以提供在數值上更具體的壓縮優勢。
有限時間修正。 漸近結果（T-11a）保證了在大 T 下的支配性，但若能給出帶有明確常數的有限時間界限，將可強化其實際適用性。
非二元字母表擴展。 式 (L-1)–(L-3) 是針對二元序列陳述的。若要擴展至與 OPT 的 R(D) 框架（T-1）相關的連續值測度，則需要技術上的審慎處理。

本附錄與 theoretical_roadmap.pdf 同步維護。參考文獻：Müller [61, 62]、Li & Vitányi [45]、Solomonoff (1964)、定理 T-4（附錄 T-4）、定理 P-4（附錄 P-4）、預印本 §8.2。