有序補丁理論
附錄 T-9:維護週期、MDL 剪枝與恢復條件
2026年5月11日 | DOI: 10.5281/zenodo.19300777
原始任務 T-9:維護週期與恢復裝置 問題: 主文 §3.6.3–§3.6.6 定義了方程 T9-1 至 T9-13(維護週期算子 \mathcal{M}_\tau、MDL 剪枝 \Delta_{\mathrm{MDL}}、鞏固增益 \Delta K_{\text{compress}}、REM 重要性加權 w(b))。附錄 T-12(敘事漂移)與 T-13(行動漂移)將此一裝置視為承重結構加以引用。然此框架尚缺一篇統整性附錄,用以 (i) 明確命名形式原語,(ii) 區分主文中 \Delta_{\mathrm{MDL}} < 0 所隱含而未明示的四種剪枝模態,(iii) 定義恢復條件,以及 (iv) 為各推論性附錄提供可穩定引用的形式目標。T-9 即用以填補此一缺口。 交付內容: 一篇在認識論層級上與 T-2 / T-15 相同的統整性附錄(屬結構對應,而非封閉定理)。相較於主文新增的內容包括:明確的預測增益定義 G_i(t,\tau)、以資源容量為首要項的維護成本分解、四種剪枝模態的區分、恢復條件,以及推論鏈。
結案狀態:結構對應(與 T-2 / T-15 同層級)。 本附錄不是封閉定理型附錄。它統整了已在預印本 §3.6 中運作的維護週期裝置,並補入主文未承載的四項形式內容:明確的預測增益、資源容量成本框架、四種剪枝模態,以及恢復條件。§2 的 OpenAI 審查保留意見已予遵守:(i) 剪枝閾值以可與 T-12 尚待完成的通道獨立性重述(第 4 階段)相協調的形式呈現;(ii) 現有主文方程 T9-3 / T9-4 皆依引文原樣保留,而 T-9 將資源容量精化作為額外的形式層引入,而非在未明示下更動既有引用形式;(iii) 資源容量成本為首要項,而 K-複雜度則作為結構對應近似。未閉合邊界(§9):資源容量與 K-複雜度之間的記帳方式,仍需在 T-12 的重述完成後與之全面對帳。
§1. 設定——主動模型組件
編解碼器 K_\theta 由一組主動模型組件 \{\theta_i\}_{i \in I} 構成,其中每個 \theta_i 都是編解碼器中可定址的結構單元——可以是生成先驗、習得的特徵偵測器、循環堆疊、長程耦合,或任何其他參與生成編解碼器預測 \pi_t 與其隨時間演化之更新算子 \mathcal{U} 的基本元件。在任何給定時刻,集合 \{\theta_i\} 都是有限的,但可透過鞏固而擴展(Pass II,預印本 §3.6.4),或透過剪枝而收縮(Pass I,預印本 §3.6.3)。
就 T-9 的目的而言,這些組件被視為既定:T-9 並不推導何以某個 \theta_i 而非另一個 \theta_i 構成「自然」的組件,因為那屬於表徵學習的問題,超出 OPT 的範圍。維護週期裝置所作用的,是編解碼器所允許的任何分解方式。
維護週期算子 \mathcal{M}_\tau(預印本式 T9-2)在低負載區間內作用於現象狀態張量 P_\theta(t)(R_{\text{req}}(t) \ll C_{\max})。T-9 將三個 pass(剪枝、鞏固、預測分支集取樣)展開為下文 §2–§6 的明確形式原語;而 §7 中的推論鏈則透過這些原語,追蹤敘事漂移(T-12)與行動漂移(T-13)。
§2. 預測增益 G_i(t, \tau)
組件 \theta_i 在長度為 \tau 的視窗上的預測增益,衡量的是:在固定其他組件不變的情況下,該組件對編解碼器在輸入流上的預測表現貢獻了多少:
G_i(t, \tau) \;:=\; I\!\left(\theta_i \,;\, X_{t+1:t+\tau} \mid \theta_{-i}\right) \tag{T9.2-1}
其中,\theta_{-i} 表示不含 \theta_i 的其餘編解碼器部分,而 I(\cdot ; \cdot \mid \cdot) 為條件互資訊。此一條件形式至關重要:它所隔離的是 \theta_i 的邊際預測貢獻,而非它與其他重疊組件共同形成的聯合貢獻。
與主文方程式 T9-3 的比較。 主文中的 MDL 剪枝量為
\Delta_{\mathrm{MDL}}(\theta_i) \;=\; I\!\left(\theta_i\,;\,X_{t+1:t+\tau} \mid \theta_{-i}\right) - \lambda K(\theta_i) \tag{T9-3, preprint §3.6.3}
T-9 將第一項明確命名為 G_i(t,\tau),使預測增益這個基本量可以獨立於閾值形式的剪枝條件而被分別引用。這純粹是記號上的整併;不等式本身保持不變。
視窗長度 \tau。 預測增益取決於視窗長度。較短的 \tau 捕捉細時間尺度的預測(運動控制、工作記憶);較長的 \tau 捕捉結構性的預測(語義規律、敘事連貫性)。維護週期的第一階段剪枝,是在較長 \tau 的區間中評估;在該區間內,真正無用的組件會有 G_i \to 0。相較之下,第二階段的鞏固則是在較短 \tau 的區間上進行最佳化;在那裡,重疊組件之間的冗餘性會變得顯著。
§3. 維護成本 C_i — 以資源容量為主
組件 \theta_i 的維護成本有兩種彼此相容的表述方式。
形式 3.1 — 資源容量(T-9 的主要形式)。 組件的成本,是它在編解碼器運作基底中所占用的資源容量:
C_i \;:=\; c_i^{\text{params}} + c_i^{\text{memory}} + c_i^{\text{compute}} + c_i^{\text{channel}} \tag{T9.3-1}
其中四種預算分別為:參數槽位(權重或連結的數量);記憶體占用量(以儲存位元計);計算成本(每週期的運算次數);以及通道容量(該組件在馬可夫毯邊界 \partial_R A 上所消耗的頻寬位元數)。每個 c_i 原則上皆可觀測——對生物編解碼器而言,可透過代謝與生理測量取得;對合成編解碼器而言,則可透過直接儀測取得。
形式 3.2 — K-複雜度近似。 主文的式 T9-3 使用 \lambda K(\theta_i),其中 K(\theta_i) 是該組件的前綴柯爾莫哥洛夫複雜度:
C_i^{\text{K-approx}} \;:=\; \lambda \cdot K(\theta_i) \tag{T9.3-2}
這是一種結構對應近似:K-複雜度是上半可計算的,且在組件之間並不嚴格可加(刪除某一組件,未必會使最短描述長度恰好減少其獨立的 K(\theta_i),因為組件之間可能共享結構)。因此,資源容量形式(T9.3-1)是操作性主張的主要表述;而 K-複雜度形式則保留用於理論分析,在那些可加性近似可被接受的情況下使用。
為何有兩種形式。 OpenAI 對 T-12 的審查(appendix-corrections 備忘錄 §2.8)正確指出,K-複雜度在組件之間並不可加,並建議對操作性主張採用資源容量量測。T-9 因而採納資源容量作為主要形式,但仍保留 K-複雜度形式,因為現有主文的式 T9-3 與 T-12 的定理 T-12 證明都引用了 K-複雜度形式。對於 v3.7.0 或之後版本的清理工作而言,資源容量的精化表述是 §3.6.3 / §3.6.4 / T-12 / T-13 更為乾淨的寫法;T-9 同時提供兩種形式,使最終清理能以一致方式執行,而不必要求所有引用位置同時修補。
\lambda 的調校。 在形式 3.2 中,參數 \lambda 用來權衡預測增益與複雜度成本。經驗上觀察到,\lambda 會隨情感狀態而變動——高 |E(b)|(預印本式 T9-10)會在組件層級上有效提高 \lambda,使帶有情感標記的組件更不易被剪除。這就是情緒記憶增強的形式化說明(預印本 §3.6.5,Pass III)。
§4. 剪枝條件——閾值形式
剪枝條件採用閾值形式,而非主文方程 T9-4 的嚴格正值形式。OpenAI 對 T-12 的審查(appendix-corrections 備忘錄 §2.8 更正 3)正確指出,將嚴格的 I = 0 作為剪枝條件過於脆弱:在真實組件中,即使其主要預測角色因輸入被濾除而遭排除,仍可能存在微弱的間接預測貢獻。
閾值形式的剪枝條件為:
\text{Prune } \theta_i \quad \text{if} \quad G_i(t, \tau) \;<\; C_i \;-\; \epsilon \tag{T9.4-1}
其中 \epsilon > 0 是一個小的保留緩衝,用以調節編解碼器的剪枝激進程度。其等價不等式形式為:
G_i(t, \tau) - C_i \;<\; -\epsilon \quad \Longleftrightarrow \quad I\!\left(\theta_i; X_{t+1:t+\tau} \mid \theta_{-i}\right) \;<\; C_i - \epsilon \tag{T9.4-2}
與主文方程 T9-4 的比較。 主文將 \Delta_{\mathrm{MDL}}(\theta_i) < 0 寫為剪枝觸發條件,這對應於 \epsilon = 0——亦即嚴格的損益兩平。T-9 透過引入保留緩衝 \epsilon 將其推廣,這更準確地刻畫了生物性剪枝動力學(其中微小的預測貢獻會在暫時性雜訊下被保留下來),以及合成編解碼器的剪枝超參數(其中以閾值為基礎的刪除是標準做法)。
當 \epsilon \to 0 時,即可恢復嚴格損益兩平的情形,因此 T-9 的形式並不會使 T-12 與 T-13 中既有的 T9-4 引用失效;它是對其的推廣。
對敘事漂移的意涵(交叉參照 T-12)。 在經濾波的輸入 X' = \mathcal{F}(X) 下,若排除的訊號為 \mathcal{X}_{\text{excl}},則那些其預測貢獻專屬於 \mathcal{X}_{\text{excl}} 的組件 \theta_i,在經濾波的流上會滿足 G_i(t, \tau) \to 0(因為其目標在被觀察到的輸入中不存在)。此時,剪枝條件 (T9.4-1) 便會被觸發,因為對任何正成本組件而言,皆有 0 < C_i - \epsilon。T-12 的定理 T-12 之不可逆結果,即由此一觸發機制,再加上下文 §5 所述的四模態區分而得。
§5. 四種剪枝模態
剪枝操作(T9.4-1)在編解碼器中可有四種彼此不同的實作方式,且各自具有不同的可逆性質。這一區分對於恢復條件(§6)以及 T-12 更正 1 中關於敘事漂移不可逆性之主張(appendix-corrections 備忘錄 §2.8)都具有關鍵意義。
模態 5.1 — 可逆抑制。 將組件 \theta_i 的輸出權重降為零(或降至參與閾值以下),但該組件的參數與結構仍保留於編解碼器中。恢復相對直接:只要重新加權,即可恢復該組件。這種操作對應於制約作用中的行為消退(條件反應減弱,但痕跡仍存)以及神經網路中的 dropout 式正則化。
模態 5.2 — 權重衰減。 在正則化壓力 \propto \lambda 之下,組件的參數持續衰減並趨向某個預設狀態。該組件並未被刪除,但其保真度會下降;若預設狀態本身具有資訊性,則仍可能進行部分恢復。
模態 5.3 — 表徵性遺忘。 在鞏固過程中,組件的參數會被競爭性組件覆寫(Pass II,preprint §3.6.4)。其結構槽位仍然存在,但特定表徵已經喪失。恢復必須依賴後續某個維護週期中再次暴露於相關輸入流,且只能是部分恢復(重新學得的表徵在細部上將不同於原始表徵)。
模態 5.4 — 架構性剪枝。 組件的參數與結構槽位一併被刪除;編解碼器架構本身因此縮減。在編解碼器層級上,恢復是不可能的——該組件必須透過一次完整的學習歷程從零重新長成。這是不可逆的模態。
過濾輸入下的模態分類。 T-12 定理 T-12 的「不可逆性」主張(如現有 preprint 所述)要求的是模態 5.4(架構性剪枝),並排除模態 5.1–5.3。T-9 將這種模態依賴性明確化;v0.4 appendix-corrections 備忘錄 §2.8 更正 1(「irreversible 應以無受保護封存/無 replay buffer/無外部教師/無架構保留容量/在相同濾波器下持續運作/剪枝是字面上的容量刪除,而非可逆抑制」為條件)與模態 5.4 的解讀一致。
真實的生物與人工編解碼器通常會呈現多種模態的混合,其中模態 5.4 通常保留給那些在多個維護週期中持續遭到剪枝的組件。在持續的過濾輸入之下,從可逆剪枝轉變為不可逆剪枝,正是慢性敘事漂移(T-12)背後的結構機制。
§6. 恢復條件
若存在某種過程,能使被剪除的組件 \theta_i 恢復為編解碼器中的主動參與部分,則該組件即為可恢復的。在恢復時間窗 \tau_R 內的恢復機率為:
P\big(\text{recover } \theta_i \mid \tau_R\big) \;=\; P\big(\text{Modality 5.1 or 5.2}\big) \cdot p_{\text{restore}}(\tau_R) \;+\; P\big(\text{Modality 5.3 or 5.4}\big) \cdot p_{\text{regrow}}(\tau_R) \tag{T9.6-1}
第一項涵蓋可逆/部分可逆的剪除(抑制、權重衰減);第二項則涵蓋表徵性遺忘與架構性剪除,在這些情況下,恢復需要外部輸入。
唯有在下列三項條件中至少有一項成立時,恢復才為正值:
受保護記憶。 編解碼器在未被剪除的基底中保留了 \theta_i 的封存表徵(獨立快取、版本控制備份、經神經生理機制保護並鞏固到不同區域的記憶)。在此條件下,模態 5.1 與 5.3 可恢復。
外部教師/再次暴露。 編解碼器暴露於包含訊號 \mathcal{X}_{\text{excl}} 的輸入流,而該訊號正是被剪除組件原先所追蹤者。後續維護週期第二階段中的主動再學習會重建該組件(但須注意細粒度保真度方面的限制)。在時間充分的情況下,四種模態皆可在此條件下恢復,不過模態 5.4 需要一個可與原始習得相當的完整學習歷程。
架構儲備。 編解碼器具有尚未承諾給特定組件的結構槽位,因而可被配置來承載重新生長出的表徵。這是模態 5.4 的恢復在機制上之所以根本可能的條件。
若 (1)、(2)、(3) 皆不成立,則對所有 \tau_R 而言,P(\text{recover}\, \theta_i \mid \tau_R) = 0,而該剪除即為永久性的。
基底保真條件。 T-12 的基底保真條件(定理 T-12b——穿越馬可夫毯的 \delta-獨立輸入通道之冗餘)是條系尺度上對應於條件 (2) 的類比:這些通道確保輸入流即使在外部機制 \mathcal{F} 的濾除下,仍持續包含與基底相關的訊號。T-9 的恢復條件則提供了編解碼器內部的實作形式:受保護組件、重播緩衝區、架構儲備。
§7. 推論 — 敘事漂移與行動漂移
T-9 的原始概念支撐了兩條在附錄 T-12 與 T-13 中展開的推論鏈。
推論 7.1 — 敘事漂移(T-12)。 在持續的過濾輸入 X' = \mathcal{F}(X)、且排除了訊號 \mathcal{X}_{\text{excl}} 的情況下: - 那些其預測增益僅存在於 \mathcal{X}_{\text{excl}} 上的組件 \theta_i,在過濾後的串流上將有 G_i(t, \tau) \to 0。 - 剪枝條件(T9.4-1)會在所有此類組件上被觸發。 - 若該剪枝屬於模態 5.4(架構性)——而這在跨越多個維護週期的持續過濾下占主導——且恢復條件(§6 第 1–3 項)皆不成立,則對 \mathcal{X}_{\text{excl}} 的建模能力將永久喪失。 - 編解碼器無法從內部偵測自身能力的喪失(因為已喪失的組件不再參與預測誤差的生成),從而重現 T-12a 的不可識別性主張。
完整的形式化處理見 T-12;T-9 提供了 T-12 更正 1 所要求之「不可逆」的模態特定詮釋。
推論 7.2 — 行動漂移(T-13)。 對未使用分支之行為評估能力進行編碼的組件: - 其預測增益 G_i(t, \tau) 是相對於輸入串流中實際實現的分支結果來衡量;若某些分支從未被選取,則這些評估器便沒有訓練訊號。 - 當未使用評估器的 G_i 下降至 C_i - \epsilon 以下時,剪枝條件即被觸發。 - 在模態 5.4 下,該評估器會被永久剪除;編解碼器因而在相應的行動領域中成為帶有自信的無能者。
T-13 的命題 T-13.P1(行動漂移)是此一編解碼器內機制在線系尺度(行為曲目)上的實例。
交叉參照:線系層級的維護週期。 附錄 T-15 §3 闡述了生命內部的維護週期與系統發育精煉之間的結構對應。T-9 的四種剪枝模態分別對應於:暫時性的生態位縮減(5.1)、在放鬆選擇下的線系漂移(5.2)、生態位替代(5.3),以及線系滅絕(5.4)。恢復條件(§6)則對應於系統發育上的冗餘:受保護的避難所(1)、在生態位恢復下的生態再暴露(2),以及發育上的儲備能力(3)。
§8. 與主文 §3.6 方程式的關係
T-9 是在整合,而非取代。主文中的方程式 T9-1 至 T9-13(預印本 §3.6.1–§3.6.6)均依原引文保留;T-9 引入的是額外的形式原語與細化,用以補充這些方程式。
| 主文 | T-9 |
|---|---|
| T9-1 (K(P_\theta(t)) \le C_{\text{ceil}}) — 總複雜度上限 | §1 設定 |
| T9-2 (\mathcal{M}_\tau : P_\theta(t) \to P_\theta(t + \tau)) — 維護週期算子 | §1 設定 |
| T9-3 (\Delta_{\mathrm{MDL}}(\theta_i) = I(\theta_i; X \mid \theta_{-i}) - \lambda K(\theta_i)) — MDL 剪枝量 | §2 預測增益 G_i + §3 維護成本 C_i(形式 3.2 的 K-近似) |
| T9-4(若 \Delta_{\mathrm{MDL}} < 0 則剪枝)— 剪枝條件 | §4 閾值形式(T9.4-1,其中 \epsilon \to 0) |
| T9-5(Landauer 剪枝成本)— 熱力學下限 | §5 模態相依性(不可逆性適用於模態 5.4) |
| T9-6 (\Delta K_{\text{prune}}) — 剪枝容量回收 | §3 + §5(資源容量形式使此處的帳務可在各模態間加總) |
| T9-7 / T9-8 (\Delta K_{\text{compress}}) — 鞏固增益 | §1 設定(Pass II)— T-9 不重新推導鞏固 |
| T9-9 / T9-10 (w(b), E(b)) — REM 重要性加權 | §3(\lambda 的情感調諧)— T-9 不重新推導 REM 取樣 |
| T9-11 — REM 取樣分佈 | 不變 — T-9 不重新推導 Pass III |
| T9-12 / T9-13 — 淨複雜度預算 | §1 設定 — T-9 的資源容量形式細化了預算帳務 |
T-9 的新增內容: 明確的預測增益 G_i(t,\tau) 定義(§2);以資源容量成本框架作為主體(§3 形式 3.1);帶有保留緩衝 \epsilon 的閾值形式剪枝條件(§4);四種剪枝模態(§5);回收條件(§6);對 T-12 不可逆性主張的模態特定解讀(§7.1)。
§9. 開放邊緣
與 T-12 通道獨立性重述的協調(第 4 階段)。 T-12 已列入附錄修正佇列(v0.4 §2.8),將對通道獨立性條件作出重述:獨立的是濾波機制,而非訊號。T-9 的剪枝條件(§4)與恢復條件(§6)皆已寫成可與該重述相協調的形式,但一旦重述後的通道獨立性定義正式到位,T-12 的定理 T-12 證明仍需重新檢視。具體而言:T-12 §3.1 中的不可逆性主張目前引用 T9-3 / T9-4;在 v3.7.0 清理後,應改為引用 T-9 的 §4 閾值形式 + §5 模態分類 + §6 恢復條件,且不可逆性的解讀應限於無恢復條件情形下的模態 5.4。待定。
資源容量與 K-複雜度記帳的一致化。 §3 同時提供了兩種形式,但尚未導出它們之間的定量對應。對某些組件類別而言,兩者關係相當密切(例如,對已記憶的查找表而言,C_i^{\text{params}} \sim K(\theta_i) 在常數因子內成立);對另一些類別則會明顯分歧(跨組件共享的組合結構會帶來 K-複雜度上的節省,而資源容量形式無法捕捉此點)。最好在 v3.7.0 或之後版本完成此一致化。待定。
虛擬讀法中立性(v3.6.21)。 完全虛擬的常設狀態讀法(主文 §8.6.1)將維護週期重新描述為通過濾波之流的性質,而非一台正在運行的機器,但並未重新分層 Form 3.1 / Form 3.2 的記帳方式:Form 3.1(資源容量)對所有操作性主張仍為主要形式,而 T-12 的實質性證明也仍繼續使用它。以流為原生的可壓縮性讀法,只作為 T-12 §3.1 所指出的詮釋層引入。上述 K-可加性一致化,才是任何未來 Form 重新分層應加以論證之處——而不是虛擬讀法本身。待定(勿與 v3.7.0 清理混淆)。
\epsilon
的經驗校準。 (T9.4-1) 中的保留緩衝 \epsilon
是一個有效的剪枝超參數。其生物學上的經驗值可來自神經剪枝研究(突觸衰退閾值、樹突棘保留率),或來自
opt-ai-subject 原型中的 Δ_self^op 漸近實驗。T-9
並未導出特定數值。待定。
與維護週期經驗預測的交叉連結。 預印本 §3.6.7 列出了維護週期(睡眠 / 夢境 / 鞏固)的經驗預測。T-9 的四種剪枝模態提出了更細緻的預測:例如「REM 夢境會不成比例地取樣高重要性分支」這一預測(預印本 §3.6.5,Pass III),可進一步分解為模態特定的預測,說明哪些類型的表徵會由模態 5.1 保留(以重要性加權的保留來對抗剪枝),以及在模態 5.4 下,清醒經驗中若缺乏高重要性分支,將如何導致對應評估器在架構層面被刪除。待定。
本附錄作為 OPT 專案儲存庫的一部分,與 opt-theory.md 一同維護。對預印本 §3.6 中維護週期基本元件的引用均予保留;T-9 則補充了明確的預測增益 G_i(§2)、資源容量成本(§3 Form 3.1)、帶有保留緩衝 \epsilon 的閾值形式剪枝條件(§4)、四種剪枝模態(§5),以及恢復條件(§6)。推論參照:T-12(敘事漂移)§3.6.3;T-13(Action-Drift)§6;T-15(系統發生穩定性濾波器)§3。