秩序パッチ理論 (OPT)

付録 T-1: 安定性フィルタ

Anders Jarevåg

2026年4月3日 | DOI: 10.5281/zenodo.19300777


原課題 T-1:安定性フィルタ — 完全なレート歪み仕様 問題: シャノンのレート歪み理論が要請するのは、情報源 X、再生アルファベット、および歪み関数 d(x, \hat{x}) である。プレプリントでは、OPTの基層に対してこれら3要素を特定しないまま R_{pred}(D) を導入している。 成果物: OPTのレート歪み問題に対する完全な (\mathcal{X}, \hat{\mathcal{X}}, P_X, d) 仕様。

この改訂では、過剰エントロピー統計的複雑性を区別し、有限ホライズンにおける predictive-KL 恒等式を証明し、一般下界 R_{T,h}(D)\ge E_{T,h}-D を証明し、さらにその下界が達成される場合の正確な等号成立条件を述べる。C_{\max} は、レート歪み形式主義から導出される量ではなく、引き続き経験的パラメータである。
完了状況: 部分的に解決。四つ組仕様、predictive-KL 恒等式、および一般下界 R_{T,h}(D) \geq E_{T,h}(\nu) - D は、正確な等号成立条件とともに確立された。先行する一般的な閉形式の主張 R(D) = C_\mu - D は撤回されており、正しい結果は下界である。C_{\max} は、レート歪み形式主義から導出される量ではなく、引き続き経験的パラメータである。


§0. 定式化レベル

作業上の定式化。 T,h<\infty を固定する。X:=X_{1:T} を過去ブロック、Y:=X_{T+1:T+h} を、固定された計算可能な定常エルゴード測度 \nu\in\mathcal M のもとでの未来先読みブロックとする。有限ホライズン予測情報を E_{T,h}(\nu):=I(X;Y). と定義する。無限ホライズン極限が存在する場合、超過エントロピーを E_\nu := I(\overleftarrow X;\overrightarrow X). と定義する。S が完全な \epsilon-machine の因果状態を表すなら、統計的複雑性を C_{\mu,\nu}:=H(S). と定義する。これらは互いに異なる量である。本付録における有限ホライズンの率歪み問題は、C_{\mu,\nu} ではなく E_{T,h} によって定式化される。ソロモノフ普遍半測度 \xi が入るのは、メタ事前重み付け(プレプリントの式 1)としてのみである。個々の R(D) 曲線は、各測度 \nu ごとに計算される。完全混合 \xi を要する結果は、別途明示する。


§1. 完全な四つ組仕様

1.1 ソース X と分布 P_X

\{0,1\}^\infty 上の計算可能な定常エルゴード測度 \nu \in \mathcal{M} を固定する。ソースとは、\nu に従って分布する過程 (X_t)_{t \ge 1} である。メタ事前分布としての役割においては、プレプリントの式 (1) の \xi が、そのような各 \nu に重み w_\nu \approx 2^{-K(\nu)} を与える。固定された \mathcal{M} の要素について、P_X = \nu と書く。以下のすべての結果は測度ごとの \nu に適用される。ソロモノフとの接続は §4 の優越境界を通じて導入される。

1.2 再生アルファベット \hat{X}

固定された T,h に対して、過去ブロック上の有限ホライズン予測同値関係を次のように定義する: x \sim_h x' \iff \nu(Y\in A\mid X=x)=\nu(Y\in A\mid X=x') \quad\text{for all measurable }A\subseteq\{0,1\}^h. S_h を、\sim_h の下での X の同値類とする。このとき S_h は、ホライズン h において X から Y を予測するための最小十分統計量である。

完全な \epsilon-machine の因果状態 S は、半無限の過去と完全な未来へと移行したときに得られる無限ホライズンの対象である。本付録では、有限ホライズンの導出には S_h を用い、完全な因果状態の極限には S を留保する。

計算可能性の位置づけ。 一般の計算可能な \nu に対して、本付録は予測状態分割の厳密な計算可能性を主張しない。それは理想化された可測対象として扱われる。厳密な計算可能性が主張されるのは、有限記憶過程のような、明示的に特定された部分類に対してのみである。

1.3 歪み関数 d_h(x, z)

歪み関数はKL予測ダイバージェンスである: d_h(x,z):=D_{\mathrm{KL}}\!\big(P_\nu(Y\mid X=x)\,\|\,P_\nu(Y\mid Z=z)\big). ここで Z はエンコーダ p(z\mid x) によって生成される表現変数である。Z=S_h のとき、これは厳密な予測状態歪みである。Z が粗視化または確率的コードであるとき、P_\nu(Y\mid Z=z) は誘導された予測法則である。

完全な四つ組

要素 定義
X (X_t)_{t \ge 1}\nu \in \mathcal{M} の下での定常エルゴード過程
\hat{X} S_h — 有限ホライズン予測状態
P_X \nu\mathcal{M} の固定された計算可能な要素;ソロモノフ普遍半測度 \xi はメタ事前分布
d_h(x, z) D_{\mathrm{KL}}( P_\nu(\cdot\|x) \| P_\nu(\cdot\|z) ) — ホライズン h にわたるKL予測ダイバージェンス

§2. 四つ組の下での R_{T,h}(D) の導出

§1 の四つ組に対するレート歪み関数は次のとおりである:

R_{T,h}(D) = \min_{p(z|x) : \mathbb{E}[d_h(X,Z)] \le D} I(X ; Z)

2.1 KL歪み恒等式

X:=X_{1:T}Y:=X_{T+1:T+h} とし、Z をエンコーダ p(z\mid x) によって生成される任意の表現とする。Z-X-Y はマルコフ連鎖であるから、 \mathbb E[d_h(X,Z)] = \mathbb E\!\left[D_{\mathrm{KL}}(P(Y\mid X)\|P(Y\mid Z))\right] = H(Y\mid Z)-H(Y\mid X) = I(X;Y\mid Z). 同値的に、 \mathbb E[d_h(X,Z)] = I(X;Y)-I(Z;Y)=E_{T,h}(\nu)-I(Z;Y). したがって、歪み制約 \mathbb E[d_h(X,Z)]\le D I(Z;Y)\ge E_{T,h}(\nu)-D. と同値である。

2.2 情報ボトルネックによる再定式化

歪み制約は、\mathbb{E}[d_h(X,Z)] \le D を満たすエンコーダに、許容されるエンコーダの空間を限定する。これは、I(Z;Y) に下限を課すことと正確に対応しており、制約付き情報ボトルネック問題を与える。達成可能領域 \{(I(Z;Y), I(X;Z))\} は、標準的なタイムシェアリングの議論のもとで凸であるため、強双対性が成り立つ。これにより、情報ボトルネック・ラグランジアン(Tishby, Pereira & Bialek 1999 [28])を用いた厳密な再定式化が可能となる: \mathcal{L}[p(z|x)] = I(X ; Z) - \beta \cdot I(Z ; Y) ここで、ラグランジュ乗数 \betaD によって定まる。IBラグランジアンは、圧縮率と予測忠実度のあいだのパレート・フロンティアをなぞる。

2.3 主定理:一般下界と等号成立条件

レート歪み関数に対する境界を確立する:

命題(一般下界と等号成立条件)。
任意のエンコーダ p(z\mid x) に対して、 D:=\mathbb E[d_h(X,Z)]. とおく。すると、 I(X;Z)=E_{T,h}(\nu)-D+I(X;Z\mid Y). したがって、 R_{T,h}(D)\ge E_{T,h}(\nu)-D. 再生アルファベットが有限かつコンパクトで、連続性によってエンコーダ全体にわたる下限が達成される場合、与えられた歪み D において等号が成り立つのは、その歪みを達成し、かつ I(X;Z\mid Y)=0. を満たすエンコーダが存在する場合に限る。 決定論的エンコーダ Z=g(X) については、これは H(Z\mid Y)=0. と同値である。

歪みゼロにおいては、最小十分統計量 S_h R_{T,h}(0)=I(X;S_h)=H(S_h). を達成する。この H(S_h) によるゼロ歪み率は、一般には下界 E_{T,h} よりも厳密に上に位置することに注意されたい。その差は非負のギャップ H(S_h) - E_{T,h} = H(S_h|Y) である。このギャップは物理的には、未来ウィンドウだけでは回復できない、過去における構造的な「蓄積情報」を表している。ゼロ歪みにおいて等号が成り立つこと(H(S_h|Y)=0)は、一般には複雑な過程に対して成り立たない、きわめて退化的な場合である。

完全な因果状態極限では、 R(0)=C_{\mu,\nu}=H(S). となる。これは特殊な場合にのみ E_\nu に等しく、一般には E_\nu < C_{\mu,\nu} である。

2.4 より粗い再生アルファベットに対する挙動

任意の決定論的粗視化 Z=g(S_h) に対して、 I(X;Z)=I(Z;Y)+I(X;Z\mid Y)=E_{T,h}(\nu)-D+I(X;Z\mid Y)\ge E_{T,h}(\nu)-D. 非負のスラック項 I(X;Z\mid Y) が消失するのは、粗視化された表現が未来窓 Y から復元可能である場合に限られる。したがって、より粗いアルファベットは一般に、直線 E_{T,h}-D を厳密に上回るレート歪み曲線を生じる。この直線は普遍的な下界であって、一般に達成される包絡線ではない。実際に計算可能ないかなるコーデックも、因果状態に対する有限記憶近似を用いるため、その曲線はこの下界より上に位置する。

2.5 境界評価

Limit Value Interpretation
D = 0 R_{T,h}(0) = I(X; S_h) 正確な予測状態圧縮;保存される情報量は最大
D = E_{T,h} R_{T,h}(E_{T,h}) = 0 自明な表現;予測情報はすべて破棄される
D = D_{\min} R_{T,h}(D_{\min}) \ge E_{T,h}(\nu) - D_{\min} 実行可能な観測者に対する最小下界;安定性フィルタの閾値

(注:無限ホライズン極限では、ゼロレート点は歪み E_\nu にあり、C_{\mu,\nu} にはない)


§3. C_{\max} — 特性づけと障壁

3.1 無限地平収束補題

主定理(§2.3)は、有限の (T, h) に対して下界 R_{T,h}(D) \ge E_{T,h}(\nu) - D を確立する。ここでは、これが無限地平の設定へ拡張されることを示す。

補題(無限地平拡張) \nu\{0,1\}^\infty 上の定常エルゴード測度とする。このとき:

  1. E_{T,h}(\nu) = I(X_{1:T}\,;\,X_{T+1:T+h}) は、Th の両方について非減少である(データ処理不等式による。定常性のもとでは、より長いブロックで条件づけても、過去と未来の相互情報量は減少しえない)。
  2. 極限 E_\nu := \lim_{T,h \to \infty} E_{T,h}(\nu) は、単調収束により存在する(値は +\infty である可能性もある)。
  3. 各固定された D \ge 0 に対して、列 R_{T,h}(D)T について非減少であり(より長い過去は最適圧縮率を低下させえない)、また h についても非減少である。h に関する単調性の証明スケッチ: 歪み関数は、h+1 個の未来ステップにわたって d_{h+1}(x, z) = D_{\mathrm{KL}}\!\left(P_\nu(\cdot \mid x) \,\|\, P_z(\cdot \mid z)\right) と分解され、これは連鎖律により d_h(x,z) + D_{\mathrm{KL}}\!\left(P_\nu(X_{T+h+1} \mid x, X_{T+1:T+h}) \,\|\, P_z(X_{T+h+1} \mid z, X_{T+1:T+h})\right) と書ける。第二項は非負であるから、点ごとに d_{h+1} \geq d_h である。したがって、制約集合 \{P(z|x) : E[d_{h+1}] \leq D\} \subseteq \{P(z|x) : E[d_h] \leq D\} となり、より小さい実行可能集合上で最小化してもレートは減少しえない:R_{T,h+1}(D) \geq R_{T,h}(D)
  4. したがって、R_\nu(D) := \lim_{T,h \to \infty} R_{T,h}(D) は存在する。

R_{T,h}(D) \ge E_{T,h}(\nu) - D は各有限段階で成り立ち、両辺はともに単調に収束するので、この下界は極限へと引き継がれる:

R_\nu(D) \ge E_\nu - D

これは、以下の命題 T-1a および T-1c で援用される無限地平下界である。注: E_\nu = +\infty となる過程(たとえば、k \to \infty における高次の de Bruijn サイクル)については、この下界は自明に満たされる。そのような過程は、任意の有限な C_{\max} に対して観測者適合集合 O_{C_{\max},D_{\min}} から除外される。

3.2 安定性フィルタによる M の分割 — 命題 T-1a

命題 T-1a(非自明な分割)
経験的な C_{\max}>0\Delta t>0、および D_{\min}\ge0 を固定する。次を定義する: O_{C_{\max},D_{\min}} := \{\nu\in\mathcal M: R_\nu(D_{\min})\le C_{\max}\Delta t\}. このとき、O_{C_{\max},D_{\min}} とその補集合はいずれも空でない。

証明。 定数過程は、E_\nu=0 かつ R_\nu(D)=0 をもつので、O_{C_{\max},D_{\min}} に属する。
補集合については、位数 k の二進 de Bruijn サイクル過程をとる。これは、周期 2^k をもち位相が一様な定常エルゴード二進過程であり、長さ k の各語が各サイクルにちょうど一度ずつ現れる。この過程に対しては、 E_\nu=C_{\mu,\nu}=k. したがって、 R_\nu(D_{\min})\ge k-D_{\min}. k>C_{\max}\Delta t + D_{\min} となるように選べば、R_\nu(D_{\min})>C_{\max}\Delta t となるので、\nu\notin O_{C_{\max},D_{\min}} である。 \square

3.3 C_{\max} の定義/特徴づけ — T-1b

定義 T-1b(経験的帯域パラメータ)。
C_{\max} は、率歪み形式主義の外部にある、意識アクセスの経験的な帯域パラメータとして扱われる。C_{\max} が与えられたとき、観測者適合的なクラスを O_{C_{\max},D_{\min}} := \{\nu\in\mathcal M: R_\nu(D_{\min})\le C_{\max}\Delta t\}. によって定義する。別個に指定された参照クラス \mathcal{O}_{ref} を要約したい場合には、 C^{ref}_{max}:=\frac{1}{\Delta t}\sup_{\nu\in\mathcal{O}_{ref}}R_\nu(D_{\min}). を定義する。これは、選ばれたクラスの要約統計量であって、クラスそれ自体の定義ではない。

3.4 非創発障壁 — 証明スケッチ T-1c

証明スケッチ T-1c(\xi のみからは有限の普遍上界は得られない)。
ソロモノフ普遍半測度 \xi は、すべての計算可能測度 \nu\in\mathcal M に正の事前重みを割り当てる。類 \mathcal M には、過剰エントロピー E_\nu が任意に大きくなりうる定常エルゴード的二値過程が含まれる(たとえば、上記の de Bruijn 族)。ゆえに R_\nu(D_{\min})\ge E_\nu-D_{\min}, である以上、\xi のみから導出できる R_\nu(D_{\min}) の台全体にわたる有限な上界は存在しない。したがって、いかなる有限の C_{\max} も、裸のソロモノフ事前分布を超える追加の経験的入力、あるいは類を制限する入力を必要とする。\square


§4. ソロモノフ・メタ事前分布との接続

§1の四つ組と§2のR(D)導出は、測度ごとの\nuについて述べられている。ソロモノフとの接続――すなわち、メタ事前分布\xiがどのように観測者適合的なストリームに重みを与えるか――は、導出というよりも構造的対応である。

任意の観測者適合的な\nu \in O_{C_{\max},D_{\min}}について、率歪み平衡は、圧縮されたストリームz_{0:T}が安定性フィルタの選択した表現であることを保証する。ソロモノフ事前分布\xiは、この\nuに重みw_\nu \approx 2^{-K(\nu)}を割り当てる。すなわち、より単純な(Kがより小さい)観測者適合的過程ほど、\xiの下で指数関数的により高い確率をもつ。これは、簡潔性の議論(付録T-4)の形式的表現である。すなわち、\xi上で作動する安定性フィルタは、帯域内に収まる最も単純なコーデックを選択する。

T-4bの優越境界は直接に適用される。すなわち、K(\nu) < \inftyを満たすすべての計算可能な物理測度\nuについて、

-\log \xi(y_{1:T}) \le -\log \nu(y_{1:T}) + K(\nu)

が成り立つ。

これは、OPTのメタ事前分布\xiが、任意の固定された計算可能な物理モデルと比べて、そのモデル自身の記述長K(\nu)までを除けば、観測者適合的なストリームにより低い確率を決して割り当てないことを保証する。


§5. 経験ビット量子 h^\ast(E-1 のプレビュー)

C_{\max} の経験的な選択と、意識的更新ウィンドウ \Delta t の経験的な値が与えられたとき、次を定義する: h^*:=C_{\max}\Delta t. C_{\max}\approx 10 bits/s かつ \Delta t\in[50,80] ms のとき、 h^*\approx 0.5\text{–}0.8 bits per conscious moment となる。

適用範囲内の任意の定常エルゴード過程 \nu \in \mathcal{M} で、E_{T,h}(\nu) - D_{\min} > h^\ast を満たすものは、ナラティブ崩壊を合法的に引き起こす。これは、R_{T,h}(D_{\min}) \ge E_{T,h} - D_{\min} > h^\ast = C_{\max} \Delta t となり、適合性基準に明示的に違反するためである。ただし、これは崩壊のための十分条件であって、厳密に必要な条件ではない。というのも、この下界がきつく成り立つことは稀であり(§2.4 によれば一般に R_{T,h} > E_{T,h} - D_{\min})、そのため E_{T,h} - D_{\min} \le h^\ast の場合であっても、過程はナラティブ崩壊を起こしうるからである。これにより E-1 に対する定量的予測が与えられる。\Delta t \in [40, 300] ms の選び方に対する感度については、E-1 付録で論じる。


§6. 総括

T-1 の成果物 — 改訂後の位置づけ

  1. 四つ組は、有限ホライズンの予測設定において明示されている。
  2. 予測KL恒等式は、正しく導出されている。
  3. 一般定理 R(D)=C_\mu-D は、正しい下界 R_{T,h}(D)\ge E_{T,h}-D に置き換えられ、これとあわせて厳密な等号成立条件 I(X;Z\mid Y)=0 が与えられる。
  4. ゼロ歪み符号化は最小十分統計量 S_h によって特徴づけられ、完全な因果状態極限では R(0)=C_{\mu,\nu} となる。
  5. C_{\max} は、内部的に導出されるものではなく、経験的なものとして扱われる。
  6. h^*=C_{\max}\Delta t は経験的なパラメータ化であり、§2 から導かれる定理ではない。

この付録は、theoretical_roadmap.pdf と並んで、OPT プロジェクトのリポジトリの一部として維持されている。