Teorin om den ordnade patchen (OPT)
Appendix T-1: Stabilitetsfilter
3 april 2026 | DOI: 10.5281/zenodo.19300777
Ursprunglig uppgift T-1: Stabilitetsfilter — fullständig rate-distortion-specifikation Problem: Shannons rate-distortion-teori kräver: en källa X, ett reproduktionsalfabet och en distorsionsfunktion d(x, \hat{x}). Preprinten åberopar R_{pred}(D) utan att specificera dessa tre element för OPT:s substrat. Leverabel: En fullständig specifikation av (\mathcal{X}, \hat{\mathcal{X}}, P_X, d) för OPT:s rate-distortion-problem.
Denna revidering skiljer mellan överskottsentropi och statistisk komplexitet, bevisar den prediktiva-KL-identiteten vid ändlig horisont, bevisar den allmänna undre gränsen R_{T,h}(D)\ge E_{T,h}-D, och anger ett exakt likhetskriterium för när denna undre gräns uppnås. C_{\max} förblir en empirisk parameter snarare än en storhet härledd ur rate-distortion-formalismen.
Avslutsstatus: DELVIS LÖST. Specifikationen av fyrtuplen, den prediktiva-KL-identiteten och den allmänna undre gränsen R_{T,h}(D) \geq E_{T,h}(\nu) - D är etablerade tillsammans med ett exakt likhetskriterium. Det tidigare generiska påståendet om sluten form R(D) = C_\mu - D har dragits tillbaka; det korrekta resultatet är den undre gränsen. C_{\max} förblir en empirisk parameter snarare än en storhet härledd ur rate-distortion-formalismen.
§0. Formuleringsnivå
Arbetsformulering. Fixera T,h<\infty. Låt X:=X_{1:T} beteckna det förflutna blocket och Y:=X_{T+1:T+h} det framtida framförhållningsblocket under ett fixerat beräkningsbart stationärt ergodiskt mått \nu\in\mathcal M. Definiera den prediktiva informationen över en ändlig horisont E_{T,h}(\nu):=I(X;Y). När gränsen för oändlig horisont existerar, definiera överskottsentropin E_\nu := I(\overleftarrow X;\overrightarrow X). Om S betecknar det fullständiga kausala tillståndet för \epsilon-maskinen, definiera den statistiska komplexiteten C_{\mu,\nu}:=H(S). Dessa är distinkta storheter. Problemet med rate-distortion för ändlig horisont i denna bilaga formuleras i termer av E_{T,h}, inte C_{\mu,\nu}. Solomonoffmåttet \xi träder in endast som meta-prior-viktning (preprint, ekv. 1): individuella R(D)-kurvor beräknas per mått \nu. Resultat som kräver den fullständiga blandningen \xi anges separat.
§1. Den fullständiga fyrtuppelspecifikationen
1.1 Källa X och fördelningen P_X
Fixera ett beräkningsbart stationärt ergodiskt mått \nu \in \mathcal{M} på \{0,1\}^\infty. Källan är processen (X_t)_{t \ge 1} fördelad enligt \nu. För meta-priorns roll viktar \xi från preprintens ekv. (1) varje sådant \nu med w_\nu \approx 2^{-K(\nu)}. Vi skriver P_X = \nu för en fixerad medlem av \mathcal{M}. Alla resultat nedan gäller per mått \nu; Solomonoffkopplingen kommer in genom dominansgränsen i §4.
1.2 Reproduktionsalfabet \hat{X}
För fixerade T,h definiera en prediktiv ekvivalensrelation med ändlig horisont på tidigare block: x \sim_h x' \iff \nu(Y\in A\mid X=x)=\nu(Y\in A\mid X=x') \quad\text{för alla mätbara }A\subseteq\{0,1\}^h. Låt S_h vara ekvivalensklassen för X under \sim_h. Då är S_h den minimala tillräckliga statistikan för att predicera Y från X vid horisonten h.
Det fullständiga \epsilon-maskinens kausala tillstånd S är objektet med oändlig horisont som erhålls när man övergår till semi-oändliga förflutna och hela framtiden. Denna bilaga använder S_h för härledningar med ändlig horisont och reserverar S för gränsfallet med fullständigt kausalt tillstånd.
Beräkningsbarhetsstatus. För allmänna beräkningsbara \nu gör denna bilaga inget anspråk på exakt beräkningsbarhet för partitionen av prediktiva tillstånd. Den behandlas som ett idealiserat mätbart objekt. Exakt beräkningsbarhet hävdas endast för uttryckligen identifierade delklasser såsom processer med ändligt minne.
1.3 Distorsionsfunktion d_h(x, z)
Distorsionsfunktionen är den prediktiva KL-divergensen: d_h(x,z):=D_{\mathrm{KL}}\!\big(P_\nu(Y\mid X=x)\,\|\,P_\nu(Y\mid Z=z)\big). Här är Z en representationsvariabel som produceras av en encoder p(z\mid x). När Z=S_h är detta den exakta prediktiva tillståndsdistorsionen; när Z är en förgrovning eller en stokastisk kod är P_\nu(Y\mid Z=z) den inducerade prediktiva lagen.
Fullständig fyrtuple
| Element | Definition |
|---|---|
| X | (X_t)_{t \ge 1} — stationär ergodisk process under \nu \in \mathcal{M} |
| \hat{X} | S_h — prediktiva tillstånd med ändlig horisont |
| P_X | \nu — fixerad beräkningsbar medlem av \mathcal{M}; Solomonoff \xi är meta-priorn |
| d_h(x, z) | D_{\mathrm{KL}}( P_\nu(\cdot\|x) \| P_\nu(\cdot\|z) ) — KL-prediktiv divergens över horisonten h |
§2. Härledning av R_{T,h}(D) under fyrtupletten
Rate-distortion-funktionen för fyrtupletten i §1 är:
R_{T,h}(D) = \min_{p(z|x) : \mathbb{E}[d_h(X,Z)] \le D} I(X ; Z)
2.1 KL-distorsionsidentiteten
Låt X:=X_{1:T}, Y:=X_{T+1:T+h}, och låt Z vara en godtycklig representation producerad av en kodare p(z\mid x). Eftersom Z-X-Y är en Markovkedja, \mathbb E[d_h(X,Z)] = \mathbb E\!\left[D_{\mathrm{KL}}(P(Y\mid X)\|P(Y\mid Z))\right] = H(Y\mid Z)-H(Y\mid X) = I(X;Y\mid Z). Ekvivalent, \mathbb E[d_h(X,Z)] = I(X;Y)-I(Z;Y)=E_{T,h}(\nu)-I(Z;Y). Därför är distorsionsvillkoret \mathbb E[d_h(X,Z)]\le D ekvivalent med I(Z;Y)\ge E_{T,h}(\nu)-D.
2.2 Omformulering av informationsflaskhalsen
Distorsionsvillkoret begränsar mängden tillåtna kodare till dem som uppfyller \mathbb{E}[d_h(X,Z)] \le D. Detta motsvarar exakt att begränsa I(Z;Y) nedifrån, vilket ger det begränsade problemet för informationsflaskhalsen. Eftersom den uppnåeliga regionen \{(I(Z;Y), I(X;Z))\} är konvex enligt standardargument om tidsdelning gäller stark dualitet. Detta möjliggör en exakt omformulering med hjälp av informationsflaskhalsens Lagrangefunktional (Tishby, Pereira & Bialek 1999 [28]): \mathcal{L}[p(z|x)] = I(X ; Z) - \beta \cdot I(Z ; Y) där Lagrangemultiplikatorn \beta bestäms av D. IB-Lagrangianen spårar Paretofronten mellan kompressionsgrad och prediktiv trohet.
2.3 Huvudsats: allmän undre gräns och likhetskriterium
Vi fastställer gränsen för rate-distortion-funktionen:
Proposition (allmän undre gräns och
likhetskriterium).
För varje kodare p(z\mid x), låt
D:=\mathbb E[d_h(X,Z)].
Då gäller
I(X;Z)=E_{T,h}(\nu)-D+I(X;Z\mid Y).
Följaktligen,
R_{T,h}(D)\ge E_{T,h}(\nu)-D.
För kompakta ändliga reproduktionsalfabet, där kontinuitet
garanterar att infimum över kodare uppnås, gäller likhet vid en given
distorsion D om och endast om det finns
en kodare som uppnår denna distorsion med
I(X;Z\mid Y)=0.
För deterministiska kodare Z=g(X) är detta ekvivalent med
H(Z\mid Y)=0.
Vid noll distorsion uppnår den minimala tillräckliga statistiken S_h R_{T,h}(0)=I(X;S_h)=H(S_h). Observera att denna noll-distorsionshastighet H(S_h) i allmänhet ligger strikt över den undre gränsen E_{T,h}. Skillnaden är det icke-negativa gapet H(S_h) - E_{T,h} = H(S_h|Y). Detta gap representerar fysiskt strukturell ”lagrad information” i det förflutna som framtidsfönstret ensamt inte lyckas återvinna. Att likhet gäller vid noll distorsion (H(S_h|Y)=0) är ett starkt degenererat specialfall som generellt är falskt för komplexa processer.
I gränsen för fullständiga kausala tillstånd, R(0)=C_{\mu,\nu}=H(S). Detta är lika med E_\nu endast i specialfall; i allmänhet gäller E_\nu < C_{\mu,\nu}.
2.4 Beteende för grövre reproduktionsalfabet
För varje deterministisk förgrovning Z=g(S_h), I(X;Z)=I(Z;Y)+I(X;Z\mid Y)=E_{T,h}(\nu)-D+I(X;Z\mid Y)\ge E_{T,h}(\nu)-D. Den icke-negativa slacktermen I(X;Z\mid Y) försvinner endast när den förgrovade representationen kan återvinnas ur framtidsfönstret Y. Därför ger grövre alfabet i allmänhet upphov till rate-distortion-kurvor som ligger strikt ovanför linjen E_{T,h}-D. Linjen är en universell undre gräns, inte ett generiskt uppnått hölje. Varje praktiskt beräkningsbar kodek använder en approximation med ändligt minne av de kausala tillstånden och har därför en kurva ovanför denna gräns.
2.5 Gränsutvärderingar
| Gräns | Värde | Tolkning |
|---|---|---|
| D = 0 | R_{T,h}(0) = I(X; S_h) | Exakt komprimering av prediktivt tillstånd; maximal information bevaras |
| D = E_{T,h} | R_{T,h}(E_{T,h}) = 0 | Trivial representation; all prediktiv information förkastas |
| D = D_{\min} | R_{T,h}(D_{\min}) \ge E_{T,h}(\nu) - D_{\min} | Minimal undre gräns för en livskraftig observatör; Stabilitetsfilter-tröskel |
(Obs: I gränsen för oändlig horisont ligger nolltaktspunkten vid distortionen E_\nu, inte vid C_{\mu,\nu})
§3. C_{\max} — Karakterisering och barriärer
3.1 Konvergenslemma för oändlig horisont
Huvudsatsen (§2.3) fastställer den undre gränsen R_{T,h}(D) \ge E_{T,h}(\nu) - D för ändliga (T, h). Vi visar nu att detta utsträcks till fallet med oändlig horisont.
Lemma (utvidgning till oändlig horisont). Låt \nu vara ett stationärt ergodiskt mått på \{0,1\}^\infty. Då gäller:
- E_{T,h}(\nu) = I(X_{1:T}\,;\,X_{T+1:T+h}) är icke-avtagande i både T och h (enligt databehandlingsolikheten: villkorning på längre block kan inte minska den ömsesidiga informationen mellan dåtid och framtid under stationaritet).
- Gränsvärdet E_\nu := \lim_{T,h \to \infty} E_{T,h}(\nu) existerar (möjligen +\infty) genom monoton konvergens.
- För varje fixerat D \ge 0 är följden R_{T,h}(D) icke-avtagande i T (längre förflutenheter kan inte minska den optimala komprimeringstakten) och icke-avtagande i h. Bevisskiss för monotonicitet i h: Distorsionsfunktionen dekomponeras som d_{h+1}(x, z) = D_{\mathrm{KL}}\!\left(P_\nu(\cdot \mid x) \,\|\, P_z(\cdot \mid z)\right) över h+1 framtida steg, vilket via kedjeregeln kan skrivas som d_h(x,z) + D_{\mathrm{KL}}\!\left(P_\nu(X_{T+h+1} \mid x, X_{T+1:T+h}) \,\|\, P_z(X_{T+h+1} \mid z, X_{T+1:T+h})\right). Eftersom den andra termen är icke-negativ gäller punktvis att d_{h+1} \geq d_h. Därför gäller att bivillkorsmängden \{P(z|x) : E[d_{h+1}] \leq D\} \subseteq \{P(z|x) : E[d_h] \leq D\}, och minimering över en mindre tillåten mängd kan inte minska takten: R_{T,h+1}(D) \geq R_{T,h}(D).
- Därför existerar R_\nu(D) := \lim_{T,h \to \infty} R_{T,h}(D).
Eftersom R_{T,h}(D) \ge E_{T,h}(\nu) - D gäller i varje ändligt steg, och båda sidor konvergerar monotont, övergår gränsen till gränsvärdet:
R_\nu(D) \ge E_\nu - D
Detta är den undre gränsen för oändlig horisont som åberopas i propositionerna T-1a och T-1c nedan. Obs: För processer med E_\nu = +\infty (t.ex. de Bruijn-cykler av hög ordning när k \to \infty) är gränsen trivialt uppfylld; sådana processer utesluts från den observatörskompatibla mängden O_{C_{\max},D_{\min}} för varje ändligt C_{\max}.
3.2 Partition av M genom Stabilitetsfiltret — Proposition T-1a
Proposition T-1a (icke-trivial partition).
Fixera empiriskt C_{\max}>0, \Delta t>0 och D_{\min}\ge0. Definiera
O_{C_{\max},D_{\min}}
:=
\{\nu\in\mathcal M: R_\nu(D_{\min})\le C_{\max}\Delta t\}.
Då är både O_{C_{\max},D_{\min}} och dess komplement
icke-tomma.
Bevis. Den konstanta processen ligger i O_{C_{\max},D_{\min}} eftersom den har E_\nu=0 och R_\nu(D)=0.
För komplementet, välj en binär de Bruijn-cykelprocess av ordning k: en stationär ergodisk binär process med
period 2^k och uniform fas, där varje
ord av längd k förekommer exakt en gång
per cykel. För denna process gäller
E_\nu=C_{\mu,\nu}=k.
Alltså
R_\nu(D_{\min})\ge k-D_{\min}.
Om man väljer k>C_{\max}\Delta t +
D_{\min} får man R_\nu(D_{\min})>C_{\max}\Delta t, så \nu\notin O_{C_{\max},D_{\min}}. \square
3.3 Definition/karakterisering av C_{\max} — T-1b
Definition T-1b (empirisk
bandbreddsparameter).
C_{\max} tas som en empirisk
bandbreddsparameter för medveten åtkomst, extern i förhållande till
rate-distortion-formalismen. Givet C_{\max}, definiera den observatörskompatibla
klassen
O_{C_{\max},D_{\min}}
:=
\{\nu\in\mathcal M: R_\nu(D_{\min})\le C_{\max}\Delta t\}.
Om man vill sammanfatta en separat specificerad referensklass
\mathcal{O}_{ref}, definiera
C^{ref}_{max}:=\frac{1}{\Delta
t}\sup_{\nu\in\mathcal{O}_{ref}}R_\nu(D_{\min}).
Detta är en sammanfattande statistik för en vald klass, inte
definitionen av själva klassen.
3.4 Icke-emergensbarriären — bevisskiss T-1c
Bevisskiss T-1c (ingen ändlig universell övre gräns från
enbart \xi).
Solomonoffs universella semimått \xi
tilldelar positiv priorvikt åt varje beräkningsbart mått \nu\in\mathcal M. Klassen \mathcal M innehåller stationära ergodiska
binära processer med godtyckligt stor överskottsentropi E_\nu (till exempel de Bruijn-familjen ovan).
Eftersom
R_\nu(D_{\min})\ge E_\nu-D_{\min},
finns det ingen ändlig stödomfattande övre gräns för R_\nu(D_{\min}) som kan härledas från enbart
\xi. Varje ändligt C_{\max} kräver därför ytterligare empirisk
eller klassbegränsande input utöver den blotta Solomonoff-priorn. \square
§4. Koppling till Solomonoffs meta-prior
Fyrtuplen i §1 och R(D)-härledningen i §2 anges per mått \nu. Solomonoff-kopplingen — hur meta-priorn \xi viktar observatörskompatibla strömmar — är en strukturell korrespondens snarare än en härledning.
För varje observatörskompatibelt \nu \in O_{C_{\max},D_{\min}} säkerställer jämvikten i rate-distortion att den komprimerade strömmen z_{0:T} är den representation som valts av Stabilitetsfiltret. Solomonoff-priorn \xi tilldelar detta \nu vikten w_\nu \approx 2^{-K(\nu)}: enklare (lägre K) observatörskompatibla processer är exponentiellt mer sannolika under \xi. Detta är det formella uttrycket för parsimoniargumentet (Appendix T-4): Stabilitetsfiltret, verksamt på \xi, väljer den enklaste kodek som ryms inom bandbredden.
Dominansgränsen från T-4b gäller direkt: för varje beräkningsbart fysikmått \nu med K(\nu) < \infty:
-\log \xi(y_{1:T}) \le -\log \nu(y_{1:T}) + K(\nu)
Detta säkerställer att OPT:s meta-prior \xi aldrig tilldelar observatörskompatibla strömmar lägre sannolikhet än någon fixerad beräkningsbar fysikmodell, upp till modellens egen beskrivningslängd K(\nu).
§5. Det erfarenhetsmässiga bitkvantat h^\ast (förhandsvisning av E-1)
Givet ett empiriskt val av C_{\max} och ett empiriskt medvetet uppdateringsfönster \Delta t, definiera h^*:=C_{\max}\Delta t. För C_{\max}\approx 10 bit/s och \Delta t\in[50,80] ms, h^*\approx 0.5\text{–}0.8 bitar per medvetet ögonblick.
Varje stationär ergodisk process \nu \in \mathcal{M} som uppfyller E_{T,h}(\nu) - D_{\min} > h^\ast kommer legitimt att utlösa Narrativt förfall. Detta beror på att R_{T,h}(D_{\min}) \ge E_{T,h} - D_{\min} > h^\ast = C_{\max} \Delta t, vilket explicit bryter mot kompatibilitetskriteriet. Detta är emellertid ett tillräckligt villkor för kollaps, inte ett strikt nödvändigt sådant: eftersom den undre gränsen sällan är skarp (R_{T,h} > E_{T,h} - D_{\min} generellt enligt §2.4), kan processer genomgå Narrativt förfall även när E_{T,h} - D_{\min} \le h^\ast. Detta ger den kvantitativa prediktionen för E-1; känsligheten för valet av \Delta t \in [40, 300] ms diskuteras i bilagan till E-1.
§6. Sammanfattande avslutning
T-1-leverabler — reviderad status
- Fyrtuplen specificeras i en prediktiv miljö med ändlig horisont.
- Prediktiv-KL-identiteten härleds korrekt.
- Den generiska satsen R(D)=C_\mu-D ersätts av den korrekta undre gränsen R_{T,h}(D)\ge E_{T,h}-D tillsammans med ett exakt likhetskriterium I(X;Z\mid Y)=0.
- Kodning med noll distorsion karakteriseras av den minimala tillräckliga statistiken S_h, och i gränsfallet med fullständigt kausalt tillstånd gäller R(0)=C_{\mu,\nu}.
- C_{\max} behandlas som empiriskt, inte som internt härlett.
- h^*=C_{\max}\Delta t är en empirisk parametrisering, inte en sats från §2.
Denna bilaga underhålls som en del av OPT-projektets repository vid sidan av theoretical_roadmap.pdf.