Theorie der geordneten Patches

Anhang T-1: Stabilitätsfilter

Anders Jarevåg

3. April 2026 | DOI: 10.5281/zenodo.19300777

Ursprüngliche Aufgabe T-1: Stabilitätsfilter — Vollständige Rate-Distortion-Spezifikation Problem: Shannons Rate-Distortion-Theorie erfordert: eine Quelle X, ein Reproduktionsalphabet und eine Verzerrungsfunktion d(x, \hat{x}). Der Preprint führt R_{pred}(D) ein, ohne diese drei Elemente für das Substrat der OPT zu spezifizieren. Liefergegenstand: Eine vollständige Spezifikation von (\mathcal{X}, \hat{\mathcal{X}}, P_X, d) für das Rate-Distortion-Problem der OPT.

Diese Überarbeitung unterscheidet Exzessentropie von statistischer Komplexität, beweist die prädiktive-KL-Identität bei endlichem Horizont, beweist die allgemeine untere Schranke R_{T,h}(D)\ge E_{T,h}-D und formuliert ein exaktes Gleichheitskriterium dafür, wann diese untere Schranke erreicht wird. C_{\max} bleibt ein empirischer Parameter und keine aus dem Rate-Distortion-Formalismus abgeleitete Größe.
Abschlussstatus: TEILWEISE GELÖST. Die Spezifikation des Vierertupels, die prädiktive-KL-Identität und die allgemeine untere Schranke R_{T,h}(D) \geq E_{T,h}(\nu) - D sind etabliert, zusammen mit einem exakten Gleichheitskriterium. Die frühere allgemeine geschlossene Behauptung R(D) = C_\mu - D wurde zurückgezogen; das korrekte Resultat ist die untere Schranke. C_{\max} bleibt ein empirischer Parameter und keine aus dem Rate-Distortion-Formalismus abgeleitete Größe.

§0. Formulierungsebene

Arbeitsformulierung. Fixiere T,h<\infty. Sei X:=X_{1:T} der Vergangenheitsblock und Y:=X_{T+1:T+h} der Zukunfts-Vorausschaublock unter einem festen berechenbaren stationären ergodischen Maß \nu\in\mathcal M. Definiere die prädiktive Information mit endlichem Horizont E_{T,h}(\nu):=I(X;Y). Wenn der Grenzwert für unendlichen Horizont existiert, definiere die Exzessentropie E_\nu := I(\overleftarrow X;\overrightarrow X). Wenn S den vollständigen kausalen Zustand der \epsilon-Maschine bezeichnet, definiere die statistische Komplexität C_{\mu,\nu}:=H(S). Dies sind verschiedene Größen. Das Rate-Distortion-Problem mit endlichem Horizont in diesem Anhang wird in Termen von E_{T,h} formuliert, nicht von C_{\mu,\nu}. Das Solomonoffsche Maß \xi tritt nur als Meta-Prior-Gewichtung auf (Preprint Gl. 1): Individuelle R(D)-Kurven werden maßweise pro \nu berechnet. Ergebnisse, die die volle Mischung \xi erfordern, werden gesondert angegeben.

§1. Die vollständige Vier-Tupel-Spezifikation

1.1 Quelle X und Verteilung P_X

Fixiere ein berechenbares stationäres ergodisches Maß \nu \in \mathcal{M} auf \{0,1\}^\infty. Die Quelle ist der gemäß \nu verteilte Prozess (X_t)_{t \ge 1}. Für die Rolle des Meta-Priors gewichtet \xi aus Gl. (1) des Preprints jedes solche \nu mit w_\nu \approx 2^{-K(\nu)}. Wir schreiben P_X = \nu für ein festes Element von \mathcal{M}. Alle folgenden Resultate gelten maßweise pro \nu; die Solomonoff-Verbindung tritt über die Dominanzschranke in §4 ein.

1.2 Reproduktionsalphabet \hat{X}

Für feste T,h definieren wir eine prädiktive Äquivalenzrelation mit endlichem Horizont auf Vergangenheitsblöcken: x \sim_h x' \iff \nu(Y\in A\mid X=x)=\nu(Y\in A\mid X=x') \quad\text{für alle messbaren }A\subseteq\{0,1\}^h. Sei S_h die Äquivalenzklasse von X unter \sim_h. Dann ist S_h die minimale hinreichende Statistik für die Vorhersage von Y aus X beim Horizont h.

Der vollständige kausale Zustand S der \epsilon-Maschine ist das Unendlich-Horizont-Objekt, das entsteht, wenn man zu halbinfiniten Vergangenheiten und der vollständigen Zukunft übergeht. Dieser Anhang verwendet S_h für Herleitungen mit endlichem Horizont und reserviert S für den vollständigen Grenzfall des kausalen Zustands.

Berechenbarkeitsstatus. Für allgemeine berechenbare \nu erhebt dieser Anhang keinen Anspruch auf exakte Berechenbarkeit der Partition des prädiktiven Zustands. Sie wird als idealisiertes messbares Objekt behandelt. Exakte Berechenbarkeit wird nur für explizit identifizierte Unterklassen wie Prozesse mit endlichem Gedächtnis behauptet.

1.3 Verzerrungsfunktion d_h(x, z)

Die Verzerrungsfunktion ist die prädiktive KL-Divergenz: d_h(x,z):=D_{\mathrm{KL}}\!\big(P_\nu(Y\mid X=x)\,\|\,P_\nu(Y\mid Z=z)\big). Hier ist Z eine Repräsentationsvariable, die von einem Encoder p(z\mid x) erzeugt wird. Wenn Z=S_h ist, handelt es sich um die exakte Verzerrung des prädiktiven Zustands; wenn Z eine Vergröberung oder ein stochastischer Code ist, ist P_\nu(Y\mid Z=z) das induzierte prädiktive Gesetz.

Vollständiges Vier-Tupel

Element	Definition
X	(X_t)_{t \ge 1} — stationärer ergodischer Prozess unter \nu \in \mathcal{M}
\hat{X}	S_h — prädiktive Zustände mit endlichem Horizont
P_X	\nu — festes berechenbares Element von \mathcal{M}; Solomonoff-\xi ist der Meta-Prior
d_h(x, z)	D_{\mathrm{KL}}( P_\nu(\cdot\\|x) \\| P_\nu(\cdot\\|z) ) — KL-prädiktive Divergenz über Horizont h

§2. Herleitung von R_{T,h}(D) unter dem Vier-Tupel

Die Rate-Distortion-Funktion für das Vier-Tupel aus §1 lautet:

R_{T,h}(D) = \min_{p(z|x) : \mathbb{E}[d_h(X,Z)] \le D} I(X ; Z)

2.1 Die KL-Distortionsidentität

Sei X:=X_{1:T}, Y:=X_{T+1:T+h}, und sei Z eine beliebige Repräsentation, die von einem Encoder p(z\mid x) erzeugt wird. Da Z-X-Y eine Markov-Kette ist, \mathbb E[d_h(X,Z)] = \mathbb E\!\left[D_{\mathrm{KL}}(P(Y\mid X)\|P(Y\mid Z))\right] = H(Y\mid Z)-H(Y\mid X) = I(X;Y\mid Z). Äquivalent dazu gilt \mathbb E[d_h(X,Z)] = I(X;Y)-I(Z;Y)=E_{T,h}(\nu)-I(Z;Y). Daher ist die Distortionsbedingung \mathbb E[d_h(X,Z)]\le D äquivalent zu I(Z;Y)\ge E_{T,h}(\nu)-D.

2.2 Die Neuformulierung des Information Bottleneck

Die Verzerrungsnebenbedingung beschränkt den Raum zulässiger Encoder auf diejenigen, die \mathbb{E}[d_h(X,Z)] \le D erfüllen. Dies entspricht genau einer unteren Schranke für I(Z;Y) und ergibt damit das eingeschränkte Information-Bottleneck-Problem. Da der erreichbare Bereich \{(I(Z;Y), I(X;Z))\} unter den üblichen Time-Sharing-Argumenten konvex ist, gilt starke Dualität. Dies erlaubt eine exakte Neuformulierung mithilfe der Information-Bottleneck-Lagrangefunktion (Tishby, Pereira & Bialek 1999 [28]): \mathcal{L}[p(z|x)] = I(X ; Z) - \beta \cdot I(Z ; Y) wobei der Lagrange-Multiplikator \beta durch D bestimmt ist. Die IB-Lagrangefunktion zeichnet die Pareto-Front von Kompressionsrate gegenüber prädiktiver Treue nach.

2.3 Hauptsatz: Allgemeine untere Schranke und Gleichheitskriterium

Wir etablieren die Schranke für die Rate-Distortion-Funktion:

Proposition (allgemeine untere Schranke und Gleichheitskriterium).
Für jeden Encoder p(z\mid x) sei D:=\mathbb E[d_h(X,Z)]. Dann gilt I(X;Z)=E_{T,h}(\nu)-D+I(X;Z\mid Y). Folglich R_{T,h}(D)\ge E_{T,h}(\nu)-D. Für kompakte endliche Reproduktionsalphabete, bei denen die Stetigkeit garantiert, dass das Infimum über Encoder angenommen wird, gilt Gleichheit bei einer gegebenen Verzerrung D genau dann, wenn es einen Encoder gibt, der diese Verzerrung erreicht und für den I(X;Z\mid Y)=0. Für deterministische Encoder Z=g(X) ist dies äquivalent zu H(Z\mid Y)=0.

Bei Verzerrung null erreicht die minimale hinreichende Statistik S_h R_{T,h}(0)=I(X;S_h)=H(S_h). Beachte, dass diese Null-Verzerrungs-Rate H(S_h) im Allgemeinen strikt über der unteren Schranke E_{T,h} liegt. Die Differenz ist die nichtnegative Lücke H(S_h) - E_{T,h} = H(S_h|Y). Diese Lücke repräsentiert physikalisch strukturell „gespeicherte Information“ in der Vergangenheit, die das Zukunftsfenster allein nicht wiedergewinnt. Dass bei Null-Verzerrung Gleichheit gilt (H(S_h|Y)=0), ist ein hochgradig degenerierter Fall, der für komplexe Prozesse generischerweise falsch ist.

Im vollen Kausalzustands-Limes gilt R(0)=C_{\mu,\nu}=H(S). Dies ist nur in Spezialfällen gleich E_\nu; im Allgemeinen gilt E_\nu < C_{\mu,\nu}.

2.4 Verhalten für gröbere Reproduktionsalphabete

Für jede deterministische Vergröberung Z=g(S_h) gilt I(X;Z)=I(Z;Y)+I(X;Z\mid Y)=E_{T,h}(\nu)-D+I(X;Z\mid Y)\ge E_{T,h}(\nu)-D. Der nichtnegative Slack-Term I(X;Z\mid Y) verschwindet nur dann, wenn die vergröberte Repräsentation aus dem Zukunftsfenster Y rekonstruierbar ist. Daher erzeugen gröbere Alphabete im Allgemeinen Rate-Distortion-Kurven, die strikt oberhalb der Geraden E_{T,h}-D liegen. Diese Gerade ist eine universelle untere Schranke, keine im Allgemeinen erreichte Hüllkurve. Jeder praktisch berechenbare Codec verwendet eine Approximation der kausalen Zustände mit endlichem Gedächtnis und besitzt daher eine Kurve oberhalb dieser Schranke.

2.5 Grenzauswertungen

Grenze	Wert	Interpretation
D = 0	R_{T,h}(0) = I(X; S_h)	Exakte Kompression des prädiktiven Zustands; maximaler Informationserhalt
D = E_{T,h}	R_{T,h}(E_{T,h}) = 0	Triviale Repräsentation; sämtliche prädiktive Information verworfen
D = D_{\min}	R_{T,h}(D_{\min}) \ge E_{T,h}(\nu) - D_{\min}	Minimale Untergrenze für einen lebensfähigen Beobachter; Schwellenwert des Stabilitätsfilters

(Hinweis: Im Limes des unendlichen Horizonts liegt der Nullratenpunkt bei der Verzerrung E_\nu, nicht bei C_{\mu,\nu})

§3. C_{\max} — Charakterisierung und Barrieren

3.1 Konvergenzlemma für unendlichen Horizont

Der Hauptsatz (§2.3) etabliert die untere Schranke R_{T,h}(D) \ge E_{T,h}(\nu) - D für endliche (T, h). Wir zeigen nun, dass sich dies auf den Fall eines unendlichen Horizonts erweitert.

Lemma (Erweiterung auf unendlichen Horizont). Sei \nu ein stationäres ergodisches Maß auf \{0,1\}^\infty. Dann gilt:

E_{T,h}(\nu) = I(X_{1:T}\,;\,X_{T+1:T+h}) ist sowohl in T als auch in h monoton nicht fallend (aufgrund der Datenverarbeitungsungleichung: Die Konditionierung auf längere Blöcke kann unter Stationarität die wechselseitige Information zwischen Vergangenheit und Zukunft nicht verringern).
Der Grenzwert E_\nu := \lim_{T,h \to \infty} E_{T,h}(\nu) existiert (möglicherweise +\infty) aufgrund monotoner Konvergenz.
Für jedes feste D \ge 0 ist die Folge R_{T,h}(D) monoton nicht fallend in T (längere Vergangenheiten können die optimale Kompressionsrate nicht verringern) und monoton nicht fallend in h. Beweisskizze für die Monotonie in h: Die Verzerrungsfunktion zerfällt als d_{h+1}(x, z) = D_{\mathrm{KL}}\!\left(P_\nu(\cdot \mid x) \,\|\, P_z(\cdot \mid z)\right) über h+1 zukünftige Schritte und kann mittels der Kettenregel geschrieben werden als d_h(x,z) + D_{\mathrm{KL}}\!\left(P_\nu(X_{T+h+1} \mid x, X_{T+1:T+h}) \,\|\, P_z(X_{T+h+1} \mid z, X_{T+1:T+h})\right). Da der zweite Term nichtnegativ ist, gilt punktweise d_{h+1} \geq d_h. Daher ist die Nebenbedingungsmenge \{P(z|x) : E[d_{h+1}] \leq D\} \subseteq \{P(z|x) : E[d_h] \leq D\}, und die Minimierung über eine kleinere zulässige Menge kann die Rate nicht verringern: R_{T,h+1}(D) \geq R_{T,h}(D).
Daher existiert R_\nu(D) := \lim_{T,h \to \infty} R_{T,h}(D).

Da R_{T,h}(D) \ge E_{T,h}(\nu) - D auf jeder endlichen Stufe gilt und beide Seiten monoton konvergieren, geht die Schranke auf den Grenzwert über:

R_\nu(D) \ge E_\nu - D

Dies ist die untere Schranke für unendlichen Horizont, auf die in den Propositionen T-1a und T-1c unten Bezug genommen wird. Anmerkung: Für Prozesse mit E_\nu = +\infty (z. B. de-Bruijn-Zyklen hoher Ordnung für k \to \infty) ist die Schranke trivialerweise erfüllt; solche Prozesse sind für jedes endliche C_{\max} aus der beobachterkompatiblen Menge O_{C_{\max},D_{\min}} ausgeschlossen.

3.2 Partition von M durch den Stabilitätsfilter — Proposition T-1a

Proposition T-1a (nichttriviale Partition).
Fixiere empirische Werte C_{\max}>0, \Delta t>0 und D_{\min}\ge0. Definiere O_{C_{\max},D_{\min}} := \{\nu\in\mathcal M: R_\nu(D_{\min})\le C_{\max}\Delta t\}. Dann sind sowohl O_{C_{\max},D_{\min}} als auch sein Komplement nichtleer.

Beweis. Der konstante Prozess liegt in O_{C_{\max},D_{\min}}, weil für ihn E_\nu=0 und R_\nu(D)=0 gilt.
Für das Komplement wähle einen binären de-Bruijn-Zyklusprozess der Ordnung k: einen stationären ergodischen binären Prozess mit Periode 2^k und gleichverteilter Phase, in dem jedes Wort der Länge k genau einmal pro Zyklus erscheint. Für diesen Prozess gilt E_\nu=C_{\mu,\nu}=k. Daher R_\nu(D_{\min})\ge k-D_{\min}. Wählt man k>C_{\max}\Delta t + D_{\min}, so gilt R_\nu(D_{\min})>C_{\max}\Delta t, also \nu\notin O_{C_{\max},D_{\min}}. \square

3.3 Definition/Charakterisierung von C_{\max} — T-1b

Definition T-1b (empirischer Bandbreitenparameter).
C_{\max} wird als ein empirischer Bandbreitenparameter des bewussten Zugangs aufgefasst, der außerhalb des Rate-Distortion-Formalismus liegt. Gegeben C_{\max}, definiere die beobachterkompatible Klasse O_{C_{\max},D_{\min}} := \{\nu\in\mathcal M: R_\nu(D_{\min})\le C_{\max}\Delta t\}. Falls man eine separat spezifizierte Referenzklasse \mathcal{O}_{ref} zusammenfassen möchte, definiere C^{ref}_{max}:=\frac{1}{\Delta t}\sup_{\nu\in\mathcal{O}_{ref}}R_\nu(D_{\min}). Dies ist eine zusammenfassende Statistik einer gewählten Klasse, nicht die Definition der Klasse selbst.

3.4 Die Nicht-Entstehungs-Barriere — Beweisskizze T-1c

Beweisskizze T-1c (keine endliche universelle Schranke allein aus \xi).
Das Solomonoffsche Universelle Semimaß \xi weist jedem berechenbaren Maß \nu\in\mathcal M ein positives a-priori-Gewicht zu. Die Klasse \mathcal M enthält stationäre ergodische binäre Prozesse mit beliebig großer Exzessentropie E_\nu (zum Beispiel die obenstehende de-Bruijn-Familie). Da R_\nu(D_{\min})\ge E_\nu-D_{\min}, gibt es keine endliche, trägerweite obere Schranke für R_\nu(D_{\min}), die sich allein aus \xi ableiten ließe. Jedes endliche C_{\max} erfordert daher zusätzliche empirische oder klasseneinschränkende Eingaben, die über den bloßen Solomonoff-Prior hinausgehen. \square

§4. Verbindung zum Solomonoffschen Meta-Prior

Das Vierer-Tupel aus §1 und die R(D)-Herleitung aus §2 sind maßbezogen pro \nu formuliert. Die Solomonoff-Verbindung — also wie das Meta-Prior \xi beobachterkompatible Ströme gewichtet — ist eher eine strukturelle Entsprechung als eine Herleitung.

Für jedes beobachterkompatible \nu \in O_{C_{\max},D_{\min}} stellt das Rate-Distortion-Gleichgewicht sicher, dass der komprimierte Strom z_{0:T} die vom Stabilitätsfilter ausgewählte Repräsentation ist. Das Solomonoff-Prior \xi weist diesem \nu das Gewicht w_\nu \approx 2^{-K(\nu)} zu: einfachere (niedrigeres K) beobachterkompatible Prozesse sind unter \xi exponentiell wahrscheinlicher. Dies ist der formale Ausdruck des Parsimonie-Arguments (Anhang T-4): Der Stabilitätsfilter, der auf \xi operiert, selektiert den einfachsten Codec, der innerhalb der Bandbreite liegt.

Die Dominanzschranke aus T-4b gilt unmittelbar: für jedes berechenbare Physik-Maß \nu mit K(\nu) < \infty:

-\log \xi(y_{1:T}) \le -\log \nu(y_{1:T}) + K(\nu)

Dies stellt sicher, dass das OPT-Meta-Prior \xi beobachterkompatiblen Strömen niemals eine geringere Wahrscheinlichkeit zuweist als irgendein festes berechenbares Physikmodell, bis auf die modellinterne Beschreibungslänge K(\nu).

§5. Das erfahrungsbezogene Bit-Quant h^\ast (Vorschau auf E-1)

Gegeben eine empirische Wahl von C_{\max} und ein empirisches bewusstes Aktualisierungsfenster \Delta t, definiere h^*:=C_{\max}\Delta t. Für C_{\max}\approx 10 Bit/s und \Delta t\in[50,80] ms gilt h^*\approx 0.5\text{–}0.8 Bit pro bewusstem Moment.

Jeder stationäre ergodische Prozess \nu \in \mathcal{M}, der E_{T,h}(\nu) - D_{\min} > h^\ast erfüllt, löst regelkonform Narrativen Verfall aus. Der Grund ist, dass R_{T,h}(D_{\min}) \ge E_{T,h} - D_{\min} > h^\ast = C_{\max} \Delta t gilt und damit das Kompatibilitätskriterium explizit verletzt wird. Dies ist jedoch eine hinreichende Bedingung für den Kollaps, keine strikt notwendige: Da die untere Schranke nur selten scharf ist (R_{T,h} > E_{T,h} - D_{\min} generisch gemäß §2.4), können Prozesse Narrativen Verfall auch dann durchlaufen, wenn E_{T,h} - D_{\min} \le h^\ast. Dies liefert die quantitative Vorhersage für E-1; die Sensitivität gegenüber der Wahl von \Delta t \in [40, 300] ms wird im E-1-Anhang diskutiert.

§6. Abschließende Zusammenfassung

T-1-Ergebnisse — Revidierter Status

Das Vierer-Tupel ist in einem prädiktiven Setting mit endlichem Horizont spezifiziert.
Die prädiktive-KL-Identität wird korrekt hergeleitet.
Das generische Theorem R(D)=C_\mu-D wird durch die korrekte untere Schranke R_{T,h}(D)\ge E_{T,h}-D zusammen mit einem exakten Gleichheitskriterium I(X;Z\mid Y)=0 ersetzt.
Zero-Distortion-Codierung wird durch die minimal hinreichende Statistik S_h charakterisiert, und im vollständigen kausalen Zustandsgrenzfall gilt R(0)=C_{\mu,\nu}.
C_{\max} wird als empirisch behandelt, nicht als intern hergeleitet.
h^*=C_{\max}\Delta t ist eine empirische Parametrisierung, kein Theorem aus §2.

Dieser Anhang wird als Teil des OPT-Projektrepositoriums zusammen mit theoretical_roadmap.pdf gepflegt.