Teoria patch-ului ordonat (OPT)

Anexa T-1: Filtru de Stabilitate

Anders Jarevåg

3 aprilie 2026 | DOI: 10.5281/zenodo.19300777

Sarcina originală T-1: Filtru de Stabilitate — Specificație completă rată–distorsiune Problemă: teoria rată–distorsiune a lui Shannon necesită: o sursă X, un alfabet de reconstrucție și o funcție de distorsiune d(x, \hat{x}). Preprintul invocă R_{pred}(D) fără a specifica aceste trei elemente pentru substratul OPT. Livrabil: O specificație completă (\mathcal{X}, \hat{\mathcal{X}}, P_X, d) pentru problema rată–distorsiune din OPT.

Această revizuire distinge între entropia în exces și complexitatea statistică, demonstrează identitatea KL predictivă la orizont finit, demonstrează limita inferioară generală R_{T,h}(D)\ge E_{T,h}-D și formulează un criteriu exact de egalitate pentru cazul în care această limită inferioară este atinsă. C_{\max} rămâne un parametru empiric, nu o mărime derivată din formalismul rată–distorsiune.
Stadiu de închidere: PARȚIAL REZOLVAT. Specificația în cvadruplu, identitatea KL predictivă și limita inferioară generală R_{T,h}(D) \geq E_{T,h}(\nu) - D sunt stabilite, împreună cu un criteriu exact de egalitate. Afirmația anterioară generică în formă închisă R(D) = C_\mu - D a fost retrasă; rezultatul corect este limita inferioară. C_{\max} rămâne un parametru empiric, nu o mărime derivată din formalismul rată–distorsiune.

§0. Nivelul formulării

Formulare de lucru. Fixăm T,h<\infty. Fie X:=X_{1:T} blocul trecutului și Y:=X_{T+1:T+h} blocul de anticipare a viitorului sub o măsură ergodică staționară calculabilă fixată \nu\in\mathcal M. Definim informația predictivă pe orizont finit E_{T,h}(\nu):=I(X;Y). Atunci când există limita pe orizont infinit, definim entropia în exces E_\nu := I(\overleftarrow X;\overrightarrow X). Dacă S desemnează starea cauzală completă a \epsilon-mașinii, definim complexitatea statistică C_{\mu,\nu}:=H(S). Acestea sunt mărimi distincte. Problema rată–distorsiune pe orizont finit din această anexă este formulată în termenii lui E_{T,h}, nu ai lui C_{\mu,\nu}. Semimăsura universală Solomonoff \xi intervine doar ca meta-prior de ponderare (preprint, Ec. 1): curbele individuale R(D) sunt calculate pentru fiecare măsură \nu. Rezultatele care necesită amestecul complet \xi sunt enunțate separat.

§1. Specificația completă în patru tuple

1.1 Sursa X și distribuția P_X

Fixăm o măsură calculabilă staționară ergodică \nu \in \mathcal{M} pe \{0,1\}^\infty. Sursa este procesul (X_t)_{t \ge 1} distribuit conform lui \nu. Pentru rolul de meta-prior, \xi din Ec. (1) a preprintului ponderează fiecare astfel de \nu cu w_\nu \approx 2^{-K(\nu)}. Scriem P_X = \nu pentru un membru fix al lui \mathcal{M}. Toate rezultatele de mai jos se aplică per-măsură \nu; conexiunea Solomonoff intră prin limita de dominanță din §4.

1.2 Alfabetul de reproducere \hat{X}

Pentru T,h fixe, definim o relație de echivalență predictivă cu orizont finit pe blocurile trecute: x \sim_h x' \iff \nu(Y\in A\mid X=x)=\nu(Y\in A\mid X=x') \quad\text{pentru orice mulțime măsurabilă }A\subseteq\{0,1\}^h. Fie S_h clasa de echivalență a lui X sub \sim_h. Atunci S_h este statistica suficientă minimă pentru a prezice Y din X la orizontul h.

Starea cauzală completă a \epsilon-mașinii, S, este obiectul de orizont infinit obținut atunci când se trece la trecuturi semi-infinite și la viitorul complet. Această anexă folosește S_h pentru derivările la orizont finit și rezervă S pentru limita completă a stării cauzale.

Statut computațional. Pentru \nu computabilă generală, această anexă nu revendică computabilitatea exactă a partiției stărilor predictive. Ea este tratată ca un obiect măsurabil idealizat. Computabilitatea exactă este afirmată numai pentru subclase identificate explicit, precum procesele cu memorie finită.

1.3 Funcția de distorsiune d_h(x, z)

Funcția de distorsiune este divergența predictivă KL: d_h(x,z):=D_{\mathrm{KL}}\!\big(P_\nu(Y\mid X=x)\,\|\,P_\nu(Y\mid Z=z)\big). Aici Z este o variabilă de reprezentare produsă de un codor p(z\mid x). Când Z=S_h, aceasta este distorsiunea exactă a stării predictive; când Z este o grosierizare sau un cod stochastic, P_\nu(Y\mid Z=z) este legea predictivă indusă.

Cvartetul complet

Element	Definiție
X	(X_t)_{t \ge 1} — proces staționar ergodic sub \nu \in \mathcal{M}
\hat{X}	S_h — stări predictive cu orizont finit
P_X	\nu — membru computabil fix al lui \mathcal{M}; Solomonoff \xi este meta-priorul
d_h(x, z)	D_{\mathrm{KL}}( P_\nu(\cdot\\|x) \\| P_\nu(\cdot\\|z) ) — divergență predictivă KL pe orizontul h

§2. Derivarea lui R_{T,h}(D) sub cvadruplet

Funcția rată-distorsie pentru cvadrupletul din §1 este:

R_{T,h}(D) = \min_{p(z|x) : \mathbb{E}[d_h(X,Z)] \le D} I(X ; Z)

2.1 Identitatea distorsiunii KL

Fie X:=X_{1:T}, Y:=X_{T+1:T+h} și fie Z orice reprezentare produsă de un codor p(z\mid x). Deoarece Z-X-Y este un lanț Markov, \mathbb E[d_h(X,Z)] = \mathbb E\!\left[D_{\mathrm{KL}}(P(Y\mid X)\|P(Y\mid Z))\right] = H(Y\mid Z)-H(Y\mid X) = I(X;Y\mid Z). Echivalent, \mathbb E[d_h(X,Z)] = I(X;Y)-I(Z;Y)=E_{T,h}(\nu)-I(Z;Y). Prin urmare, constrângerea de distorsiune \mathbb E[d_h(X,Z)]\le D este echivalentă cu I(Z;Y)\ge E_{T,h}(\nu)-D.

2.2 Reformularea Information Bottleneck

Constrângerea de distorsiune restrânge spațiul codificatoarelor admisibile la acelea care satisfac \mathbb{E}[d_h(X,Z)] \le D. Aceasta corespunde exact limitării inferioare a lui I(Z;Y), dând problema constrânsă Information Bottleneck. Deoarece regiunea realizabilă \{(I(Z;Y), I(X;Z))\} este convexă în baza argumentelor standard de time-sharing, dualitatea puternică este valabilă. Acest lucru permite o reformulare exactă folosind Lagrangianul Information Bottleneck (Tishby, Pereira & Bialek 1999 [28]): \mathcal{L}[p(z|x)] = I(X ; Z) - \beta \cdot I(Z ; Y) unde multiplicatorul lui Lagrange \beta este determinat de D. Lagrangianul IB trasează frontiera Pareto a ratei de compresie în raport cu fidelitatea predictivă.

2.3 Teorema principală: limită inferioară generală și criteriu de egalitate

Stabilim limita pentru funcția rată-distorsie:

Propoziție (limită inferioară generală și criteriu de egalitate).
Pentru orice codor p(z\mid x), fie D:=\mathbb E[d_h(X,Z)]. Atunci I(X;Z)=E_{T,h}(\nu)-D+I(X;Z\mid Y). În consecință, R_{T,h}(D)\ge E_{T,h}(\nu)-D. Pentru alfabete compacte și finite de reproducere, unde continuitatea garantează că infimumul peste codori este atins, egalitatea la o distorsiune dată D are loc dacă și numai dacă există un codor care atinge acea distorsiune cu I(X;Z\mid Y)=0. Pentru codori deterministici Z=g(X), aceasta este echivalentă cu H(Z\mid Y)=0.

La distorsiune zero, statistica suficientă minimă S_h atinge R_{T,h}(0)=I(X;S_h)=H(S_h). Rețineți că această rată la distorsiune zero, H(S_h), se situează în general strict deasupra limitei inferioare E_{T,h}. Diferența este decalajul nenegativ H(S_h) - E_{T,h} = H(S_h|Y). Din punct de vedere fizic, acest decalaj reprezintă „informația stocată” structural în trecut pe care doar fereastra viitorului nu reușește să o recupereze. Egalitatea la distorsiune zero (H(S_h|Y)=0) este un caz foarte degenerat, în mod generic fals pentru procese complexe.

În limita completă a stărilor cauzale, R(0)=C_{\mu,\nu}=H(S). Aceasta este egală cu E_\nu doar în cazuri speciale; în general E_\nu < C_{\mu,\nu}.

2.4 Comportament pentru alfabete de reproducere mai grosiere

Pentru orice grosierizare deterministă Z=g(S_h), I(X;Z)=I(Z;Y)+I(X;Z\mid Y)=E_{T,h}(\nu)-D+I(X;Z\mid Y)\ge E_{T,h}(\nu)-D. Termenul de marjă nenegativ I(X;Z\mid Y) se anulează numai atunci când reprezentarea grosierizată poate fi recuperată din fereastra viitoare Y. Prin urmare, alfabetele mai grosiere produc în general curbe rată-distorsionare situate strict deasupra dreptei E_{T,h}-D. Această dreaptă este o bornă inferioară universală, nu un înveliș generic realizat efectiv. Orice codec calculabil în practică folosește o aproximație cu memorie finită a stărilor cauzale și, prin urmare, are o curbă situată deasupra acestei borne.

2.5 Evaluări la limită

Limită	Valoare	Interpretare
D = 0	R_{T,h}(0) = I(X; S_h)	Compresie exactă a stării predictive; informație maximă păstrată
D = E_{T,h}	R_{T,h}(E_{T,h}) = 0	Reprezentare trivială; toată informația predictivă este eliminată
D = D_{\min}	R_{T,h}(D_{\min}) \ge E_{T,h}(\nu) - D_{\min}	Limită inferioară minimă pentru un observator viabil; pragul Filtrului de Stabilitate

(Notă: În limita orizontului infinit, punctul de rată zero se află la distorsiunea E_\nu, nu la C_{\mu,\nu})

§3. C_{\max} — Caracterizare și bariere

3.1 Lemă de convergență pe orizont infinit

Teorema principală (§2.3) stabilește limita inferioară R_{T,h}(D) \ge E_{T,h}(\nu) - D pentru (T, h) finite. Arătăm acum că aceasta se extinde la cadrul cu orizont infinit.

Lemă (extensie la orizont infinit). Fie \nu o măsură staționară ergodică pe \{0,1\}^\infty. Atunci:

E_{T,h}(\nu) = I(X_{1:T}\,;\,X_{T+1:T+h}) este ne-descrescătoare atât în T, cât și în h (prin inegalitatea de procesare a datelor: condiționarea pe blocuri mai lungi nu poate diminua informația mutuală dintre trecut și viitor sub staționaritate).
Limita E_\nu := \lim_{T,h \to \infty} E_{T,h}(\nu) există (posibil +\infty) prin convergență monotonă.
Pentru fiecare D \ge 0 fix, șirul R_{T,h}(D) este ne-descrescător în T (trecuturi mai lungi nu pot reduce rata optimă de compresie) și ne-descrescător în h. Schiță de demonstrație pentru monotonia în h: Funcția de distorsiune se descompune ca d_{h+1}(x, z) = D_{\mathrm{KL}}\!\left(P_\nu(\cdot \mid x) \,\|\, P_z(\cdot \mid z)\right) pe parcursul a h+1 pași viitori, ceea ce poate fi scris, prin regula lanțului, ca d_h(x,z) + D_{\mathrm{KL}}\!\left(P_\nu(X_{T+h+1} \mid x, X_{T+1:T+h}) \,\|\, P_z(X_{T+h+1} \mid z, X_{T+1:T+h})\right). Deoarece al doilea termen este nenegativ, rezultă că d_{h+1} \geq d_h punctual. Prin urmare, mulțimea constrângerilor \{P(z|x) : E[d_{h+1}] \leq D\} \subseteq \{P(z|x) : E[d_h] \leq D\}, iar minimizarea pe o mulțime fezabilă mai mică nu poate reduce rata: R_{T,h+1}(D) \geq R_{T,h}(D).
Prin urmare, R_\nu(D) := \lim_{T,h \to \infty} R_{T,h}(D) există.

Deoarece R_{T,h}(D) \ge E_{T,h}(\nu) - D este valabil la fiecare etapă finită, iar ambele părți converg monoton, limita inferioară se transmite la limită:

R_\nu(D) \ge E_\nu - D

Aceasta este limita inferioară pe orizont infinit invocată în Propozițiile T-1a și T-1c de mai jos. Notă: Pentru procesele cu E_\nu = +\infty (de exemplu, cicluri de Bruijn de ordin înalt când k \to \infty), limita este satisfăcută în mod trivial; astfel de procese sunt excluse din mulțimea compatibilă cu observatorul O_{C_{\max},D_{\min}} pentru orice C_{\max} finit.

3.2 Partiția lui M prin Filtrul de Stabilitate — Propoziția T-1a

Propoziția T-1a (partiție netrivială).
Fie fixate valorile empirice C_{\max}>0, \Delta t>0 și D_{\min}\ge0. Definim O_{C_{\max},D_{\min}} := \{\nu\in\mathcal M: R_\nu(D_{\min})\le C_{\max}\Delta t\}. Atunci atât O_{C_{\max},D_{\min}}, cât și complementul său sunt nevide.

Demonstrație. Procesul constant aparține lui O_{C_{\max},D_{\min}} deoarece are E_\nu=0 și R_\nu(D)=0.
Pentru complement, alegem un proces binar de tip ciclu de Bruijn de ordin k: un proces binar staționar ergodic, de perioadă 2^k, cu fază uniformă, în care fiecare cuvânt de lungime k apare exact o dată pe ciclu. Pentru acest proces, E_\nu=C_{\mu,\nu}=k. Prin urmare, R_\nu(D_{\min})\ge k-D_{\min}. Alegând k>C_{\max}\Delta t + D_{\min} obținem R_\nu(D_{\min})>C_{\max}\Delta t, deci \nu\notin O_{C_{\max},D_{\min}}. \square

3.3 Definiție/Caracterizare a lui C_{\max} — T-1b

Definiția T-1b (parametru empiric al lățimii de bandă).
C_{\max} este luat drept un parametru empiric al lățimii de bandă a accesului conștient, extern formalismului rată-distorsie. Dat fiind C_{\max}, definim clasa compatibilă cu observatorul O_{C_{\max},D_{\min}} := \{\nu\in\mathcal M: R_\nu(D_{\min})\le C_{\max}\Delta t\}. Dacă se dorește rezumarea unei clase de referință specificate separat \mathcal{O}_{ref}, se definește C^{ref}_{max}:=\frac{1}{\Delta t}\sup_{\nu\in\mathcal{O}_{ref}}R_\nu(D_{\min}). Aceasta este o statistică rezumativă a unei clase alese, nu definiția clasei înseși.

3.4 Bariera non-emergenței — Schiță de demonstrație T-1c

Schiță de demonstrație T-1c (nicio limită universală finită doar din \xi).
Semimăsura Solomonoff \xi atribuie o pondere a priori pozitivă fiecărei măsuri computabile \nu\in\mathcal M. Clasa \mathcal M conține procese binare ergodice staționare cu entropie în exces E_\nu arbitrar de mare (de exemplu, familia de Bruijn de mai sus). Deoarece R_\nu(D_{\min})\ge E_\nu-D_{\min}, nu există nicio limită superioară finită, valabilă pe întregul suport, pentru R_\nu(D_{\min}) care să poată fi derivată doar din \xi. Prin urmare, orice C_{\max} finit necesită un aport empiric suplimentar sau o restrângere a clasei, dincolo de priorul Solomonoff nud. \square

§4. Conexiunea cu meta-priorul Solomonoff

Cvartetul din §1 și derivarea R(D) din §2 sunt formulate pentru fiecare măsură \nu. Conexiunea Solomonoff — modul în care meta-priorul \xi atribuie ponderi fluxurilor compatibile cu observatorul — este o corespondență structurală, nu o derivare.

Pentru orice \nu \in O_{C_{\max},D_{\min}} compatibilă cu observatorul, echilibrul rată-distorsie asigură că fluxul comprimat z_{0:T} este reprezentarea selectată de Filtru de Stabilitate. Priorul Solomonoff \xi atribuie acestei \nu ponderea w_\nu \approx 2^{-K(\nu)}: procesele compatibile cu observatorul mai simple (cu K mai mic) sunt exponențial mai probabile sub \xi. Aceasta este expresia formală a argumentului parcimoniei (Anexa T-4): Filtru de Stabilitate, operând asupra lui \xi, selectează cel mai simplu codec care se încadrează în lățimea de bandă.

Limita de dominație din T-4b se aplică direct: pentru orice măsură computabilă a fizicii \nu cu K(\nu) < \infty:

-\log \xi(y_{1:T}) \le -\log \nu(y_{1:T}) + K(\nu)

Aceasta garantează că meta-priorul OPT \xi nu atribuie niciodată fluxurilor compatibile cu observatorul o probabilitate mai mică decât orice model fizic computabil fix, până la lungimea de descriere proprie modelului, K(\nu).

§5. Cuanta experiențială de bit h^\ast (Previzualizare a E-1)

Dată o alegere empirică a lui C_{\max} și o fereastră empirică de actualizare conștientă \Delta t, definim h^*:=C_{\max}\Delta t. Pentru C_{\max}\approx 10 biți/s și \Delta t\in[50,80] ms, h^*\approx 0.5\text{–}0.8 biți per moment conștient.

Orice proces ergodic staționar \nu \in \mathcal{M} care satisface E_{T,h}(\nu) - D_{\min} > h^\ast va declanșa în mod legitim Degradare narativă. Motivul este că R_{T,h}(D_{\min}) \ge E_{T,h} - D_{\min} > h^\ast = C_{\max} \Delta t, încălcând explicit criteriul de compatibilitate. Totuși, aceasta este o condiție suficientă pentru colaps, nu una strict necesară: deoarece limita inferioară este rareori saturată (R_{T,h} > E_{T,h} - D_{\min} în mod generic, conform §2.4), procesele pot suferi Degradare narativă chiar și atunci când E_{T,h} - D_{\min} \le h^\ast. Aceasta oferă predicția cantitativă pentru E-1; sensibilitatea la alegerea lui \Delta t \in [40, 300] ms este discutată în anexa E-1.

§6. Rezumat de închidere

Livrabilele T-1 — Stare revizuită

Cvartetul este specificat într-un cadru predictiv cu orizont finit.
Identitatea predictivă-KL este derivată corect.
Teorema generică R(D)=C_\mu-D este înlocuită cu limita inferioară corectă R_{T,h}(D)\ge E_{T,h}-D împreună cu un criteriu exact de egalitate I(X;Z\mid Y)=0.
Codarea cu distorsiune zero este caracterizată prin statistica suficientă minimă S_h, iar în limita completă a stărilor cauzale R(0)=C_{\mu,\nu}.
C_{\max} este tratat ca mărime empirică, nu ca derivat intern.
h^*=C_{\max}\Delta t este o parametrizare empirică, nu o teoremă din §2.

Această anexă este menținută ca parte a depozitului proiectului OPT, alături de theoretical_roadmap.pdf.