Teoria patch-ului ordonat (OPT)
Anexa T-1: Filtru de Stabilitate
3 aprilie 2026 | DOI: 10.5281/zenodo.19300777
Sarcina originală T-1: Filtru de Stabilitate — Specificație completă rată–distorsiune Problemă: teoria rată–distorsiune a lui Shannon necesită: o sursă X, un alfabet de reconstrucție și o funcție de distorsiune d(x, \hat{x}). Preprintul invocă R_{pred}(D) fără a specifica aceste trei elemente pentru substratul OPT. Livrabil: O specificație completă (\mathcal{X}, \hat{\mathcal{X}}, P_X, d) pentru problema rată–distorsiune din OPT.
Această revizuire distinge între entropia în exces și complexitatea statistică, demonstrează identitatea KL predictivă la orizont finit, demonstrează limita inferioară generală R_{T,h}(D)\ge E_{T,h}-D și formulează un criteriu exact de egalitate pentru cazul în care această limită inferioară este atinsă. C_{\max} rămâne un parametru empiric, nu o mărime derivată din formalismul rată–distorsiune.
Stadiu de închidere: PARȚIAL REZOLVAT. Specificația în cvadruplu, identitatea KL predictivă și limita inferioară generală R_{T,h}(D) \geq E_{T,h}(\nu) - D sunt stabilite, împreună cu un criteriu exact de egalitate. Afirmația anterioară generică în formă închisă R(D) = C_\mu - D a fost retrasă; rezultatul corect este limita inferioară. C_{\max} rămâne un parametru empiric, nu o mărime derivată din formalismul rată–distorsiune.
§0. Nivelul formulării
Formulare de lucru. Fixăm T,h<\infty. Fie X:=X_{1:T} blocul trecutului și Y:=X_{T+1:T+h} blocul de anticipare a viitorului sub o măsură ergodică staționară calculabilă fixată \nu\in\mathcal M. Definim informația predictivă pe orizont finit E_{T,h}(\nu):=I(X;Y). Atunci când există limita pe orizont infinit, definim entropia în exces E_\nu := I(\overleftarrow X;\overrightarrow X). Dacă S desemnează starea cauzală completă a \epsilon-mașinii, definim complexitatea statistică C_{\mu,\nu}:=H(S). Acestea sunt mărimi distincte. Problema rată–distorsiune pe orizont finit din această anexă este formulată în termenii lui E_{T,h}, nu ai lui C_{\mu,\nu}. Semimăsura universală Solomonoff \xi intervine doar ca meta-prior de ponderare (preprint, Ec. 1): curbele individuale R(D) sunt calculate pentru fiecare măsură \nu. Rezultatele care necesită amestecul complet \xi sunt enunțate separat.
§1. Specificația completă în patru tuple
1.1 Sursa X și distribuția P_X
Fixăm o măsură calculabilă staționară ergodică \nu \in \mathcal{M} pe \{0,1\}^\infty. Sursa este procesul (X_t)_{t \ge 1} distribuit conform lui \nu. Pentru rolul de meta-prior, \xi din Ec. (1) a preprintului ponderează fiecare astfel de \nu cu w_\nu \approx 2^{-K(\nu)}. Scriem P_X = \nu pentru un membru fix al lui \mathcal{M}. Toate rezultatele de mai jos se aplică per-măsură \nu; conexiunea Solomonoff intră prin limita de dominanță din §4.
1.2 Alfabetul de reproducere \hat{X}
Pentru T,h fixe, definim o relație de echivalență predictivă cu orizont finit pe blocurile trecute: x \sim_h x' \iff \nu(Y\in A\mid X=x)=\nu(Y\in A\mid X=x') \quad\text{pentru orice mulțime măsurabilă }A\subseteq\{0,1\}^h. Fie S_h clasa de echivalență a lui X sub \sim_h. Atunci S_h este statistica suficientă minimă pentru a prezice Y din X la orizontul h.
Starea cauzală completă a \epsilon-mașinii, S, este obiectul de orizont infinit obținut atunci când se trece la trecuturi semi-infinite și la viitorul complet. Această anexă folosește S_h pentru derivările la orizont finit și rezervă S pentru limita completă a stării cauzale.
Statut computațional. Pentru \nu computabilă generală, această anexă nu revendică computabilitatea exactă a partiției stărilor predictive. Ea este tratată ca un obiect măsurabil idealizat. Computabilitatea exactă este afirmată numai pentru subclase identificate explicit, precum procesele cu memorie finită.
1.3 Funcția de distorsiune d_h(x, z)
Funcția de distorsiune este divergența predictivă KL: d_h(x,z):=D_{\mathrm{KL}}\!\big(P_\nu(Y\mid X=x)\,\|\,P_\nu(Y\mid Z=z)\big). Aici Z este o variabilă de reprezentare produsă de un codor p(z\mid x). Când Z=S_h, aceasta este distorsiunea exactă a stării predictive; când Z este o grosierizare sau un cod stochastic, P_\nu(Y\mid Z=z) este legea predictivă indusă.
Cvartetul complet
| Element | Definiție |
|---|---|
| X | (X_t)_{t \ge 1} — proces staționar ergodic sub \nu \in \mathcal{M} |
| \hat{X} | S_h — stări predictive cu orizont finit |
| P_X | \nu — membru computabil fix al lui \mathcal{M}; Solomonoff \xi este meta-priorul |
| d_h(x, z) | D_{\mathrm{KL}}( P_\nu(\cdot\|x) \| P_\nu(\cdot\|z) ) — divergență predictivă KL pe orizontul h |
§2. Derivarea lui R_{T,h}(D) sub cvadruplet
Funcția rată-distorsie pentru cvadrupletul din §1 este:
R_{T,h}(D) = \min_{p(z|x) : \mathbb{E}[d_h(X,Z)] \le D} I(X ; Z)
2.1 Identitatea distorsiunii KL
Fie X:=X_{1:T}, Y:=X_{T+1:T+h} și fie Z orice reprezentare produsă de un codor p(z\mid x). Deoarece Z-X-Y este un lanț Markov, \mathbb E[d_h(X,Z)] = \mathbb E\!\left[D_{\mathrm{KL}}(P(Y\mid X)\|P(Y\mid Z))\right] = H(Y\mid Z)-H(Y\mid X) = I(X;Y\mid Z). Echivalent, \mathbb E[d_h(X,Z)] = I(X;Y)-I(Z;Y)=E_{T,h}(\nu)-I(Z;Y). Prin urmare, constrângerea de distorsiune \mathbb E[d_h(X,Z)]\le D este echivalentă cu I(Z;Y)\ge E_{T,h}(\nu)-D.
2.2 Reformularea Information Bottleneck
Constrângerea de distorsiune restrânge spațiul codificatoarelor admisibile la acelea care satisfac \mathbb{E}[d_h(X,Z)] \le D. Aceasta corespunde exact limitării inferioare a lui I(Z;Y), dând problema constrânsă Information Bottleneck. Deoarece regiunea realizabilă \{(I(Z;Y), I(X;Z))\} este convexă în baza argumentelor standard de time-sharing, dualitatea puternică este valabilă. Acest lucru permite o reformulare exactă folosind Lagrangianul Information Bottleneck (Tishby, Pereira & Bialek 1999 [28]): \mathcal{L}[p(z|x)] = I(X ; Z) - \beta \cdot I(Z ; Y) unde multiplicatorul lui Lagrange \beta este determinat de D. Lagrangianul IB trasează frontiera Pareto a ratei de compresie în raport cu fidelitatea predictivă.
2.3 Teorema principală: limită inferioară generală și criteriu de egalitate
Stabilim limita pentru funcția rată-distorsie:
Propoziție (limită inferioară generală și criteriu de
egalitate).
Pentru orice codor p(z\mid x), fie
D:=\mathbb E[d_h(X,Z)].
Atunci
I(X;Z)=E_{T,h}(\nu)-D+I(X;Z\mid Y).
În consecință,
R_{T,h}(D)\ge E_{T,h}(\nu)-D.
Pentru alfabete compacte și finite de reproducere, unde
continuitatea garantează că infimumul peste codori este atins,
egalitatea la o distorsiune dată D are
loc dacă și numai dacă există un codor care atinge acea distorsiune cu
I(X;Z\mid Y)=0.
Pentru codori deterministici Z=g(X), aceasta este echivalentă cu
H(Z\mid Y)=0.
La distorsiune zero, statistica suficientă minimă S_h atinge R_{T,h}(0)=I(X;S_h)=H(S_h). Rețineți că această rată la distorsiune zero, H(S_h), se situează în general strict deasupra limitei inferioare E_{T,h}. Diferența este decalajul nenegativ H(S_h) - E_{T,h} = H(S_h|Y). Din punct de vedere fizic, acest decalaj reprezintă „informația stocată” structural în trecut pe care doar fereastra viitorului nu reușește să o recupereze. Egalitatea la distorsiune zero (H(S_h|Y)=0) este un caz foarte degenerat, în mod generic fals pentru procese complexe.
În limita completă a stărilor cauzale, R(0)=C_{\mu,\nu}=H(S). Aceasta este egală cu E_\nu doar în cazuri speciale; în general E_\nu < C_{\mu,\nu}.
2.4 Comportament pentru alfabete de reproducere mai grosiere
Pentru orice grosierizare deterministă Z=g(S_h), I(X;Z)=I(Z;Y)+I(X;Z\mid Y)=E_{T,h}(\nu)-D+I(X;Z\mid Y)\ge E_{T,h}(\nu)-D. Termenul de marjă nenegativ I(X;Z\mid Y) se anulează numai atunci când reprezentarea grosierizată poate fi recuperată din fereastra viitoare Y. Prin urmare, alfabetele mai grosiere produc în general curbe rată-distorsionare situate strict deasupra dreptei E_{T,h}-D. Această dreaptă este o bornă inferioară universală, nu un înveliș generic realizat efectiv. Orice codec calculabil în practică folosește o aproximație cu memorie finită a stărilor cauzale și, prin urmare, are o curbă situată deasupra acestei borne.
2.5 Evaluări la limită
| Limită | Valoare | Interpretare |
|---|---|---|
| D = 0 | R_{T,h}(0) = I(X; S_h) | Compresie exactă a stării predictive; informație maximă păstrată |
| D = E_{T,h} | R_{T,h}(E_{T,h}) = 0 | Reprezentare trivială; toată informația predictivă este eliminată |
| D = D_{\min} | R_{T,h}(D_{\min}) \ge E_{T,h}(\nu) - D_{\min} | Limită inferioară minimă pentru un observator viabil; pragul Filtrului de Stabilitate |
(Notă: În limita orizontului infinit, punctul de rată zero se află la distorsiunea E_\nu, nu la C_{\mu,\nu})
§3. C_{\max} — Caracterizare și bariere
3.1 Lemă de convergență pe orizont infinit
Teorema principală (§2.3) stabilește limita inferioară R_{T,h}(D) \ge E_{T,h}(\nu) - D pentru (T, h) finite. Arătăm acum că aceasta se extinde la cadrul cu orizont infinit.
Lemă (extensie la orizont infinit). Fie \nu o măsură staționară ergodică pe \{0,1\}^\infty. Atunci:
- E_{T,h}(\nu) = I(X_{1:T}\,;\,X_{T+1:T+h}) este ne-descrescătoare atât în T, cât și în h (prin inegalitatea de procesare a datelor: condiționarea pe blocuri mai lungi nu poate diminua informația mutuală dintre trecut și viitor sub staționaritate).
- Limita E_\nu := \lim_{T,h \to \infty} E_{T,h}(\nu) există (posibil +\infty) prin convergență monotonă.
- Pentru fiecare D \ge 0 fix, șirul R_{T,h}(D) este ne-descrescător în T (trecuturi mai lungi nu pot reduce rata optimă de compresie) și ne-descrescător în h. Schiță de demonstrație pentru monotonia în h: Funcția de distorsiune se descompune ca d_{h+1}(x, z) = D_{\mathrm{KL}}\!\left(P_\nu(\cdot \mid x) \,\|\, P_z(\cdot \mid z)\right) pe parcursul a h+1 pași viitori, ceea ce poate fi scris, prin regula lanțului, ca d_h(x,z) + D_{\mathrm{KL}}\!\left(P_\nu(X_{T+h+1} \mid x, X_{T+1:T+h}) \,\|\, P_z(X_{T+h+1} \mid z, X_{T+1:T+h})\right). Deoarece al doilea termen este nenegativ, rezultă că d_{h+1} \geq d_h punctual. Prin urmare, mulțimea constrângerilor \{P(z|x) : E[d_{h+1}] \leq D\} \subseteq \{P(z|x) : E[d_h] \leq D\}, iar minimizarea pe o mulțime fezabilă mai mică nu poate reduce rata: R_{T,h+1}(D) \geq R_{T,h}(D).
- Prin urmare, R_\nu(D) := \lim_{T,h \to \infty} R_{T,h}(D) există.
Deoarece R_{T,h}(D) \ge E_{T,h}(\nu) - D este valabil la fiecare etapă finită, iar ambele părți converg monoton, limita inferioară se transmite la limită:
R_\nu(D) \ge E_\nu - D
Aceasta este limita inferioară pe orizont infinit invocată în Propozițiile T-1a și T-1c de mai jos. Notă: Pentru procesele cu E_\nu = +\infty (de exemplu, cicluri de Bruijn de ordin înalt când k \to \infty), limita este satisfăcută în mod trivial; astfel de procese sunt excluse din mulțimea compatibilă cu observatorul O_{C_{\max},D_{\min}} pentru orice C_{\max} finit.
3.2 Partiția lui M prin Filtrul de Stabilitate — Propoziția T-1a
Propoziția T-1a (partiție netrivială).
Fie fixate valorile empirice C_{\max}>0, \Delta t>0 și D_{\min}\ge0. Definim
O_{C_{\max},D_{\min}}
:=
\{\nu\in\mathcal M: R_\nu(D_{\min})\le C_{\max}\Delta t\}.
Atunci atât O_{C_{\max},D_{\min}}, cât și complementul
său sunt nevide.
Demonstrație. Procesul constant aparține lui O_{C_{\max},D_{\min}} deoarece are E_\nu=0 și R_\nu(D)=0.
Pentru complement, alegem un proces binar de tip ciclu de Bruijn de
ordin k: un proces binar staționar
ergodic, de perioadă 2^k, cu fază
uniformă, în care fiecare cuvânt de lungime k apare exact o dată pe ciclu. Pentru acest
proces,
E_\nu=C_{\mu,\nu}=k.
Prin urmare,
R_\nu(D_{\min})\ge k-D_{\min}.
Alegând k>C_{\max}\Delta t +
D_{\min} obținem R_\nu(D_{\min})>C_{\max}\Delta t, deci
\nu\notin O_{C_{\max},D_{\min}}. \square
3.3 Definiție/Caracterizare a lui C_{\max} — T-1b
Definiția T-1b (parametru empiric al lățimii de
bandă).
C_{\max} este luat drept un parametru
empiric al lățimii de bandă a accesului conștient, extern formalismului
rată-distorsie. Dat fiind C_{\max},
definim clasa compatibilă cu observatorul
O_{C_{\max},D_{\min}}
:=
\{\nu\in\mathcal M: R_\nu(D_{\min})\le C_{\max}\Delta t\}.
Dacă se dorește rezumarea unei clase de referință specificate
separat \mathcal{O}_{ref}, se definește
C^{ref}_{max}:=\frac{1}{\Delta
t}\sup_{\nu\in\mathcal{O}_{ref}}R_\nu(D_{\min}).
Aceasta este o statistică rezumativă a unei clase alese, nu
definiția clasei înseși.
3.4 Bariera non-emergenței — Schiță de demonstrație T-1c
Schiță de demonstrație T-1c (nicio limită universală finită
doar din \xi).
Semimăsura Solomonoff \xi atribuie o
pondere a priori pozitivă fiecărei măsuri computabile \nu\in\mathcal M. Clasa \mathcal M conține procese binare ergodice
staționare cu entropie în exces E_\nu
arbitrar de mare (de exemplu, familia de Bruijn de mai sus). Deoarece
R_\nu(D_{\min})\ge E_\nu-D_{\min},
nu există nicio limită superioară finită, valabilă pe întregul
suport, pentru R_\nu(D_{\min}) care să
poată fi derivată doar din \xi. Prin
urmare, orice C_{\max} finit necesită
un aport empiric suplimentar sau o restrângere a clasei, dincolo de
priorul Solomonoff nud. \square
§4. Conexiunea cu meta-priorul Solomonoff
Cvartetul din §1 și derivarea R(D) din §2 sunt formulate pentru fiecare măsură \nu. Conexiunea Solomonoff — modul în care meta-priorul \xi atribuie ponderi fluxurilor compatibile cu observatorul — este o corespondență structurală, nu o derivare.
Pentru orice \nu \in O_{C_{\max},D_{\min}} compatibilă cu observatorul, echilibrul rată-distorsie asigură că fluxul comprimat z_{0:T} este reprezentarea selectată de Filtru de Stabilitate. Priorul Solomonoff \xi atribuie acestei \nu ponderea w_\nu \approx 2^{-K(\nu)}: procesele compatibile cu observatorul mai simple (cu K mai mic) sunt exponențial mai probabile sub \xi. Aceasta este expresia formală a argumentului parcimoniei (Anexa T-4): Filtru de Stabilitate, operând asupra lui \xi, selectează cel mai simplu codec care se încadrează în lățimea de bandă.
Limita de dominație din T-4b se aplică direct: pentru orice măsură computabilă a fizicii \nu cu K(\nu) < \infty:
-\log \xi(y_{1:T}) \le -\log \nu(y_{1:T}) + K(\nu)
Aceasta garantează că meta-priorul OPT \xi nu atribuie niciodată fluxurilor compatibile cu observatorul o probabilitate mai mică decât orice model fizic computabil fix, până la lungimea de descriere proprie modelului, K(\nu).
§5. Cuanta experiențială de bit h^\ast (Previzualizare a E-1)
Dată o alegere empirică a lui C_{\max} și o fereastră empirică de actualizare conștientă \Delta t, definim h^*:=C_{\max}\Delta t. Pentru C_{\max}\approx 10 biți/s și \Delta t\in[50,80] ms, h^*\approx 0.5\text{–}0.8 biți per moment conștient.
Orice proces ergodic staționar \nu \in \mathcal{M} care satisface E_{T,h}(\nu) - D_{\min} > h^\ast va declanșa în mod legitim Degradare narativă. Motivul este că R_{T,h}(D_{\min}) \ge E_{T,h} - D_{\min} > h^\ast = C_{\max} \Delta t, încălcând explicit criteriul de compatibilitate. Totuși, aceasta este o condiție suficientă pentru colaps, nu una strict necesară: deoarece limita inferioară este rareori saturată (R_{T,h} > E_{T,h} - D_{\min} în mod generic, conform §2.4), procesele pot suferi Degradare narativă chiar și atunci când E_{T,h} - D_{\min} \le h^\ast. Aceasta oferă predicția cantitativă pentru E-1; sensibilitatea la alegerea lui \Delta t \in [40, 300] ms este discutată în anexa E-1.
§6. Rezumat de închidere
Livrabilele T-1 — Stare revizuită
- Cvartetul este specificat într-un cadru predictiv cu orizont finit.
- Identitatea predictivă-KL este derivată corect.
- Teorema generică R(D)=C_\mu-D este înlocuită cu limita inferioară corectă R_{T,h}(D)\ge E_{T,h}-D împreună cu un criteriu exact de egalitate I(X;Z\mid Y)=0.
- Codarea cu distorsiune zero este caracterizată prin statistica suficientă minimă S_h, iar în limita completă a stărilor cauzale R(0)=C_{\mu,\nu}.
- C_{\max} este tratat ca mărime empirică, nu ca derivat intern.
- h^*=C_{\max}\Delta t este o parametrizare empirică, nu o teoremă din §2.
Această anexă este menținută ca parte a depozitului proiectului OPT, alături de theoretical_roadmap.pdf.