Järjestetyn patchin teoria
Liite T-1: Stabiilisuussuodatin
3. huhtikuuta 2026 | DOI: 10.5281/zenodo.19300777
Alkuperäinen tehtävä T-1: Stabiilisuussuodatin — täydellinen rate-distortion-määrittely Ongelma: Shannonin rate-distortion-teoria edellyttää: lähdettä X, rekonstruoitujen arvojen aakkostoa sekä vääristymäfunktiota d(x, \hat{x}). Preprintissä vedotaan suureeseen R_{pred}(D) täsmentämättä näitä kolmea elementtiä OPT:n substraatille. Toimitettava: Täydellinen määritys (\mathcal{X}, \hat{\mathcal{X}}, P_X, d) OPT:n rate-distortion-ongelmalle.
Tässä revisiossa erotetaan ylimääräinen entropia ja tilastollinen kompleksisuus toisistaan, todistetaan prediktiivinen-KL-identiteetti äärellisellä horisontilla, todistetaan yleinen alaraja R_{T,h}(D)\ge E_{T,h}-D, ja esitetään täsmällinen yhtäsuuruuskriteeri sille, milloin tämä alaraja saavutetaan. C_{\max} pysyy empiirisenä parametrina eikä rate-distortion-formalismista johdettuna suureena.
Ratkaisutila: OSITTAIN RATKAISTU. Nelikon määritys, prediktiivinen-KL-identiteetti ja yleinen alaraja R_{T,h}(D) \geq E_{T,h}(\nu) - D on vahvistettu täsmällisen yhtäsuuruuskriteerin kanssa. Aiempi yleinen suljetun muodon väite R(D) = C_\mu - D on peruttu; oikea tulos on alaraja. C_{\max} pysyy empiirisenä parametrina eikä rate-distortion-formalismista johdettuna suureena.
§0. Muotoilun taso
Työmuotoilu. Kiinnitetään T,h<\infty. Olkoon X:=X_{1:T} menneisyyden lohko ja Y:=X_{T+1:T+h} tulevaisuuteen katsova lohko kiinteän laskettavan stationaarisen ergodisen mitan \nu\in\mathcal M alaisuudessa. Määritellään äärellisen horisontin prediktiivinen informaatio E_{T,h}(\nu):=I(X;Y). Kun äärettömän horisontin raja-arvo on olemassa, määritellään ylimääräisentropia E_\nu := I(\overleftarrow X;\overrightarrow X). Jos S merkitsee täydellistä \epsilon-koneen kausaalitilaa, määritellään tilastollinen kompleksisuus C_{\mu,\nu}:=H(S). Nämä ovat erillisiä suureita. Tämän liitteen äärellisen horisontin nopeus-vääristymäongelma esitetään suureen E_{T,h}, ei C_{\mu,\nu}, avulla. Solomonoffin universaali puolimitta \xi tulee mukaan vain metapriorin painotuksena (preprintin yhtälö 1): yksittäiset R(D)-käyrät lasketaan kullekin mitalle \nu erikseen. Tulokset, jotka edellyttävät koko seosta \xi, esitetään erikseen.
§1. Täydellinen nelikon spesifikaatio
1.1 Lähde X ja jakauma P_X
Kiinnitetään laskettava stationaarinen ergodinen mitta \nu \in \mathcal{M} joukossa \{0,1\}^\infty. Lähde on prosessi (X_t)_{t \ge 1}, joka jakautuu mitan \nu mukaisesti. Metapriorin roolissa preprintin yhtälön (1) \xi painottaa kutakin tällaista \nu:ta painolla w_\nu \approx 2^{-K(\nu)}. Kirjoitamme P_X = \nu kiinteälle jäsenelle joukosta \mathcal{M}. Kaikki alla olevat tulokset pätevät mittakohtaisesti kullekin \nu:lle; Solomonoff-yhteys tulee mukaan §4:n dominanssirajan kautta.
1.2 Reproduktioalfabetti \hat{X}
Kiinnitetyillä T,h määritellään äärellisen horisontin prediktiivinen ekvivalenssirelaatio menneisyyden lohkoille: x \sim_h x' \iff \nu(Y\in A\mid X=x)=\nu(Y\in A\mid X=x') \quad\text{kaikilla mitallisilla }A\subseteq\{0,1\}^h. Olkoon S_h muuttujan X ekvivalenssiluokka relaation \sim_h suhteen. Tällöin S_h on minimaalinen riittävä tunnusluku Y:n ennustamiseksi X:stä horisontilla h.
Täysi \epsilon-koneen kausaalitila S on äärettömän horisontin olio, joka saadaan siirtymällä puoliäärettömiin menneisyyksiin ja koko tulevaisuuteen. Tässä liitteessä käytetään S_h:ta äärellisen horisontin johtamisissa ja varataan S täydelle kausaalitilan raja-arvolle.
Laskettavuusstatus. Yleiselle laskettavalle \nu:lle tämä liite ei väitä prediktiivisen tilajaon olevan täsmällisesti laskettavissa. Sitä käsitellään idealisoituna mitallisena oliona. Täsmällinen laskettavuus väitetään vain eksplisiittisesti yksilöidyille alaluokille, kuten äärellisen muistin prosesseille.
1.3 Vääristymäfunktio d_h(x, z)
Vääristymäfunktio on KL-prediktiivinen divergenssi: d_h(x,z):=D_{\mathrm{KL}}\!\big(P_\nu(Y\mid X=x)\,\|\,P_\nu(Y\mid Z=z)\big). Tässä Z on representaatiomuuttuja, jonka kooderi tuottaa muodossa p(z\mid x). Kun Z=S_h, kyseessä on tarkka prediktiivisen tilan vääristymä; kun Z on karkeistus tai stokastinen koodi, P_\nu(Y\mid Z=z) on indusoitu prediktiivinen laki.
Täydellinen nelikko
| Elementti | Määritelmä |
|---|---|
| X | (X_t)_{t \ge 1} — stationaarinen ergodinen prosessi ehdolla \nu \in \mathcal{M} |
| \hat{X} | S_h — äärellisen horisontin prediktiiviset tilat |
| P_X | \nu — kiinteä laskettava jäsen joukosta \mathcal{M}; Solomonoffin \xi on metapriori |
| d_h(x, z) | D_{\mathrm{KL}}( P_\nu(\cdot\|x) \| P_\nu(\cdot\|z) ) — KL-prediktiivinen divergenssi horisontilla h |
§2. R_{T,h}(D):n johtaminen nelikon alla
§1:n nelikon rate-distortion-funktio on:
R_{T,h}(D) = \min_{p(z|x) : \mathbb{E}[d_h(X,Z)] \le D} I(X ; Z)
2.1 KL-vääristymäidentiteetti
Olkoon X:=X_{1:T}, Y:=X_{T+1:T+h}, ja olkoon Z mikä tahansa esitys, jonka kooderi tuottaa muodossa p(z\mid x). Koska Z-X-Y on Markov-ketju, \mathbb E[d_h(X,Z)] = \mathbb E\!\left[D_{\mathrm{KL}}(P(Y\mid X)\|P(Y\mid Z))\right] = H(Y\mid Z)-H(Y\mid X) = I(X;Y\mid Z). Ekvivalentisti, \mathbb E[d_h(X,Z)] = I(X;Y)-I(Z;Y)=E_{T,h}(\nu)-I(Z;Y). Siksi vääristymärajoite \mathbb E[d_h(X,Z)]\le D on ekvivalentti ehdon kanssa I(Z;Y)\ge E_{T,h}(\nu)-D.
2.2 Informaatiokapeikon uudelleenmuotoilu
Vääristymärajoite rajoittaa sallittujen enkooderien avaruuden niihin, jotka toteuttavat ehdon \mathbb{E}[d_h(X,Z)] \le D. Tämä vastaa täsmälleen sitä, että I(Z;Y) rajataan alhaalta, jolloin saadaan rajoitettu Informaatiokapeikko-ongelma. Koska saavutettava alue \{(I(Z;Y), I(X;Z))\} on konveksi tavanomaisten aikajakamisargumenttien nojalla, vahva duaalisuus pätee. Tämä mahdollistaa tarkan uudelleenmuotoilun käyttäen Informaatiokapeikon Lagrange-funktiota (Tishby, Pereira & Bialek 1999 [28]): \mathcal{L}[p(z|x)] = I(X ; Z) - \beta \cdot I(Z ; Y) missä Lagrangen kerroin \beta määräytyy D:n perusteella. IB:n Lagrange-funktio jäljittää pakkautumisnopeuden ja prediktiivisen uskollisuuden välisen Pareto-reunan.
2.3 Päälause: yleinen alaraja ja yhtäsuuruuskriteeri
Johdamme raja-arvon nopeus-vääristymäfunktiolle:
Propositio (yleinen alaraja ja
yhtäsuuruuskriteeri).
Olkoon mille tahansa kooderille p(z\mid
x)
D:=\mathbb E[d_h(X,Z)].
Tällöin
I(X;Z)=E_{T,h}(\nu)-D+I(X;Z\mid Y).
Tästä seuraa, että
R_{T,h}(D)\ge E_{T,h}(\nu)-D.
Kompakteille äärellisille rekonstruktioaakkostoille, joissa
jatkuvuus takaa, että kooderien yli otettu infimum saavutetaan,
yhtäsuuruus annetulla vääristymällä D
pätee täsmälleen silloin, kun on olemassa kyseisen vääristymän
saavuttava kooderi, jolle
I(X;Z\mid Y)=0.
Deterministisille koodereille Z=g(X) tämä on ekvivalenttia ehdon
H(Z\mid Y)=0
kanssa.
Nollavääristymässä minimaalinen riittävä statistiikka S_h saavuttaa R_{T,h}(0)=I(X;S_h)=H(S_h). Huomaa, että tämä nollavääristymän nopeus H(S_h) sijaitsee yleisesti ottaen aidosti alarajan E_{T,h} yläpuolella. Erotus on epänegatiivinen kuilu H(S_h) - E_{T,h} = H(S_h|Y). Fysikaalisesti tämä kuilu edustaa menneisyyteen varastoitunutta rakenteellista informaatiota, jota tulevaisuusikkuna yksin ei kykene palauttamaan. Se, että yhtäsuuruus pätee nollavääristymässä (H(S_h|Y)=0), on vahvasti degeneroitunut tapaus, joka on geneerisesti epätosi monimutkaisille prosesseille.
Täydessä kausaalitilojen rajassa R(0)=C_{\mu,\nu}=H(S). Tämä on yhtä suuri kuin E_\nu vain erityistapauksissa; yleisesti pätee E_\nu < C_{\mu,\nu}.
2.4 Käyttäytyminen karkeammille reproduktioaakkostoille
Mille tahansa deterministiselle karkeistukselle Z=g(S_h), I(X;Z)=I(Z;Y)+I(X;Z\mid Y)=E_{T,h}(\nu)-D+I(X;Z\mid Y)\ge E_{T,h}(\nu)-D. Epänegatiivinen löysyystermi I(X;Z\mid Y) häviää vain silloin, kun karkeistettu representaatio on palautettavissa tulevaisuusikkunasta Y. Siksi karkeammat aakkostot tuottavat yleensä nopeus-vääristymäkäyriä, jotka sijaitsevat aidosti suoran E_{T,h}-D yläpuolella. Tämä suora on universaali alaraja, ei yleisesti saavutettu verhokäyrä. Mikä tahansa käytännössä laskettavissa oleva koodekki käyttää kausaalitilojen äärellisen muistin approksimaatiota, ja sen käyrä sijaitsee siksi tämän rajan yläpuolella.
2.5 Raja-arvioinnit
| Raja | Arvo | Tulkinta |
|---|---|---|
| D = 0 | R_{T,h}(0) = I(X; S_h) | Prediktiivisen tilan tarkka pakkaus; maksimaalinen määrä informaatiota säilyy |
| D = E_{T,h} | R_{T,h}(E_{T,h}) = 0 | Triviaali representaatio; kaikki prediktiivinen informaatio hylätään |
| D = D_{\min} | R_{T,h}(D_{\min}) \ge E_{T,h}(\nu) - D_{\min} | Elinkelpoisen havaitsijan pienin alaraja; Stabiilisuussuodattimen kynnys |
(Huom.: äärettömän horisontin rajassa nollanopeuspiste sijaitsee vääristymässä E_\nu, ei kohdassa C_{\mu,\nu})
§3. C_{\max} — Luonnehdinta ja esteet
3.1 Äärettömän horisontin konvergenssilemma
Päälause (§2.3) asettaa alarajan R_{T,h}(D) \ge E_{T,h}(\nu) - D äärellisille (T, h)-arvoille. Osoitamme nyt, että tämä laajenee äärettömän horisontin asetelmaan.
Lemma (Äärettömän horisontin laajennus). Olkoon \nu stationaarinen ergodinen mitta joukossa \{0,1\}^\infty. Tällöin:
- E_{T,h}(\nu) = I(X_{1:T}\,;\,X_{T+1:T+h}) on kasvamaton kumpaankin suuntaan sekä T:n että h:n suhteen (datankäsittelyepäyhtälön nojalla: ehdollistaminen pidemmillä lohkoilla ei voi pienentää menneisyyden ja tulevaisuuden välistä keskinäisinformaatiota stationaarisuuden vallitessa).
- Raja-arvo E_\nu := \lim_{T,h \to \infty} E_{T,h}(\nu) on olemassa (mahdollisesti +\infty) monotonisen konvergenssin perusteella.
- Jokaiselle kiinteälle D \ge 0 jono R_{T,h}(D) on kasvamaton T:n suhteen (pidemmät menneisyydet eivät voi pienentää optimaalista pakkausnopeutta) ja kasvamaton h:n suhteen. Todistushahmotelma monotonisuudelle h:n suhteen: Vääristymäfunktio hajoaa muotoon d_{h+1}(x, z) = D_{\mathrm{KL}}\!\left(P_\nu(\cdot \mid x) \,\|\, P_z(\cdot \mid z)\right) yli h+1 tulevan askeleen, mikä voidaan kirjoittaa ketjusäännön avulla muodossa d_h(x,z) + D_{\mathrm{KL}}\!\left(P_\nu(X_{T+h+1} \mid x, X_{T+1:T+h}) \,\|\, P_z(X_{T+h+1} \mid z, X_{T+1:T+h})\right). Koska toinen termi on epänegatiivinen, pätee pisteittäin d_{h+1} \geq d_h. Siksi rajoitejoukko \{P(z|x) : E[d_{h+1}] \leq D\} \subseteq \{P(z|x) : E[d_h] \leq D\}, eikä minimointi pienemmän sallittujen ratkaisujen joukon yli voi pienentää nopeutta: R_{T,h+1}(D) \geq R_{T,h}(D).
- Siis R_\nu(D) := \lim_{T,h \to \infty} R_{T,h}(D) on olemassa.
Koska R_{T,h}(D) \ge E_{T,h}(\nu) - D pätee jokaisessa äärellisessä vaiheessa, ja molemmat puolet konvergoivat monotonisesti, alaraja siirtyy raja-arvoon:
R_\nu(D) \ge E_\nu - D
Tämä on äärettömän horisontin alaraja, johon vedotaan alla olevissa propositioissa T-1a ja T-1c. Huomautus: Prosesseille, joilla E_\nu = +\infty (esim. korkean kertaluvun de Bruijnin syklit, kun k \to \infty), alaraja toteutuu triviaalisti; tällaiset prosessit suljetaan pois havaitsijayhteensopivasta joukosta O_{C_{\max},D_{\min}} kaikilla äärellisillä C_{\max}-arvoilla.
3.2 M:n ositus Stabiilisuussuodattimen avulla — Propositio T-1a
Propositio T-1a (ei-triviaali ositus).
Kiinnitetään empiiriset C_{\max}>0,
\Delta t>0 ja D_{\min}\ge0. Määritellään
O_{C_{\max},D_{\min}}
:=
\{\nu\in\mathcal M: R_\nu(D_{\min})\le C_{\max}\Delta t\}.
Tällöin sekä O_{C_{\max},D_{\min}} että sen komplementti
ovat epätyhjiä.
Todistus. Vakioinen prosessi kuuluu joukkoon O_{C_{\max},D_{\min}}, koska sillä on E_\nu=0 ja R_\nu(D)=0.
Komplementin osalta valitaan binäärinen de Bruijn -sykliprosessi
kertalukua k: stationaarinen ergodinen
binääriprosessi, jonka periodi on 2^k
ja jolla on tasainen vaihejakautuma, jossa jokainen pituuden k sana esiintyy täsmälleen kerran sykliä
kohti. Tälle prosessille
E_\nu=C_{\mu,\nu}=k.
Siispä
R_\nu(D_{\min})\ge k-D_{\min}.
Valitsemalla k>C_{\max}\Delta t +
D_{\min} saadaan R_\nu(D_{\min})>C_{\max}\Delta t, joten
\nu\notin O_{C_{\max},D_{\min}}. \square
3.3 C_{\max}:n määritelmä/karakterisointi — T-1b
Määritelmä T-1b (empiirinen
kaistanleveysparametri).
C_{\max} otetaan empiiriseksi tietoisen
pääsyn kaistanleveysparametriksi, joka on rate-distortion-formalismin
ulkopuolinen. Annetulla C_{\max}:lla
määritellään havaitsijayhteensopiva luokka
O_{C_{\max},D_{\min}}
:=
\{\nu\in\mathcal M: R_\nu(D_{\min})\le C_{\max}\Delta t\}.
Jos halutaan tiivistää erikseen määritelty viiteluokka \mathcal{O}_{ref}, määritellään
C^{ref}_{max}:=\frac{1}{\Delta
t}\sup_{\nu\in\mathcal{O}_{ref}}R_\nu(D_{\min}).
Tämä on valitun luokan yhteenvetotunnusluku, ei itse luokan
määritelmä.
3.4 Ei-emergenssin este — todistushahmotelma T-1c
Todistushahmotelma T-1c (ei äärellistä universaalia ylärajaa
pelkästä \xi:stä).
Solomonoffin universaali puolimitta \xi
antaa positiivisen prioritodennäköisyyspainon jokaiselle laskettavalle
mitalle \nu\in\mathcal M. Luokka \mathcal M sisältää stationaarisia ergodisia
binaariprosesseja, joilla on mielivaltaisen suuri ylimääräisentropia
E_\nu (esimerkiksi yllä oleva de
Bruijnin perhe). Koska
R_\nu(D_{\min})\ge E_\nu-D_{\min},
ei ole olemassa mitään äärellistä, koko tuen kattavaa ylärajaa
suureelle R_\nu(D_{\min}), joka olisi
johdettavissa pelkästä \xi:stä. Mikä
tahansa äärellinen C_{\max} edellyttää
siis paljaan Solomonoff-priorin lisäksi lisäempiiristä syötettä tai
luokkaa rajoittavaa oletusta. \square
§4. Yhteys Solomonoffin metaprioriin
§1:n nelikko ja §2:n R(D)-johdanto esitetään mittakohtaisesti \nu:lle. Solomonoff-yhteys — se, miten metapriori \xi painottaa havaitsijan kanssa yhteensopivia virtoja — on johtamisen sijasta rakenteellinen vastaavuus.
Millä tahansa havaitsijan kanssa yhteensopivalla \nu \in O_{C_{\max},D_{\min}}:lla nopeus-vääristymä-tasapaino varmistaa, että pakattu virta z_{0:T} on Stabiilisuussuodattimen valitsema representaatio. Solomonoffin priori \xi antaa tälle \nu:lle painon w_\nu \approx 2^{-K(\nu)}: yksinkertaisemmat (alemman K:n) havaitsijan kanssa yhteensopivat prosessit ovat \xi:n alla eksponentiaalisesti todennäköisempiä. Tämä on niukkuusargumentin (Liite T-4) formaali ilmaus: Stabiilisuussuodatin, joka toimii \xi:n päällä, valitsee yksinkertaisimman koodekin, joka mahtuu kaistanleveyden rajoihin.
T-4b:n dominanssiraja pätee suoraan: mille tahansa laskettavalle fysiikan mitalle \nu, jolle K(\nu) < \infty:
-\log \xi(y_{1:T}) \le -\log \nu(y_{1:T}) + K(\nu)
Tämä varmistaa, ettei OPT:n metapriori \xi koskaan anna havaitsijan kanssa yhteensopiville virroille pienempää todennäköisyyttä kuin mikään kiinteä laskettava fysiikan malli, paitsi mallin oman kuvauspituuden K(\nu) verran.
§5. Elämyksellinen bittikvantti h^\ast (E-1:n ennakkokatsaus)
Annetulla empiirisellä valinnalla C_{\max} ja empiirisellä tietoisen päivityksen aikaikkunalla \Delta t määritellään h^*:=C_{\max}\Delta t. Kun C_{\max}\approx 10 bittiä/s ja \Delta t\in[50,80] ms, h^*\approx 0.5\text{–}0.8 bittiä tietoista hetkeä kohti.
Mikä tahansa stationaarinen ergodinen prosessi \nu \in \mathcal{M}, joka toteuttaa ehdon E_{T,h}(\nu) - D_{\min} > h^\ast, laukaisee sääntöjen mukaan Narratiivisen hajoamisen. Tämä johtuu siitä, että R_{T,h}(D_{\min}) \ge E_{T,h} - D_{\min} > h^\ast = C_{\max} \Delta t, mikä rikkoo eksplisiittisesti yhteensopivuuskriteeriä. Tämä on kuitenkin romahdukselle riittävä ehto, ei aidosti välttämätön: koska alaraja on harvoin tiukka (R_{T,h} > E_{T,h} - D_{\min} yleisesti §2.4:n mukaan), prosessit voivat ajautua Narratiiviseen hajoamiseen myös silloin, kun E_{T,h} - D_{\min} \le h^\ast. Tämä antaa kvantitatiivisen ennusteen E-1:lle; herkkyyttä valinnalle \Delta t \in [40, 300] ms käsitellään E-1-liitteessä.
§6. Päätösyhteenveto
T-1:n tuotokset — tarkistettu tila
- Nelikko on määritelty äärellisen horisontin prediktiivisessä asetelmassa.
- Prediktiivinen KL-identiteetti johdetaan oikein.
- Yleinen teoreema R(D)=C_\mu-D korvataan oikealla alarajalla R_{T,h}(D)\ge E_{T,h}-D sekä täsmällisellä yhtäsuuruuskriteerillä I(X;Z\mid Y)=0.
- Nolladistorsion koodaus karakterisoidaan minimaalisella riittävällä tilastolla S_h, ja täydellisessä kausaalitilan rajassa R(0)=C_{\mu,\nu}.
- C_{\max} käsitellään empiirisenä, ei sisäisesti johdettuna.
- h^*=C_{\max}\Delta t on empiirinen parametrisaatio, ei §2:sta seuraava teoreema.
Tätä liitettä ylläpidetään osana OPT-projektin repositoriota theoretical_roadmap.pdf:n rinnalla.