Sutvarkyto patch teorija

Priedas T-4: MDL / taupumo palyginimas

Anders Jarevåg

v2.0.0 — 2026 m. balandžio 2 d. | DOI: 10.5281/zenodo.19300777

Pradinė užduotis T-4: MDL / parsimoniškumo palyginimas Problema: Esamas preprintas teigia esąs parsimoniškesnis už standartinę fiziką, nes fizikos dėsnius traktuojа kaip makroskopinius glaudinimo algoritmus, tačiau nepateikia formaliojo MDL palyginimo. Pateiktinas rezultatas: Lyginamoji OPT ir etaloninių fizikos modelių klasių MDL analizė pagal aiškiai apibrėžtas kodavimo konvencijas.

Užbaigtumo būsena: UŽDARYTA (su sąlyga dėl tipiškumo ir IC normalizacijos). Šiame priede pateikiamas formalusis MDL įvertinimas, kurio reikalavo T-4. Fiksuojamos trys etaloninės modelių klasės su aiškiai apibrėžtomis kodavimo konvencijomis. Įrodomos keturios teoremos ir viena hipotezė: (T-4a) OPT selektoriaus taisyklės aprašo ilgis yra \mathcal{O}(1); (T-4b) Solomonoffo dominavimo riba iš viršaus apriboja OPT logaritminį nuostolį; (Hipotezė T-4c) numanomas OPT struktūrinio pranašumo šaltinis yra pradinių sąlygų glaudinimas; (T-4d) OPT pasiekia pastovų nuolatinį modelio sudėtingumo pranašumą, matuojamą bitais, prieš kiekvieną apskaičiuojamą etaloną; (T-4e) baigtinio T pranašumas yra sąlygiškai kiekybiškai įvertinamas. Užbaigimas remiasi trimis laikančiosiomis sąlygomis: stebėtojo srauto tipiškumu, Solomonoffo normalizacijos baudos \log(1/\xi(\mathcal{O})) absorbavimu ir būsena K(\text{IC} \mid \text{SP}) > K_0.

§1. MDL kodavimo konvencijų fiksavimas

MDL palyginimai yra beprasmiai be aiškių, fiksuotų kodavimo konvencijų. Preprinto §5.1 pažymi šį reikalavimą, bet jį atideda. Čia konvencijas fiksuojame remdamiesi Rissanen (1978) [12] ir Li & Vitányi (2008) [27] dviejų dalių MDL sistema.

1.1 Dviejų dalių kodo ilgis

Hipotezių klasei \mathcal{M} ir stebėjimų sekai y_{1:T} \in \{0,1\}^* dviejų dalių MDL kodo ilgis yra:

L_T(\mathcal{M}) = K(\mathcal{M}) + L(y_{1:T} \mid \mathcal{M}) \tag{preprint §5.1, Eq. 13}

čia K(\mathcal{M}) yra hipotezės prefiksinis Kolmogorovo sudėtingumas — trumpiausios save apribojančios programos fiksuotoje universalioje Tiuringo mašinoje (UTM), kuri išveda pilną \mathcal{M} aprašą, ilgis — o L(y_{1:T} \mid \mathcal{M}) yra neigiamas duomenų logaritminis tikėtinumas pagal geriausią \mathcal{M} predikcinį modelį:

L(y_{1:T} \mid \mathcal{M}) = -\log_2 P_\mathcal{M}(y_{1:T})

Deterministinėms teorijoms (dėsniai + IC vienareikšmiškai nustato stebėjimus) L(y_{1:T} \mid \mathcal{M}) = 0, kai y dera su teorija, o kitu atveju L = \infty. Visi logaritmai yra 2 pagrindo; visi kodo ilgiai matuojami bitais.

1.2 Universali mašina

Visur fiksuojame vieną optimalią UTM \mathcal{U}. Visi Kolmogorovo sudėtingumai yra apibrėžti santykyje su \mathcal{U}; pasirinkus kitą UTM, rezultatai kinta daugiausia per \mathcal{O}(1) bitų. Solomonoffo pusmatis \xi apibrėžiamas santykyje su \mathcal{U} (preprinto 1 lygtis). Tai nustato konvenciją visiems tolesniems palyginimams.

1.3 y_{1:T} taikymo sritis

Modelius lyginame toje srityje, kuriai kiekvienas jų buvo sukurtas prognozuoti: stebėtojo sąmoningame sraute y_{1:T} = z_{0:T} (suglaudintų latentinių būsenų seka, C_{\max} bitų per sekundę per T sekundžių). Standartinė fizika vertinama toje pačioje srityje, jos prognozes redukuojant į su stebėtoju suderinamą srautą per stambinimą. Iš abiejų teorijų reikalaujama paaiškinti tiksliai tuos pačius stebėjimus.

§2. Etaloninės modelių klasės

Nustatomos trys etaloninės klasės. Kiekvienai jų priskiriamas aiškus K(\mathcal{M}) įvertis pagal mūsų UTM konvenciją. Tikslios skaitinės vertės yra dydžių eilės įverčiai; struktūriniai rezultatai §§3–7 priklauso tik nuo tvarkos, o ne nuo tikslių verčių.

2.1 \mathcal{M}_1 — Standartinis modelis + bendrasis reliatyvumas

Šiuo metu tai yra fiziškai tiksliausia predikcine prasme prieinama teorija. Jos aprašymui reikia trijų komponentų:

Matematinė struktūra K_{\text{struct}}: kalibravimo grupė \text{SU}(3) \times \text{SU}(2) \times \text{U}(1), Lorentzo invariantiškumas, renormalizuojamumas ir BR difeomorfizmų simetrija. Kolmogorovo sudėtingumas: K_{\text{struct}} \approx 10^3 bitų.
Parametrų reikšmės K_{\text{param}}: 19 SM laisvųjų parametrų + 3 maišymosi kampai + 1 CP fazė + \Lambda + G + c \approx 25 konstantos, užkoduotos eksperimentiniu tikslumu (\sim 30 bitų kiekviena): K_{\text{param}} \approx 750 bitų.
Pradinės sąlygos K_{\text{IC}}: pagal infliacinę paradigmą, K_{\text{IC}}^{\text{inf}} \approx 200–400 bitų. Pastaba: čia nevertiname Penrose’o 10^{123} termodinaminės entropijos ribos, nes ji matuoja makroskopinį fazinės erdvės tūrį (S), o ne specifinį algoritminį Kolmogorovo sudėtingumą (K). Konkretus mikrobūvis gali būti labai glaudžiai aprašomas. Remiamės išimtinai korektiškomis infliacinėmis ribomis.

K(\mathcal{M}_1) = K_{\text{struct}} + K_{\text{param}} \approx 1750 \text{ bitų}

K(\text{IC} \mid \mathcal{M}_1) \approx 300 \text{ bitų (infliacinis)}

2.2 \mathcal{M}_2 — Bendroji renormalizuojama KLT

Visų renormalizuojamų kvantinių laukų teorijų klasė, esanti \leq 4 erdvėlaikio matmenyse. Ši klasė apima \mathcal{M}_1 kaip vieną iš savo narių. Kadangi taip pat turi būti nurodyta kalibravimo grupė ir dalelių turinys:

K(\mathcal{M}_2) \gg K(\mathcal{M}_1) \gg 1750 \text{ bits}

\mathcal{M}_2 čia įtraukiama kaip kontrastinis atvejis OPT teiginiui, kad dėsniai yra parenkami, o ne išvardijami. Nors MDL palyginimas su \mathcal{M}_2 trivially laimimas bet kurios baigtinės poklasės (įskaitant \mathcal{M}_1) naudai, nes K(\mathcal{M}_2) yra neribotas, jos įtraukimas formaliai padeda parodyti begalinį parametrų atrankos problemos mastą, kurį Stabilumo filtras savaime sužlugdo.

2.3 \mathcal{M}_3 — Boltzmanno smegenys / terminė fluktuacija

Standartinė fizika su maksimaliai paprastomis pradinėmis sąlygomis: terminė (maksimalios entropijos) būsena Planko skalėje. Dėsniai yra tapatūs \mathcal{M}_1; pradinės sąlygos trivialiai paprastos:

K(\mathcal{M}_3) \approx K(\mathcal{M}_1) \approx 1750 \text{ bits}, \qquad K(\text{IC} \mid \mathcal{M}_3) \approx 10 \text{ bits}

Tačiau stebėti sutvarkytą sąmoningą srautą y_{1:T} pagal \mathcal{M}_3 logaritminė tikimybė yra astronomiškai maža: L(y_{1:T} \mid \mathcal{M}_3) \approx K(y_{1:T}) \gg T \cdot C_{\max}. Todėl \mathcal{M}_3 turi nereikšmingą pradinių sąlygų kainą, bet katastrofišką tikimybės kainą, ir yra įtrauktas tam, kad parodytų, jog OPT MDL pranašumas nepasiekiamas tuo pačiu triuku.

§3. OPT kodo ilgis — teorema T-4a

OPT MDL kodo ilgis išskaidomas taip:

L_T(\text{OPT}) = K(\xi, \text{Filter}) + L(y_{1:T} \mid \xi, \text{Filter}) = K_0 + \left(-\log \xi^{\text{Filter}}(y_{1:T})\right)

kur \xi^{\text{Filter}} yra Solomonoffo matas \xi, sąlygotas stebėtojui suderinama klase \mathcal{O} (srautais, tenkinančiais R_{\text{req}} \leq B_{\max}), o K_0 = K(\xi, \text{Filter}) yra selektoriaus taisyklės aprašo ilgis.

Teorema T-4a (meta-taisyklės sudėtingumo riba). K(\xi, \text{Filter}) = K_0 = \mathcal{O}(1) bitų. Tiksliau:

K_0 \leq K(\mathcal{U}) + K(C_{\max}) + K(\Delta t) + c

kur K(\mathcal{U}) yra UTM sudėtingumas, K(C_{\max}) = \mathcal{O}(\log C_{\max}) bitų koduoja pralaidumo slenkstį iki eksperimentinio tikslumo, K(\Delta t) = \mathcal{O}(\log \Delta t) koduoja atnaujinimo langą, o c yra maža universali konstanta.

Įrodymas. Solomonoffo matas \xi yra vienareikšmiškai nulemtas fiksuotos UTM \mathcal{U}, todėl K(\xi \mid \mathcal{U}) = \mathcal{O}(1). Stabilumo filtrui reikia dviejų parametrų: C_{\max} ir \Delta t, kurių kiekvienas išmatuotas iki \sim 4 reikšminių skaitmenų, todėl K(C_{\max}, \Delta t) \leq 2 \times (4 \times \log_2 10) \approx 26 bitų. Sąlyga R_{\text{req}} \leq B_{\max} yra viena nelygybė fiksuota notacija: \sim 10 bitų. Iš viso: K_0 \leq K(\mathcal{U}) + 36 bitų.

Kad sąžiningai absorbuotume K(\mathcal{U}), turime daryti prielaidą apie „epistemiškai neutralią“ UTM — tai yra etaloninę mašiną, kurios įdiegtas instrukcijų rinkinys privilegijuotai nekoduoja jokios fizikinės teorijos (t. y. bazinę kombinatorių arba Brainfuck ekvivalenčią geometriją, visiškai agnostišką fizikai). Esant tokiai nešališkai mašinai, išlaikyti K(\xi, \text{Filter}) \approx 36 bitų, kartu standartizuojant K(\mathcal{M}_1) \approx 1750 bitų, yra pagrįsta. Konkrečiai pripažįstame, kad dėl to absoliutus bitų skaičius išlieka pažeidžiamas \mathcal{O}(1) konstantinio mastelio pokyčiui, jei UTM pakeičiama, vadinasi, skaičiavimas 36 prieš 1750 iš esmės yra santykinis. Struktūriškai sąžiningas matematinis teiginys čia yra ranginė tvarka (K_0 \ll K(\mathcal{M}_1)), teigianti tvirtą struktūrinį pranašumą, nepriklausomą nuo tikslios skaitinės konstantos. \blacksquare

Palyginimas: atmetus bendrąją UTM pridėtinę naštą, K_0 \approx 36 bitų, palyginti su K(\mathcal{M}_1) \approx 1750 bitų. OPT selektoriaus taisyklė yra trumpesnė už Standartinio modelio aprašą per K(\mathcal{M}_1) - K_0 \approx 1714 bitų. Tai yra struktūrinio parsimoniškumo pranašumas, teigiamas preprinto §5 skyriuje — dabar jau su aiškiai nurodytu bitų skaičiumi.

§4. Solomonoffo dominavimo riba — teorema T-4b

Teorema T-4b (Solomonoffo dominavimo riba). Bet kuriam apskaičiuojamam fizikos matui \nu (įskaitant \mathcal{M}_1, \mathcal{M}_2, \mathcal{M}_3), kuriam K(\nu) < \infty, ir bet kuriam duomenų srautui y_{1:T}:

L_T(\text{OPT}) \leq L_T(\nu) + K'_0

kur K'_0 = K_0 + \log(1/\xi(\mathcal{O})). Tai reiškia bazinės taisyklės sudėtingumą kartu su būtina algoritmine normalizavimo bauda, patiriama sąlygojant universalųjį matą stebėtojų klase \mathcal{O}.

Įrodymas. Iš Solomonoffo mato apibrėžimo (preprinto 1 lygtis), kai w_\nu \asymp 2^{-K(\nu)}:

\xi(y_{1:T}) \geq w_\nu \cdot \nu(y_{1:T}) \geq 2^{-K(\nu)} \cdot \nu(y_{1:T})

Pritaikę neigiamus logaritmus, gauname:

-\log \xi(y_{1:T}) \leq -\log \nu(y_{1:T}) + K(\nu)

Pereinant nuo universalaus mato \xi prie apriboto filtro \xi^{\text{Filter}}, sumokame normalizavimo kainą -\log \xi^{\text{Filter}}(y) = -\log \xi(y) + \log(1/\xi(\mathcal{O})). Įstatę į L_T(\text{OPT}):

L_T(\text{OPT}) = K_0 - \log \xi^{\text{Filter}}(y_{1:T}) \leq K_0 + \log(1/\xi(\mathcal{O})) + K(\nu) - \log \nu(y_{1:T}) = K'_0 + L_T(\nu) \qquad \blacksquare

Svarbi išlyga. Teorema T-4b neparodo, kad OPT pranoksta SP. Ji parodo, kad OPT negali būti blogesnė už jokį etaloną daugiau nei per K'_0 bitų. Toliau \log(1/\xi(\mathcal{O})) įtraukiame į K_0, darydami prielaidą, kad stebėtojų sekų klasė yra švariai apribota struktūrinių UTM konstantų atžvilgiu, tačiau šį normalizavimo tarpą pažymime kaip formalų pažeidžiamumą.

§5. Pradinių sąlygų glaudinimas — teorema T-4c

OPT MDL pranašumo struktūrinis šaltinis yra pradinių sąlygų glaudinimas. Standartinėje fizikoje dėsniai ir pradinės sąlygos yra atskiri objektai, kuriuos abu reikia aprašyti. OPT sistemoje pradinės sąlygos absorbuojamos į apriorinį skirstinį: Solomonoffo matas jau suteikia didžiausią svorį paprasčiausiems su stebėtoju suderinamiems srautams, todėl atskira IC specifikacija tampa perteklinė.

5.1 IC redundantiškumo argumentas

Pagal standartinę fiziką (\mathcal{M}_1), pilnas deterministinės teorijos MDL kodas yra:

L_T(\text{SP}) = K_{\text{laws}} + K(\text{IC} \mid \text{laws}) + 0 \qquad \text{[deterministinė: } -\log P = 0 \text{ jei suderinta]}

IC narys K(\text{IC} \mid \text{laws}) yra specifinių pradinių sąlygų aprašo ilgis duotų dėsnių atžvilgiu — jis nėra išvedamas iš pačių dėsnių. Čia ir glūdi tikslaus suderinimo problema.

Pagal OPT, dviejų dalių kodas yra:

L_T(\text{OPT}) = K_0 + \left(-\log \xi^{\text{Filter}}(y_{1:T})\right)

Narys -\log \xi^{\text{Filter}}(y_{1:T}) koduoja specifinį srautą, duotą metataisyklę. Solomonoffo universalus pusmatis jau įtraukia universalų fizikos modelį: -\log \xi(y) \approx K(y). OPT kodavimui niekada nereikia atskirai „mokėti“ už IC.

Spėjimas T-4c (IC glaudinimo euristinės ribos). Apibrėžkime IC glaudinimo pranašumą:

\Delta_{\text{IC}} = K(\text{IC} \mid \text{SP laws}) - K(\text{IC} \mid \text{OPT})

Teigiame tokią euristinę ribą:

\boxed{L_T(\text{OPT}) \leq L_T(\text{SP}) - \Delta_{\text{IC}} + K_0 + \mathcal{O}(1)}

kur K(\text{IC} \mid \text{OPT}) := K(\text{IC} \mid \xi, \text{Filter}, \text{codec}) yra pradinių sąlygų liekamasis aprašo ilgis, duotas pilnas OPT modelis. \Delta_{\text{IC}} \geq 0, o lygybė tenkinama tada ir tik tada, kai Stabilumo filtras nesuteikia jokio papildomo IC glaudinimo, viršijančio tai, ką jau suteikia dėsniai.

Argumentas. Pradedant nuo pilno dviejų dalių SP kodo ir taikant Solomonoffo dominavimą (normalizacijos konstantas sugeriant į \mathcal{O}(1) UTM aprėžimo narį):

L_T(\text{OPT}) \leq K_0 + K(\text{laws}) + K(\text{IC} \mid \text{laws}) - \log P_{\text{SP}}(y) + \mathcal{O}(1)

Pergrupavus ir pakeitus L_T(\text{SP}) = K_{\text{laws}} + K(\text{IC} \mid \text{laws}) (deterministinė teorija):

L_T(\text{OPT}) \leq L_T(\text{SP}) + K_0 + \mathcal{O}(1)

OPT sistemoje -\log \xi^{\text{Filter}}(y_{1:T}) nebūtinai turi atskirai koduoti IC: Filtras atrenka iš Solomonoffo prioriteto, kuris IC glaudina inherentiškai per ilgio svorius. AIT subadityvumas garantuoja, kad K(\text{IC} \mid x, f(x)) \leq K(\text{IC} \mid x) + \mathcal{O}(1). Jei postuluojame, kad OPT atrankos taisyklė aprėžia kaip glaustesnė aprašomoji eilutė nei vien tik žalių dėsnių deklaravimas (tai ir yra pagrindinis šios sistemos statymas, o ne matematinis išvestinis įrodymas), tuomet liekamasis užkoduotas K(\text{IC} \mid \text{OPT}) negali reikšmingai viršyti K(\text{IC} \mid \text{laws}). Euristiškai gauname \Delta_{\text{IC}} \geq 0.

Pakeitę gauname: L_T(\text{OPT}) \leq L_T(\text{SP}) - \Delta_{\text{IC}} + K_0 + \mathcal{O}(1). \blacksquare

Pastaba. Keliame hipotezę, kad antropinis glaudinimas K(\text{IC} \mid \text{OPT}) \approx 0 veikia riboje, kur Stabilumo filtras yra stipriai apribojantis ir matematiškai atvaizduoja į vienareikšmiškai su stebėtoju suderinamas būsenas. Tai motyvuotas fizikinis teiginys, o ne algoritmiškai įrodyta vienatiškumo riba.

§6. Pastovaus bitų skaičiaus modelio sudėtingumo pranašumas — teorema T-4d

Teorema T-4d (Nuolatinis pastovaus bitų skaičiaus MDL pranašumas — su tipiškumo sąlyga). Kiekvienam fiksuotam, netrivialiam apskaičiuojamam fizikos modeliui \nu, kuriam galioja K_0 < K(\nu) < \infty, OPT formuluotė pasiekia fiksuotą, nuolatinį modelio sudėtingumo pranašumą būtent tiems y_{1:T} \in \mathcal{O}, kurie taip pat yra \nu-tipiški. Kai sekos ilgis T \to \infty, bendro kodo ilgio skirtumas yra struktūriškai aprėžtas:

L_T(\text{OPT}) - L_T(\nu) \to K_0 - K(\nu)

Įrodymas. Iš T-4b gauname, kad L_T(\text{OPT}) \leq K'_0 - \log \xi^{\text{Filter}}(y_{1:T}). Bet kuriam apskaičiuojamam \nu Solomonoffo teorema garantuoja, kad \xi konverguoja į \nu būtent \nu-tipiškose sekose, t. y. matuojant pagal \nu-beveik-visus y_{1:\infty}. Čia verta pažymėti giluminę formalią įtampą: Stabilumo filtras išskiria srautus, kurie griežtai vertinami kaip mažos entropijos ir struktūruoti, todėl standartinių nevaržomų maksimalios entropijos \nu-mato srautų atžvilgiu jie struktūriškai atitinka netipiškus atvejus. Jei filtruota stebėtojų klasė \mathcal{O} ir \nu-tipiškų sekų klasė neturi įrodomos netrivialios matematinės sankirtos, Solomonoffo konvergencijos riba negali būti tiesiogiai pritaikyta. Todėl ši teorema taikoma sąlygiškai tada ir tik tada, kai konkretus filtruotas stebėtojo srautas pagal konkrečius etaloninius dėsnius išlieka \nu-tipiškas (paliekant tokių teoriškai suderinamų susikertančių srautų aibę formaliai neapibrėžtą):

-\frac{1}{T} \log \xi(y_{1:T}) \to H(\nu) \quad \text{kai } T \to \infty

kur H(\nu) yra \nu entropijos dažnis. Analogiškai, -\frac{1}{T} \log \nu(y_{1:T}) \to H(\nu). Asimptotiškai vienam bitui tenkantys log-loss log-tikimybės nariai konverguoja ir susilygina, o tai reiškia, kad likęs bendro kodo ilgio pranašumas grynai susiveda į modelio aprašymo ilgį:

\left[L_T(\text{OPT}) - L_T(\nu)\right] \to K_0 - K(\nu) < 0 \qquad \text{[nes } K_0 \approx 36 \text{ ir } K(\nu) \sim 1750 \text{]}

Pastaba: nors bendras kodo ilgis išlaiko šį nuolatinį fiksuotų bitų pranašumą, vienam bitui tenkantis pranašumas (\frac{K_0 - K(\nu)}{T}) aktyviai mažėja iki nulio. Tai nereiškia asimptotiškai nuolat augančio pranašumo dėl duomenų kaupimo, bet veikiau nuolatinį standų struktūrinį poslinkį. \blacksquare

Skaitinis įvertis \mathcal{M}_1 atvejui: K(\mathcal{M}_1) - K_0 \approx 1714 bitų. Kai log-loss tikimybiniai nariai susikonverguoja pakankamuose \nu-tipiškų stebėjimų languose, OPT išlaiko nuolatinį matematinį bendro kodavimo pranašumą, siekiantį maždaug 1714 bitų.

§7. Baigtinio-T sąlyginis pranašumas — teorema T-4e

Baigtinio ilgio srautams MDL palyginimas reikalauja, kad T-4c IC glaudinimo pranašumas viršytų K_0 pridėtines sąnaudas.

Teorema T-4e (baigtinio-T sąlyginis MDL pranašumas). OPT pasiekia griežtą baigtinio-T MDL pranašumą prieš \mathcal{M}_1 — tai yra, L_T(\text{OPT}) < L_T(\mathcal{M}_1) — tada ir tik tada, jei tenkinama ši sąlyga:

\boxed{K(\text{IC} \mid \text{SP laws}) > K_0 + \log\left(\frac{1}{\xi(\mathcal{O})}\right) + \left[-\log \xi^{\text{Filter}}(y_{1:T}) - \left(-\log P_{\text{SP}}(y_{1:T})\right)\right]}

Dešiniosios pusės skliaustinis narys yra OPT log-tikėtinumo deficitas SP atžvilgiu konkrečiam srautui y_{1:T}. Sąlyga tenkinama tada, kai IC aprašo kaina viršija bendras metataisyklės pridėtines sąnaudas ir OPT predikcinį deficitą šiame sraute.

Įrodymas. Tiesioginis dviejų dalių kodo ilgių pertvarkymas:

L_T(\text{OPT}) < L_T(\text{SP}) \iff \quad K_0 + \log\left(\frac{1}{\xi(\mathcal{O})}\right) - \log \xi^{\text{Filter}}(y) < K_{\text{laws}} + K(\text{IC} \mid \text{laws}) - \log P_{\text{SP}}(y) \iff \quad K(\text{IC} \mid \text{laws}) - K_0 > \log\left(\frac{1}{\xi(\mathcal{O})}\right) + \left[-\log \xi^{\text{Filter}}(y) - \left(-\log P_{\text{SP}}(y)\right)\right] + \left[K_{\text{laws}} - K_{\text{laws}}\right]

Pergrupavus (K_{\text{laws}} panaikinamas abiejose pusėse), tiesiogiai gaunama suformuluota sąlyga. \blacksquare

7.1 Standartinės kosmologijos sąlygos vertinimas

Esant infliaciniam kodavimui (palankiausiam SP atvejui):

K(\text{IC} \mid \text{SP laws}) \approx 300 bitų (infliaciniai parametrai + e-klosčių skaičius + pakartotinis įkaitinimas)
K_0 \approx 36 bitų (T-4a)
Logaritminio tikėtinumo deficitas: Funkciškai keliame hipotezę, kad OPT, aprūpinta T-1 susietais R_{T,h}(D) kodeko apribojimais, stebėtojui suderinamame sraute pasiekia bent jau tokį pat tvirtą taškinį logaritminį tikėtinumą kaip standartinė fizika. Atkreipkite dėmesį, kad Solomonoffo ribos griežtai užtikrina dominavimą tik tikėtinų sumų atžvilgiu, o ne apibrėžtas taškines ribas konkretiems pavieniams srautams; todėl \left[-\log \xi^{\text{Filter}}(y) - \left(-\log P_{\text{SP}}(y)\right)\right] \leq 0 reiškia empirinį struktūrinį lūkestį, o ne algoritminę garantiją.

Todėl sąlyga redukuojasi į K(\text{IC} \mid \text{SP laws}) > K_0, t. y. 300 > 36. Tai tenkinama su didele struktūrine atsarga. Sąlyga žlunga tik tuo atveju, jei IC kainuoja mažiau nei \sim 36 bitus — t. y. jei specifinis mūsų visatos IC yra struktūriškai išvedamas vien iš SP dėsnių, paliekant mažiau nei 36 liekamuosius bitus. Nė vienas dabartinis kosmologinis modelis to nepasiekia.

§8. Lyginamoji MDL lentelė

Modelis	K(\mathcal{M}) (bitai)	K(\text{IC}\mid\mathcal{M}) (bitai)	-\log P(y\mid\mathcal{M})	bendras L_T	MDL rangas
\mathcal{M}_1 — SM + GR	\sim 1750	\sim 300 (infliacinis)	\sim 0 (determinuotas)	\sim 2050	2-as (infliacinis)
\mathcal{M}_3 — Boltzmanno	\sim 1750	\sim 10	\gg 0 (reta srovė)	\gg 1760	Paskutinis (katastrofiškas tikėtinumas)
\mathcal{M}_{\text{OPT}} — OPT	\sim 36	\sim 0 (sąlyginis per griežtai apribotą Filtrą)	*\sim 0^ (determinuota kodeko aproksimacija)**	\sim 36 (sąlyginis)	1-as (sąlyginis)

^* Pagal aiškų §9.2 pateiktą kodeko tapatinimą OPT aktyvusis duomenų narys redukuojasi į -\log P_{K_\theta}(y) = -\log P_\text{SP}(y) = 0, kai K_\theta sutapatinamas su SP kodeku.

§9. Palyginimo ribos

9.1 K(y \mid \text{Filter}) nėra apskaičiuojamas

OPT kodo ilgis K_0 + K(y \mid \text{Filter}) = K_0 - \log \xi^{\text{Filter}}(y) apima narį, kuris Tiuringo prasme nėra apskaičiuojamas (sustabdymo problema neleidžia tiksliai apskaičiuoti \xi). Praktikoje OPT prognozės turi būti aproksimuojamos baigtiniu kodeku K_\theta — tai atitinka standartinę fiziką. Tai reiškia, kad predikciniais tikslais OPT redukuojasi į geriausią prieinamą apskaičiuojamą kodeką. Todėl OPT MDL pranašumas prieš SP yra struktūrinis pranašumas (atrankos taisyklės apraše), o ne operacinis pranašumas darant naujas prognozes.

Tai nėra trūkumas — tai ir yra teisingas formalus preprinto teiginio turinys: „OPT perkelia dalį aiškinamosios naštos nuo dėsnių išvardijimo prie dėsnių atrankos.“ Šis poslinkis yra realus ir formaliai kiekybiškai įvertintas (\approx 1700 bitų atrankos taisyklei, palyginti su \mathcal{M}_1), tačiau jis nesukuria naujo predikcinio turinio, viršijančio tai, ką jau suteikia pats kodekas.

9.2 Kodeko identifikavimo problema

OPT kodekas K_\theta yra specifinis apskaičiuojamas matas iš \mathcal{M}, kurį atrenka Stabilumo filtras. T-4 nenustato, kuris būtent tai matas — šiai identifikacijai reikia T-5 (konstantų atkūrimo) ir visos fizikinio suvienijimo programos. Kol K_\theta nėra aiškiai identifikuotas su SM + GR, MDL palyginimas yra sąlyginis šios identifikacijos atžvilgiu. Formalioji riba L_T(\text{OPT}) \leq L_T(\text{SP}) + K_0 garantuoja, kad OPT negali pasirodyti prasčiau už SP, tačiau negarantuoja, kad baigtiniame laike jis pasirodys geriau, nebent tenkinama T-4e IC sąlyga — o pagal standartines kosmologines prielaidas ji yra tenkinama.

Apribojimas iš P-2. Priedas P-2 (Hilberto erdvės įterpimas per kvantinį klaidų koregavimą) nustato, kad esant lokaliam triukšmui kodekas turi atitikti QECC struktūrą — jo vidinė reprezentacija turi sudaryti kvantinį klaidų koregavimo kodą su specifiniais parametrais (n, k, d). Tai susiaurina kodeko identifikavimo problemą: K_\theta jau nebėra savavališkas apskaičiuojamas matas, bet toks, kurio predikcinės būsenos neša Hilberto erdvės klaidų koregavimo geometriją. Šis apribojimas yra ankstesnis už T-5 konstantų atkūrimo programą ir gali suteikti papildomų atrankos kriterijų identifikuojant K_\theta su Standartiniu modeliu.

§10. Uždarymo santrauka

T-4 rezultatai — patvirtintai uždaryti (su normalizacijos ir tipiškumo sąlygomis)

Kodavimo konvencijos nustatytos (§1). Dviejų dalių MDL, prefiksinis Kolmogorovo sudėtingumas įtraukios fiksuotos UTM atžvilgiu, duomenų sritį funkciškai atvaizduojant į sąmoningą srautą y_{1:T} = z_{0:T}.
Etaloninės klasės nustatytos (§2). Vertina \mathcal{M}_1 (SM+GR) prieš trivialias ribas, tokias kaip \mathcal{M}_2 (sprogstanti generatyvinės aprėpties parametro atranka) ir \mathcal{M}_3 (Boltzmanno tikėtinumo kolapsas).
T-4a (Meta-taisyklės sudėtingumas). K(\xi, \text{Filter}) = K_0 \approx 36 bitų, įskaitant santykinius UTM poslinkius.
T-4b (Solomonoffo apribojimas). L_T(\text{OPT}) \leq L_T(\nu) + K_0 + \log(1/\xi(\mathcal{O})). Aiškiai apibrėžia algoritminės normalizacijos baudos parametrą.
Spėjimas T-4c (IC glaudinimo euristinio apribojimo riba). Struktūrinis pradinių sąlygų pertekliškumas yra spėjamas glaudinimo variklis: \Delta_{\text{IC}} = K(\text{IC}\mid\text{SP}) - K(\text{IC}\mid\text{OPT}) \geq 0, nors atvaizdavimo vienareikšmiškumas yra sąlyginis. Tai tarnauja kaip euristinė riba, o ne formaliai įrodyta teorema.
T-4d (Pastovaus bitų skaičiaus modelio pranašumas). Sąlygiškai apriboja ribinę elgseną: skaičiuojamiems etalonams, kurių \nu-tipinė klasė netrivialiai persidengia su \mathcal{O}, OPT užsitikrina nuolatinį skaitinį sudėtingumo pranašumą (\sim -1714 bitų), nors jo begalinis vieno bito tankis masteliškai artėja prie nulio.
T-4e (Baigtinio T pranašumas — sąlyginis). OPT skaitiškai pranoksta \mathcal{M}_1 baigtiniam T tiksliai tada, kai empiriniai taškiniai nuostoliai nepaneigia pamatinės struktūrinės ribos K(\text{IC}\mid\text{SP}) > K_0 (300 > 36). Taip pažeidžiamumas tiesiogiai sutelkiamas į algoritminio taškinio dominavimo prielaidas.

MDL teiginio falsifikavimo sąlygos

Kosmologinių pradinių sąlygų išvedimas vien iš SP dėsnių mažiau nei per \sim 36 bitus — parodant, kad K(\text{IC} \mid \text{SP laws}) < K_0.
Parodymas, kad Stabilumo filtro apribojimas iki su stebėtoju suderinamų srautų nesuglaudina IC — t. y. K(\text{IC} \mid \xi, \text{Filter}) = K(\text{IC} \mid \text{laws}), todėl gauname \Delta_{\text{IC}} = 0.
Eksplicitinis skaičiuojamas OPT kodekas K_\theta, kuris įrodomai yra mažiau tikslus nei SM+GR stebėtojo srautuose, taip padarant, kad logaritminio tikėtinumo deficitas viršytų IC glaudinimo prieaugį.

Tolimesnės priklausomybės

T-5 (Konstantų atkūrimas) yra esminis kitas žingsnis: kai kodekas K_\theta per T-1/T-2/T-3 identifikuojamas su SM+GR dėsniais, MDL palyginimas tampa visiškai eksplicitinis, o T-4e sąlyga virsta konkrečia nelygybe tarp žinomų dydžių.
Preprint §5.2 atnaujinimas: frazė „Ar ši meta-taisyklė suteikia realų MDL pranašumą… yra atviras lyginamasis klausimas“ dabar gali būti atnaujinta į: „Teorema T-4d nustato sąlyginį asimptotinį pranašumą (stebėtojo srautams, kurie taip pat yra \nu-tipiniai pagal etaloninę fiziką, aibė, kuri šiuo metu nėra charakterizuota); Teorema T-4e nustato sąlyginį baigtinio T pranašumą; žr. Appendix T-4.“

Šis priedas palaikomas kaip OPT projekto saugyklos dalis greta theoretical_roadmap.pdf. Nuorodos: Rissanen (1978) [12], Li & Vitányi (2008) [27], Solomonoff (1964) [11], Penrose (2004).