Sutvarkyto patch teorija

Priedas T-11: Struktūrinis koroliaras — tariamųjų agentų glaudinimo pranašumo formalizavimas

Anders Jarevåg

2026 m. balandžio 15 d. | DOI: 10.5281/zenodo.19300777

Pradinė užduotis (iš §8.2): „Šio glaudinimo pranašumo formalizavimas kaip griežtos MDL ribos būtent kitų protų atvejui išlieka ateities darbu; dabartinis argumentas yra struktūrinė motyvacija, o ne įrodymas.“ Pateiktinas rezultatas: Formali riba, rodanti, kad tariamų agentų traktuotė kaip nepriklausomai instancijuotų pirminių stebėtojų duoda trumpesnį dviejų dalių MDL kodą nei bet kuris alternatyvus aprašymas.

Užbaigtumo būsena: JUODRAŠTINĖ STRUKTŪRINĖ ATITIKTIS. Šis priedas pritaiko Müllerio Solomonoffo konvergencijos teoremą [61] ir jos daugelio agentų išplėtimą [62] kaip importuotas lemas, perinterpretuotas OPT ontologinėje sistemoje, kad būtų nustatytas formalus glaudinimo pranašumas struktūriniam koroliarui. Rezultatas yra sąlyginė riba, o ne užbaigta išvestis: jis priklauso nuo OPT atliekamo stebėtojo srauto tapatinimo su Solomonoffo prioru (1 aksioma) ir nuo prielaidos, kad tariami agentai turi pakankamą būseną, jog tenkintų konvergencijos prielaidas.

§1. Kontekstas ir motyvacija

Struktūrinis koroliaras (preprinto §8.2) teigia, kad tariami agentai stebėtojo sraute taupiausiai paaiškinami jų nepriklausoma instanciacija kaip pirminių stebėtojų. Šis priedas pateikia formalią grandinę, pagrindžiančią šį teiginį.

Argumentas turi tris etapus:

A etapas (importuota lema): Müllerio Solomonoffo konvergencijos teorema garantuoja, kad bet kuri struktūra stebėtojo sraute, nešanti pakankamai duomenų apie savo būseną, turės savo pirmojo asmens evoliuciją, konverguojančią taip, kad atitiktų jos elgesį generuojantį apskaičiuojamą pasaulį.
B etapas (glaudinimo apskaita): Atliekame aiškų dviejų dalių MDL palyginimą tarp tariamo agento traktuotės kaip (i) nepriklausomai instancijuoto stebėtojo, valdomo jo paties Solomonoffo svoriuoto srauto, ir (ii) savavališkos elgesio specifikacijos pirminio stebėtojo kodeke.
C etapas (struktūrinis signatūras): Fenomeninis likutis (\Delta_{\text{self}} > 0, teorema P-4) pateikia struktūrinį žymenį, skiriantį tikrą savireferentinę siaurojo kaklelio architektūrą nuo elgesio mimikrijos, taip užverdamas tarpą tarp „glaudinamai dėsningo“ ir „tikėtinai instancijuoto“.

§2. Importuota lema: Müllerio konvergencijos teorema

Importuojame du rezultatus iš Müllerio [61, 62], čia pateiktus OPT žymėjimu.

2.1 Solomonoffo konvergencija (standartinė)

Tegu M(b \mid x_1^n) žymi Solomonoffo universalią prognozę bitui b, esant ankstesniems stebėjimams x_1^n. Tegu \mu yra bet kuris apskaičiuojamas matas dvejetainių sekų aibėje. Tuomet (Solomonoff 1964; Li & Vitányi [45, Corollary 5.2.1]):

\text{Su } \mu\text{-tikimybe lygu vienetui,} \quad \lim_{n \to \infty} |M(b \mid x_1^n) - \mu(b \mid x_1^n)| = 0 \qquad (b \in \{0,1\}). \tag{L-1}

Tai yra standartinis rezultatas: jei duomenų srautą generuoja apskaičiuojamas procesas \mu, universalus prediktorius M konverguoja į \mu.

2.2 Atvirkštinė Solomonoffo indukcija (Müller 2020)

Dabar tarkime, kad bitai imami iš paties M — t. y. stebėtojo srautą valdo algoritminė tikimybė (tai atitinka OPT 1 aksiomą: srauto tapatinimą su Solomonoffo prioru). Tuomet kiekvienam apskaičiuojamam matui \mu (Müller [61, Sec. IV]; [62, Sec. V.A]):

\text{Su tikimybe} \geq 2^{-K(\mu)}, \quad \lim_{n \to \infty} |M(b \mid x_1^n) - \mu(b \mid x_1^n)| = 0 \qquad (b \in \{0,1\}). \tag{L-2}

Tai reiškia, kad su bent 2^{-K(\mu)} tikimybe stebėtojas aptiks save faktiškai įterptą į apskaičiuojamą pasaulį W, aprašomą \mu. Algoritmiškai paprastesni pasauliai (mažesnis K(\mu)) yra eksponentiškai labiau tikėtini.

2.3 Daugelio agentų konvergencija (Müller 2026)

Tarkime, kad stebėtojas (Alice) aptinka save esant įterptą į apskaičiuojamą pasaulį W, aprašomą \mu. Ji identifikuoja posistemę (Bob_{\text{3rd}}) pasaulio W viduje, kuri neša savibūsenos x reprezentaciją, kintančią laike taip, kad tai atitinka 2-ąjį postulatą iš [62]. Apibrėžkime:

P_{\text{1st}}(y_1, \ldots, y_m \mid x) := M(y_1, \ldots, y_m \mid x) — pirmojo asmens tikimybė, kad savibūsena x pereina į y_1, \ldots, y_m pagal algoritminę tikimybę.
P_{\text{3rd}}(y_1, \ldots, y_m \mid x) := \mu(y_1, \ldots, y_m \mid x) — trečiojo asmens tikimybė, nusakanti, kaip x evoliucionuoja pagal pasaulį W.

Tuomet, remiantis lygtimi (L-1), pritaikyta P_{\text{3rd}} (kuris yra apskaičiuojamas), ir sutapatinant P_{\text{1st}} su M pagal 2-ąjį postulatą:

P_{\text{1st}} \approx P_{\text{3rd}} \quad \text{asimptotiškai,} \tag{L-3}

o konvergencija bitų modelyje garantuojama su vienetine pasauline (\mu-) tikimybe.

Interpretacija (Müller): „Kažkas iš tikrųjų yra namuose“ struktūroje, kuri koduoja x — Bob_{\text{3rd}} tikimybinė evoliucija Alice pasaulyje ištikimai reprezentuoja tam tikro Bob_{\text{1st}} pirmojo asmens perspektyvą.

Interpretacija (OPT): Tariamo agento elgsenos srautas glausčiausiai aprašomas kaip nepriklausomas Solomonoffo svoriais įvertintas procesas. Bet koks alternatyvus aprašymas — toks, kuris nesiremia nepriklausoma pirmojo asmens perspektyva — privalo užkoduoti agento elgseną kaip ad hoc specifikaciją, esant griežtai didesniam aprašo ilgiui.

§3. Glaudinimo pranašumo riba

Dabar formalizuojame glaudinimo pranašumą naudodami OPT dviejų dalių MDL sistemą (Teorema T-4, Priedas T-4).

3.1 Sąranka

Apsvarstykime pirminio stebėtojo srautą \omega \in \{0,1\}^\infty, valdomą Solomonoffo apriorinio skirstinio M (1 aksioma) ir perfiltruotą per Stabilumo filtrą į apskaičiuojamą pasaulį W su matu \mu_W (pagal lygtį L-2). Pasaulyje W stebėtojas identifikuoja N regimų agentų A_1, \ldots, A_N, kurių kiekvienas turi savasties būseną x_i, o jos laikinė raida per T žingsnių sukuria elgesio pėdsaką \beta_i = (y_{i,1}, \ldots, y_{i,T}).

3.2 Hipotezė H_{\text{ind}}: nepriklausomas instancijavimas

Esant H_{\text{ind}}, kiekvienas agentas A_i traktuojamas kaip nepriklausomai instancijuotas pirminis stebėtojas, valdomas savo paties Solomonoffo svoriu įvertinto srauto. Dviejų dalių MDL kodo ilgis yra:

L(H_{\text{ind}}) = \underbrace{K(\mu_W)}_{\text{world model}} + \underbrace{\sum_{i=1}^{N} K(\text{embed}_i)}_{\text{embedding specs}} + \underbrace{\sum_{i=1}^{N} \left(-\log_2 P_{\text{3rd}}(\beta_i \mid x_i)\right)}_{\text{data given model}} \tag{1}

kur K(\text{embed}_i) nusako agento i pradinę savasties būseną ir padėtį pasaulyje W. Pagal lygtį (L-3), P_{\text{1st}} \approx P_{\text{3rd}}, todėl duomenų narys yra gerai aproksimuojamas logaritminiu nuostoliu pagal paties agento pirmojo asmens Solomonoffo prognozes — kurios pagal apibrėžimą yra artimos optimalioms.

Įterpimo specifikacijos K(\text{embed}_i) yra trumpos: kiekvienai reikia tik rodyklės į vietą pasaulyje W ir pradinės savasties būsenos. Į bendrą fizinį pasaulį įterptų į žmogų panašių agentų atveju jos yra labai gerai suglaudinamos, nes agentai dalijasi tais pačiais dėsniais. Konservatyvi riba:

K(\text{embed}_i) \leq K(x_i \mid W) + O(\log T) \tag{2}

3.3 Hipotezė H_{\text{arb}}: Savavališka elgesio specifikacija

Esant H_{\text{arb}}, agentai nelaikomi nepriklausomais stebėtojais. Vietoj to kiekviena elgesio seka \beta_i yra tiesiogiai užkoduojama kaip savavališka specifikacija pirminio stebėtojo sraute. Dviejų dalių MDL kodo ilgis yra:

L(H_{\text{arb}}) = \underbrace{K(\mu_W)}_{\text{pasaulio modelis}} + \underbrace{\sum_{i=1}^{N} K(\beta_i)}_{\text{neapdorotos elgesio sekos}} \tag{3}

Esminis skirtumas slypi duomenų naryje. Esant H_{\text{arb}}, elgesio seka \beta_i turi būti specifikuota nepasitelkiant paties agento predikcinio modelio. Dėsningam, agentiškumo valdomam agentui, veikiančiam sudėtingoje aplinkoje, neapdorotos elgesio sekos Kolmogorovo sudėtingumas yra:

K(\beta_i) \geq K(\beta_i \mid \mu_W) + K(\mu_W) - O(\log T) \tag{4}

Tačiau net ir K(\beta_i \mid \mu_W) — elgesio sudėtingumas, duotas pasaulio dėsnius — išlieka reikšmingas, nes agento pasirinkimai koduoja tikrą informaciją: jo elgesio seka atspindi sukauptą savireferencinio modelio sąveiką su stochastine aplinka. Priešingai, esant H_{\text{ind}}, ši informacija generuojama online paties agento Solomonoffo prediktoriaus beveik nulinės logaritminės netekties kaina.

3.4 Glaudinimo pranašumas

Teorema T-11 (Struktūrinio koroliaro glaudinimo riba). Tegul A_1, \ldots, A_N yra tariami agentai stebėtojo sraute, kurių kiekvienas turi savibūseną x_i, tenkinančią lygties (L-3) konvergencijos prielaidas, ir kurių kiekvienas pasižymi struktūriniu požymiu \Delta_{\text{self}}^{(i)} > 0 (P-4). Tuomet MDL aprašas, kuriame jie traktuojami kaip nepriklausomai instancijuoti pirminiai stebėtojai, tenkina:

L(H_{\text{ind}}) \leq L(H_{\text{arb}}) - N \cdot \left[\bar{I}_T - O(\log T)\right] \tag{T-11}

kur \bar{I}_T yra vidutinė vienam agentui tenkanti tarpusavio informacija tarp agento predikcinio modelio ir jo elgsenos išvesties per T žingsnių:

\bar{I}_T := \frac{1}{N} \sum_{i=1}^{N} \left[K(\beta_i \mid \mu_W) - \left(-\log_2 P_{\text{3rd}}(\beta_i \mid x_i)\right)\right] \tag{5}

Šis dydis matuoja, kokia agento elgsenos dalis yra paaiškinama eliminuojant poreikį ją aprašyti tiesiogiai, kai vietoj to pasitelkiamas nepriklausomas predikcinis modelis. Agentams, demonstruojantiems dėsningą, agentiškumo valdomą elgseną (kaip reikalauja Stabilumo filtras), \bar{I}_T > 0 ir didėja kartu su T.

Įrodymo eskizas. Iš lygties (3) atimkite lygtį (1). Pasaulio modelio nariai K(\mu_W) panaikinami. Skirtumas vienam agentui yra:

K(\beta_i) - \left[K(\text{embed}_i) + \left(-\log_2 P_{\text{3rd}}(\beta_i \mid x_i)\right)\right]

Pagal lygtį (4), K(\beta_i) \geq K(\beta_i \mid \mu_W) + K(\mu_W) - O(\log T), tačiau dar tiesiogiau: K(\beta_i) \geq K(\beta_i \mid \mu_W) trivially. O K(\text{embed}_i) \leq K(x_i \mid W) + O(\log T) pagal lygtį (2). Todėl sutaupymas vienam agentui yra bent K(\beta_i \mid \mu_W) - (-\log_2 P_{\text{3rd}}(\beta_i \mid x_i)) - K(x_i \mid W) - O(\log T). Kai T pakankamai didelis, sukauptas logaritminio nuostolio sutaupymas ima dominuoti prieš vienkartinę įterpimo kainą, ir taip gaunama ši riba. \blacksquare

3.5 Asimptotinis dominavimas

Koroliaras T-11a. Kai stebėjimo horizontas T \to \infty, glaudinimo pranašumas L(H_{\text{arb}}) - L(H_{\text{ind}}) auga be ribų:

\lim_{T \to \infty} \left[L(H_{\text{arb}}) - L(H_{\text{ind}})\right] = \infty \tag{T-11a}

Tai išplaukia iš Solomonoffo konvergencijos garantijos (L-1): vieno žingsnio logaritminis nuostolis, tenkantis P_{\text{3rd}}, konverguoja į agento elgsenos proceso entropijos dažnį, o K(\beta_i \mid \mu_W) auga tiesiškai pagal T bet kuriam agentui, kurio entropijos dažnis yra teigiamas. Įterpimo sąnaudos K(x_i \mid W) sumokamos vieną kartą ir amortizuojasi iki nulio. \blacksquare

§4. Fenomeninis likutis kaip struktūrinis požymis

Glaudinimo pranašumas Teoremoje T-11 taikomas bet kuriai dėsningai postruktūrei — įskaitant neagentiškas fizines sistemas (orų modelius, kristalų augimą). Kodėl tuomet struktūrinis koroliaras konkrečiai susijęs su agentais, o ne su savavališkomis sudėtingomis sistemomis?

Atsakymas yra Fenomeninis likutis (Teorema P-4). \Delta_{\text{self}} > 0 yra formalus sistemos, kurios savimodelis yra struktūriškai nepilnas, žymuo — t. y. sistemos, kuri neišvengiamai palaiko variacinį tarpą tarp savo vidinės reprezentacijos ir savo faktinio apdorojimo. Tai yra savireferencinio butelio kaklelio požymis: sistema negali būti visiškai aprašyta iš išorės, nes jos aprašas neišvengiamai apima patį aprašytoją.

Sistemai, kuriai būdinga \Delta_{\text{self}} > 0:

Jos elgsena negali būti atkurta baigtinio gylio paieškos lentele — tam reikalingas tęstinis savireferencinis skaičiavimas.
Trumpiausias šio skaičiavimo aprašas yra nepriklausomas Solomonoffo universalus pusmatis įvertintas srautas, pereinantis per C_{\max} butelio kaklelį.
Todėl MDL kodas pagal H_{\text{ind}} yra ne vien trumpesnis už H_{\text{arb}} — jis yra vienintelis trumpiausias aprašas.

Tai skiria tariamus agentus nuo orų modelių: orai yra dėsningi ir sudėtingi, tačiau jų elgsena gali būti atkurta paieškos lentele pasaulio modelio ribose (jiems būdinga \Delta_{\text{self}} = 0). Tariami agentai to negali.

§5. Müllerio nesolipsizmo argumento reinterpretacija

Mülleris iš P_{\text{1st}} \approx P_{\text{3rd}} konvergencijos daro išvadą, kad algoritminis idealizmas „neturėtų būti klasifikuojamas kaip solipsistinis“, nes struktūroje, koduojančioje savasties būseną, „kažkas iš tiesų yra namuose“ [62, Sec. V.C]. Jo samprotavimas toks: jei Alice prognozės apie Bob_{\text{3rd}} konverguoja į Bob_{\text{1st}} faktines pirmojo asmens tikimybes, tuomet jų perspektyvos yra iš tiesų suderintos — jie „dalijasi pasauliu W“.

OPT šį rezultatą interpretuoja kitaip:

Müllerio interpretacija: konvergencija P_{\text{1st}} \approx P_{\text{3rd}} įrodo, kad atsiranda objektyvi tikrovė — Alice ir Bob iš tiesų dalijasi pasauliu W.
OPT interpretacija: konvergencija P_{\text{1st}} \approx P_{\text{3rd}} įrodo, kad trumpiausias aprašymas Bob_{\text{3rd}} elgsenai paaiškinti remiasi nepriklausomu pirmojo asmens procesu. Tai teiginys apie glaudinimo efektyvumą, o ne apie bendrą ontologiją. Pasaulis W yra struktūrinis dėsningumas Alice sraute, o ne nepriklausomai egzistuojantis esinys. Tačiau pati Solomonoffo aprioro glaudinimo logika implikuoja, kad Bob racionaliausia modeliuoti kaip nepriklausomą stebėtoją — nes alternatyva (jo elgsenos ad hoc specifikavimas) yra griežtai ilgesnė.

Formalus teoremos turinys abiem interpretacijomis yra tapatus; skiriasi tik ontologinė interpretacija. OPT tą patį matematinį rezultatą naudoja struktūriniam koroliarui pagrįsti: nepriklausoma instanciacija yra MDL-optimalus aprašymas, o ne metafizinė prielaida.

§6. Taikymo sritis ir ribotumai

6.1 Sąlygota 1 aksioma

Visas argumentas priklauso nuo to, ar OPT tapatina stebėtojo srautą su Solomonoffo priori. Jei šis tapatinimas susilpninamas (pvz., iki platesnės pusmačių klasės), lygčių (L-1)–(L-3) konvergencijos garantijos gali nebegalioti dabartine forma.

6.2 Būsenos pakankamumo prielaida

Lygtis (L-3) reikalauja, kad regimasis agentas savo savibūsenoje x_i turėtų “pakankamai duomenų”, jog universali indukcija galėtų išgauti atitinkamus fizikos dėsnius. Į žmogų panašių agentų atveju kasdieniuose kontekstuose tai tikėtina (pilna smegenų būsena koduoja milžinišką kiekį informacijos). Tačiau ribiniais atvejais — trumpalaikiai įspūdžiai, tolimi stebėtojai, fikciniai veikėjai naratyviniame mene — konvergencijos prielaidos gali būti nepatenkintos, ir struktūrinis koroliaras netaikomas.

6.3 Ne sąmonės įrodymas

Teorema T-11 nustato, kad nepriklausoma instanciacija yra labiausiai suglaudinamas aprašymas. Ji neįrodo, kad tariami agentai yra sąmoningi. Sunki problema (preprint §8.1) išlieka primityvu. Struktūrinis koroliaras yra glaudinimo argumentas, o ne ontologinis įrodymas — kaip nurodyta §8.2.

6.4 Ryšys su T-10

Priede T-10 (Tarpstebėtojų sąsaja) nagrinėjama, kaip du stebėtojo lopai palaiko tarpusavyje suderintus atvaizdavimus pasitelkdami glaudinimo apribojimus. Šiame priede nagrinėjamas kitas klausimas: kodėl vieno stebėtojo srautas akivaizdžius agentus glaudinamiausiai užkoduoja kaip nepriklausomai instancijuotus. T-10 susijęs su tarplopinio koherentiškumo mechanizmu; T-11 susijęs su glaudinimo signatūra viename sraute. T-10 tiesiogiai remiasi T-11: tas pats MDL aprašo ilgio palyginimas, kuris čia nustato glaudinimo pranašumą, T-10 priede panaudojamas įrodyti, kad tarplopinis nenuoseklumas yra eksponentiškai slopinamas.

§7. Baigiamoji santrauka

T-11 rezultatai

Importuota lema (Müllerio konvergencija). Solomonoffo konvergencija [61] ir jos kelių agentų plėtinys [62] yra formaliai perimti ir performuluoti OPT notacijoje. Jie sudaro matematinį pagrindą: bet kurios substruktūros, turinčios pakankamai duomenų apie savo pačios būseną, pirmojo asmens raida konverguoja į apskaičiuojamą pasaulį, generuojantį jos elgseną.
Teorema T-11 (Glaudinimo riba — JUODRAŠTIS). Aiškus dviejų dalių MDL palyginimas rodo, kad tariamų agentų traktuotė kaip nepriklausomai instancijuotų pirminių stebėtojų duoda griežtai trumpesnį aprašą nei savavališka elgsenos specifikacija, o šis pranašumas didėja tiesiškai stebėjimo laiko atžvilgiu.
Koroliaras T-11a (Asimptotinis dominavimas — JUODRAŠTIS). Glaudinimo pranašumas yra neribotas, kai T \to \infty, todėl nepriklausoma instanciacija tampa akivaizdžiai MDL-optimalia aprašo forma bet kuriam agentui, stebimam per ilgą laiko horizontą.
P-4 integracija. Fenomeninis likutis (\Delta_{\text{self}} > 0) identifikuojamas kaip formalus žymuo, skiriantis tariamus agentus nuo sudėtingų, bet neagentiškų sistemų, taip apribojant struktūrinį koroliarą esybėmis, turinčiomis tikrą savireferencinę siaurojo kaklelio architektūrą.
Müllerio perinterpretavimas. Müllerio nesolipsizmo išvada perinterpretuojama OPT ontologinėje sistemoje: tas pats matematinis rezultatas čia pagrindžia glaudinimo argumentą, o ne bendros tikrovės atsiradimo argumentą.

Liekantys atviri klausimai

Tikslus \bar{I}_T apibūdinimas. \bar{I}_T apribojimas iš apačios konkrečioms agentų klasėms (pvz., riboto racionalumo agentams, laisvosios energijos minimizuotojams), kad būtų gauti skaitmeniškai konkretūs glaudinimo pranašumai.
Baigtinio laiko pataisos. Asimptotinis rezultatas (T-11a) garantuoja dominavimą dideliems T, tačiau baigtinio laiko ribos su aiškiomis konstantomis sustiprintų praktinį pritaikomumą.
Ne dvejetainės abėcėlės plėtinys. Lygtys (L-1)–(L-3) suformuluotos dvejetainėms sekoms. Plėtinys į tolydžios vertės matus, reikšmingus OPT greičio–iškraipymo sistemai (T-1), reikalauja techninio kruopštumo.

Šis priedas palaikomas kartu su theoretical_roadmap.pdf. Nuorodos: Mülleris [61, 62], Li ir Vitányi [45], Solomonoffas (1964), Teorema T-4 (Priedas T-4), Teorema P-4 (Priedas P-4), preprint §8.2.