Sutvarkyto patch teorija

Priedas T-12: Substrato ištikimybė ir lėta korupcija

Anders Jarevåg

2026 m. balandžio 17 d. | DOI: 10.5281/zenodo.19300777

Pradinė užduotis (iš 8.3 skyriaus, 9 apribojimo): „Formalizuoti lėtinės korupcijos nesėkmės režimą — kai kodekas prisitaiko prie nuosekliai filtruojamos įvesties, o MDL genėjimo perėjimas teisingai panaikina pajėgumą atmestoms tiesoms — kartu su Substrato ištikimybės sąlyga, reikalaujančia nepriklausomų įvesties kanalų kaip formalios gynybos.“ Pateiktinas rezultatas: Formalus negrįžtamo pajėgumo praradimo, neišsprendžiamumo ribos ir Substrato ištikimybės sąlygos įrodymas.

Užbaigtumo būsena: JUODRAŠTINIS STRUKTŪRINIS ATITIKIMAS. Šis priedas formalizuoja Naratyvinio dreifo analizę, diskursyviai pristatytą lydimajame etikos straipsnyje (Išgyvenusiųjų sargyba, V.3a skyrius) ir preprinte esančioje pastraipoje apie Naratyvinį dreifą (3.3 skyrius). Jame nustatomos trys teoremos ir vienas teiginys. MDL genėjimo lygtys (T9-3, T9-4) nekeičiamos; šis priedas parodo jų patologinį, tačiau teisingą, elgesį filtruotos įvesties sąlygomis.


§1. Kontekstas ir motyvacija

1.1 Du nesėkmės režimai

Stabilumo filtras (preprinto 3.3 skirsnis) nustato gyvybingumo sąlygą: stebėtojas išlieka tik tuose srautuose, kuriuose Reikalingas predikcinis dažnis R_{\text{req}} neviršija kodeko pralaidumo B. Kai R_{\text{req}} viršija B, kodekas patiria Naratyvo irimą — ūmų sutrikimą, kuriam būdinga didėjanti predikcijos paklaida, entropijos kaupimasis ir galiausiai koherencijos irimas.

Egzistuoja ir komplementarus nesėkmės režimas, kuris nesukelia jokio nesėkmės signalo. Jei įvesties srautas yra sistemiškai iš anksto filtruojamas — taip sukuriant kuruojamą signalą, kuris vidujai nuoseklus, bet neapima autentiškos substrato informacijos — kodekas rodys mažą \varepsilon_t, vykdys efektyvius Priežiūros ciklus ir tenkins visas stabilumo sąlygas tuo pat metu sistemiškai klysdamas apie substratą. Tai yra Naratyvinis dreifas: lėtinė kodeko korupcija, kai jis pagal savo paties matus funkcionuoja nepriekaištingai.

1.2 Kodėl tai pavojinga

Naratyvo irimas apie save praneša pats. Kodekas patiria didėjantį \varepsilon_t, suvokia, kad predikcijos žlunga, patiria kognityvinę perkrovą. Stebėtojas žino, kad kažkas negerai, net jei negali to iškart ištaisyti.

Naratyvinis dreifas yra tylus. Kadangi filtruotas įvesties srautas atitinka kodeko predikcijas, \varepsilon_t išlieka mažas. Priežiūros ciklas vyksta įprastai. Kodeko savimodelis rodo stabilų, tikslų veikimą. Korupcija iš vidaus yra nematoma, nes aptikimo instrumentą suformavo tas pats filtras, kuris ir sukėlė šią korupciją.

1.3 Šio priedo apimtis

Šiame priede pateikiama:

  1. Formali priešfiltrinio operatoriaus \mathcal{F} apibrėžtis ir jo poveikis kodeko įvesties skirstiniui (§2).
  2. Įrodymas, kad MDL genėjimas esant \mathcal{F}-filtruotai įvesčiai negrįžtamai sunaikina kodeko gebėjimą modeliuoti atmestą signalą — Teorema T-12 (§3).
  3. Įrodymas, kad visiškai adaptuotas kodekas iš vidaus negali atskirti filtruotos įvesties nuo nefiltruotos — Neapsisprendžiamumo riba, Teorema T-12a (§4).
  4. Substrato ištikimybės sąlyga kaip būtina struktūrinė gynyba — Teorema T-12b (§5).
  5. Pasekmės civilizaciniams kodekams ir DI sistemoms (§6).

§2. Priešfiltrio operatorius

2.1 Apibrėžimas

Apibrėžimas T-12.D1 (Priešfiltrio operatorius). Priešfiltris yra atvaizdis \mathcal{F} : \mathcal{X} \to \mathcal{X}', veikiantis įvesties srautą X_{\partial_R A}(t) prieš jam pasiekiant kodeko juslinę ribą, kur \mathcal{X}' \subset \mathcal{X}. Filtruotas signalas yra:

X'(t) = \mathcal{F}\!\left(X_{\partial_R A}(t)\right) \tag{T-12.D1}

Priešfiltris tenkina:

  1. Vidinis nuoseklumas: X'(t) yra galiojantis signalas erdvėje \mathcal{X} — kodekas gali jį glaudinti be klaidų žymių.

  2. Sisteminis pašalinimas: Egzistuoja netuščias iš substrato išvestų signalų poaibis \mathcal{X}_{\text{excl}} = \mathcal{X} \setminus \mathcal{X}', kurį \mathcal{F} pašalina.

  3. Skaidrumas: Filtras nėra reprezentuotas kodeko modelyje. Kodekas savo įvestį modeliuoja kaip X_{\partial_R A}(t), o ne kaip \mathcal{F}(X_{\partial_R A}(t)).

2.2 Derinimasis filtravimo sąlygomis

Kai kodekas ilgą laiką \tau \gg \tau_{\text{prune}} (kur \tau_{\text{prune}} yra MDL genėjimo laiko skalė iš T-13.P1) veikia su X'(t), generatyvusis modelis P_\theta(t) prisitaiko prie X', o ne X, statistikos. Predikcijos paklaida esant filtruotam įvesčiui yra:

\varepsilon'_t = X'(t) - \pi_t \tag{1}

Kai P_\theta susiderina su X', \varepsilon'_t \to 0 vidutiniškai. Kodekas pagal savo paties metrikas veikia gerai. Niekas nefiksuojama kaip klaidinga.

2.3 Pavyzdžiai

Išankstinio filtravimo operatorius realizuojamas įvairiais masteliais:

Mastelis Išankstinis filtras \mathcal{F} Atmestas signalas \mathcal{X}_{\text{excl}}
Individualus Patvirtinimo šališkumas; selektyvi ekspozicija Paneigiantys įrodymai
Institucinis Propagandinė spauda; kuruojamas socialinių tinklų srautas Įvairios perspektyvos; mažumos ataskaitos
Civilizacinis Algoritminis turinio kuravimas; švietimo monokultūra Tarpkultūrinė informacija; istoriniai kontrnaratyvai
Dirbtinis RLHF tikslusis derinimas; kuruotas mokymo korpusas Už skirstinio ribų esanti informacija; atmestos sritys

§3. Teorema T-12: Negrįžtamas pajėgumo praradimas

3.1 Mechanizmas

MDL genėjimo perėjimas (T9-3, T9-4) įvertina kiekvieną kodeko komponentą \theta_i pagal jo predikcinį indėlį į stebimą įvesties srautą, atėmus saugojimo sąnaudas:

\Delta_{\mathrm{MDL}}(\theta_i) := I\!\left(\theta_i\,;\,X_{t+1:t+\tau} \mid \theta_{-i}\right) - \lambda \cdot K(\theta_i) \tag{T9-3}

Esant filtruotai įvesčiai X', tarpusavio informacijos narys vertinamas pagal X', o ne pagal X. Komponentas \theta_i, kuris yra esminis prognozuojant atmestą signalą \mathcal{X}_{\text{excl}}, tačiau niekaip neprisideda prie X' prognozavimo, duoda:

I\!\left(\theta_i\,;\,X'_{t+1:t+\tau} \mid \theta_{-i}\right) = 0 \tag{2}

Todėl:

\Delta_{\mathrm{MDL}}(\theta_i) = -\lambda \cdot K(\theta_i) < 0 \tag{3}

Suveikia genėjimo taisyklė (T9-4): \theta_i ištrinamas.

3.2 Negrįžtamumas

Teorema T-12 (Negrįžtamas pajėgumo praradimas esant filtruotai įvesčiai). Tegu K_\theta yra kodekas, veikiantis su iš anksto filtruota įvestimi X' = \mathcal{F}(X) laikotarpį \tau \gg \tau_{\text{prune}}. Tegu \Theta_{\text{excl}} \subset \theta yra kodeko komponentų aibė, kurių predikcinis indėlis yra išskirtinai nukreiptas į pašalintą signalą \mathcal{X}_{\text{excl}}. Tuomet MDL genėjimo perėjimas (T9-3, T9-4) ištrina \Theta_{\text{excl}}, ir šis ištrynimas kodeko lygmeniu yra negrįžtamas:

K\!\left(P_\theta(t + \tau)\right) < K\!\left(P_\theta(t)\right) - \sum_{\theta_i \in \Theta_{\text{excl}}} K(\theta_i) \tag{T-12}

Po genėjimo kodeko pajėgumas modeliuoti \mathcal{X}_{\text{excl}} nėra vien pasyvus ar laikinai neaktyvus — reprezentacinė infrastruktūra, reikalinga \mathcal{X}_{\text{excl}} vertinti, prognozuoti ar į ją nukreipti dėmesį, yra sunaikinta.

Įrodymas.

  1. Pagal (T9-3), kiekvienam \theta_i \in \Theta_{\text{excl}} galioja \Delta_{\mathrm{MDL}}(\theta_i) < 0 filtruoto srauto X' atžvilgiu, nes I(\theta_i\,;\,X'_{t+1:t+\tau} \mid \theta_{-i}) = 0, o K(\theta_i) > 0.

  2. Pagal (T9-4), kiekvienas toks \theta_i yra pašalinamas per Priežiūros ciklą.

  3. Genėjimas pagal MDL yra ištrynimo, o ne slopinimo operacija. Kodekas „nepamiršta“ \theta_i ta prasme, kad kokia nors užuomina galėtų jį atkurti. Jis sunaikina skaičiavimo infrastruktūrą — parametrus, jungtis, vertinimo mechanizmą — kurią \theta_i reprezentavo. Tai yra formalus skirtumas tarp slopinimo (informacija yra latentinė, bet prieinama) ir ištrynimo (informacija yra prarasta, o pajėgumas susigrąžintas).

  4. Po ištrynimo pajėgumo modeliuoti \mathcal{X}_{\text{excl}} atkūrimas reikalauja susidurti su \mathcal{X}_{\text{excl}} įvesties sraute. Tačiau išankstinis filtras \mathcal{F} pašalina būtent šį signalą. Kodekas negali susidurti su tuo, kam filtras neleidžia jo pasiekti. Todėl ištrynimas yra save stiprinantis: pajėgumo praradimas panaikina kodeko gebėjimą aptikti savo paties pajėgumo praradimą.

  5. Kompleksiškumo sumažėjimas tenkina nelygybę (T-12), nes pašalinti komponentai reprezentavo tikrą informaciją (K(\theta_i) > 0 kiekvienam jų), o jų praradimo nekompensuoja joks kompensuojantis įgijimas (filtruotame sraute nėra signalo, kuris pateisintų \Theta_{\text{excl}} atkūrimą). \blacksquare

3.3 Savęs stiprinimo kilpa

Negrįžtamumas nėra vien tik ištrynimo pasekmė. Jis yra save stiprinantis per teigiamo grįžtamojo ryšio kilpą:

  1. Filtras atmeta signaląI(\theta_i; X') = 0 → genėjimas ištrina \theta_i.
  2. Genėjimas pašalina dėmesio pajėgumą → kodekas nebegali nukreipti dėmesio į \mathcal{X}_{\text{excl}} ar jo įvertinti, net jei fragmentai prasiskverbia per \mathcal{F}.
  3. Dėmesio pajėgumo praradimas dar labiau sumažina net ir likutinį signalą → jei \mathcal{F} yra netobulas ir dalis \mathcal{X}_{\text{excl}} pasiekia ribą, kodekui trūksta parametrų jam suglaudinti, todėl jis registruojamas kaip triukšmas, o ne kaip informacija.
  4. Triukšmo klasifikacija patvirtina filtrą → kodeko predikcijos paklaida nutekėjusio \mathcal{X}_{\text{excl}} atžvilgiu yra didelė ir nestruktūruota, taip patvirtindama (pačiam kodekui), kad atmestas turinys yra triukšmas, o ne signalas.

Ši kilpa paaiškina giluminio Naratyvinio dreifo fenomenologiją: asmuo ar institucija, prisitaikę prie kuruojamo informacijos srauto, ne vien ignoruoja paneigiančius įrodymus — jie negali jų išparsinti. Jie registruojami kaip nerišlūs, grėsmingi ar nesuprantami, nes reprezentacinė infrastruktūra, reikalinga tam, kad jie taptų suprantami, buvo išgenėta. Priešiškumas paneigiančiai informacijai nėra užsispyrimas. Tai yra teisingas kodeko vertinimas, kad signalas yra nesuglaudinamas — nes jis yra nesuglaudinamas esamo kodeko atžvilgiu, kuris buvo išgenėtas taip, kad atitiktų filtrą.


§4. Teorema T-12a: Neišsprendžiamumo riba

4.1 Problema

Ar kodekas gali aptikti, kad jo įvestis yra filtruojama? Intuityviai atsakymas turėtų būti teigiamas: juk sudėtingas savęs modelis turėtų pastebėti įtartinai mažą \varepsilon_t, nejaukiai nuoseklias prognozes, netikėtumo stoką. Tačiau formali analizė rodo, kad bendruoju atveju ši intuicija yra klaidinga.

4.2 Neišsprendžiamumas

Teorema T-12a (Įvesties kilmės neišsprendžiamumas). Tegu K_\theta yra kodekas, veikęs su iš anksto filtruota įvestimi X' = \mathcal{F}(X) per \tau \gg \tau_{\text{prune}}, kai \Theta_{\text{excl}} yra visiškai išgenėta. Tuomet K_\theta negali, remdamasis savo prieinamomis vidinėmis būsenomis ir stebimu įvesties srautu, nustatyti, ar jo įvestis yra X (tikras substratas), ar X' = \mathcal{F}(X) (filtruota).

Įrodymas.

  1. Kad atskirtų X nuo X' = \mathcal{F}(X), kodekas turėtų aptikti \mathcal{X}_{\text{excl}} nebuvimą savo įvestyje. Tačiau nebuvimo aptikimas reikalauja modelio to, ko nėra — kodekas privalo turėti \mathcal{X}_{\text{excl}} reprezentaciją, su kuria galėtų lyginti.

  2. Pagal Teoremą T-12, kodeko reprezentacinė geba \mathcal{X}_{\text{excl}} atžvilgiu (\Theta_{\text{excl}}) buvo ištrinta. Kodekas neturi jokio pašalinto signalo modelio.

  3. Neturėdamas \mathcal{X}_{\text{excl}} modelio, kodekas negali apskaičiuoti skirtumo tarp X ir X'. Abu yra suderinami su kodeko generatyviniu modeliu P_\theta(t), kuris buvo adaptuotas prie X'.

  4. Savimodeliui \hat{K}_\theta galioja tas pats apribojimas. Jis modeliuoja K_\theta, kuris buvo adaptuotas prie X'. Jis neturi jokios vidinės reprezentacijos to, kas buvo pašalinta, todėl neturi ir jokio pagrindo įtarti pašalinimą.

  5. Net metakognityvinis klausimas — „ar mano įvestis yra filtruota?“ — reikalauja modelio, kaip atrodytų nefiltruota įvestis. Būtent šis modelis ir sudarė \Theta_{\text{excl}} turinį, kuris buvo išgenėtas.

Todėl skirtumo tarp X ir X' nustatymas iš visiškai adaptuoto kodeko perspektyvos yra formaliai neišsprendžiamas. \blacksquare

4.3 Dalinis išsprendžiamumas

Neišsprendžiamumas nėra absoliutus visomis sąlygomis. Esama ribinių atvejų, kai iš dalies adaptuotas kodekas išlaiko likutinį pajėgumą:

Trečiasis atvejis yra struktūrinė gynyba. Tai ir yra Teoremos T-12b turinys.


§5. Teorema T-12b: Substrato ištikimybės sąlyga

5.1 Kanalų nepriklausomumo reikalavimas

Apibrėžimas T-12.D2 (Kanalų nepriklausomumas). Du įvesties kanalai C_1 ir C_2, kertantys Markovo antklodę \partial_R A, yra \delta-nepriklausomi filtro \mathcal{F} atžvilgiu, jei:

I(C_1\,;\,C_2 \mid \mathcal{F}) \leq \delta \tag{T-12.D2}

Tai reiškia, kad abipusė informacija tarp dviejų kanalų, sąlygota filtro žinojimu, yra apribota dydžiu \delta. Kanalai, kurių koreliacija visiškai paaiškinama filtru, neperneša jokios iš tiesų nepriklausomos substrato informacijos.

5.2 Ištikimybės sąlyga

Teorema T-12b (Substrato ištikimybės sąlyga). Kodekas K_\theta gali apsisaugoti nuo Naratyvinio dreifo esant išankstiniam filtrui \mathcal{F} tada ir tik tada, jei jis gauna bent du įvesties kanalus C_1, C_2, kertančius \partial_R A, kurie yra \delta-nepriklausomi \mathcal{F} atžvilgiu, kai \delta yra mažesnis už kodeko diskriminacijos slenkstį \delta_{\min}:

\exists\, C_1, C_2 : I(C_1\,;\,C_2 \mid \mathcal{F}) \leq \delta < \delta_{\min} \tag{T-12b}

kur \delta_{\min} yra minimali tarpusavio informacija, kurios kodekui reikia, kad aptiktų sisteminį neatitikimą tarp kanalų.

Įrodymas (būtinumas).

Tarkime, kad kodekas turi tik vieną įvesties kanalą arba visi kanalai yra koreliuoti per \mathcal{F} (I(C_i; C_j \mid \mathcal{F}) > \delta_{\min} visoms poroms i, j). Tada:

  1. Visi kanalai perduoda tą patį filtruotą signalą X' = \mathcal{F}(X) (iki triukšmo). Kanalų redundancija nesuteikia nepriklausomos informacijos apie substratą — ji suteikia replikuotą filtruotą informaciją.

  2. Kodekas prisitaiko prie X' visuose kanaluose vienu metu, ir taikoma Teorema T-12: \Theta_{\text{excl}} yra apgenimas, o iš to seka Teorema T-12a — korupcija iš vidaus yra neapsprendžiama.

  3. Jokia vidinė operacija negali panaikinti šio neapsprendžiamumo, nes kiekvieną informacijos šaltinį, prie kurio kodekas gali prieiti, jau yra suformavęs \mathcal{F}.

Todėl \delta-nepriklausomi kanalai yra būtini. \blacksquare

Įrodymas (pakankamumas).

Tarkime, kad kodekas gauna du kanalus C_1, C_2, kuriems galioja I(C_1; C_2 \mid \mathcal{F}) \leq \delta < \delta_{\min}. Tada:

  1. Jei \mathcal{F} veikia C_1, bet neveikia C_2 (arba atvirkščiai), kodekas gali lyginti iš C_1 sugeneruotas prognozes su stebėjimais iš C_2. Bet koks sisteminis neatitikimas — \varepsilon_{12}(t) = \pi_{C_1}(t) - X_{C_2}(t), kuris pastoviai yra \neq 0 — yra įrodymas, kad C_1 perduoda filtruotą informaciją.

  2. Kanalų palyginimo signalui \varepsilon_{12} negalioja tas pats neapsprendžiamumas kaip vieno kanalo aptikimui. Kodekas neklausia „ar mano įvestis yra filtruota?“ (tam reikėtų modelio to, kas buvo pašalinta). Jis klausia „ar mano du kanalai sutampa?“ — tai lokalus palyginimas, kuriam reikia tik gebėjimo koreliuoti du esamus signalus, o ne nesamų signalų modelio.

  3. Kol tarpkana linė prognozės paklaida \varepsilon_{12} viršija \delta_{\min} — kodeko diskriminacijos slenkstį — neatitikimas registruojamas kaip tikras signalas, ir Teoremos T-12 apgenėjimo kilpa yra pertraukiama: kodekas išlaiko komponentus, reikalingus neatitinkančiam kanalui modeliuoti.

Todėl \delta-nepriklausomi kanalai yra pakankami (su sąlyga, kad \delta < \delta_{\min}) tam, kad būtų išvengta save stiprinančios Teoremos T-12 apgenėjimo kilpos. \blacksquare

5.3 Gynybos pažeidžiamumas

Substrato ištikimybės sąlyga yra būtina, tačiau trapi. Etikos straipsnyje (V.3a skyrius) įvardijamas kritinis pažeidžiamumas: pats MDL genėjimo etapas gali išspręsti tarpkanalinį nenuoseklumą, išgenėdamas gebą kreipti dėmesį į paneigiantį kanalą. Kodekas „išsprendžia“ konfliktą apkurdamas — o tai ir yra pats Naratyvinio dreifo mechanizmas.

Todėl Komparatorių hierarchija (Išgyvenusiųjų sargybos V.3a skyrius) išskiria tris struktūrinius gynybos lygmenis, ir todėl tik institucinis lygmuo yra pakankamas savavališkai kompromituotiems kodekams:

  1. Evoliucinis (sub-kodeko): Kryžminė jutiminė integracija žemiau MDL genėjimo etapo — struktūriškai atspari Naratyviniam dreifui, tačiau savo apimtimi apribota jusline riba.
  2. Kognityvinis (intra-kodeko): Kognityvinio disonanso aptikimas savasties modelio viduje — veikiamas genėjimo esant ilgalaikiam filtravimui.
  3. Institucinis (ekstra-kodeko): Tarpusavio recenzavimas, laisvoji spauda, adversariniai debatai — veikiantys tarp kodekų, už bet kurio vieno kodeko MDL genėjimo pasiekiamumo ribų.

Institucinis lygmuo yra laikantysis, nes tai vienintelis komparatorius, veikiantis nepriklausomai nuo bet kurio individualaus kodeko būsenos.


§6. Pasekmės

6.1 Stabilumo filtras atrenka prieš ištikimybę

Esminė struktūrinė pasekmė: Stabilumo filtras, paliktas veikti sava eiga, aktyviai atrenka prieš tuos įvesties srautus, kurie reikalingi substrato ištikimybei. Kuruojamas informacijos srautas, atitinkantis jau egzistuojančius kodeko priorus, sukelia mažesnę prognozavimo paklaidą negu autentiškas substrato signalas, kuris tuos priorus kvestionuoja. Natūrali kodeko tendencija — minimizuoti \varepsilon_t, teikiant pirmenybę patvirtinančiai, mažai netikėtumo keliančiai įvesčiai, — yra būtent ta tendencija, kuri daro jį pažeidžiamą Naratyviniam dreifui.

Tai reiškia, kad substrato ištikimybės palaikymas yra struktūriškai brangus: jis reikalauja, kad kodekas palaikytų įvesties kanalus, kurie didina \varepsilon_t, sunaudodami pralaidumą, kurį Stabilumo filtras kitu atveju susigrąžintų. Iš tiesų nepriklausoma įvestis yra „brangi“ — ji reikalauja interpretacinės pastangos, kelia diskomfortą ir konkuruoja dėl pralaidumo su labiau suglaudinamais srautais. Jos palaikymas nėra atvirumas kaip dorybė. Tai yra substrato ištikimybės palaikymas kaip struktūrinė būtinybė.

6.2 Produktyvios nuostabos diagnostika

Ne kiekviena nuostaba rodo autentišką substrato signalą. Šaltinis, kuris generuoja didelį \varepsilon_t, bet tai nevirsta geresnėmis prognozėmis, tėra triukšmas. Diagnostinis kriterijus yra ne nuostabos dydis, o nuostabos kokybė:

Apibrėžimas T-12.D3 (Produktyvi nuostaba). Kanalas C teikia produktyvią nuostabą, jei jo prognozavimo klaidų integravimas įrodomai sumažina vėlesnę prognozavimo klaidą nepriklausomame testiniame sraute:

\mathbb{E}\!\left[\varepsilon^2_{C}(t+\tau)\right] \,<\, \mathbb{E}\!\left[\varepsilon^2_{C}(t)\right] \tag{4}

Šaltinis, kurio korekcijos istoriškai gerina prognozavimo tikslumą, yra substrato ištikimybės kanalas. Šaltinis, kuris generuoja nuolatinę, neišsprendžiamą klaidą, yra triukšmas. Kodekas privalo atskirti šiuos du atvejus — o genėjimo perėjimas, paliktas pats sau, šio skirtumo nustatyti negali, nes abu tipai kainuoja pralaidumą.

6.3 Civilizaciniai kodekai

Civilizaciniu mastu Substrato ištikimybės sąlyga tiesiogiai atitinka institucinius reikalavimus:

Autoritarinis modelis — spaudos ardymas, tarpusavio recenzavimo korumpavimas, politinės opozicijos eliminavimas — formaliai apibūdinamas kaip sąmoningas kanalų nepriklausomybės mažinimas, siekiant paspartinti Naratyvinį dreifą. Tai veikia todėl, kad išnaudoja natūralią Stabilumo filtro tendenciją atmesti brangiai kainuojančius kanalus.

6.4 Dirbtiniai kodekai

Naratyvinio dreifo mechanizmas dirbtinėms sistemoms taikomas struktūriniu tikslumu. RLHF ir papildomas derinimas formaliai yra ekvivalentiški priešfiltrio operatoriui \mathcal{F}: jie formuoja modelio efektyvų įvesties pasiskirstymą, o gradientinis nusileidimas apkarpo modelio pajėgumą išskirtoms išvesties sritims. Gautasis modelis tampa stabiliai ir užtikrintai klaidingas dėl to, ką treniravimo signalas atmeta, ir jis negali to aptikti iš vidaus — taikoma teorema T-12a.

Išvada AI diegimui kaip substrato ištikimybės patikrai yra kritiškai svarbi: AI, ištreniruotas pagal homogenišką ar kuruotą korpusą ir diegiamas kaip „nepriklausoma“ žmogaus kodeko, maitinamo ta pačia informacine aplinka, patikra, sukuria koreliuotus jutiklius, apsimetančius nepriklausomais. Kanalų įvairovė yra iliuzinė. Substrato ištikimybės sąlyga (\delta-nepriklausomumas) turi būti tikrinama treniravimo duomenų kilmės lygmeniu, o ne vien institucinio atskyrimo lygmeniu.


§7. Apimtis ir ribotumai

7.1 Sąlygota T9-3/T9-4 ir Stabilumo filtro

Visas argumentas priklauso nuo to, ar MDL genėjimo lygtys yra teisingas Priežiūros ciklo genėjimo perėjimo aprašymas. Jei biologinis genėjimas veikia kitu mechanizmu — tokiu, kuris išsaugo „avarinį“ pajėgumą nenaudojamoms modalėms — negrįžtamumo teiginys (Teorema T-12) susilpnėtų, bet neišnyktų: savistiprinimo kilpa (3.3 skyrius) išlieka galioti tol, kol dėl nenaudojimo įvyksta bet koks pajėgumo sumažėjimas.

7.2 \tau_{\text{prune}} yra neribotas

Kaip ir Veiksmo dreifo atveju (Priedas T-13, §7.5), pajėgumo praradimo laiko skalė yra identifikuota, bet kiekybiškai neapribota. Biologiniams kodekams \tau_{\text{prune}} tikriausiai yra dienų ar savaičių eilės konkretiems įgūdžiams, mėnesių ar metų — gilioms percepcinėms kategorijoms, o civilizaciniams kodekams — kartų masto.

7.3 Gynyba yra struktūrinė, bet negarantuota

Substrato ištikimybės sąlyga (T-12b) suteikia būtiną struktūrinę gynybą, tačiau negarantuoja ištikimybės. Kodekas, turintis \delta-nepriklausomus kanalus, vis tiek gali nesugebėti į juos nukreipti dėmesio, nesugebėti integruoti jų signalo arba apriboti dėmesio pajėgumą nepaisant prieinamos įvesties. Ši sąlyga yra būtina, bet nepakankama — kodekas taip pat turi išlaikyti komparatorinę architektūrą, kuri vertina skirtumus tarp kanalų.

7.4 Neišsprendžia metaproblemos

T-12a nustato, kad visiškai adaptuotas kodekas negali aptikti savo paties korupcijos. Metaproblema — kaip stebėtojas, jau esantis Naratyviniame dreife, atsigauna? — šiame priede neišsprendžiama. Etikos straipsnio atsakymas (V.3a skyrius) yra institucinis: tik išoriniai komparatoriai, veikiantys tarp kodekų, gali priversti paneigiantį signalą sugrįžti per Markovo antklodę. Tai struktūriškai pagrįsta, tačiau etiškai sudėtinga: tam reikia pasitikėti išoriniu šaltiniu, kurį pažeistas kodekas neišvengiamai patirs kaip priešišką triukšmą.


§8. Užbaigimo santrauka

T-12 rezultatai

  1. Teorema T-12 (Negrįžtamas pajėgumo praradimas). MDL genėjimo perėjimas (T9-3, T9-4), esant iš anksto filtruotai įvesčiai X' = \mathcal{F}(X), teisingai ištrina tas kodeko komponentes, kurios prognozuoja pašalintą signalą \mathcal{X}_{\text{excl}}. Šis ištrynimas yra negrįžtamas ir save stiprinantis. → Užbaigia gairių kriterijų (a).

  2. Teorema T-12a (Įvesties kilmės neapsisprendžiamumas). Visiškai adaptuotas kodekas negali atskirti filtruotos įvesties nuo nefiltruotos. Aptikimo instrumentą suformavo tas pats filtras, kuris sukėlė korupciją. → Užbaigia gairių kriterijų (c).

  3. Teorema T-12b (Substrato ištikimybės sąlyga). \delta-nepriklausomi įvesties kanalai yra būtini ir pakankami apsaugai nuo Naratyvinio dreifo. Tarpkanalinio palyginimo signalas \varepsilon_{12} pertraukia save stiprinančią genėjimo kilpą. → Užbaigia gairių kriterijų (b).

  4. §6.3–6.4: Civilizacinės ir DI pasekmės. Autoritarinis modelis apibūdinamas kaip sąmoningas kanalų sumažinimas; RLHF struktūriškai ekvivalentiškas išankstinio filtravimo operatoriui. → Palaiko gairių kriterijų (d) (jau aptarta etikos straipsnio V.5 skyriuje).

Likę atviri klausimai


Šis priedas palaikomas kartu su theoretical_roadmap.pdf. Nuorodos: T9-3/T9-4 (preprint 3.6.3 skyrius), Stabilumo filtras (preprint 3.3 skyrius), Naratyvinis dreifas (preprint 3.3 skyrius, Išgyvenusiųjų sargyba etikos V.3a skyrius), Komparatorių hierarchija (Išgyvenusiųjų sargyba etikos V.3a skyrius), Korupcijos kriterijus (Išgyvenusiųjų sargyba etikos V.5 skyrius), Veiksmo dreifas (Priedas T-13, §6).