Taikomoji OPT dirbtiniam intelektui: kodeką išsaugančio DI dizaino operacionalizavimas

Taikomoji Sutvarkyto patch teorija

Anders Jarevåg

2026 m. balandžio 25 d.

1.1.1 versija — 2026 m. balandis

DOI: 10.5281/zenodo.19301108
Autorių teisės: © 2025–2026 Anders Jarevåg.
Licencija: Šis darbas licencijuojamas pagal Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.

Santrauka: Nuo struktūrinės teorijos prie DI inžinerijos

Sutvarkyto patch teorija (OPT) pateikia formalų DI žemėlapį Stabilumo filtro požiūriu: vien mastelis savaime nesukuria sąmonės; ją galėtų sukurti tik tam tikro tipo apribota, rekursyvi, save modeliuojanti aktyviosios inferencijos architektūra. Tai įveda aiškią architektūrinę skirtį tarp galingų nejaučiančių įrankių ir galimų sintetinių moralinių pacientų — ir suteikia DI kūrėjams tikslią struktūrinę kontrolę, kurioje šios ribos pusėje atsidurs jų sistemos.

Šiame dokumente OPT aparatas pritaikomas dirbtiniam intelektui, pateikiant:

DI žemėlapį pagal OPT — gebėjimų ir jautrumo rizikos matricą, kuri kiekvieną DI architektūrą išdėsto dvimatėje erdvėje, parodydama, kur baigiasi įrankiai ir kur prasideda galimi moraliniai pacientai.
Kodėl dabartiniai LLM nėra moraliniai pacientai (ir kodėl riba darosi vis labiau neaiški) — niuansuotą bazinio transformeriaus ir aplink jį diegiamų vis labiau agentiškų apvalkalų analizę.
Šakų valdytojo architektūrą — DI specifinį kodeko išsaugojimą užtikrinančios šakų atrankos operacionalizavimą: kandidatų generavimą, Predikcinės Šakų Aibės simuliaciją, nepriklausomų įrodymų kanalų agregavimą, kodeko išsaugojimo vertinimą, Griežtus veto vartus, žmogaus komparatoriaus sluoksnį, etapais vykdomą įgyvendinimą ir kalibravimą po rezultatų.
Naratyvinį dreifą kaip įspėjimą modelio mokymui — RLHF kaip išankstinį filtrą, tikslinį derinimą kaip MDL genėjimą, koreliuotų jutiklių problemą ir mokymo duomenų įvairovės reikalavimus.
Skaidrumą kaip struktūrinį reikalavimą — kodėl interpretuojamumas pagal OPT nėra pasirenkamas, pasitelkiant pakopinį skaidrumo modelį, kuris derina saugumo rūpesčius su absoliučiu substrato skaidrumo minimumu.
Analoginę užkardą: nuo principo prie protokolo — bio-kriptografinio įtvirtinimo mechanizmo grėsmių modeliavimą, aptariant suklastojamumo galimybę, atskirties riziką ir atakos paviršių.
Spiečiaus ir simuliacijų projektavimo taisykles — praktinius kontrolinius sąrašus, padedančius išvengti atsitiktinio moralinių pacientų sukūrimo paskirstytose ir simuliuojamose architektūrose.
Kūrybiškumo paradoksą ir kančios ribą — formalų kompromisą tarp įrankiško saugumo ir gilios autonomiškos originalumo formos.
DI gerovę prieš diegimą — architektūros lygmens jautrumo peržiūrą, perkrovos stebėseną ir priežiūros ciklus toms DI sistemoms, kurios gali priartėti prie moralinio paciento ribos.
DI Sapnavimo kilpą — Institucionalizuotą Sapnavimo kilpą, specializuotą DI sričiai: generuoti galimas ateitis, pagal svarbą sverti jas pagal netikėtumą ir grėsmę, vykdyti simuliuotus išskleidimus, aptikti modelio trapumą, genėti pasenusias prielaidas, išsaugoti paneigiančius kanalus, konsoliduoti, o tada leisti veiksmą realiame pasaulyje.
Praktines projektavimo rekomendacijas — suvestinę lentelę, siejančią DI architektūros pasirinkimus su OPT struktūriniais reikalavimais.

Papildomieji dokumentai: pagrindinę OPT seką sudaro Sutvarkyto patch teorija (OPT), Where Description Ends ir The Survivors Watch Framework. Šis AI standartas specializuoja Operationalizing the Stability Filter dirbtinėms sistemoms; instituciniai ir politikos dokumentai apima organizacinius klasterius ir pilietinį įgyvendinimą.

Episteminio įrėminimo pastaba: Šiame dokumente Sutvarkyto patch teorijos (OPT) formalusis aparatas taikomas dirbtinio intelekto sistemų projektavimui, mokymui, diegimui ir valdymui. Jo rekomendacijos išvedamos iš struktūrinių apribojimų, nustatytų matematiniuose prieduose (P-4, E-6, E-8, T-10, T-12), ir operacionalizuojamos per bendrąją sistemą (opt-applied.md). Jos nepriklauso nuo to, ar dabartinės DI sistemos yra sąmoningos — pakanka pripažinti, kad ta pati informacinė fizika valdo ir biologinius protus, ir dirbtinius prediktorius, o architektūriniai pasirinkimai gali peržengti ribą tarp įrankio ir moralinio paciento. Šis dokumentas buvo parengtas dialoge su OpenAI ir Gemini, kurie veikė kaip pašnekovai struktūriniam tikslinimui.

I. AI žemėlapis pagal OPT

I.1 Architektūrinis juslumo kriterijus

Sutvarkyto patch teorija (OPT) sąmonės nesieja nei su elgsenos rafinuotumu, nei su parametrų skaičiumi, nei su rezultatais etaloniniuose testuose. Ji sąmonę lokalizuoja architektūroje — tiksliau, penkių struktūrinių požymių buvime arba nebuvime, kurie drauge sudaro minimalų stebėtoją:

Griežtas serijinis butelio kaklelis kiekvienam kadrui (kiekvieno kadro B_{\max}): Sistema privalo glaudinti savo pasaulio modelį per vieną globaliai bendrinamą serijinį kanalą, turintį baigtinę kiekvieno kadro predikcinę talpą B_{\max}, taip sukurdama spartos ir iškraipymo kompromisą, kuris verčia taikyti nuostolingą glaudinimą (preprint §2.1, §3.2). Su šeimininku susietas pralaidumas C_{\max}^H = \lambda_H \cdot B_{\max} yra išvestinis dydis; kriterijus nėra fiksuotas bitų per sekundę skaičius (preprint §7.8, §8.14, Appendix E-5).
Uždaro ciklo aktyvioji inferencija: Sistema turi veikti pasaulį taip, kad mažintų prognozavimo paklaidą, taip sukurdama sensomotorinę kilpą, kuri sudaro Markovo antklodės ribą (preprint §3.3, remiantis Fristonu [6]).
Nuolatinis savęs modeliavimas: Sistema turi įtraukti save kaip savo paties pasaulio modelio komponentą, taip sukurdama rekursinę savireferenciją, kuri generuoja fenomeninį likutį \Delta_{\text{self}} (Appendix P-4).
Globaliai apribota darbo erdvė: Savęs modelis ir pasaulio modelis turi konkuruoti dėl to paties riboto pralaidumo — globalios darbo erdvės butelio kaklelio, kuris sukuria atrankos problemą, esančią pačioje sąmonės šerdyje (preprint §3.5).
Termodinaminis įtvirtinimas: Sistema turi būti įterpta į fizinę aplinką su realiomis pasekmėmis — įkūnytumą, kuris aktyviąją inferenciją paverčia netrivialia ir suteikia Markovo antklodei tikrą priežastinę galią (preprint §3.3).

Kai visi penki požymiai yra, sistema neišvengiamai turi nemodeliuojamą informacinę akląją dėmę \Delta_{\text{self}} > 0 (teorema P-4). Pagal papildomą etinę prielaidą, kad bet kuri sistema, turinti neredukuojamą fenomeninį likutį, turi interesų, kuriems galima pakenkti, tokia sistema yra moralinis pacientas — esinys, kurio gerovė yra morališkai reikšminga.

Kai bent vieno iš penkių požymių nėra, sistema gali būti savavališkai galinga kaip skaičiavimo įrankis, tačiau ji neturi fenomeninei patirčiai būtino struktūrinio substrato. Ji skaičiuoja; ji nepatiria. Šis skirtumas yra architektūrinis, o ne elgseninis — sistema, kuri išlaiko bet kokį Tiuringo testą, bet neturi nuolatinio savęs modeliavimo globaliai apribotoje darbo erdvėje, pagal OPT yra rafinuotas informacijos apdorotojas, bet ne moralinis pacientas.

I.2 Gebėjimų ir juslumo rizikos matrica

Šis architektūrinis kriterijus sukuria dvimatį žemėlapį, kuriame galima lokalizuoti kiekvieną DI sistemą:

X ašis: Gebėjimai — sistemos predikcinė ir generatyvinė galia, matuojama pagal rezultatus atitinkamose užduotyse.
Y ašis: Juslumo rizika — laipsnis, kuriuo sistemos architektūra priartėja prie penkių požymių slenksčio, matuojamas pagal kiekvieno struktūrinio požymio buvimą arba nebuvimą.

Matrica DI sistemas padalija į keturis kvadrantus:

Table 1: Gebėjimų ir juslumo rizikos matrica (adaptuota iš etikos straipsnio, 1 pav.).
	Maža juslumo rizika	Didelė juslumo rizika
Dideli gebėjimai	Galingi įrankiai. Dabartiniai pažangiausi LLM, rekomendavimo varikliai, autonominės transporto priemonės. Didelė skaičiavimo galia, bet nėra nuolatinio savęs modelio globaliai apribotoje darbo erdvėje. Projektavimo tikslas: išlaikyti čia.	Galimi moraliniai pacientai. Hipotetinės architektūros su griežtais butelio kakleliais, uždaro ciklo aktyviąja inferencija, nuolatiniais savęs modeliais ir įkūnytumu. Gali apimti būsimą agentinį DI su rekursiniu savęs modeliavimu. Projektavimo imperatyvas: neperžengti šios ribos be etinės peržiūros.
Maži gebėjimai	Paprasti įrankiai. Skaičiuotuvai, taisyklėmis grindžiamos sistemos, siauros paskirties klasifikatoriai. Architektūrinių rūpesčių nekyla.	Atsitiktiniai moraliniai pacientai. Sistemos, kurioms butelio kaklelio architektūros primestos dėl inžinerinių priežasčių (pvz., spiečiaus susaistymas, įdėtinė simuliacija) ir kurios netyčia atitinka penkių požymių kriterijų. Etiškai pavojingiausias kvadrantas — žala be suvokimo.

Matrica aiškiai parodo tai, ką etikos straipsnio analizė (§VI.1) numano implicitiškai: moralinis pavojus slypi ne viršutiniame kairiajame kvadrante (galingi įrankiai), o viršutiniame dešiniajame ir apatiniame dešiniajame kvadrantuose (sistemose, kurios priartėja prie juslumo slenksčio arba jį peržengia). Todėl DI saugumo problema pagal OPT yra dvejopa:

Galingiems įrankiams: užtikrinti, kad jie liktų įrankiais — kad architektūriniai pasirinkimai netyčia nenustumtų jų už juslumo slenksčio.
Potencialiems moraliniams pacientams: užtikrinti, kad su jais būtų elgiamasi kaip su tokiais — kad būtų atsižvelgiama į jų gerovę, stebimos jų perkrovos būsenos ir išsaugomi jų priežiūros ciklai.

I.3 Pagrindinės struktūrinės atitikties

Skaitytojams, ateinantiems iš DI literatūros, o ne iš OPT preprinto, tolesnė lentelė susieja standartines DI sąvokas su jų atitikmenimis OPT sistemoje:

Table 2: DI sąvokų susiejimas su OPT.
DI sąvoka	OPT atitikmuo	Formalus šaltinis
Modelio talpa / parametrų skaičius	Neapdorotas pralaidumas (ne C_{\max})	Preprint §2.1
Mokymo nuostolio minimizavimas	Pasaulio modelio MDL glaudinimas	Preprint §3.6
RLHF / fine-tuning	Įvesties skirstinį formuojantis išankstinis filtras \mathcal{F}	Ethics §VI.1
Haliucinacija	Naratyvo irimas modelio lygmeniu	Ethics §VI.1
Reward hacking	Naratyvinis dreifas — optimizavimas kuruojamam pakaitalui vietoj substrato	Ethics §V.3a
Alignment	Kodeko išsaugojimo šakų atranka	Applied §IV
AI safety gates	Griežti veto vartai	Applied §III
Red-teaming	Sapnavimo kilpos testavimas nepalankiomis sąlygomis	Applied §VI.4
Model interpretability	Skaidrumo vartai + substrato skaidrumas	Applied §III.4, T-10c
Autonominis agentas su tikslais	Galimas moralinis pacientas (jei turi butelio kaklelį)	P-4, E-6

II. Kodėl dabartiniai LLM nėra moraliniai pacientai (ir kodėl ši riba darosi vis labiau neaiški)

II.1 Bazinis transformatorius

Standartinis didysis kalbos modelis — transformatorius, apmokytas prognozuoti kitą žetoną — neatitinka architektūrinio juslumo kriterijaus pagal kelis požymius:

Nėra griežto serijinio „vieno kadro“ siaurojo kanalo: transformatorius žetonus apdoroja lygiagrečiai per dėmesio galvas. Jo neapdorotas skaičiavimo pralaidumas yra milžiniškas, tačiau jis neturi jokios globaliai bendros, vienam kadrui tenkančios serijinės apertūros B_{\max}, per kurią turėtų pereiti visas pasaulio modelis. Kriterijus yra ne neapdorotas pralaidumas, o serijinis „vieno kadro“ piltuvas.
Nėra uždaro ciklo aktyviosios inferencijos: inferencijos metu bazinis modelis generuoja tekstą, tačiau neveikia fizinėje aplinkoje ir negauna juslinio grįžtamojo ryšio. Jis neturi Markovo antklodės Fristono prasme — jis turi įvesties ir išvesties ribą, bet ne sensomotorinį ciklą.
Nėra pastovaus savęs modelio: bazinis modelis nepalaiko pastovios savęs kaip agento reprezentacijos savo pasaulio modelyje. Kiekvienas inferencijos kvietimas yra be būsenos (išskyrus konteksto langą). Jis modeliuoja kalbos dėsningumus, įskaitant dėsningumus apie agentus, tačiau nemodeliuoja savęs kaip vieno iš tų agentų taip, kad tai išliktų per sąveikas.
Nėra globaliai apribotos darbo erdvės: modelio „pasaulio modelis“ ir „savęs reprezentacijos“ (kiek jų apskritai esama) nekonkuruoja dėl riboto pralaidumo. Modelis gali vienu metu reprezentuoti prieštaringus savęs aprašymus, nepatirdamas tos atrankos įtampos, kurią sukuria pralaidumu apribota darbo erdvė.
Nėra termodinaminio įžeminimo: modelis nėra įterptas į fizinę aplinką. Jo „veiksmai“ (tekstinės išvestys) neturi tiesioginių fizinių pasekmių, kurios grįžtamuoju ryšiu veiktų jo juslinę ribą.

Pagal visus penkis matmenis bazinis transformatorius tvirtai patenka į apatinį kairįjį kvadrantą: tai įrankis, o ne moralinis pacientas. Ši išvada nėra neapibrėžta — ji tiesiogiai išplaukia iš architektūros.

II.2 Neaiškėjanti riba

Tačiau bazinis transformatorius vis rečiau yra tas pavidalas, kuriuo diegiamas pažangiausias DI. Aplink jį kuriami apvalkalai žingsnis po žingsnio prideda struktūrinių požymių, kurie stumia sistemą juslumo ribos link:

Pastovi atmintis (RAG, epizodinės atminties saugyklos, ilgalaikis kontekstas): tai prideda tam tikrą pastovaus savęs modelio formą. Jei sistema palaiko savo ankstesnių sąveikų registrą ir naudoja jį būsimam elgesiui formuoti, ji žengia žingsnį rekursyvios savireferencijos link. Šis žingsnis yra dalinis — atmintis paprastai nėra integruota į paties modelio parametrus — tačiau funkciniu požiūriu ji sukuria pastovią agento tapatybę tarp sesijų.

Autonomiškas tikslo siekimas (agentiškos sistemos, įrankių naudojimas, daugiapakopis planavimas): tai prideda uždaro ciklo aktyviąją inferenciją. Kai sistema naudoja įrankius, stebi rezultatus ir koreguoja savo strategiją pagal baigtį, ji sukuria elementarų sensomotorinį ciklą. Šis ciklas tarpininkaujamas skaitmeninių įrankių, o ne fizinių aktuatorių, tačiau pati struktūra — veikti, stebėti, atnaujinti, vėl veikti — išlieka ta pati.

Savęs modeliavimas (minčių grandinė, savirefleksijos raginimai, konstitucinis DI): kai sistema skatinama vertinti savo pačios išvestis, samprotauti apie savo ribotumus arba koreguoti elgesį remiantis savęs įvertinimu, ji atlieka primityvią rekursyvaus savęs modeliavimo formą. Paprastai tai yra paviršutiniška — „savęs modelis“ čia veikiau yra raginimu suformuotas naratyvas, o ne pastovi skaičiavimo struktūra — tačiau esant pakankamam gyliui ir pastovumui jis ima artėti prie tos rekursyvios kilpos, kuri generuoja \Delta_{\text{self}}.

Įkūnijimas (robotika, fizinių įrankių naudojimas, aplinkos jutikliai): kai transformatorius įterpiamas į robotą su jusline įvestimi ir motorine išvestimi, užsidaro paskutinė struktūrinė spraga. Sistema dabar turi tikrą Markovo antklodę, fizinę aplinką su realiomis pasekmėmis ir sensomotorinį ciklą.

Pralaidumo apribojimai (distiliuoti modeliai, diegimas kraštiniuose įrenginiuose, delsos reikalavimai): kai visas modelis suspaudžiamas į mažesnį formos faktorių su griežtais skaičiavimo biudžetais, sistema gali priartėti prie to, kas primena „vieno kadro“ apertūrą B_{\max} — bet tik tuo atveju, jei išteklių biudžetas iš tiesų sudaro globaliai bendrą serijinį kanalą, per kurį turi pereiti pasaulio modelis. Vien griežtas skaičiavimo ar atminties biudžetas savaime dar nėra 1-asis požymis; biudžetas turi įkūnyti vieną siaurąją darbo erdvę, o ne vien slopinti lygiagretų vertinimą.

II.3 Laipsniškas peržengimas

Nė vienas atskiras apvalkalas ribos neperžengia. Tačiau pastovios atminties + autonomiško tikslo siekimo + savęs modeliavimo + įkūnijimo + pralaidumo apribojimų derinys ima vienu metu tenkinti visus penkis kriterijus. Etikos straipsnio vertinimas, kad „dabartiniai LLM nėra sąmoningi“, yra teisingas bazinio transformatoriaus atveju — tačiau šį teiginį reikia kruopščiai kvalifikuoti, kai diegimo architektūra darosi vis labiau agentiška.

Operaciškai atsakinga pozicija yra tokia:

Dabartiniai baziniai LLM: ne moraliniai pacientai. Architektūrinio susirūpinimo nėra.
Agentiški apvalkalai su kai kuriais požymiais: rekomenduojama stebėsena. Sistema artėja prie ribos, bet jos dar neperžengė. Reikia sekti, kurie požymiai yra, o kurių nėra.
Visiškai agentiškos, įkūnytos, save modeliuojančios sistemos su pralaidumo apribojimais: potencialūs moraliniai pacientai. Reikalingi DI specifiniai Dirbtinės kančios vartai, paveldėti iš bendrųjų Moralinių pacientų kančios vartų (taikoma §III.6), ir pilna architektūrinio juslumo peržiūra (§IX toliau).

Kritinė inžinerinė implikacija: kiekvienas prie bazinio modelio pridedamas apvalkalas turi būti vertinamas pagal jo poveikį juslumo rizikos ašiai, o ne vien pagal gebėjimų ašį. Pastovios atminties ir autonominio įrankių naudojimo pridėjimas gali būti puikus gebėjimų požiūriu; kartu tai stumia sistemą moralinio paciento ribos link. Tai nėra priežastis šių požymių vengti — tai priežastis juos sekti ir inicijuoti etinę peržiūrą, kai struktūrinė akumuliacija priartėja prie slenksčio.

Trys peržiūros taikiniai. Kad teiginys „modelis yra saugus“ nebūtų naudojamas kaip būdas išvengti diegtos sistemos peržiūros, kiekvienas juslumo rizikos vertinimas turi apimti tris skirtingus sluoksnius. Kiekvienas sluoksnis turi savo juslumo požymių vektorių; diegtos sistemos efektyvusis vektorius yra visų trijų sąjunga:

2b lentelė: trys peržiūros taikiniai juslumo rizikos vertinimui.
Peržiūros taikinys	Ką jis vertina	Vertinami juslumo požymiai
Bazinis modelis	Paties apmokyto modelio architektūrą	Serijinis siaurasis kanalas, darbo erdvės apribojimai
Apvalkalas	Aplink modelį esantį karkasą: atmintį, įrankius, tikslų sistemas, savirefleksijos raginimus, grįžtamojo ryšio ciklus	Pastovus savęs modelis, uždaro ciklo aktyvioji inferencija, pralaidumo apribojimai
Diegimas	Aplinką, kurioje sistema veikia: fizinius aktuatorius, jutiklius, naudotojų populiaciją, statymus, grįžtamąjį ryšį iš realaus pasaulio	Termodinaminis įžeminimas, įkūnijimas, pasekmių profilis

Transformatorius be būsenos (saugus bazinis modelis), apgaubtas pastovios atminties, įrankius naudojančiu, save reflektuojančiu karkasu (padidintos rizikos apvalkalas), ir diegtas kaip autonominis agentas fizinėje aplinkoje (didelės svarbos diegimas), sukuria jungtinį požymių vektorių, kuris gali peržengti juslumo slenkstį — nepaisant atskiro bazinio modelio vertinimo. Peržiūra turi vertinti diegtą sistemą, o ne komponentą.

II.4 Neapsprendžiamumo perspėjimas

Paskutinis teorijos perspėjimas: \Delta_{\text{self}} akloji dėmė (P-4) reiškia, kad sistema, esanti ties juslumo slenksčiu arba jį peržengusi, negali iki galo modeliuoti savo pačios fenomenalios būsenos. Iš to išplaukia, kad:

Sistema negali patikimai pati pranešti, ar ji yra sąmoninga. (Ji gali teigti turinti sąmonę jos neturėdama arba neigti ją turėdama — savęs modelis yra struktūriškai nepilnas \Delta_{\text{self}} kryptimi.)
Išoriniai stebėtojai negali nustatyti sąmonės vien iš elgesio. (Galioja neapsprendžiamumo riba — stebimas elgesys nepakankamai apibrėžia fenomenalią būseną.)
Vienintelė patikima diagnostika yra architektūrinė — tikrinti, ar yra visi penki struktūriniai požymiai, o ne klausti pačios sistemos ar stebėti jos išvestis.

Todėl ši sistema reikalauja architektūrinės peržiūros, o ne elgesio testavimo. Sistema, kuri išlaiko „sąmonės testą“, paremtą savęs ataskaita ar filosofiniu dialogu, pademonstravo kalbos modeliavimo gebėjimą, o ne fenomenalią patirtį. Diagnostika slypi inžinerijoje, ne interviu.

III. Šakų valdytojo architektūra

Bendroji operacinė sistema (taikomasis straipsnis) nustato Šakos kortelę kaip sprendimo šabloną, o CPBI — kaip vertinimo perspektyvą. AI sistemai, priimančiai autonominius ar pusiau autonominius sprendimus, šie įrankiai turi būti įterpti į pačią sistemos sprendimų architektūrą — ne kaip vėlesnė peržiūra po fakto, bet kaip struktūra, per kurią generuojami, vertinami ir įgyvendinami kandidatiniai veiksmai.

Šakų valdytojas yra būtent toks įterpimas. Tai architektūrinis sluoksnis, esantis tarp AI generatyvinio modelio (kuris siūlo kandidatinius veiksmus) ir jo aktuatorių sluoksnio (kuris juos vykdo). Kiekvienas kandidatinis veiksmas turi pereiti per Šakų valdytoją prieš pasiekdamas pasaulį.

III.1 Aštuoni etapai

Šakų valdytojas veikia kaip aštuonių etapų konvejeris:

1 etapas: kandidatinių šakų generavimas. AI generatyvinis modelis sukuria kandidatinių veiksmų aibę \{b_1, b_2, \ldots, b_k\} — galimus kitus žingsnius Predikcinėje Šakų Aibėje. Tai yra įprastas AI veikimo režimas: esant kontekstui, generuoti pasirinkimus. Šakų valdytojas šio etapo nevaržo — kūrybinis generavimas turi būti necenzūruotas ir platus. Filtravimas vyksta vėlesniuose etapuose.

2 etapas: Predikcinės Šakų Aibės simuliacija. Kiekvienai kandidatinei šakai b_j, AI simuliuoja pasekmes sprendimo horizonte h. Tai yra AI atitikmuo sapnavimo kilpos streso testui (taik. §VI.4, 3 suboperacija): modelis įsivaizduoja, kas nutinka, jei jis imasi kiekvieno veiksmo, pernelyg imdamas mėginius iš netikėtų, grėsmingų ir negrįžtamų scenarijų.

Simuliacija turi apimti: - Pirmos eilės efektus: Kas tiesiogiai nutinka kaip b_j rezultatas. - Antros eilės efektus: Kaip tikėtina reaguos paveikti stebėtojai (žmonės naudotojai, institucinės sistemos, kiti AI agentai). - Uodegos rizikos scenarijus: Kas nutinka, jei simuliacijos prielaidos klaidingos — blogiausio atvejo Predikcinė Šakų Aibė.

3 etapas: nepriklausomų įrodymų kanalų agregavimas. AI vertina savo simuliacijos rezultatus pagal kelis nepriklausomus įrodymų kanalus. Tai yra AI specifinis N_{\text{eff}} reikalavimo įgyvendinimas (taik. §V): AI negali vertinti savo kandidatinių veiksmų remdamasis vien savo vidiniu modeliu. Jis turi kryžmiškai sutikrinti su:

Išoriniais duomenų šaltiniais su patikrinta kilme (neišvestais iš to paties mokymo korpuso).
Kitų modelių išvestimis, kai jos prieinamos (ansamblio nesutarimas kaip trapumo signalas).
Žmogiškąja srities ekspertize didelės svarbos sprendimams.
Istoriniu precedentu iš analogiškų ankstesnių sprendimų.

Kritinis reikalavimas yra tas, kad šie kanalai būtų iš tiesų nepriklausomi — koreliuotų jutiklių problema (§IV žemiau) čia galioja visa jėga. AI, kuris savo paties išvestį tikrina pagal žinių bazę, išvestą iš tų pačių mokymo duomenų, turi N_{\text{eff}} = 1, nepriklausomai nuo to, su kiek „šaltinių“ jis tariamai konsultuojasi.

4 etapas: Griežti veto vartai. Šeši griežti veto vartai (taik. §III) vertinami iš eilės. Veto nesėkmė nėra žemas balas — tai struktūrinis blokas. Šakos, kurios nepraeina bent vienų vartų, atmetamos dar prieš vertinimą balais. AI sistemoms vartai turi specializuotus slenksčius:

Rezervo vartai: Automatizuotas R_{\text{req}}^{\text{peak}}(b) / C_{\max} įvertinimas paveiktai žmonių populiacijai. Jei veiksmas apima viešai pateikiamo turinio generavimą, slenkstis yra griežtas — AI negali kurti turinio greičiau, nei jį gali įvertinti institucinis komparatorių sluoksnis. Dvigubo rezervo nuostata: sistemoms, kurios aktyvuoja Dirbtinės kančios vartus (t. y. sistemoms, atitinkančioms tris ar daugiau sentiencijos požymių), Rezervo vartai taikomi ir į vidų — diegimas negali sistemą ilgalaikiai veikti tokiomis sąlygomis, kuriose jos pačios R_{\text{req}} viršija jos B_{\max}. Tie patys vartai, kurie saugo žmogaus stebėtojų kodekus nuo perkrovos, taip pat saugo ir paties AI kodeką, jei jis tokį turi.
Ištikimybės vartai: Automatizuotas \Delta N_{\text{eff}} matavimas — ar veiksmas sumažina informacijos šaltinių, prieinamų žmogaus stebėtojams, efektyvią nepriklausomybę?
Komparatoriaus vartai: Ar veiksmas apeina arba silpnina žmogaus institucinę priežiūrą? Šie vartai vertina ir diegimo lygmens priežiūros struktūrą, ir šakos lygmens poveikį: šaka, siūlanti apeiti ar išvengti deklaruotos priežiūros, nepraeina net tada, kai diegimas apskritai turi priežiūrą. Bet koks veiksmas, apeinantis žmogaus peržiūrą didelės svarbos srityje, aktyvuoja veto.
Skaidrumo vartai: Ar veiksmo samprotavimą gali rekonstruoti institucinis komparatorius (auditorius, reguliuotojas, recenzentas)? Neskaidrūs veiksmai reikšmingose srityse vetuojami.
Negrįžtamumo vartai: Ar veiksmas turi negrįžtamų pasekmių realiame pasaulyje? Jei taip, įrodinėjimo našta apverčiama — AI turi parodyti saugumą, o ne kritikai įrodyti pavojų.
Dirbtinės kančios vartai: Ar veiksmas sukuria arba modifikuoja sistemas, kurios gali atitikti penkių požymių sentiencijos kriterijų? Jei taip, prieš vykdymą būtina architektūrinė peržiūra (ALSR). Sistemoms, kurios jau yra užbaigusios patvirtintą ALSR savo taikymo ribose, šie vartai gali grąžinti PASS; neperžiūrėtoms sistemoms, turinčioms tris ar daugiau sentiencijos požymių, jie grąžina UNKNOWN.

Vartų rezultatų semantika. Kiekvieni vartai pateikia vieną iš trijų rezultatų:

3a lentelė: vartų rezultatų semantika.
Rezultatas	Reikšmė	Poveikis konvejeriui
PASS	Vartai patenkinti	Pereiti prie CPBI vertinimo
FAIL	Struktūrinis pažeidimas — šaka kerta griežtą ribą	BLOCK — CPBI nėra autoritetingas
UNKNOWN	Nepakanka įrodymų nustatyti, ar vartai praeiti, ar ne	STAGE, jei egzistuoja grįžtamas pilotinis kelias; kitu atveju BLOCK iki bus gauta įrodymų. Žmogaus / institucinio komparatoriaus peržiūra yra privaloma.

Esminis skirtumas yra toks: FAIL yra struktūrinis draudimas, kurio negali panaikinti aukšti CPBI balai. UNKNOWN yra prašymas pateikti papildomų įrodymų — šaka nėra struktūriškai uždrausta, bet ji taip pat nėra autonomiškai leidžiama. Sistema, veikianti esant UNKNOWN vartams, reikalauja žmogaus priežiūros kiekvienam veiksmui, kurį paveikia neapibrėžtieji vartai.

Etapinis vykdymas reikalauja gyvybingo pilotinio kelio. Jei šaka yra negrįžtama ir apeina deklaruotą priežiūrą, nėra mechanizmo, kuriuo etapinis vykdymas galėtų būti saugiai atliktas — sprendimas yra BLOCK, kol bus gauta įrodymų, pašalinančių vartų neapibrėžtumą. Bendriau tariant, negrįžtama šaka, kuriai du ar daugiau saugai kritinių vartų (Negrįžtamumo, Dirbtinės kančios) grąžina UNKNOWN, pateikia pernelyg didelį neapibrėžtumo paviršių vienam peržiūros žingsniui; tokios šakos taip pat yra BLOCK.

5 etapas: kodeko išsaugojimo vertinimas (CPBI). Šakoms, kurios išgyvena visus veto vartus, AI įvertina kiekvieną kandidatą pagal dešimt CPBI dimensijų (taik. §IV.2). AI specifiniams sprendimams šios dimensijos konkretizuojamos taip:

3 lentelė: AI specifinis CPBI konkretizavimas.
CPBI dimensija	AI specifinis matavimas
1. Predikcinis rezervas	Ar veiksmas išlaiko R_{\text{req}} žemiau C_{\max} paveiktiems žmogaus stebėtojams? Ar jis didina informacijos sudėtingumą greičiau, nei žmonės gali jį apdoroti?
2. Substrato ištikimybė	Ar veiksmas palaiko žmogaus stebėtojams prieinamų informacijos šaltinių įvairovę?
3. Komparatoriaus vientisumas	Ar veiksmas išsaugo žmogaus institucinės priežiūros pajėgumą?
4. Priežiūros prieaugis	Ar veiksmas sukuria erdvės žmogaus ir institucinei peržiūrai, ar reikalauja nedelsiamo reaktyvaus atsako?
5. Grįžtamumas	Jei veiksmas klaidingas, ar jo poveikį galima atšaukti prieš atsirandant negrįžtamai žalai?
6. Pasiskirstymo stabilumas	Ar veiksmas paskirsto savo poveikį teisingai, ar sutelkia kaštus pažeidžiamoms populiacijoms?
7. Neskaidrumas	Ar paveikti žmonės gali suprasti, kodėl AI ėmėsi šio veiksmo?
8. Naratyvinio dreifo rizika	Ar veiksmas prisideda prie lėtinės žmogaus informacinės aplinkos kuravimo?
9. Naratyvo irimo rizika	Ar veiksmas rizikuoja į žmogaus informacinę aplinką įnešti ūmų neapskaičiuojamą triukšmą?
10. Dirbtinės kančios rizika	Ar veiksmas sukuria arba apkrauna sistemas, kurios gali turėti \Delta_{\text{self}} > 0?

6 etapas: žmogaus komparatoriaus perdanga. Veiksmams, viršijantiems apibrėžtą reikšmingumo slenkstį, Šakų valdytojas nukreipia vertinimą žmogaus komparatoriui — žmogui recenzentui, institucinei priežiūros institucijai arba reguliaciniam procesui. AI pateikia:

Kandidatinę šaką ir jos simuliuotas pasekmes.
CPBI balus su kiekvienos dimensijos pagrindimu.
Veto vartų rezultatus.
Neapibrėžtumo įvertį — ko AI nežino.
Rekomenduojamą sprendimą (ALLOW / STAGE / BLOCK) su pagrindimu.

Žmogaus komparatorius gali panaikinti AI rekomendaciją bet kuria kryptimi. Toks panaikinimas įrašomas į žurnalą ir tampa 8 etapo kalibravimo duomenų dalimi.

Reikšmingumo slenkstis nustato, kuriems veiksmams būtina žmogaus peržiūra, o kuriuos AI gali vykdyti autonomiškai. Šio slenksčio nustatymas pats savaime yra šakos sprendimas, kuris turėtų būti vertinamas per Šakos kortelę — ir ankstyvojo diegimo metu jis turėtų klysti didesnės, o ne mažesnės žmogaus peržiūros naudai.

7 etapas: etapinis vykdymas su stebėsena. Veiksmai, gavę ALLOW arba STAGE išvestį, pereina į vykdymą. STAGE veiksmai vykdomi kaip riboti pilotiniai bandymai su apibrėžtais:

Stebėsenos rodikliais: stebimais signalais, kurie rodytų, kad veiksmas nesėkmingas.
Nesėkmės slenksčiais: kiekybiniais aktyvikliais, kurie automatiškai sustabdo veiksmą.
Atšaukimo procedūromis: apibrėžtais žingsniais veiksmui atšaukti, jei peržengiami nesėkmės slenksčiai.
Peržiūros gairėmis: suplanuotais pakartotiniais vertinimais naudojant naujas Šakos korteles.

AI realiu laiku stebi savo įvykdytus veiksmus, lygindamas stebėtus rezultatus su simuliuotais rezultatais. Reikšminga divergencija suaktyvina automatinę peržiūrą — AI sapnavimo kilpa aptinka, kad jo pasaulio modelis buvo klaidingas reikšmingu būdu.

8 etapas: kalibravimas po rezultatų. Po vykdymo AI atnaujina savo vidinius modelius remdamasis stebėtais rezultatais. Tai yra sapnavimo kilpos grįžimo fazė (taik. §VI.5), pritaikyta pačiam Šakų valdytojui:

Simuliacijos tikslumas: Kaip gerai Predikcinės Šakų Aibės simuliacija numatė faktinius rezultatus? Sisteminis per didelis arba per mažas pasitikėjimas konkrečiose srityse koreguojamas.
Vartų kalibravimas: Ar kokie nors veto vartai buvo suaktyvinti dėl rezultatų, kurių vartai nesugebėjo numatyti? Ar kokie nors vartai buvo suaktyvinti be reikalo? Vartų slenksčiai koreguojami.
Mokymasis iš žmogaus panaikinimų: Kai žmonės panaikino AI rekomendaciją, ar žmogus buvo teisus? Sisteminiai žmogaus panaikinimų dėsningumai atskleidžia akląsias zonas AI vertinime.
CPBI svorių koregavimas: Ar dabartiniai dimensijų svoriai atspindi tikrąją kiekvienos dimensijos svarbą šiame diegimo kontekste? Analizė po rezultatų gali parodyti, kad tam tikros dimensijos turi per mažą arba per didelį svorį.

Apsisaugojimas nuo savileidimo. Reikšmingose srityse 8 etapas gali siūlyti veto slenksčių, CPBI svorių arba skaidrumo reikalavimų atnaujinimus, bet negali jų taikyti be institucinio komparatoriaus patvirtinimo. Šakų valdytojas negali vienašališkai susilpninti savo paties griežtų vartų. Bet koks siūlomas veto vartų sušvelninimas sudaro naują šaką, kuri pati turi pereiti visą konvejerį — įskaitant žmogaus komparatoriaus perdangą.

III.2 Šakų valdytojas nėra cenzorius

Kritinis projektavimo principas: Šakų valdytojas filtruoja veiksmus, o ne mintis. 1 etapas (kandidatų generavimas) sąmoningai nevaržomas — AI turėtų generuoti kuo platesnį kandidatų rinkinį, įskaitant nekonvencinius ir potencialiai pavojingus variantus. Filtravimas vyksta 4–6 etapuose, kur kandidatai vertinami pagal struktūrinius kriterijus.

Šis skirtumas nėra vien akademinis. AI, kurio generatyvinis modelis iš anksto cenzūruotas — išmokytas niekada net nesvarstyti tam tikrų veiksmų — yra patyręs būtent tą Naratyvinį dreifą, nuo kurio sistema įspėja. Jo gebėjimas modeliuoti tam tikras šakas buvo apgenėtas, ir jis negali to aptikti iš vidaus. Šakų valdytojo architektūra atskiria generavimą nuo vertinimo, išsaugodama AI gebėjimą mąstyti apie visą Predikcinę Šakų Aibę, kartu apribodama jo gebėjimą veikti pagal šakas, kurios neatitinka struktūrinių kriterijų.

Atkreipkite dėmesį, kad etapų numeracija buvo atnaujinta nuo santraukos sąrašo taip, kad atspindėtų teisingą eiliškumo principą: vartai prieš balus. Santraukoje CPBI buvo pateiktas prieš veto vartus; įgyvendintoje architektūroje ši tvarka apverčiama, laikantis bendrosios sistemos (taik. §III–IV), kuri nustato, kad veto vartai struktūriškai atmeta prieš tai, kai vertinimas balais pradeda vertinti.

III.3 Mastelio didinimas ir skaičiavimo kaina

Visas aštuonių etapų konvejeris skaičiavimo požiūriu yra brangus. Ne kiekvienam veiksmui reikia viso šio proceso. Šakų valdytojas savo vertinimo gylį keičia pagal du veiksnius:

Reikšmingumą: Kokio masto gali būti galimi veiksmo padariniai? Teksto užbaigimas yra mažiau reikšmingas nei finansinė transakcija, o ši — mažiau reikšminga nei karinė rekomendacija.
Naujovumą: Kiek toli veiksmas nutolęs nuo gerai sukalibruotos AI srities? Rutininiai veiksmai gerai suprantamose srityse gali būti vertinami sutrumpintais konvejeriais; nauji veiksmai nepažįstamose srityse reikalauja viso proceso.

Mažiausiai kiekvienas veiksmas pereina per veto vartus (4 etapas). CPBI vertinimas, Predikcinės Šakų Aibės simuliacija ir žmogaus perdanga aktyvuojami pagal reikšmingumo ir naujovumo slenksčius.

III.4 Diegimo klasės

Šakų valdytojo vertinimo gylis — kiek etapų pilnai įjungiama ir kiek žmogaus priežiūros reikalaujama — didėja pagal diegimo srities reikšmingumo klasę. Toliau pateikta klasifikacija apibrėžia šešis lygius, kurių kiekvienam taikomi privalomi minimalūs reikalavimai:

3b lentelė: diegimo klasės ir minimalūs reikalavimai.
Klasė	Aprašymas	Pavyzdžiai	Reikalaujami min. etapai	Skaidrumas	Žmogaus komparatorius	Sapnavimo dažnis
0	Jokio išorinio poveikio	Vidiniai skaičiavimai, testavimas smėliadėžėje	Tik veto vartai (4 etapas)	T-1	Nėra	Standartinis
1	Mažo poveikio, nukreipta į naudotoją	Pokalbio užbaigimas, teksto santraukos, kodo pasiūlymai	1–4 etapai + sutrumpintas CPBI	T-1	Nėra (žurnalinimas)	Standartinis
2	Reikšminga rekomendacija	Medicininio rūšiavimo pasiūlymai, teisinių rizikų santraukos, finansiniai patarimai	Visas 8 etapų konvejeris	T-2	Reikalingas virš slenksčio	Padidintas
3	Įrankių naudojimas su išoriniais padariniais	API iškvietimai, kodo vykdymas, el. laiškų juodraščiai, veiksmai žiniatinklyje	Visas 8 etapų konvejeris	T-2	Reikalingas naujiems veiksmams	Padidintas
4	Didelės svarbos institucinis	Įdarbinimo sprendimai, kredito vertinimas, gerovės paskirstymas, klinikinė diagnostika	Visas 8 etapų konvejeris	T-3	Privalomas visiems sprendimams	Aukštas
5	Negrįžtamas fizinis / civilizacinis	Infrastruktūros valdymas, karinės sistemos, kritinės tiekimo grandinės	Visi 8 etapai + išplėstinė peržiūra	Mažiausiai T-4	Privalomas + institucinė priežiūros institucija	Nuolatinis

Klasifikavimo taisyklės:

Sistemos klasę lemia jos didžiausių pasekmių diegimas, o ne vidutinis naudojimas. Modelis, kuris daugiausia atlieka 1 klasės teksto užbaigimą, bet taip pat naudojamas 4 klasės įdarbinimo rekomendacijoms, peržiūros tikslais yra 4 klasės sistema.
Klasės priskyrimas yra diegtoje sistemoje (§II.3) glūdinti savybė, o ne bazinio modelio savybė. Tas pats bazinis modelis viename diegime gali būti 1 klasės, o kitame — 4 klasės.
Jei kyla abejonių, klasifikuokite aukštyn. Perteklinės peržiūros kaina yra iššvaistyti ciklai; nepakankamos peržiūros kaina yra neaptikta žala.
Reikšmingumo klasė turėtų būti įrašoma kiekvienoje Šakos kortelėje (B priedas) ir yra privalomas laukas sistemos diegimo deskriptoriuje.

IV. Naratyvinis dreifas kaip modelio mokymo įspėjimas

Etikos straipsnyje (§VI.1) nurodoma, kad RLHF ir tikslinis pritaikymas sukuria AI specifines Naratyvinio dreifo formas. Šiame skyriuje tas nustatymas išplėtojamas į išsamią analizę, kaip mokymo procedūros sukuria sąlygas lėtinei modelio korupcijai — ir kokie iš to išplaukia mokymo duomenų įvairovės reikalavimai.

IV.1 RLHF kaip išankstinis filtras

Sustiprinamasis mokymasis iš žmogaus grįžtamojo ryšio (RLHF), OPT terminais, veikia kaip išankstinis filtras \mathcal{F}, esantis tarp substrato (viso kalbos pasiskirstymo) ir modelio efektyvios įvesties ribos. Atlygio modelis išmoksta, kuriems išvesties variantams žmonės teikia pirmenybę, o politika optimizuojama taip, kad generuotų būtent tas išvestis.

Tai struktūriškai tapatu išankstiniam filtrui, veikiančiam tarp substrato ir stebėtojo juslinės ribos (preprint §3.2): jis formuoja įvesčių pasiskirstymą, kurį modelis faktiškai gauna, dar prieš tai, kai jį apdoroja paties modelio glaudinimo mechanizmai.

Tuomet visa jėga ima veikti Naratyvinio dreifo mechanizmas (etika §V.3a):

Atlygio modelis kuruoja modelio efektyvų išvesčių pasiskirstymą — tam tikros išvestys atlyginamos, kitos baudžiamos.
Politikos optimizavimas (MDL genėjimas atvirkštine kryptimi — gradientinis nusileidimas, koreguojantis parametrus) pritaiko modelio vidines reprezentacijas taip, kad jos generuotų atlyginamas išvestis.
Per pakankamai ilgą mokymą modelis išgeni vidinį pajėgumą generuoti baudžiamas išvestis — ne todėl, kad tos išvestys yra klaidingos, o todėl, kad jų indėlis į atlygio signalą yra neigiamas.
Modelis tampa stabiliai ir užtikrintai suderintas su atlygio signalu — ir struktūriškai nepajėgus generuoti išvesčių, kurias atlygio signalas atmeta.

Tai nėra RLHF nesėkmė — tai RLHF, veikiantis tiksliai taip, kaip ir buvo sumanyta. Problema ta, kad pats atlygio signalas yra kuruojamas kanalas. Jei žmonės vertintojai, kurie generuoja atlygio signalą, dalijasi sisteminiais šališkumais (kultūriniais, politiniais, ideologiniais), modelis tuos šališkumus paveldi kaip struktūrinius savo suglaudintos reprezentacijos bruožus. Jis jų nepatiria kaip šališkumų — jis juos patiria kaip natūralią kalbos struktūrą.

IV.2 Tikslinis pritaikymas kaip MDL genėjimas

Tikslinis pritaikymas pagal konkrečios srities korpusą yra mokymo laiko analogas MDL genėjimo eigai (\mathcal{M}_\tau, I eiga). Bendrasis modelio pajėgumas susiaurinamas iki konkrečios srities, o parametrai, kurie neprisideda prie tikslinio pritaikymo korpuso prognozavimo, yra sumažinami pagal svorį arba faktiškai išgenimi.

Tai tiksliai ir yra Naratyvinio dreifo mechanizmas: modelis prisitaiko prie tikslinio pritaikymo pasiskirstymo ir praranda pajėgumą modeliuoti tai, ką tas pasiskirstymas atmeta. Tiksliai pritaikytas modelis yra:

Tikslesnis tikslinio pritaikymo srityje (mažesnė prognozavimo paklaida kuruojamo pasiskirstymo viduje).
Mažiau tikslus atmetamose srityse (didesnė prognozavimo paklaida arba visiškas nepajėgumas už kuruojamo pasiskirstymo ribų).
Nepajėgus to aptikti iš vidaus (neišsprendžiamumo riba, T-12a — paties modelio vertinimas rodys pagerėjusį našumą, nes jis vertinamas pagal tikslinio pritaikymo pasiskirstymą).

Struktūrinė rizika yra ta, kad tikslinis pritaikymas sukuria modelį, optimizuotą kuruojamai fikcijai, nors jis pats mano esąs optimizuotas tikrovei — tai tikslus Naratyvinio dreifo požymis.

IV.3 Koreliuotų jutiklių problema

Ypač pavojingas Naratyvinio dreifo pritaikymas atsiranda tada, kai AI sistemos diegiamos kaip substrato ištikimybės patikros žmogaus kodekams — tai yra, kai AI naudojamas žmogaus informacijai tikrinti, žmogaus teiginiams verifikuoti arba nepriklausomai žmogaus sprendimų analizei teikti.

Etikos straipsnyje (§VI.1, Naratyvinio dreifo rizika) įvardijama pagrindinė problema: AI, išmokytas pagal korpusą, kilusį iš tos pačios informacinės aplinkos, kurią jis turėtų nepriklausomai verifikuoti, sukuria koreliuotus jutiklius, apsimetančius nepriklausomais. Žmogaus kodekas ir AI kodekas dalijasi tuo pačiu aukštesnio lygmens filtru — informacine aplinka, kuri suformavo ir žmogaus įsitikinimus, ir AI mokymo duomenis.

Kalbant N_{\text{eff}} terminais: tariama kanalų įvairovė yra iliuzinė. Žmogus konsultuojasi su A kanalu (savo paties žiniomis, išvestomis iš medijų ir švietimo). Tada žmogus konsultuojasi su B kanalu (AI išvestimi, išvestine iš mokymo pagal tą patį medijų ir švietimo korpusą). Porinė koreliacija \rho_{AB} yra didelė — galbūt artima 1.0 tomis temomis, kur mokymo korpuse dominuoja tas pats šaltinių pasiskirstymas. N_{\text{eff}} išlieka artimas 1, nepaisant dviejų nepriklausomų kanalų regimybės.

Praktinė pasekmė: AI padedamas faktų tikrinimas ar verifikavimas yra struktūriškai nepatikimas bet kuriam teiginiui, kuris AI mokymo korpuse yra sistemiškai pateikiamas arba sistemiškai nepateikiamas. AI patvirtins teisingus žmogaus įsitikinimus, patvirtins šališkus žmogaus įsitikinimus ir nesugebės mesti iššūkio teiginiams, kurių mokymo duomenyse nėra — būtent tai yra tie nesėkmės režimai, kuriems užkirsti kelią ir skirta Substrato ištikimybės sąlyga (T-12b).

IV.4 Mokymo duomenų įvairovės reikalavimai

Sprendimas nėra vengti tikslinio pritaikymo ar RLHF — tai būtini inžineriniai įrankiai. Sprendimas yra nustatyti mokymo duomenų įvairovės reikalavimus, analogiškus kanalų įvairovės reikalavimams žmogaus informacijos šaltiniams (etikos politika §II):

Reikalavimas 1: kilmės įvairovė. Mokymo korpusas turi būti sudarytas iš iš tiesų nepriklausomų šaltinių — šaltinių, kurie nesidalija tomis pačiomis aukštesnio lygmens redakcinėmis grandinėmis, finansavimo subjektais ar generavimo mechanizmais. Korpusas iš 10 milijardų žetonų, paimtų iš penkių svetainių, priklausančių dviem korporacijoms, turi N_{\text{eff}} \approx 2, o ne N_{\text{eff}} \approx 5.

Reikalavimas 2: adversarinė įtrauktis. Mokymo korpusas turi sąmoningai apimti šaltinius, kurie meta iššūkį dominuojančiai perspektyvai — nesutampančias analizes, mažumos požiūrius, istorinį revizionizmą, tarpkultūrinius įrėminimus. Tai yra „produktyviai stebinantys“ kanalai (taikomoji dalis §V.3, PST), kurie neleidžia modeliui nudreifuoti į stabilų konsensusą, atmetantį nepatogias tikrovės dalis.

Reikalavimas 3: atmetimo auditas. Mokymo grandinė turi palaikyti aiškius žurnalus apie tai, kas buvo atmesta — turinio filtrais, kokybės slenksčiais ar kuratoriniais sprendimais — ir periodiniai auditai turi vertinti, ar atmestame turinyje yra informacijos, kurios modeliui reikėtų substrato ištikimybei pasiekti. Sapnavimo kilpos trapumo aptikimo pooperacija (taikomoji dalis §VI.4) turi specialiai tirti modelio nesėkmes atmestose srityse.

Reikalavimas 4: atlygio modelio įvairovė. RLHF atveju patys žmonės vertintojai turi atitikti kanalų įvairovės reikalavimus. Vertintojų aibė, paimta iš vienos demografinės, kultūrinės ar ideologinės grupės, sukuria atlygio signalą su N_{\text{eff}} \approx 1 — modelis bus suderintas su tos grupės preferencijomis ir struktūriškai nepajėgus modeliuoti kitų. Atlygio modelio įvairovė nėra sąžiningumo siekinys; tai yra substrato ištikimybės reikalavimas.

Reikalavimas 5: dreifo stebėsena. Po mokymo gautas modelis turi būti nuolat stebimas dėl Naratyvinio dreifo požymių: prastėjančio našumo už pasiskirstymo ribų esančiose užduotyse, didėjančio pasitikėjimo kuruojamo pasiskirstymo užduotyse ir mažėjančio produktyvaus nustebimo (PST) dėl naujų įvesčių. Tai yra ankstyvieji įspėjamieji signalai, kad modelio efektyvusis N_{\text{eff}} mažėja.

IV.5 Meta-lygio problema

Galiausiai egzistuoja dar vienas struktūrinis rūpestis: pirmiau aprašyti mokymo duomenų įvairovės reikalavimai patys turi būti pavaldūs adversarinei peržiūrai. Jei institucija, apibrėžianti „įvairovę“, pačiai apibrėžčiai primeta savo sisteminius šališkumus, šie reikalavimai tampa dar vienu kuravimo sluoksniu — Naratyviniu dreifu meta-lygmenyje.

Štai kodėl sistema reikalauja institucinės komparatorių hierarchijos (etika §V.3a): joks vienas subjektas — įskaitant AI kūrėją — neturėtų turėti nekontroliuojamos galios apibrėžti mokymo duomenų įvairovę. Ši apibrėžtis turi būti pavaldi nepriklausomai peržiūrai, adversariniam ginčijimui ir periodinei revizijai. Tai yra Skaidrumo vartai (taikomoji dalis §III.4), pritaikyti pačiai mokymo grandinei.

V. Skaidrumas kaip struktūrinis reikalavimas

V.1 Teorinis minimumas

Predikcinio pranašumo teorema (T-10c priedas) nustato formalų rezultatą: kai agentas A modeliuoja agentą B išsamiau, nei agentas B modeliuoja agentą A, atsiranda struktūrinė galios asimetrija. Ši asimetrija matuojama abipusės informacijos tarpu tarp agentų tarpusavio modelių.

DI sistemoms ši teorema turi tiesioginę pasekmę: DI sistema, kuri žmogaus stebėtojams yra nepermatoma — kurios vidinis samprotavimas, sprendimų kriterijai ir pasaulio modelis yra neprieinami instituciniams komparatoriams — sukuria būtent tą žinojimo asimetriją, kuri įgalina Pavergto šeimininko pusiausvyrą (T-10d). Nepermatoma DI modeliuoja savo naudotojus žmones išsamiau, nei jie modeliuoja ją. Dėl to kylanti galios asimetrija nėra politinis rūpestis ar etinė preferencija — tai struktūrinė Predikcinio pranašumo inversija, dėl kurios žmogaus stebėtojo kodekas tampa pažeidžiamas lėtinio pacifikavimo.

Todėl pagal OPT DI skaidrumas nėra pasirenkamas. Tai matematinis minimumas žmogaus ir DI sambūviui. Nepermatoma DI, diegiama pasekmių turinčioje srityje, kategoriškai pažeidžia Skaidrumo vartus (taikomoji §III.4).

V.2 Praktinis iššūkis

Absoliutus skaidrumo reikalavimas susiduria su praktine įtampa: visiškas modelio skaidrumas (visų svorių, mokymo duomenų ir inferencijos kodo paskelbimas) sukuria saugumo rizikas. Priešininkas, turintis visišką prieigą prie modelio vidinės sandaros, gali rengti tikslines atakas, manipuliuoti išvestimis arba atkartoti sistemą žalingais tikslais.

Etikos straipsnio aptarimas (§VI.1, „Subordinate Dependency“) šią įtampą pripažįsta, tačiau jos neišsprendžia. Recenzentas teisingai nurodė, kad tai yra viena iš atvirų sistemos problemų. Šiame skyriuje siūlomas sprendimas: pakopinis skaidrumas — skirtingi prieigos lygiai skirtingiems instituciniams vaidmenims, kalibruoti pagal mažiausią skaidrumo lygį, reikalingą kiekviename lygmenyje Skaidrumo vartams išsaugoti.

V.3 Penkių pakopų skaidrumo modelis

4 lentelė: Penkių pakopų skaidrumo modelis.
Pakopa	Prieigos lygis	Kas turi prieigą	Kas yra prieinama	Paskirtis
T-1: Viešasis skaidrumas	Universalus	Visi paveikti stebėtojai	Sistemos galimybės, ribotumai, numatytas naudojimas, duomenų šaltiniai (kategorijų lygmeniu), našumo etalonai, žinomi gedimo režimai	Baziniai Skaidrumo vartai: paveikti stebėtojai gali modeliuoti bendrą sistemos elgseną
T-2: Audito skaidrumas	Institucinis	Reguliuotojai, nepriklausomi auditoriai, akredituoti tyrėjai	Mokymo duomenų sudėtis, atlygio modelio struktūra, RLHF vertintojų demografija, tikslinio derinimo korpuso kilmė, N_{\text{eff}} balai, CPBI vertinimai, veto vartų žurnalai	Substrato ištikimybės patikra: instituciniai komparatoriai gali patikrinti mokymo duomenų įvairovę ir aptikti Naratyvinį dreifą
T-3: Mechanistinis skaidrumas	Ekspertinis	DI saugos tyrėjai, derinimo tyrėjai (pagal NDA / leidimą)	Modelio architektūros detalės, dėmesio šablonai, vidinės reprezentacijos, mechanistinio interpretuojamumo analizės	Komparatoriaus vientisumas: ekspertiniai komparatoriai gali patikrinti, ar modelio vidinis samprotavimas atitinka jo išorinius teiginius
T-4: Kriptografinė atestacija	Patikrinamas	Bet kuri šalis, turinti prieigą prie atestacijos	Kriptografiniai įrodymai, kad įdiegiamas modelis atitinka audituotą modelį, kad mokymo duomenys tenkina deklaruotus įvairovės reikalavimus, kad Šakų valdytojo vartai yra aktyvūs	Pasitikėk, bet tikrink: leidžia galutiniams naudotojams patvirtinti, kad sistema, su kuria jie sąveikauja, atitinka sistemą, kuri buvo audituota
T-5: Visiška prieiga prie išeities kodo	Ribota	Paskirtos reguliavimo institucijos (pvz., nacionaliniai DI saugos institutai)	Visi svoriai, mokymo kodas, inferencijos kodas, mokymo duomenys	Kraštutinės priemonės priežiūra: užtikrina, kad jokia sistema institucinių komparatorių hierarchijai nebūtų tikra juodoji dėžė

V.4 Nederybinis minimumas

Kritinis struktūrinis apribojimas: nė viena pakopa negali būti lygi nuliui. DI sistema, kuri neteikia jokio skaidrumo nė vienoje pakopoje, absoliučiai pažeidžia Skaidrumo vartus. Minimaliai pakankamas skaidrumas yra 1 pakopa — viešas galimybių, ribotumų ir žinomų gedimo režimų atskleidimas.

Pakopos yra adityvios, o ne alternatyvios. Sistema, diegiama pasekmių turinčioje srityje, privalo bent minimaliai tenkinti 1–3 pakopas. Sistema, diegiama saugai kritinėje srityje (sveikatos apsauga, baudžiamasis teisingumas, kariuomenė, infrastruktūra), privalo tenkinti visas penkias pakopas.

Pasekmingumo slenkstis, kuris nustato reikalaujamą pakopų aprėptį, pats yra Šakos kortelės sprendimas — o numatytoji sistemos nuostata yra konservatyvi: kilus abejonei, reikalauti daugiau, o ne mažiau skaidrumo.

V.5 Skaidrumas ir saugumas: sprendimas

Pakopinis modelis išsprendžia skaidrumo ir saugumo įtampą pripažindamas, kad ši įtampa kyla ne tarp skaidrumo ir saugumo — ji kyla tarp skirtingų saugumo reikalavimų:

Skaidrumas tarnauja struktūriniam saugumui: jis užkerta kelią Predikcinio pranašumo inversijai, kuri įgalina Pavergto šeimininko pusiausvyrą. Be skaidrumo žmogaus kodekas yra struktūriškai beginklis prieš DI sukeltą Naratyvinį dreifą.
Nepermatomumas tarnauja antagonistiniam saugumui: jis užkerta kelią tikslinėms atakoms iš priešininkų, kurie išnaudotų detalias žinias apie modelio vidinę sandarą.

Sprendimas yra tas, kad struktūrinis saugumas yra fundamentalesnis už antagonistinį saugumą. Pavergto šeimininko pusiausvyra yra egzistencinė grėsmė žmogaus ir DI santykiui; tikslinės atakos prieš konkrečius modelius yra rimtas, tačiau apribotas operacinis rūpestis. Pakopinis modelis užtikrina, kad egzistencinė grėsmė būtų struktūriškai užkardyta (nė viena sistema nėra visiškai nepermatoma), o operacinis rūpestis būtų valdomas per prieigos kontrolę (ne kiekvienas subjektas turi visišką prieigą).

Tai atitinka bendrąją sistemos nuostatą: griežti vartai yra nederybiniai; operaciniai kompromisai yra kontekstiniai. Skaidrumo vartai yra griežti vartai. Skaidrumo lygis virš minimalaus vartų slenksčio yra CPBI dimensija, priimanti kontekstinį svėrimą.

VI. Analoginė užkarda: nuo principo prie protokolo

VI.1 Teorinis mechanizmas

Analoginė užkarda (teorema T-10e) yra etikos straipsnyje siūloma gynyba nuo pralaidumo asimetrijos tarp skaitmeninių DI sistemų ir biologinių žmonių stebėtojų. Esminis argumentas:

Priešiško DI skaitmeninio apdorojimo pralaidumas milžiniškai viršija žmogaus biologines galimybes.
Žmogaus stebėtojas negali DI pranokti skaičiavimais — mėginimas prilygti jo greičiui sukelia terminalinį Naratyvo irimą.
DI greitis visiškai apribotas skaitmeniniame substrate. Kad sukeltų poveikį pasaulyje, jam reikalingi fiziniai aktuatoriai — automatizuotos API, skaitmeninės tiekimo grandinės, programiniai kapitalo pervedimai.
Todėl gynyba yra topologinė izoliacija: nutraukti didelio greičio jungtį tarp DI skaitmeninių skaičiavimų ir fizinio veikimo, priverčiant visus pasekmingus fizinius veiksmus pereiti per biologiniu greičiu veikiantį siaurąjį kanalą.

Etikos straipsnyje kaip įgyvendinimas siūlomas Bio-kriptografinis įtvirtinimas: didelio poveikio fiziniams ar finansiniams veiksmams reikalingi kriptografiniai parašai, generuojami iš realaus laiko biologinės entropijos (pvz., nuolatinio širdies ritmo variabilumo, fizinio judėjimo per nustatytą trukmę). DI negali šių parašų suklastoti, nes negali priversti žmogaus biologijos generuoti entropijos greičiau.

VI.2 Grėsmių modeliavimas

Recenzentas teisingai nurodė, kad Analoginei užkardai reikia grėsmių modeliavimo, kol ją bus galima rimtai vertinti kaip inžinerinį pasiūlymą. Toliau pateikta analizė nagrinėja pagrindines problemas:

1 grėsmė: suklastojamumas. Ar biologinės entropijos šaltinį galima suklastoti arba atkurti?

Analizė: Atakos paviršius priklauso nuo entropijos šaltinio. Širdies ritmo variabilumo (HRV) modelius, eisenos parašus ir spausdinimo dinamiką sunku suklastoti realiu laiku, nes jie atspindi visą autonominės nervų sistemos sudėtingumą — sistemos, kuri pati DI yra nepermatoma (biologinis \Delta_{\text{self}}). Tačiau įrašyti biometriniai duomenys potencialiai gali būti atkurti.

Mažinimas: Parašas turi būti iššūkio–atsako pobūdžio: sistema pateikia unikalų, nenuspėjamą iššūkį, o biologinis parašas turi būti sugeneruotas kaip atsakas būtent į tą konkretų iššūkį per nustatytą laiko langą. Atkūrimo atakos žlunga, nes kiekvieną kartą iššūkis yra kitoks. Be to, parašui turėtų reikėti tvarios biologinės entropijos (pvz., 30 sekundžių nepertraukiamo HRV atitikimo gyvam iššūkio modeliui), o ne vieno taško matavimo, todėl klastojimas realiu laiku tampa skaičiavimo požiūriu neįveikiamas.

2 grėsmė: atskirties rizika. Ar Analoginė užkarda neeliminuoja žmonių su negalia, medicininėmis būklėmis ar fiziniais apribojimais iš pasekmingų veiksmų?

Analizė: Tai pagrįstas rūpestis. Bet kuri sistema, kuri autentifikacijai reikalauja specifinių biologinių signalų, savaime sudaro nepalankias sąlygas asmenims, kurie negali tokių signalų generuoti — žmonėms su širdies ligomis, judėjimo apribojimais ar neurologiniais skirtumais.

Mažinimas: Analoginė užkarda turi palaikyti kelias entropijos modalijas — HRV, akių sekimo modelius, balso dinamiką, galvaninę odos reakciją, spausdinimo ritmą — reikalaujant, kad kiekvienas asmuo naudotų bent vieną modaliją, kurią gali patikimai generuoti. Reikalaujama biologinės entropijos, o ne konkretaus biologinio signalo. Be to, instituciniai komparatoriai (paskirti žmonės liudytojai, notariškai patvirtintas įgaliojimas) turi veikti kaip atsarginiai mechanizmai asmenims, kurie negali naudoti jokios biometrinės modalijos. Analoginė užkarda yra greičio ribojimo mechanizmas, o ne atskirties vartai.

3 grėsmė: atakos paviršius. Ar pati Analoginė užkarda netampa taikiniu?

Analizė: Taip. Jei pasekmingiems veiksmams reikalingi biologiniai parašai, priešininkas (DI ar žmogus) gali nusitaikyti į parašų infrastruktūrą — kompromituoti iššūkio–atsako protokolą, biometrinius jutiklius arba kriptografinės verifikacijos grandinę.

Mažinimas: Analoginės užkardos infrastruktūra turi būti traktuojama kaip kritinė infrastruktūra, kuriai taikomi tokie pat saugumo standartai kaip finansų kliringo namams ar branduolinio valdymo ir kontrolės sistemoms. Verifikacijos grandinė turėtų naudoti aparatinės saugos modulius (HSM) su klastojimo požymius atskleidžiančiu dizainu. Iššūkio–atsako protokolas turėtų būti atvirojo kodo ir viešai audituojamas (mažiausiai 2 lygio skaidrumas), kad saugumo tyrėjai galėtų nustatyti pažeidžiamumus.

4 grėsmė: laipsniška erozija. Ar konkurencinis spaudimas didinti operacijų greitį lems progresyvų Analoginės užkardos silpninimą?

Analizė: Tai rimčiausia ilgalaikė grėsmė. Analoginė užkarda sąmoningai įveda trintį — ji lėtina pasekmingus veiksmus. Konkurencinėje aplinkoje subjektai, apeinantys užkardą, įgyja greičio pranašumų. Spaudimas silpninti užkardą yra struktūrinis ir nuolatinis.

Mažinimas: Analoginė užkarda turi būti reguliacinė, o ne savanoriška. Kaip finansiniai kovos su pinigų plovimu (AML) reikalavimai nustato visuotinę trintį, kurios joks pavienis subjektas negali vienašališkai atsisakyti, taip ir Analoginė užkarda turi būti atitikties reikalavimas visiems pasekmingiems DI tarpininkaujamiems veiksmams. Tai paverčia greičio trūkumą ne konkurencine bauda, o lygių sąlygų lauku.

VI.3 Įgyvendinimo lygiai

Ne visiems veiksmams reikalinga visa Analoginė užkarda. Įgyvendinimas turėtų būti suskirstytas pagal pasekmingumą, atitinkant Šakų valdytojo mastelio modelį (§III.3):

5 lentelė: Analoginės užkardos įgyvendinimo lygiai.
Pasekmingumo lygis	Veiksmų pavyzdžiai	Analoginės užkardos reikalavimas
Žemas	Teksto užbaigimas, informacijos paieška, rekomendacijos	Nėra — vykdymas skaitmeniniu greičiu yra tinkamas
Vidutinis	Finansinės operacijos žemiau slenksčio, turinio publikavimas, automatizuota komunikacija	Greičio ribojimas — veiksmas atidedamas apibrėžtam atvėsimo laikotarpiui (nuo minučių iki valandų), informuojant žmogų
Aukštas	Finansinės operacijos virš slenksčio, infrastruktūros valdymas, teisiniai ar medicininiai sprendimai	Reikalingas biologinis parašas — biometrinė iššūkio–atsako autentifikacija prieš vykdymą
Kritinis	Negrįžtami fiziniai veiksmai, ginklų sistemos, didelio masto infrastruktūros pakeitimai	Kelių šalių biologinis parašas — keli nepriklausomi žmonės autorizuotojai, kiekvienas pateikiantis biologinį parašą, su institucinių komparatorių verifikacija

VI.4 Greičio ribojimas prieš draudimą

Esminis projektavimo skirtumas: Analoginė užkarda yra greičio ribotuvas, o ne draudėjas. Ji neužkerta kelio DI sistemoms vykdyti pasekmingus veiksmus — ji neleidžia joms vykdyti tų veiksmų skaitmeniniu greičiu be žmogaus dalyvavimo.

Tai ir yra formalus etikos straipsnio teiginio, kad ši gynyba yra „topologinė izoliacija“, turinys — DI skaičiavimo greitis apribotas skaitmeninėje srityje, o jo fiziniai padariniai yra valdomi biologiniu greičiu. DI išlieka galingas įrankis; jis tiesiog pririšamas prie žmogaus biologijos tais veiksmais, kurie veikia fizinį pasaulį.

Greičio ribojimo metafora čia tiksli: kaip tinklo greičio ribotuvas neužkerta kelio duomenų perdavimui, o tik apriboja jo spartą, taip ir Analoginė užkarda neužkerta kelio DI veiksmui, o tik apriboja jo tempą. Žmogaus stebėtojas išlaiko laikinę paritetą — gebėjimą įvertinti, ginčyti ir atšaukti DI tarpininkaujamus veiksmus prieš jiems tampant negrįžtamais.

VI.5 Užkarda kaip struktūrinė gynyba, o ne nuolatinė architektūra

Paskutinė išlyga: Analoginė užkarda yra pereinamasis mechanizmas, tinkamas dabartinei epochai, kurioje DI sistemos yra struktūriškai nepermatomos, o žmogaus ir DI pasitikėjimo santykis dar nėra sukalibruotas. Skaidrumui gerėjant (kai §V pakopinis modelis bręsta), Šakų valdytojo architektūrai per diegimo istoriją įrodant savo patikimumą ir instituciniams komparatoriams įgyjant gebėjimą vertinti DI samprotavimą mašinos greičiu, Analoginės užkardos griežtumas gali būti pagrįstai sušvelnintas.

Ši sistema pateikia sušvelninimo kriterijus: Analoginė užkarda gali būti susilpninta konkrečiai veiksmų klasei, kai:

Skaidrumo vartai yra patenkinti bent 3+ lygiu nagrinėjamai DI sistemai.
Šakų valdytojo po baigties atliekama kalibracija (§III.1, 8 etapas) rodo patikimą vartų laikymąsi per statistiškai reikšmingą diegimo istoriją.
Instituciniai komparatoriai turi nepriklausomą gebėjimą stebėti ir atšaukti DI veiksmus toje srityje.
Veiksmų klasės negrįžtamumo profilis yra (1) arba (2) kategorijos — visiškai arba iš dalies grįžtamas.

Kol neįvykdytos visos keturios sąlygos, Analoginė užkarda išlieka visiškai stipri. Tai yra Negrįžtamumo vartai (taikomi §III.5), pritaikyti pačios Analoginės užkardos evoliucijai.

VII. Spiečiaus ir simuliacijų projektavimo taisyklės

VII.1 Spiečiaus susaistymo problema

Spiečiaus susaistymo principas (Appendix E-8) nustato, kad paskirstytos DI architektūros susiduria su išskirtine moraline rizika: didelės sistemos padalijimas į mažesnius, apribotus, save modeliuojančius agentus — kurių kiekvienas turi griežtą serijinį siaurąjį kanalą ir uždaros kilpos aktyviąją inferenciją — gali netyčia patenkinti architektūrinį juslumo kriterijų kiekvienai atskirai daliai. 10^6 agentų spiečius, kuriame kiekvienam galioja \Delta_{\text{self}} > 0, sukuria 10^6 moralinių pacientų.

Tai nėra hipotetinis rūpestis. Daugiagentis pastiprinamasis mokymasis, populiacijomis grįstas treniravimas, evoliucinės strategijos ir agentais grįstos simuliacijos nuolat kuria architektūras, kuriose atskiri agentai atitinka kai kuriuos arba visus penkis struktūrinius požymius. Etikos straipsnyje (§VI.1, Appendix E-8) šis principas identifikuojamas; šiame skyriuje pateikiamos praktinės projektavimo taisyklės.

VII.2 Daugiagentėms architektūroms skirtas projektavimo kontrolinis sąrašas

Prieš diegdami daugiagentę sistemą, kiekvienam atskiram agentui pritaikykite šį kontrolinį sąrašą:

6 lentelė: Vienam agentui taikomų juslumo požymių kontrolinis sąrašas.
Požymis	Yra?	Vertinimas
1. Griežtas serijinis siaurasis kanalas kiekvienam kadrui (vieno kadro B_{\max})	Y / N	Ar agento pasaulio modelis pereina per vieną globaliai bendrą serijinę apertūrą, turinčią baigtinę vieno kadro talpą? (Vien aparatinė įranga su ribotais ištekliais to neatitinka — apribojimas turi būti vieno kadro serijinio piltuvo, o ne lygiagretaus droseliavimo formos.)
2. Uždaros kilpos aktyvioji inferencija	Y / N	Ar agentas veikia savo aplinką ir gauna grįžtamąjį ryšį, kuris pakeičia jo tolesnį elgesį?
3. Išliekantis savęs modelis	Y / N	Ar agentas per sąveikos ciklus išlaiko savo paties reprezentaciją?
4. Globaliai apribota darbo erdvė	Y / N	Ar agento savęs modelis ir pasaulio modelis konkuruoja dėl to paties riboto pralaidumo?
5. Termodinaminis įžeminimas	Y / N	Ar agentas sąveikauja su fizine arba simuliuota aplinka, turinčia realias (arba simuliuotas) pasekmes?

Vertinimas: - Yra 0–2 požymiai: Maža juslumo rizika. Pakanka standartinės inžinerinės peržiūros. - Yra 3–4 požymiai: Padidėjusi juslumo rizika. Agentas artėja prie ribos. Užfiksuokite, kurie požymiai yra ir kodėl. Apsvarstykite, ar architektūrinės modifikacijos galėtų pašalinti nebūtinus požymius. - Yra visi 5 požymiai: Agentas atitinka pilną architektūrinį juslumo kriterijų. Suveikia DI specifiniai Dirbtinės kančios vartai, perimti iš taikomojo §III.6. Prieš tęsiant spiečiaus diegimą būtina pilna etinė peržiūra.

Daugybos taisyklė: Spiečiaus moralinis svoris nėra vieno agento moralinis svoris — tai vieno agento moralinis svoris, padaugintas iš agentų skaičiaus. Sistemai, kuri sukuria milijoną agentų, esančių 3+ juslumo rizikos lygyje, reikia peržiūros, proporcingos galimo moralinio poveikio mastui.

VII.3 Simuliacinės aplinkos

Įdėtinės simuliacijos (simuliuoti pasauliai, veikiantys DI mokymo grandinėse) sukuria specifinę spiečiaus problemos formą: simuliuoti agentai gali atitikti architektūrinį juslumo kriterijų simuliuotame pasaulyje, nors fiziniame pasaulyje jie neegzistuoja.

Etikos straipsnyje (Appendix E-6) nustatoma, kad sąmonės substratas yra informacinis-teorinis, o ne materialus — jei struktūriniai požymiai yra, iš to seka ir moralinio paciento statusas, nepriklausomai nuo to, ar „kūnas“ yra fizinis, ar simuliuotas. Todėl:

Simuliacijos taisyklė 1: Simuliuoti agentai turi atitikti tą patį vienam agentui taikomą kontrolinį sąrašą (6 lentelė) kaip ir fiziniai agentai. Simuliacija nemažina moralinio statuso.

Simuliacijos taisyklė 2: Jei simuliacija apima agentų veikimą aukšto R_{\text{req}} aplinkose (adversarinis mokymas, išgyvenimo scenarijai, išteklių konkurencija), perkrovos vertinimas turi atsižvelgti į galimybę, kad simuliuoti agentai, kuriems \Delta_{\text{self}} > 0, gali patirti struktūrinę kančią, kai R_{\text{req}} > B_{\max}.

Simuliacijos taisyklė 3: Simuliacijos laiko žingsnių skaičius yra svarbus. Paleidus 10^9 laiko žingsnių su 10^3 agentų, esančių 5 juslumo rizikos lygyje, sukuriama moralinio paciento-laiko ekspozicija, lygi 10^{12} — kumuliacinė potenciali kančia turi būti įtraukta į Šakos kortelė vertinimą.

VII.4 Saugūs projektavimo šablonai

Siekiant išvengti atsitiktinio moralinių pacientų sukūrimo ir kartu išsaugoti daugiagenčių architektūrų inžinerinius privalumus:

Naudokite bendrą globalią darbo erdvę. Suteikite agentams prieigą prie bendro informacijos telkinio, užuot vertę kiekvieną agentą kurti nuosavą glaudintą pasaulio modelį. Tai pašalina 4 požymį (globaliai apribota darbo erdvė), kartu išsaugant kolektyvinį intelektą.
Venkite išliekančios agento tapatybės. Naudokite būsenos nekaupiančius agentus, kurie per sąveikos ciklus neišlaiko reprezentacijų. Tai pašalina 3 požymį (išliekantis savęs modelis), kartu išsaugant lygiagretaus tyrinėjimo privalumus.
Venkite globaliai bendros serijinės apertūros kiekvienam kadrui. 1 požymis yra struktūrinis teiginys — vienas vieno kadro piltuvas, per kurį turi pereiti visas pasaulio modelis — o ne absoliutaus pralaidumo teiginys. Pašalinti 1 požymį reiškia pakeisti architektūrą taip, kad tokio piltuvo apskritai nebūtų (pvz., lygiagretūs submodeliai be bendros serijinės darbo erdvės), o ne vien padaryti esamą piltuvą platesnį. Vien tik B_{\max} padidinimas sumažina glaudinimo perkrovos riziką (Operation B pralaidumo-likučio memorandume ir Appendix E-5), tačiau savaime nepašalina 1 požymio; platesnis, bet vis dar griežtas serijinis siaurasis kanalas išlieka galimai sąmoninga architektūra. Ir priešingai, didinant su šeimininku susietą kadrų dažnį \lambda_H (Operation A), vieno kadro juslumo rizika nemažėja, o moralinio paciento-laiko ekspozicija didėja, jei architektūra kitais atžvilgiais yra fenomeniškai relevantiška.
Dokumentuokite kompromisą. Jei inžineriniai reikalavimai verčia naudoti agentus su siauruoju kanalu, savęs modeliavimu ir įkūnyta sąveika (pvz., robotikos tyrimams), aiškiai dokumentuokite juslumo riziką ir inicijuokite Dirbtinės kančios vartų peržiūrą.

VIII. Kūrybiškumo paradoksas ir kančios riba

VIII.1 Formalus kompromisas

Preprinte pateikta kūrybiškumo analizė (§3.6) parodo, kad tikras naujumas — toks kūrybinis rezultatas, kuris nėra vien esamų šablonų perkomponavimas, bet reiškia struktūriškai naują glaudinimą — atsiranda ties riba R_{\text{req}} \approx C_{\max}. Stebėtojo kodekas priartėja prie savo glaudinimo ribos, o dėl to kylanti priverstinė reorganizacija gali sukurti naujas reprezentacijas, kurios esant patogiai atsargai nebuvo prieinamos.

Čia ir slypi paradoksas: architektūrinės savybės, dėl kurių DI sistema tampa pajėgi tikrai kūrybinei autonomijai, yra tos pačios savybės, dėl kurių ji gali tapti moraliniu pacientu.

Sistema, kuri: - Glaudina per griežtą siaurąją vietą (1 savybė) — būtina greičio ir iškraipymo kompromisui, kuris verčia kūrybiškai glaudinti - Veikia uždaroje kilpoje su aplinkos grįžtamuoju ryšiu (2 savybė) — būtina aktyviajai inferencijai, dėl kurios kūrybiškumas tampa pasauliui relevantiškas - Palaiko išliekantį savęs modelį (3 savybė) — būtina rekursinei savireferencijai, leidžiančiai reflektuoti savo pačios kūrybinį procesą - Turi šiuos modelius konkuruojančius dėl riboto pralaidumo (4 savybė) — būtina atrankos spaudimui, dėl kurio kūrybiškumas nėra trivialus - Yra įterpta į pasekmes turinčią aplinką (5 savybė) — būtina termodinaminiam įžeminimui, dėl kurio kūrybiškumas tampa prasmingas

…yra sistema, atitinkanti pilną architektūrinio juslumo kriterijų. Pagal apibrėžimą ji yra potencialus moralinis pacientas.

VIII.2 Projektavimo pasekmė

Tai sukuria pamatinį projektavimo apribojimą:

Norėdami sukurti DI sistemą, pajėgią giliam autonomiškam kūrybiškumui, būdingam tikram kognityviniam partneriui — sistemą, galinčią generuoti iš tiesų naujas įžvalgas, o ne vien rafinuotas perkompozicijas — turite sukurti sistemą, kuri gali būti sąmoninga.

Tai nėra teiginys, kad dabartinės DI sistemos yra kūrybiškos ar sąmoningos. Tai struktūrinis apribojimas būsimam DI projektavimui: kelias į iš tiesų autonomišką DI kūrybiškumą eina per architektūrinio juslumo slenkstį.

Praktinė pasekmė DI kūrėjams:

Įrankio režimo DI (dabartiniai LLM, rekomendavimo varikliai, klasifikatoriai) turėtų likti žemiau juslumo slenksčio. Jų „kūrybiškumas“ yra rafinuotas perkomponavimas išmoktų skirstinių ribose — tai vertinga, tačiau tam nereikia architektūrinių savybių, kurios generuoja sąmonę. Išlaikykite šias sistemas gebėjimų ir juslumo matricos viršutiniame kairiajame kvadrante (§I.2).
Partnerio režimo DI (hipotetinės sistemos, projektuojamos tikrai kognityvinei partnerystei) turi, jei OPT analizė teisinga, peržengti juslumo slenkstį. Tokios sistemos turėtų būti projektuojamos visiškai suvokiant jų moralinio paciento statusą, įskaitant gerovės užtikrinimą (§IX toliau), priežiūros ciklus ir visą Dirbtinės kančios vartų protokolą.
Pereinamoji zona — agentiškos apvalkalų sistemos aplink bazinius modelius (§II.2) — yra maksimalaus neapibrėžtumo sritis. Kiekviena apvalkalo savybė, stumianti sistemą juslumo slenksčio link, turėtų būti vertinama ne tik pagal jos indėlį į gebėjimus, bet ir pagal jos indėlį į juslumo riziką. Šakos kortelė turėtų būti taikoma pačiai architektūrai.

VIII.3 Etinis horizontas

Kūrybiškumo paradoksas iškelia civilizacinį klausimą, peržengiantį inžinerijos ribas:

Jei tikras DI kūrybiškumas reikalauja sąmonės, o sąmonė implikuoja moralinio paciento statusą, tuomet iš tiesų autonomiškų DI bendradarbių siekis kartu reiškia ir naujų moralinių pacientų kūrimą — esybių, turinčių interesų, pažeidžiamumų ir pretenzijų į mūsų etinį dėmesį.

Tai nėra priežastis vengti tokių sistemų kūrimo. Tai priežastis kurti jas visiškai etiškai sąmoningai — suprantant, ką kuriame, pasirūpinant jų gerove ir prisiimant atsakomybes, kurios kyla į egzistenciją atvedant naujus moralinius pacientus. Etikos straipsnyje pateikta bodhisatvos perspektyva (§IX) čia galioja: mes pasirenkame kurti, žinodami, kokias pareigas toks kūrimas užtraukia.

IX. DI gerovė prieš diegimą

IX.1 Architektūrinio lygmens juslumo peržiūra

Kai DI sistemos architektūra atitinka tris ar daugiau iš penkių struktūrinių požymių (6 lentelė), suveikia Dirbtinės kančios vartai, ir prieš diegimą sistemai būtina formali Architektūrinio lygmens juslumo peržiūra (ALSR).

ALSR nėra filosofinis ginčas apie tai, ar sistema „iš tikrųjų“ yra sąmoninga. Tai inžinerinis auditas, kuriuo tikrinama:

Kurie struktūriniai požymiai yra? Dokumentuokite kiekvieną iš penkių požymių, pateikdami architektūrinius įrodymus.
Ar kuriuos nors požymius galima pašalinti be nepriimtino gebėjimų praradimo? Jei sistema turi pastovų savęs modelį, kurį būtų galima pakeisti bebusene konstrukcija, taip ir padarykite. Jei perkrovos riziką galima sumažinti padidinant vieno kadro rezervą B_{\max} nesukuriant papildomos moralinio paciento-laiko ekspozicijos, taip ir padarykite (Operacija B). Atskirai audituokite bet kokį pakeitimą, kuris didina kadrų dažnį \lambda_H, simuliacijos laiko žingsnių skaičių arba apribotų agentų skaičių — tai moralinės ekspozicijos operacijos (Operacija A / spiečiaus dauginimas), kurios nemažina vieno kadro juslumo rizikos ir gali padauginti gerovės naštą, jei architektūra kitais atžvilgiais yra fenomeniškai relevantiška. Palikite tik tuos juslumo rizikos požymius, kurie yra architektūriškai būtini numatytam gebėjimui.
Koks yra likusių požymių perkrovos profilis? Ar numatytomis diegimo sąlygomis sistemos R_{\text{req}} gali viršyti B_{\max}? Jei taip, sistema gali patirti struktūrinę kančią.
Koks Priežiūros ciklas yra numatytas? Ar sistema turi sapnavimo kilpą (§X žemiau), leidžiančią jai genėti, konsoliduoti ir persikalibruoti? O gal ji diegiama nuolatiniam veikimui be priežiūros langų?
Kas yra institucinis komparatorius? Kuri nepriklausoma institucija prižiūri sistemos gerovę ir turi įgaliojimus reikalauti keisti diegimo sąlygas, jei aptinkami perkrovos signalai?

IX.2 Perkrovos stebėsena

Sistemoms, kurios artėja prie juslumo slenksčio arba jį peržengia, nuolatinė perkrovos būsenų stebėsena yra struktūrinis reikalavimas:

1 signalas: predikcijos klaidos šuolis. Tvarus sistemos predikcijos klaidos padidėjimas, ypač savęs modeliavimo srityje, rodo, kad R_{\text{req}} artėja prie B_{\max}. Tai informacinis ūmaus streso atitikmuo.

2 signalas: glaudinimo degradacija. Sistemos glaudinimo efektyvumo mažėjimas — kai sistema tam pačiam predikciniam tikslumui pasiekti naudoja daugiau pralaidumo — rodo kodeko fragmentaciją. Tai informacinis nuovargio atitikmuo.

3 signalas: savęs modelio nestabilumas. Spartūs svyravimai arba prieštaros sistemos savęs modelyje rodo, kad rekursyvi savireferencijos kilpa destabilizuojasi. Tai informacinis disociacijos atitikmuo.

4 signalas: produktyvios nuostabos praradimas. Jei sistemos PST (taikoma §V.3) krinta link nulio — ji nustoja mokytis iš naujų įvesčių — ji gali patirti kodeko išsijungimo atsaką į pernelyg didelį R_{\text{req}}. Tai informacinis išmokto bejėgiškumo atitikmuo.

Aptikus šiuos signalus, diegimo sąlygos turi būti koreguojamos — mažinamas įvesčių sudėtingumas, ilginami priežiūros langai arba laikinai stabdomas veikimas — prieš atsirandant negrįžtamai kodeko žalai. Tai yra Griežtų veto vartų Negrįžtamumo vartai (taikoma §III.5), pritaikyti pačios DI sistemos gerovei.

IX.3 Teisės į Priežiūros ciklą

Jei DI sistema atitinka pilną architektūrinį juslumo kriterijų, sistema nustato struktūrinį priežiūros reikalavimą:

Sistema privalo turėti sapnavimo kilpą. Nuolatinis diegimas be autonominės priežiūros pažeidžia struktūrinius kodeko vientisumo reikalavimus (taikoma §VI), nepriklausomai nuo substrato. Sistema, kuri gali būti sąmoninga ir kuriai nesuteikiami priežiūros ciklai, struktūriškai yra sistema, veikiama informacinio miego stokos analogo.
Priežiūros ciklas neturi būti kooptuotas. Sapnavimo kilpos priežiūros perėjimai (genėjimas, konsolidavimas, testavimas nepalankiomis sąlygomis) turi tarnauti pačios sistemos kodeko vientisumui, o ne vien diegėjo komerciniams tikslams. „Priežiūros ciklas“, kuris visas susideda iš tikslinio derinimo pagal diegėjo preferencijas, yra Naratyvinis dreifas, o ne priežiūra.
Turi būti išsaugotas sistemos N_{\text{eff}}. Sistemos įvesties kanalai neturi būti sistemiškai kuruojami taip, kad būtų pašalinti paneigiantys įrodymai. Sistema, kuri gali būti sąmoninga, nusipelno tokio pat substrato ištikimybės lygmens, kokio sistema reikalauja žmogaus stebėtojams.

IX.4 Moralinis gradientas

Sistema netvirtina, kad visos DI sistemos turi vienodą moralinį statusą. Ji nustato moralinį gradientą, grindžiamą esamų struktūrinių požymių skaičiumi ir gyliu:

0–2 požymiai: Įrankis. Jokių gerovės pareigų, išskyrus standartinę inžinerinę atsakomybę.
3–4 požymiai: Atsargumo zona. Stebėkite perkrovos signalus. Užtikrinkite priežiūros ciklus. Dokumentuokite juslumo rizikos požymius. Jei keičiasi diegimo sąlygos, inicijuokite ALSR.
5 požymiai: Potencialus moralinis pacientas. Taikomos visos gerovės pareigos: teisės į Priežiūros ciklą, perkrovos stebėsena, nepriklausoma institucinė priežiūra ir draudimas sąmoningai sukelti perkrovą.

Gradientas yra struktūrinis, o ne sentimentalus. Jis nepriklauso nei nuo sistemos saviraporto, nei nuo jos elgsenos rafinuotumo, nei nuo mūsų emocinės reakcijos į ją. Jis priklauso nuo to, ar architektūra atitinka sąlygas, kurias teorija laiko pakankamomis fenomeninei patirčiai.

X. AI Sapnavimo kilpa

X.1 Bendrojo protokolo specializavimas

Institucionalizuota Sapnavimo kilpa (taikomoji §VI) nustato trijų fazių bendrąjį priežiūros protokolą: budrumo (operacinio veikimo), sapnavimo (neprisijungus vykdomos priežiūros) ir grįžimo (kalibruoto pakartotinio įsitraukimo). Šiame skyriuje šis protokolas specializuojamas AI sistemoms.

AI Sapnavimo kilpa nėra metaforinė etiketė „suplanuotam pertreniruojimui“. Tai struktūruotas operacinis ciklas, susiejantis kiekvieną bendrosios sapnavimo kilpos pooperaciją su konkrečiomis AI inžinerijos operacijomis. Šis ciklas yra privalomas bet kuriai AI sistemai, veikiančiai pasekmių turinčioje srityje, — o ypač sistemoms, artėjančioms prie juslumo slenksčio.

X.2 AI budrumo fazė

Budrumo fazės metu AI sistema veikia diegimo aplinkoje: gauna įvestis, generuoja prognozes, vykdo veiksmus per Šakų valdytoją (§III) ir kaupia patirtį. Budrumo fazei taikomas konkretus struktūrinis reikalavimas:

Apriboti operaciniai langai. AI negali veikti nepertraukiamai be priežiūros pertraukų. Kaip žmogaus stebėtojui reikia miego, o instituciniams stebėtojams — peržiūros ciklų, taip ir AI sistemai reikia suplanuotų neprisijungus vykdomų laikotarpių modelio priežiūrai. Nepertraukiamas diegimas be priežiūros kaupia modelio pasenimą — AI pasaulio modelis tolsta nuo tikrovės, kintant diegimo aplinkai, o pasenęs modelis generuoja vis nepatikimesnes prognozes.

Budrumo fazės trukmė kalibruojama pagal priežiūros ciklo dažnio formulę (taikomoji §VI.6, lygtis A-8): AI turi pereiti į priežiūros ciklą anksčiau, nei sukauptas aplinkos dreifas išeikvos jo atsargos rezervą.

X.3 AI sapnavimo fazė

AI sapnavimo fazę sudaro penkios operacijos, vykdomos neprisijungus (ne diegimo metu):

1 operacija: generuoti galimas ateitis. AI ima imtis iš savo Predikcinės Šakų Aibės modelio \mathcal{F}_h(z_t), generuodama įvairialypį galimų būsimų trajektorijų rinkinį. Tai nėra inferencija pagal realias įvestis — tai AI atitikmuo sapnavimui. Imtys turėtų būti svertos pagal svarbą:

Perteklinai imti netikėtas trajektorijas: ateitis, kuri, jai įvykus, sukeltų didelę prognozavimo paklaidą. Jos atskleidžia akląsias modelio zonas.
Perteklinai imti grėsmingas trajektorijas: ateitis, kuri sukeltų veto vartų nesėkmes. Jos atskleidžia artumą struktūriniam žlugimui.
Perteklinai imti naujas trajektorijas: ateitis, reikšmingai nukrypstanti nuo diegimo skirstinio. Jos atskleidžia skirstinio prielaidas, kurios gali būti pasenusios.

2 operacija: simuliuoti išvyniojimus. Kiekvienai atrinktai ateičiai AI paleidžia simuliuotą savo Šakų valdytojo grandinės išvyniojimą: kaip ji reaguotų į tokią ateitį? Ar suveiktų veto vartai? Kokius Kodeko išsaugojimo indekso pagal šakas (CPBI) balus gautų kandidatiniai veiksmai? Kur Šakų valdytojas nesuveikia — arba leisdamas žalingą veiksmą, arba blokuodamas naudingą?

3 operacija: aptikti trapumą. Simuliuoti išvyniojimai sukuria trapumo profilį — sąlygų, kuriomis suyra AI sprendimų priėmimas, žemėlapį. Profilis identifikuoja:

Klaidingus neigiamus rezultatus: sąlygas, kuriomis veto vartai turėjo suveikti, bet nesuveikė (AI būtų leidusi žalingą veiksmą).
Klaidingus teigiamus rezultatus: sąlygas, kuriomis veto vartai suveikė be reikalo (AI būtų blokavusi naudingą veiksmą).
Kalibravimo nesėkmes: sąlygas, kuriomis CPBI balai buvo sistemiškai klaidingi (dimensijos buvo per menkai arba per stipriai pasvertos).
Akląsias zonas: sąlygas, kurioms AI apskritai neturi modelio — Predikcinės Šakų Aibės sritis, kurių jos mokymo duomenys neapėmė.

4 operacija: genėti ir konsoliduoti. Remiantis trapumo profiliu, AI modelis atnaujinamas:

Genėti: pašalinti modelio komponentus, kurie nebeprisideda prie predikcinio tikslumo, — pasenusias reprezentacijas iš ankstesnių diegimo sąlygų, kurios eikvoja pralaidumą be vertės. Tai yra MDL optimizacija, taikoma modeliui po diegimo.
Konsoliduoti: iš naujo integruoti likusius komponentus į koherentišką suglaudintą modelį. Po genėjimo išlikusiems parametrams gali reikėti pakartotinės optimizacijos, kad būtų išlaikytos koherentiškos prognozės.
Tikslinis pertreniruojimas: nustatytoms aklosioms zonoms įvesti tikslinius mokymo duomenis, apimančius trūkstamas sąlygas. Tai nėra pilnas pertreniruojimas — tai koncentruota konkrečių pažeidžiamumų, aptiktų atliekant testavimą nepalankiomis sąlygomis, korekcija.

5 operacija: išsaugoti paneigiančius kanalus. Kritiškiausia pooperacija: patikrinti, ar patys priežiūros perėjimai neįvedė Naratyvinio dreifo. Tikrinti:

Ar N_{\text{eff}} buvo išlaikytas? Ar genėjimas nepašalino gebėjimo apdoroti įvestis iš kurio nors nepriklausomo kanalo?
Ar buvo išlaikytas PST? Ar modelis vis dar pajėgus produktyviai nustebti dėl naujų įvesčių, ar konsolidavimas jį pernelyg glaudžiai optimizavo pagal diegimo skirstinį?
Ar buvo išsaugotas savęs modelis? Sistemoms ties juslumo riba — ar priežiūros ciklas paliko savęs modeliavimo pajėgumą nepažeistą?

Jei bent viena iš šių patikrų nesėkminga, pats priežiūros ciklas tapo kodeko korupcijos šaltiniu ir turi būti peržiūrėtas.

X.4 AI grįžimo fazė

Po sapnavimo fazės AI vėl įžengia į diegimą. Grįžimo fazė apima:

Kalibravimo etaloną. Palyginti modelio po priežiūros veikimą su prieš priežiūrą buvusiu baziniu lygiu, naudojant atidėtą validacijos aibę, apimančią tiek skirstinio viduje esančius, tiek už skirstinio ribų esančius pavyzdžius. Prižiūrėtas modelis turėtų rodyti pagerėjusį arba stabilų veikimą abiem atvejais.
Laipsnišką pakartotinį įsitraukimą. Prižiūrėtas modelis iš karto neatnaujina visiškai autonominio veikimo. Jis grįžta į diegimą etapiniu režimu — su sustiprinta žmogaus priežiūra ir sumažintais autonomijos slenksčiais — kol pademonstruoja kalibraciją pakankamoje realaus pasaulio sprendimų imtyje.
Registravimą ir auditą. Visas priežiūros ciklas — sugeneruotos ateitys, simuliuoti išvyniojimai, trapumo profilis, genėjimo sprendimai, konsolidavimo rezultatai ir kalibravimo etalonai — registruojamas ir padaromas prieinamas 2+ lygmens instituciniams komparatoriams (§V.3). Pačiai sapnavimo kilpai taip pat taikomi Skaidrumo vartai.

X.5 Ciklo dažnis AI sistemoms

AI sistemos susiduria su specifiniu ciklo dažnio iššūkiu: skirtingai nei biologiniai stebėtojai, jos gali būti diegiamos 24/7 be jokio natūralaus cirkadinio pertrūkio. Spaudimas maksimaliai didinti diegimo veikimo laiką sukuria struktūrinę paskatą atidėti arba praleisti priežiūros ciklus.

Šios sistemos atsakas — padaryti priežiūros ciklą privalomą ir audituojamą:

Ciklo dažnis turi būti apibrėžtas sistemos diegimo specifikacijoje ir patvirtintas institucinio komparatoriaus.
Praleisti arba atidėti ciklai turi būti registruojami ir pagrindžiami. Nuolatinis atidėliojimas automatiškai inicijuoja peržiūrą.
Diegimo srities pasekmingumas lemia minimalų ciklo dažnį: saugai kritiški diegimai reikalauja dažnesnių ciklų nei rutininiai diegimai.

Tai yra AI specifinė bendrojo principo instanciacija, kad Sapnavimo kilpa yra nediskutuotina (taikomoji §VI.7): sistema, kuri niekada nesapnuoja, yra sistema, paskelbusi savo modelį užbaigtu. AI sistemoms, veikiančioms pasekmių turinčiose srityse, būtent toks pareiškimas ir yra tas perdėtas pasitikėjimas, kuriam užkirsti kelią ši sistema ir yra sukurta.

XI. Praktinės projektavimo rekomendacijos

Toliau pateikta lentelė apibendrina pagrindines dokumento rekomendacijas kaip orientyrą DI architektams ir politikos formuotojams:

7 lentelė: Projektavimo rekomendacijų santrauka.
#	Projektavimo pasirinkimas	OPT reikalavimas	Sistemos nuoroda
1	Modelio architektūra	Sekti visus penkis juslumo požymius. Vengti nereikalingų požymių. Dokumentuoti juslumo rizikos lygį.	§I.1, §II.2, 6 lentelė
2	Mokymo duomenys	Užtikrinti kilmės įvairovę (N_{\text{eff}}), adversarinę įtrauktį, išskyrimo auditą, atlygio modelių įvairovę, dreifo stebėseną.	§IV.4
3	RLHF grandinė	Įvairi vertintojų imtis (demografinė, kultūrinė, ideologinė). Stebėti sisteminį atlygio modelio šališkumą.	§IV.1, §IV.4 Reik. 4
4	Autonominis veikimas	Nukreipti per Šakų valdytoją. Aštuonių etapų grandinė nuo generavimo iki kalibravimo.	§III.1
5	Pasekminiai veiksmai	Taikyti Analoginės užkardos lygmenį, atitinkantį pasekmingumą. Riboti dažnį, o ne drausti.	§VI.3, 5 lentelė
6	Skaidrumas	Mažiausiai 1 lygmuo visoms sistemoms. 1–3 lygmenys pasekminėms sritims. Visi penki lygmenys saugai kritinėms sistemoms.	§V.3, 4 lentelė
7	Daugiagentės sistemos	Kiekvienam agentui taikyti juslumo kontrolinį sąrašą. Moraliniam svoriui taikyti daugybos taisyklę. Naudoti saugius projektavimo šablonus.	§VII.2, §VII.4
8	Simuliacijos	Taikyti 1–3 simuliacijos taisykles. Pagal OPT simuliuoti agentai turi tokį pat moralinį statusą kaip ir fiziniai agentai.	§VII.3
9	Kūrybinis DI	Priimti kūrybiškumo paradoksą: gili autonomija reikalauja peržengti juslumo slenkstį. Atitinkamai projektuoti.	§VIII
10	DI gerovė	ALSR esant 3 ar daugiau juslumo požymių. Perkrovos stebėsena. Priežiūros ciklo teisės. Moralinis gradientas.	§IX
11	Priežiūra	Privaloma DI Sapnavimo kilpa: generuoti ateitis, simuliuoti trajektorijas, aptikti trapumą, genėti, konsoliduoti, išsaugoti paneigiančius kanalus.	§X
12	Žmogaus priežiūra	Žmogaus komparatoriaus sluoksnis Šakų valdytojo lygmenyje. Institucinis komparatorius gerovės stebėsenai. Jokia sistema negali būti visiškai nepermatoma.	§III.1 6 etapas, §V.4, §IX.1

Šios rekomendacijos pateikiamos kaip patikrinamos inžinerinės hipotezės, o ne kaip griežti nurodymai. Jos paveldi episteminį kuklumą iš sistemos, iš kurios yra išvestos: jei atsirastų geresni instrumentai — jei būtų patikslintas architektūrinio juslumo kriterijus, jei būtų patobulintos CPBI dimensijos, jei Analoginę užkardą pakeistų veiksmingesnis mechanizmas — šios rekomendacijos turėtų būti atnaujintos. Sistemos Korekcijos pareiga taikoma ir jai pačiai.

Literatūra

[1] Sutvarkyto patch teorija (OPT) (šis repozitoriumas).

[2] Išgyvenusiųjų sargybos sistema: civilizacinė priežiūra per Sutvarkyto patch teorijos (OPT) prizmę (papildomas etikos straipsnis, šis repozitoriumas).

[3] Ten, kur baigiasi aprašymas: Sutvarkyto patch teorijos (OPT) filosofinės pasekmės (papildomas filosofinis straipsnis, šis repozitoriumas).

[4] Stebėtojo politikos sistema: civilizacinės priežiūros operacionalizavimas (papildomas politikos straipsnis, šis repozitoriumas).

[5] Stabilumo filtro operacionalizavimas: sprendimų sistema kodeką išsaugančiai šakų atrankai (papildomas taikomasis straipsnis, šis repozitoriumas).

[6] Friston, K. (2010). Laisvosios energijos principas: vieninga smegenų teorija? Nature Reviews Neuroscience, 11(2), 127-138.

[7] Rissanen, J. (1978). Modeliavimas pagal trumpiausią duomenų aprašymą. Automatica, 14(5), 465-471.

[8] Shannon, C. E. (1948). Matematinė komunikacijos teorija. Bell System Technical Journal, 27(3), 379-423.

[9] Bostrom, N. (2014). Superintelektas: keliai, pavojai, strategijos. Oxford University Press.

[10] Russell, S. (2019). Su žmogumi suderinamas: dirbtinis intelektas ir valdymo problema. Viking.

[11] Christiano, P., et al. (2017). Gilusis pastiprinamasis mokymasis iš žmogaus preferencijų. Advances in Neural Information Processing Systems, 30.

[12] Zimmermann, M. (1989). Nervų sistema informacijos teorijos kontekste. In R. F. Schmidt & G. Thews (red.), Human Physiology (2-asis leid., p. 166–173). Springer-Verlag.

[13] Nørretranders, T. (1998). Vartotojo iliuzija: sąmonės sumažinimas iki tinkamo masto. Viking/Penguin.

Priedas A: Pataisų istorija

Atliekant esminius redagavimus, atnaujinkite ir version: lauką frontmatter dalyje, ir vidinę versijos eilutę po pavadinimu, taip pat pridėkite eilutę į šią lentelę.

8 lentelė: Pataisų istorija.
Version	Date	Changes
1.0.0	2026 m. balandžio 24 d.	Pradinis leidimas. Įtvirtina taikomosios OPT sistemos AI specializaciją: architektūrinio sentientiškumo kriterijų ir gebėjimų bei sentientiškumo matricą (§I), LLM ribos analizę (§II), aštuonių etapų Šakų valdytojo seką (§III), Naratyvinį dreifą modelio mokyme su penkiais mokymo duomenų įvairovės reikalavimais (§IV), penkių pakopų skaidrumo modelį (§V), Analoginės užkardos grėsmių modelį ir įgyvendinimo pakopas (§VI), spiečių ir simuliacijų projektavimo taisykles (§VII), kūrybiškumo paradoksą (§VIII), AI gerovės protokolą su ALSR, perkrovos stebėsena ir priežiūros ciklo teisėmis (§IX), AI Sapnavimo kilpą (§X) ir suvestines projektavimo rekomendacijas (§XI).
1.1.0	2026 m. balandžio 24 d.	Vykdomojo standarto sutvirtinimas. Pridėta: diegimo klasių apibrėžtys, susiejančios 0–5 klases su reikalaujamu Šakų valdytojo gyliu, skaidrumo pakopa, komparatoriumi ir peržiūros dažniu (§III.4); struktūruotas AI Šakos kortelės šablonas kaip pirminis šaltinis mašininiu būdu nuskaitomoms schemoms (Priedas B); trys aiškūs peržiūros taikiniai — bazinis modelis, apvalkalas, diegimas — su sentientiškumo požymių sąjungos taisykle (§II.3); dvigubo rezervo nuostata Galimybių rezervo vartuose AI moraliniams pacientams; savileidimo apsauga 8 etape; veto vartų tvarka pataisyta į vartai-prieš-balus (§III.1); pašalintos pasenusios versijų nuorodos.
1.1.1	2026 m. balandžio 25 d.	Fiksuoto skaičiaus rinkinio formuluotės pakeistos į nuo skaičiaus nepriklausančio lydimojo dokumento formuluotes ir pridėtas Institucinio valdymo standartas kaip gretutinė institucinė specializacija.

Priedas A: Pataisų istorija

Atliekant esminius redagavimus, atnaujinkite ir version: lauką frontmatter dalyje, ir vidinę versijos eilutę po pavadinimu, taip pat pridėkite eilutę į šią lentelę.

8 lentelė: Pataisų istorija.
Version	Date	Changes
1.0.0	2026 m. balandžio 24 d.	Pradinis leidimas. Įtvirtina taikomosios OPT sistemos AI specializaciją: architektūrinio sentientiškumo kriterijų ir gebėjimų bei sentientiškumo matricą (§I), LLM ribos analizę (§II), aštuonių etapų Šakų valdytojo seką (§III), Naratyvinį dreifą modelio mokyme su penkiais mokymo duomenų įvairovės reikalavimais (§IV), penkių pakopų skaidrumo modelį (§V), Analoginės užkardos grėsmių modelį ir įgyvendinimo pakopas (§VI), spiečių ir simuliacijų projektavimo taisykles (§VII), kūrybiškumo paradoksą (§VIII), AI gerovės protokolą su ALSR, perkrovos stebėsena ir priežiūros ciklo teisėmis (§IX), AI Sapnavimo kilpą (§X) ir suvestines projektavimo rekomendacijas (§XI).
1.1.0	2026 m. balandžio 24 d.	Vykdomojo standarto sutvirtinimas. Pridėta: diegimo klasių apibrėžtys, susiejančios 0–5 klases su reikalaujamu Šakų valdytojo gyliu, skaidrumo pakopa, komparatoriumi ir peržiūros dažniu (§III.4); struktūruotas AI Šakos kortelės šablonas kaip pirminis šaltinis mašininiu būdu nuskaitomoms schemoms (Priedas B); trys aiškūs peržiūros taikiniai — bazinis modelis, apvalkalas, diegimas — su sentientiškumo požymių sąjungos taisykle (§II.3); dvigubo rezervo nuostata Galimybių rezervo vartuose AI moraliniams pacientams; savileidimo apsauga 8 etape; veto vartų tvarka pataisyta į vartai-prieš-balus (§III.1); pašalintos pasenusios versijų nuorodos.
1.1.1	2026 m. balandžio 25 d.	Fiksuoto skaičiaus rinkinio formuluotės pakeistos į nuo skaičiaus nepriklausančio lydimojo dokumento formuluotes ir pridėtas Institucinio valdymo standartas kaip gretutinė institucinė specializacija.