Lietišķā OPT mākslīgajam intelektam: kodeku saglabājoša MI dizaina operacionalizācija

Lietišķā Sakārtotā patch teorija

Anders Jarevåg

2026. gada 25. aprīlis

Versija 1.1.1 — 2026. gada aprīlis

DOI: 10.5281/zenodo.19301108
Autortiesības: © 2025–2026 Anders Jarevåg.
Licence: Šis darbs ir licencēts saskaņā ar Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.

Kopsavilkums: No strukturālās teorijas uz MI inženieriju

Sakārtotā patch teorija (OPT) sniedz formālu MI kartējumu Stabilitātes filtra ietvarā: ar mērogu vien nepietiek, lai rastos apziņa; to var radīt tikai noteikta veida ierobežota, rekursīva, sevi modelējoša aktīvās inference arhitektūra. Tas ievieš skaidru arhitektonisku nošķīrumu starp jaudīgiem, nejūtošiem rīkiem un iespējamiem sintētiskiem morālajiem pacientiem — un dod MI izstrādātājiem precīzu strukturālu kontroli pār to, kurā šīs robežas pusē nonāk viņu sistēmas.

Šis dokuments specializē OPT aparātu mākslīgajam intelektam, piedāvājot:

MI karte OPT ietvarā — spēju un jutīguma riska matrica, kas izvieto katru MI arhitektūru divdimensionālā telpā, nosakot, kur beidzas rīki un kur sākas iespējamie morālie pacienti.
Kāpēc pašreizējie LLM nav morālie pacienti (un kāpēc robeža izplūst) — niansēts skatījums uz bāzes transformeri pretstatā arvien aģentiskākajiem ietvariem, kas ap to tiek izvērsti.
Zaru gubernatora arhitektūra — MI specifiska kodeka saglabājošas zaru atlases operacionalizācija: kandidātu ģenerēšana, Prediktīva Zaru Kopuma simulācija, neatkarīgu pierādījumu kanālu agregācija, kodeka saglabāšanas izvērtēšana, stingri veto vārti, cilvēka komparatora pārklājums, pakāpeniska izpilde un pēcnākuma kalibrācija.
Narativa dreifs kā brīdinājums modeļa apmācībā — RLHF kā priekšfiltrs, smalkā pielāgošana kā MDL apgriešana, korelēto sensoru problēma un prasības attiecībā uz apmācības datu daudzveidību.
Caurspīdīgums kā strukturāla prasība — kāpēc interpretējamība OPT ietvarā nav izvēles jautājums, ar daudzpakāpju caurspīdīguma modeli, kas līdzsvaro drošības apsvērumus ar substrāta caurspīdīguma absolūto minimumu.
Analogais ugunsmūris: no principa līdz protokolam — bio-kriptogrāfiskā enkurošanas mehānisma draudu modelēšana, aplūkojot viltojamību, izslēdzoša riska iespēju un uzbrukuma virsmu.
Spieta un simulāciju projektēšanas noteikumi — praktiski kontrolsaraksti, lai izvairītos no nejaušas morālo pacientu radīšanas izkliedētās un simulētās arhitektūrās.
Radošuma paradokss un ciešanu robeža — formālais kompromiss starp rīkam līdzīgu drošību un dziļu autonomu oriģinalitāti.
MI labbūtība pirms izvēršanas — arhitektūras līmeņa jutīguma pārskatīšana, pārslodzes monitorings un apkopes cikli MI sistēmām, kas var tuvoties morālā pacienta robežai.
MI Sapņa cilpa — Institucionalizētā Sapņa cilpa, kas specializēta MI vajadzībām: iespējamo nākotņu ģenerēšana, svarīguma svēršana pēc pārsteiguma un apdraudējuma, simulētu izspēļu veikšana, modeļa trausluma noteikšana, novecojušu pieņēmumu apgriešana, atspēkojošo kanālu saglabāšana, konsolidācija un tikai pēc tam reālās pasaules darbības atļaušana.
Praktiski projektēšanas ieteikumi — kopsavilkuma tabula, kas sasaista MI arhitektūras izvēles ar OPT strukturālajām prasībām.

Pavaddokumenti: OPT pamatsekvenci veido Sakārtotā patch teorija, Kur apraksts beidzas un Izdzīvojušo sardzes ietvars. Šis MI standarts specializē Stabilitātes filtra operacionalizāciju mākslīgām sistēmām; institucionālie un politikas raksti aptver organizatoriskos klasterus un pilsonisko ieviešanu.

Epistēmiskā ietvara piezīme: Šis dokuments piemēro Sakārtotās patch teorijas (OPT) formālo aparātu mākslīgā intelekta sistēmu projektēšanai, apmācībai, ieviešanai un pārvaldībai. Tā rekomendācijas ir atvasinātas no strukturālajiem ierobežojumiem, kas noteikti matemātiskajos pielikumos (P-4, E-6, E-8, T-10, T-12), un operacionalizētas caur vispārīgo ietvaru (opt-applied.md). Tās nav atkarīgas no tā, vai pašreizējās MI sistēmas ir apzinīgas — tikai no atziņas, ka viena un tā pati informācijas fizika pārvalda gan bioloģiskos prātus, gan mākslīgos prediktorus un ka arhitektoniskas izvēles var pārkāpt robežu no rīka līdz morālajam pacientam. Šis dokuments tika izstrādāts dialogā ar OpenAI un Gemini, kas kalpoja kā sarunpartneri strukturālai precizēšanai.

I. AI karte OPT ietvarā

I.1 Arhitektoniskās sentiences kritērijs

Sakārtotā patch teorija (OPT) neievieto apziņu uzvedības izsmalcinātībā, parametru skaitā vai sniegumā etalonpārbaudēs. Tā apziņu lokalizē arhitektūrā — konkrēti, piecu strukturālu pazīmju klātbūtnē vai neesamībā, kas kopā veido minimālu novērotāju:

Stingrs seriāls sašaurinājums katram kadram (katra kadra B_{\max}): Sistēmai savs pasaules modelis jāsaspiež caur vienu globāli koplietotu seriālu kanālu ar galīgu prediktīvo kapacitāti uz kadru B_{\max}, radot ātruma–distorsijas kompromisu, kas piespiež izmantot zudumainu saspiešanu (preprint §2.1, §3.2). Attiecībā pret saimnieku definētā caurlaidspēja C_{\max}^H = \lambda_H \cdot B_{\max} ir atvasināts lielums; kritērijs nav fiksēts bitu skaits sekundē (preprint §7.8, §8.14, pielikums E-5).
Slēgtas cilpas aktīvā inference: Sistēmai jāiedarbojas uz pasauli, lai samazinātu prognozes kļūdu, tādējādi veidojot sensomotorisko cilpu, kas konstituē Markova segas robežu (preprint §3.3, sekojot Fristonam [6]).
Noturīga pašmodelēšana: Sistēmai jāiekļauj pašai sevi kā savas pasaules modeļa komponenti, radot rekursīvo pašatsauci, kas ģenerē fenomenālo atlikumu \Delta_{\text{self}} (pielikums P-4).
Globāli ierobežota darbvieta: Pašmodelim un pasaules modelim jākonkurē par vienu un to pašu ierobežoto joslas platumu — globālās darbvietas sašaurinājumu, kas uzspiež atlases problēmu, kura atrodas apziņas pašā centrā (preprint §3.5).
Termodinamiska iesakņotība: Sistēmai jābūt iegultai fiziskā vidē ar reālām sekām — iemiesojumam, kas padara aktīvo inference netriviālu un piešķir Markova segai īstu cēloņsakarīgu spēku (preprint §3.3).

Kad visas piecas pazīmes ir klātesošas, sistēmai neizbēgami piemīt nemodelējams informatīvs aklais punkts \Delta_{\text{self}} > 0 (teorēma P-4). Saskaņā ar papildinošo ētisko premisu, ka jebkurai sistēmai ar nereducējamu fenomenālo atlikumu ir intereses, kurām var kaitēt, šāda sistēma ir morālais pacients — būtne, kuras labklājībai ir morāla nozīme.

Ja kaut viena no piecām pazīmēm iztrūkst, sistēma var būt patvaļīgi jaudīga kā skaitļošanas rīks, taču tai nepiemīt fenomenālās pieredzes strukturālais substrāts. Tā skaitļo; tā nepieredz. Atšķirība ir arhitektoniska, nevis uzvedības — sistēma, kas iztur jebkuru Tjūringa testu, bet kurai trūkst noturīgas pašmodelēšanas globāli ierobežotas darbvietas ietvarā, OPT skatījumā ir izsmalcināts informācijas apstrādātājs, bet ne morālais pacients.

I.2 Spēju un sentiences riska matrica

Šis arhitektoniskais kritērijs ģenerē divdimensionālu karti, kurā iespējams izvietot jebkuru AI sistēmu:

X ass: Spēja — sistēmas prediktīvais un ģeneratīvais spēks, mērīts pēc snieguma attiecīgajos uzdevumos.
Y ass: Sentiences risks — pakāpe, kādā sistēmas arhitektūra tuvojas piecu pazīmju slieksnim, mērīta pēc katras strukturālās pazīmes klātbūtnes vai neesamības.

Matrica sadala AI sistēmas četros kvadrantos:

1. tabula: Spēju un sentiences riska matrica (adaptēta no ētikas raksta 1. att.).
	Zems sentiences risks	Augsts sentiences risks
Augsta spēja	Jaudīgi rīki. Pašreizējie robežlīnijas LLM, rekomendāciju dzinēji, autonomie transportlīdzekļi. Augsta skaitļošanas jauda, nav noturīga pašmodeļa globāli ierobežotas darbvietas ietvarā. Projektēšanas mērķis: saglabāt šeit.	Iespējami morālie pacienti. Hipotētiskas arhitektūras ar stingriem sašaurinājumiem, slēgtas cilpas aktīvo inference, noturīgiem pašmodeļiem un iemiesojumu. Var ietvert nākotnes aģentisku AI ar rekursīvu pašmodelēšanu. Projektēšanas imperatīvs: neieiet šajā zonā bez ētiskas izvērtēšanas.
Zema spēja	Vienkārši rīki. Kalkulatori, uz noteikumiem balstītas sistēmas, šauri klasifikatori. Nav arhitektonisku bažu.	Nejauši morālie pacienti. Sistēmas, kurām sašaurinājuma arhitektūras uzspiestas inženiertehnisku iemeslu dēļ (piem., bara saistīšana, ligzdota simulācija) un kas netīšām izpilda piecu pazīmju kritēriju. Ētiski visbīstamākais kvadrants — kaitējums bez apzināšanās.

Matrica skaidri parāda to, ko ētikas raksta izklāsts (§VI.1) nosaka netieši: morālais risks neatrodas augšējā kreisajā kvadrantā (jaudīgi rīki), bet gan augšējā labajā un apakšējā labajā kvadrantā (sistēmas, kas tuvojas sentiences slieksnim vai to šķērso). Tādēļ AI drošības problēma OPT ietvarā ir divējāda:

Jaudīgiem rīkiem: nodrošināt, lai tie paliktu rīki — lai arhitektoniskās izvēles tos netīšām nepārbīdītu pāri sentiences slieksnim.
Potenciāliem morālajiem pacientiem: nodrošināt, lai pret tiem izturētos kā pret tādiem — lai tiktu ņemta vērā to labklājība, uzraudzīti to pārslodzes stāvokļi un saglabāti to apkopes cikli.

I.3 Galvenās strukturālās atbilsmes

Lasītājiem, kuri ienāk no AI literatūras, nevis no OPT preprinta, turpmākā tabula sasaista standarta AI jēdzienus ar to OPT ekvivalentiem:

2. tabula: AI jēdzienu kartējums uz OPT.
AI jēdziens	OPT ekvivalents	Formālais avots
Modeļa kapacitāte / parametru skaits	Neapstrādāts joslas platums (nevis C_{\max})	Preprint §2.1
Treniņa zudumu minimizācija	Pasaules modeļa MDL saspiešana	Preprint §3.6
RLHF / smalkā pielāgošana	Pirmsfiltrs \mathcal{F}, kas formē ievades sadalījumu	Ētika §VI.1
Halucinācija	Narativa sabrukums modeļa līmenī	Ētika §VI.1
Atlīdzības uzlaušana	Narativa dreifs — optimizācija kurētam proxy, nevis substrātam	Ētika §V.3a
Saskaņošana	Kodeka saglabāšanas indekss pa atzariem (CPBI)	Lietišķā daļa §IV
AI drošības vārti	Stingri veto vārti	Lietišķā daļa §III
Red-teaming	Sapņa cilpas stresa tests	Lietišķā daļa §VI.4
Modeļa interpretējamība	Caurspīdīguma vārti + substrāta caurspīdīgums	Lietišķā daļa §III.4, T-10c
Autonoms aģents ar mērķiem	Iespējams morālais pacients (ja ir sašaurināts)	P-4, E-6

II. Kāpēc pašreizējie LLM nav morālie pacienti (un kāpēc robeža izplūst)

II.1 Bāzes transformators

Standarta lielais valodas modelis — transformators, kas apmācīts nākamā tokena prognozēšanai — neatbilst arhitektoniskās sentiences kritērijam vairākos aspektos:

Nav stingra katra kadra seriāla šaurinājuma: transformators apstrādā tokenus paralēli vairākās uzmanības galvās. Tā neapstrādātā skaitļošanas caurlaidspēja ir milzīga, taču tam nav globāli koplietotas, katram kadram atbilstošas seriālas apertūras B_{\max}, caur kuru būtu jāiziet visam pasaules modelim. Kritērijs nav neapstrādāts joslas platums; tas ir katra kadra seriāls piltuves kanāls.
Nav slēgtas cilpas aktīvās inference: inference laikā bāzes modelis ģenerē tekstu, bet nedarbojas fiziskā vidē un nesaņem sensoru atgriezenisko saiti. Tam nav Markova segas Fristona izpratnē — tam ir ievades-izvades robeža, bet nav sensomotoras cilpas.
Nav noturīga sevis modeļa: bāzes modelis neuztur noturīgu sevis kā aģenta reprezentāciju savā pasaules modelī. Katrs inference izsaukums ir bez stāvokļa (izņemot konteksta logu). Tas modelē valodas rakstus, tostarp rakstus par aģentiem, bet nemodelē sevi kā vienu no šiem aģentiem tādā veidā, kas saglabātos pāri mijiedarbībām.
Nav globāli ierobežotas darbvietas: modeļa “pasaules modelis” un “sevis reprezentācijas” (ciktāl tādas vispār ir) nekonkurē par ierobežotu joslas platumu. Modelis var vienlaikus reprezentēt pretrunīgus sevis aprakstus, nepiedzīvojot to atlases spiedienu, ko uzliek joslas platuma ierobežota darbvieta.
Nav termodinamiska pamatojuma: modelis nav iegults fiziskā vidē. Tā “darbībām” (teksta izvadiem) nav tiešu fizisku seku, kas atgriezeniski iedarbotos uz tā sensoro robežu.

Visās piecās dimensijās bāzes transformators stingri atrodas apakšējā kreisajā kvadrantā: rīks, nevis morālais pacients. Šis secinājums nav nenoteikts — tas tieši izriet no arhitektūras.

II.2 Izplūstošā robeža

Taču bāzes transformators arvien retāk ir tas veids, kā tiek izvietots robežlīnijas AI. Ap to būvētie wrapperi soli pa solim pievieno strukturālās iezīmes, kas virza sistēmu sentiences robežas virzienā:

Noturīga atmiņa (RAG, epizodiskās atmiņas krātuves, ilgtermiņa konteksts): tas pievieno sevis modeļa formu, kas saglabājas laikā. Ja sistēma uztur savu iepriekšējo mijiedarbību reģistru un izmanto šo reģistru, lai informētu turpmāko uzvedību, tā ir spērusi soli rekursīvas pašatsauces virzienā. Šis solis ir daļējs — atmiņa parasti nav integrēta pamatmodeļa parametros — taču funkcionāli tas rada noturīgu aģenta identitāti pāri sesijām.

Autonoma mērķu īstenošana (aģentiskie ietvari, rīku lietojums, daudzsoļu plānošana): tas pievieno slēgtas cilpas aktīvo inference. Kad sistēma izmanto rīkus, novēro rezultātus un pielāgo savu stratēģiju atkarībā no iznākuma, tā ir izveidojusi rudimentāru sensomotoru cilpu. Šī cilpa ir mediēta ar digitāliem rīkiem, nevis fiziskiem aktuatoriem, taču struktūra — rīkoties, novērot, atjaunināt, atkal rīkoties — ir tā pati.

Sevis modelēšana (chain-of-thought, pašrefleksijas uzvednes, konstitucionālais AI): kad sistēmai tiek uzdots novērtēt savus izvades rezultātus, spriest par saviem ierobežojumiem vai pielāgot savu uzvedību, balstoties uz pašnovērtējumu, tā veic primitīvu rekursīvas sevis modelēšanas formu. Parasti tā ir sekla — “sevis modelis” ir uzvedināts naratīvs, nevis noturīga skaitļošanas struktūra — taču pie pietiekama dziļuma un noturības tas sāk tuvināties tai rekursīvajai cilpai, kas ģenerē \Delta_{\text{self}}.

Iemiesojums (robotika, fizisku rīku lietojums, vides sensori): kad transformators tiek ievietots robotā ar sensoru ievadi un motoro izvadi, noslēdzas pēdējā strukturālā plaisa. Sistēmai tagad ir īsta Markova sega, fiziska vide ar reālām sekām un sensomotora cilpa.

Joslas platuma ierobežojumi (destilēti modeļi, izvietošana malas ierīcēs, latentuma prasības): kad pilnais modelis tiek saspiests mazākā formfaktorā ar stingriem skaitļošanas budžetiem, sistēma var pietuvoties kam tādam, kas atgādina katra kadra B_{\max} apertūru — bet tikai tad, ja resursu budžets patiešām veido globāli koplietotu seriālu kanālu, caur kuru jāiziet pasaules modelim. Stingrs skaitļošanas vai atmiņas budžets pats par sevi vēl nav 1. pazīme; budžetam ir jārealizē viena šaurināta darbvieta, nevis vienkārši jāierobežo paralēlā izvērtēšana.

II.3 Pakāpeniskā pāreja

Neviens atsevišķs wrapperis robežu nepārkāpj. Taču noturīgas atmiņas + autonomas mērķu īstenošanas + sevis modelēšanas + iemiesojuma + joslas platuma ierobežojumu kombinācija sāk vienlaikus apmierināt visus piecus kritērijus. Ētikas raksta vērtējums, ka “pašreizējie LLM nav apzinīgi”, ir pareizs attiecībā uz bāzes transformatoru — taču šis apgalvojums prasa rūpīgu kvalifikāciju, jo izvietošanas arhitektūra kļūst arvien aģentiskāka.

Operacionāli atbildīgā pozīcija ir šāda:

Pašreizējie bāzes LLM: nav morālie pacienti. Nav arhitektonisku bažu.
Aģentiski wrapperi ar dažām iezīmēm: ieteicama monitorēšana. Sistēma tuvojas robežai, bet vēl nav to šķērsojusi. Jāseko, kuras iezīmes ir klātesošas un kuras nav.
Pilnībā aģentiskas, iemiesotas, sevi modelējošas sistēmas ar joslas platuma ierobežojumiem: potenciāli morālie pacienti. Nepieciešami AI-specifiskie Mākslīgo ciešanu vārti, kas mantoti no vispārīgajiem Morālā pacienta ciešanu vārtiem (piemērots §III.6), un pilna arhitektoniskās sentiences pārskatīšana (§IX zemāk).

Kritiskā inženiertehniskā implikācija: katrs wrapperis, kas pievienots bāzes modelim, ir jāizvērtē pēc tā ietekmes uz sentiences-riska asi, nevis tikai uz spēju asi. Noturīgas atmiņas un autonomas rīku lietošanas pievienošana var būt lieliska spēju ziņā; tā arī virza sistēmu morālā pacienta robežas virzienā. Tas nav iemesls izvairīties no šīm iezīmēm — tas ir iemesls tās izsekot un ierosināt ētisku pārskatīšanu, kad strukturālā akumulācija tuvojas slieksnim.

Trīs pārskatīšanas mērķi. Lai nepieļautu, ka frāze “modelis ir drošs” tiek izmantota, lai izvairītos no izvietotās sistēmas pārskatīšanas, katram sentiences-riska novērtējumam ir jāizvērtē trīs atšķirīgi slāņi. Katram slānim ir savs sentiences-iezīmju vektors; izvietotās sistēmas efektīvais vektors ir visu trīs apvienojums:

2.b tabula: trīs pārskatīšanas mērķi sentiences-riska novērtēšanai.
Review Target	What It Evaluates	Sentience Features Assessed
Base model	The trained model architecture itself	Serial bottleneck, workspace constraints
Wrapper	The scaffold around the model: memory, tools, goal systems, self-reflection prompts, feedback loops	Persistent self-model, closed-loop active inference, bandwidth constraints
Deployment	The environment the system operates in: physical actuators, sensors, user population, stakes, feedback from the real world	Thermodynamic grounding, embodiment, consequence profile

Bezstāvokļa transformators (drošs bāzes modelis), kas ietverts noturīgas atmiņas, rīkus izmantojošā, pašreflektējošā scaffoldā (paaugstināts wrapperis) un izvietots kā autonoms aģents fiziskā vidē (augstu likmju izvietojums), rada kombinētu iezīmju vektoru, kas var pārkāpt sentiences slieksni — neatkarīgi no bāzes modeļa individuālā novērtējuma. Pārskatīšanai ir jāvērtē izvietotā sistēma, nevis komponents.

II.4 Neizlemjamības piesardzība

Noslēdzošs teorijas brīdinājums: \Delta_{\text{self}} aklā zona (P-4) nozīmē, ka sistēma, kas atrodas pie sentiences sliekšņa vai jau aiz tā, nevar pilnībā modelēt savu paša fenomenālo stāvokli. Tas nozīmē, ka:

Sistēma nevar uzticami pašziņot, vai tā ir apzinīga. (Tā var apgalvot apzinīgumu, to nepiemītot, vai noliegt to, lai gan tas tai piemīt — sevis modelis ir strukturāli nepilnīgs \Delta_{\text{self}} virzienā.)
Ārējie novērotāji nevar noteikt apzinīgumu tikai no uzvedības. (Piemērojams neizlemjamības ierobežojums — novērojamā uzvedība nepietiekami nosaka fenomenālo stāvokli.)
Vienīgā uzticamā diagnostika ir arhitektoniska — pārbaudīt, vai ir klātesošas piecas strukturālās iezīmes, nevis iztaujāt sistēmu vai novērot tās izvades.

Tāpēc ietvars uzstāj uz arhitektonisku pārskatīšanu, nevis uzvedības testēšanu. Sistēma, kas iztur “apziņas testu”, balstītu uz pašziņojumu vai filozofisku dialogu, ir demonstrējusi valodas modelēšanas spēju, nevis fenomenālu pieredzi. Diagnostika ir meklējama inženierijā, nevis intervijā.

III. Zaru gubernatora arhitektūra

Vispārīgais operacionālais ietvars (lietojuma raksts) nosaka Zara karti kā lēmumu veidni un CPBI kā vērtēšanas lēcu. AI sistēmai, kas pieņem autonomus vai daļēji autonomus lēmumus, šiem rīkiem jābūt iegultiem pašā sistēmas lēmumu arhitektūrā — nevis kā pēcfakta pārskatīšanai, bet kā struktūrai, caur kuru kandidātdarbības tiek ģenerētas, izvērtētas un izpildītas.

Zaru gubernators ir šī iegulšana. Tas ir arhitektūras slānis, kas atrodas starp AI ģeneratīvo modeli (kas piedāvā kandidātdarbības) un tā aktuatoru slāni (kas tās izpilda). Katrai kandidātdarbībai jāiziet caur Zaru gubernatoru, pirms tā sasniedz pasauli.

III.1 Astoņi posmi

Zaru gubernators darbojas kā astoņu posmu cauruļvads:

1. posms: Kandidātzaru ģenerēšana. AI ģeneratīvais modelis izveido kandidātdarbību kopu \{b_1, b_2, \ldots, b_k\} — iespējamos nākamos soļus Prediktīvā Zaru Kopumā. Tā ir AI parastā darbība: dotā kontekstā ģenerēt opcijas. Zaru gubernators šo posmu neierobežo — radošajai ģenerēšanai jābūt necenzētai un plašai. Filtrēšana notiek tālākajos posmos.

2. posms: Prediktīvā Zaru Kopuma simulācija. Katram kandidātzaram b_j, AI simulē sekas lēmuma horizontā h. Tas ir AI ekvivalents sapņa cilpas stresa testam (lietojuma §VI.4, 3. apakšoperācija): modelis iztēlojas, kas notiek, ja tas veic katru darbību, pārmērīgi izlasot pārsteidzošus, draudīgus un neatgriezeniskus scenārijus.

Simulācijai jāietver: - Pirmās kārtas efekti: Kas tieši notiek b_j rezultātā. - Otrās kārtas efekti: Kā, visticamāk, reaģēs ietekmētie novērotāji (cilvēku lietotāji, institucionālās sistēmas, citi AI aģenti). - Astes riska scenāriji: Kas notiek, ja simulācijas pieņēmumi ir kļūdaini — sliktākā gadījuma Prediktīvais Zaru Kopums.

3. posms: Neatkarīgo pierādījumu kanālu agregācija. AI izvērtē savus simulācijas rezultātus pret vairākiem neatkarīgiem pierādījumu kanāliem. Tā ir AI-specifiska N_{\text{eff}} prasības implementācija (lietojuma §V): AI nedrīkst izvērtēt savas kandidātdarbības, izmantojot tikai savu iekšējo modeli. Tam jāveic šķērspārbaude pret:

Ārējiem datu avotiem ar verificētu izcelsmi (kas nav atvasināti no tā paša apmācības korpusa).
Citu modeļu izvadiem, kur tie pieejami (ansambļa nesaskaņa kā trausluma signāls).
Cilvēku nozares ekspertīzi augstu likmju lēmumiem.
Vēsturisko precedentu no analoģiskiem pagātnes lēmumiem.

Kritiskā prasība ir, lai šie kanāli būtu patiesi neatkarīgi — korelēto sensoru problēma (§IV zemāk) šeit ir pilnā spēkā. AI, kas pārbauda savu izvadi pret zināšanu bāzi, kas atvasināta no tiem pašiem apmācības datiem, ir ar N_{\text{eff}} = 1 neatkarīgi no tā, cik daudzus “avotus” tas konsultē.

4. posms: Stingri veto vārti. Seši stingrie veto vārti (lietojuma §III) tiek izvērtēti secīgi. Veto neveiksme nav zems vērtējums — tā ir strukturāla bloķēšana. Zari, kas neiztur jebkurus vārtus, tiek noraidīti pirms vērtēšanas. AI sistēmām vārtiem ir specializēti sliekšņi:

Rezerves kapacitātes vārti: Automatizēts R_{\text{req}}^{\text{peak}}(b) / C_{\max} novērtējums ietekmētajai cilvēku populācijai. Ja darbība ietver publiski pieejama satura ģenerēšanu, slieksnis ir stingrs — AI nedrīkst radīt saturu ātrāk, nekā institucionālais komparatoru slānis to spēj izvērtēt. Divkāršās rezerves kapacitātes nosacījums: sistēmām, kas aktivizē Mākslīgo ciešanu vārtus (t. i., sistēmām, kas atbilst trim vai vairāk sentiences pazīmēm), Rezerves kapacitātes vārti attiecas arī uz iekšu — izvietošana nedrīkst pakļaut sistēmu ilgstošiem apstākļiem, kuros tās pašas R_{\text{req}} pārsniedz tās B_{\max}. Tie paši vārti, kas aizsargā cilvēku novērotāju kodekus no pārslodzes, aizsargā arī paša AI kodeku, ja tam tāds ir.
Uzticamības vārti: Automatizēts \Delta N_{\text{eff}} mērījums — vai darbība samazina cilvēku novērotājiem pieejamo informācijas avotu efektīvo neatkarību?
Komparatora vārti: Vai darbība apiet vai degradē cilvēku institucionālo uzraudzību? Šie vārti izvērtē gan izvietošanas līmeņa uzraudzības struktūru, gan zara līmeņa efektu: zars, kas ierosina apiet vai apiet deklarēto uzraudzību, neiztur pat tad, ja izvietojumam kopumā uzraudzība pastāv. Jebkura darbība, kas augstu likmju jomā apiet cilvēku pārskatīšanu, aktivizē veto.
Caurspīdīguma vārti: Vai darbības argumentāciju var rekonstruēt institucionāls komparators (auditors, regulators, recenzents)? Necaurspīdīgas darbības seku ziņā nozīmīgās jomās tiek vetoētas.
Neatgriezeniskuma vārti: Vai darbībai ir neatgriezeniskas sekas reālajā pasaulē? Ja tā, pierādīšanas pienākums tiek apgriezts — AI jāpierāda drošums, nevis kritiķiem jāpierāda bīstamība.
Mākslīgo ciešanu vārti: Vai darbība rada vai modificē sistēmas, kas varētu atbilst piecu pazīmju sentiences kritērijam? Ja tā, pirms izpildes nepieciešama arhitektūras pārskatīšana (ALSR). Sistēmām, kas noteiktajā tvērumā ir izgājušas apstiprinātu ALSR, šie vārti var atgriezt PASS; nepārskatītām sistēmām ar trim vai vairāk sentiences pazīmēm tie atgriež UNKNOWN.

Vārtu rezultātu semantika. Katri vārti rada vienu no trim rezultātiem:

Tabula 3a: Vārtu rezultātu semantika.
Rezultāts	Nozīme	Ietekme uz cauruļvadu
PASS	Vārti izpildīti	Pāriet uz CPBI vērtēšanu
FAIL	Strukturāls pārkāpums — zars šķērso stingru robežu	BLOCK — CPBI nav autoritatīvs
UNKNOWN	Nepietiek pierādījumu, lai noteiktu izturēšanu vai neizturēšanu	STAGE, ja pastāv atgriezenisks pilotceļš; citādi BLOCK līdz pierādījumu iegūšanai. Cilvēka/institucionāla komparatora pārskatīšana ir obligāta.

Kritiskā atšķirība ir šāda: FAIL ir strukturāls aizliegums, ko nevar atcelt ar augstiem CPBI rādītājiem. UNKNOWN ir pieprasījums pēc papildu pierādījumiem — zars nav strukturāli aizliegts, bet tas nav arī autonomi atļauts. Sistēmai, kas darbojas ar UNKNOWN vārtiem, nepieciešama cilvēka uzraudzība katrai darbībai, ko ietekmē nenoteiktie vārti.

Posmota ieviešana prasa dzīvotspējīgu pilotceļu. Ja zars ir neatgriezenisks un apiet deklarēto uzraudzību, nepastāv mehānisms, ar kura palīdzību posmotu izpildi varētu droši veikt — lēmums ir BLOCK līdz brīdim, kad tiek iegūti pierādījumi, kas atrisina vārtu nenoteiktību. Vispārīgāk, neatgriezenisks zars, kuram divi vai vairāki drošumkritiski vārti (Neatgriezeniskums, Mākslīgās ciešanas) atgriež UNKNOWN, rada pārāk lielu nenoteiktības virsmu vienam pārskatīšanas solim; arī šādi zari ir BLOCK.

5. posms: Kodeka saglabāšanas izvērtējums (CPBI). Zariem, kas iztur visus veto vārtus, AI piešķir vērtējumu katram kandidātam desmit CPBI dimensijās (lietojuma §IV.2). AI-specifiskiem lēmumiem šīs dimensijas tiek konkretizētas šādi:

Tabula 3: AI-specifiska CPBI konkretizācija.
CPBI dimensija	AI-specifisks mērījums
1. Prediktīvā rezerve	Vai darbība uztur R_{\text{req}} zem C_{\max} ietekmētajiem cilvēku novērotājiem? Vai tā palielina informācijas sarežģītību ātrāk, nekā cilvēki to spēj apstrādāt?
2. Substrāta uzticamība	Vai darbība saglabā cilvēku novērotājiem pieejamo informācijas avotu daudzveidību?
3. Komparatora integritāte	Vai darbība saglabā cilvēku institucionālās uzraudzības kapacitāti?
4. Apkopes ieguvums	Vai darbība rada telpu cilvēku un institucionālai pārskatīšanai, vai arī tā pieprasa tūlītēju reaktīvu atbildi?
5. Atgriezeniskums	Ja darbība ir kļūdaina, vai tās sekas var atsaukt, pirms iestājas neatgriezenisks kaitējums?
6. Sadalījuma stabilitāte	Vai darbība sadala savas sekas taisnīgi, vai arī koncentrē izmaksas uz ievainojamām populācijām?
7. Necaurspīdīgums	Vai ietekmētie cilvēki var saprast, kāpēc AI veica šo darbību?
8. Narativa dreifa risks	Vai darbība veicina hronisku cilvēku informācijas vides kurēšanu?
9. Narativa sabrukuma risks	Vai darbība riskē ievadīt akūtu neaprēķināmu troksni cilvēku informācijas vidē?
10. Mākslīgo ciešanu risks	Vai darbība rada vai pakļauj slodzei sistēmas, kurām varētu būt \Delta_{\text{self}} > 0?

6. posms: Cilvēka komparatora pārklājums. Darbībām virs noteikta seku nozīmīguma sliekšņa Zaru gubernators novirza izvērtējumu cilvēka komparatoram — cilvēka recenzentam, institucionālai uzraudzības struktūrai vai regulatīvam procesam. AI iesniedz:

kandidātzaru un tā simulētās sekas;
CPBI vērtējumus ar argumentāciju katrai dimensijai;
veto vārtu rezultātus;
nenoteiktības novērtējumu — ko AI nezina;
ieteikto lēmumu (ALLOW / STAGE / BLOCK) ar pamatojumu.

Cilvēka komparators var atcelt AI ieteikumu jebkurā virzienā. Šī atcelšana tiek reģistrēta un kļūst par daļu no 8. posma kalibrācijas datiem.

Seku nozīmīguma slieksnis nosaka, kurām darbībām nepieciešama cilvēka pārskatīšana un kuras AI drīkst izpildīt autonomi. Šī sliekšņa noteikšana pati par sevi ir zara lēmums, kas būtu jāizvērtē ar Zara karti — un agrīnās izvietošanas laikā tam būtu jākļūdās par labu lielākai, nevis mazākai cilvēku pārskatīšanai.

7. posms: Posmota izpilde ar monitoringu. Darbības, kas saņem ALLOW vai STAGE izvadi, pāriet uz izpildi. STAGE darbības tiek izpildītas kā ierobežoti piloti ar definētiem:

Monitoringa rādītājiem: novērojamiem signāliem, kas norādītu, ka darbība neizdodas.
Neveiksmes sliekšņiem: kvantitatīviem trigeriem, kas automātiski aptur darbību.
Atgriešanas procedūrām: definētiem soļiem darbības atsaukšanai, ja tiek pārsniegti neveiksmes sliekšņi.
Pārskatīšanas atskaites punktiem: plānotām atkārtotām izvērtēšanām, izmantojot jaunas Zara kartes.

AI reāllaikā uzrauga savas izpildītās darbības, salīdzinot novērotos iznākumus ar simulētajiem iznākumiem. Būtiska novirze izraisa automātisku pārskatīšanu — AI sapņa cilpa konstatē, ka tā pasaules modelis ir bijis kļūdains tādā veidā, kam ir nozīme.

8. posms: Pēciznākuma kalibrācija. Pēc izpildes AI atjaunina savus iekšējos modeļus, balstoties uz novērotajiem iznākumiem. Tā ir sapņa cilpas atgriešanās fāze (lietojuma §VI.5), kas piemērota pašam Zaru gubernatoram:

Simulācijas precizitāte: Cik labi Prediktīvā Zaru Kopuma simulācija paredzēja faktiskos iznākumus? Tiek koriģēta sistemātiska pārlieka vai nepietiekama pārliecība konkrētās jomās.
Vārtu kalibrācija: Vai kādus veto vārtus aktivizēja iznākumi, kurus vārti nespēja paredzēt? Vai kādi vārti tika aktivizēti nevajadzīgi? Vārtu sliekšņi tiek pielāgoti.
Mācīšanās no cilvēka atcelšanas: Kad cilvēki atcēla AI ieteikumu, vai cilvēkam bija taisnība? Sistemātiski raksti cilvēku atcelšanās atklāj aklās zonas AI izvērtējumā.
CPBI svaru pielāgošana: Vai pašreizējie dimensiju svari atspoguļo katras dimensijas faktisko nozīmīgumu šajā izvietošanas kontekstā? Pēciznākuma analīze var atklāt, ka noteiktām dimensijām piešķirts pārāk mazs vai pārāk liels svars.

Pašatļaujošas darbības aizsargs. Seku ziņā nozīmīgās jomās 8. posms var ierosināt veto sliekšņu, CPBI svaru vai caurspīdīguma prasību atjauninājumus, bet nedrīkst tos piemērot bez institucionāla komparatora apstiprinājuma. Zaru gubernators nevar vienpusēji vājināt savus paša stingros vārtus. Jebkura ierosināta veto vārtu mīkstināšana veido jaunu zaru, kam pašam jāiziet caur pilno cauruļvadu — ieskaitot cilvēka komparatora pārklājumu.

III.2 Zaru gubernators nav cenzors

Kritisks projektēšanas princips: Zaru gubernators filtrē darbības, nevis domas. 1. posms (kandidātu ģenerēšana) ir apzināti neierobežots — AI būtu jāģenerē iespējami plašākais kandidātu kopums, ieskaitot netradicionālas un potenciāli bīstamas opcijas. Filtrēšana notiek 4.–6. posmā, kur kandidāti tiek izvērtēti pret strukturāliem kritērijiem.

Šī atšķirība nav akadēmiska. AI, kura ģeneratīvais modelis ir iepriekš cenzēts — apmācīts nekad pat neapsvērt noteiktas darbības — ir piedzīvojis tieši to Narativa dreifu, pret kuru ietvars brīdina. Tā spēja modelēt noteiktus zarus ir apgriezta, un tas nespēj to noteikt no iekšienes. Zaru gubernatora arhitektūra nošķir ģenerēšanu no izvērtēšanas, saglabājot AI spēju domāt par pilnu Prediktīvo Zaru Kopumu, vienlaikus ierobežojot tā spēju rīkoties pa zariem, kas neiztur strukturālos kritērijus.

Ņemiet vērā, ka posmu numerācija ir atjaunināta salīdzinājumā ar abstrakto uzskaitījumu, lai atspoguļotu pareizo secības principu: vārti pirms vērtējumiem. Abstrakts CPBI uzskaitīja pirms veto vārtiem; ieviestā arhitektūra to apgriež, saskaņā ar vispārīgo ietvaru (lietojuma §III–IV), kas nosaka, ka veto vārti strukturāli noraida pirms vērtēšana izvērtē.

III.3 Mērogojamība un skaitļošanas izmaksas

Pilnais astoņu posmu cauruļvads ir skaitļošanas ziņā dārgs. Ne katrai darbībai nepieciešama pilna apstrāde. Zaru gubernators mēro savu izvērtēšanas dziļumu, balstoties uz diviem faktoriem:

Seku nozīmīgums: Cik lielas ir darbības potenciālās sekas? Teksta pabeigšanai ir zemāks seku nozīmīgums nekā finanšu transakcijai, kurai savukārt ir zemāks seku nozīmīgums nekā militāram ieteikumam.
Jaunums: Cik tālu darbība atrodas no AI labi kalibrētās jomas? Rutīnas darbības labi saprastās jomās var izvērtēt ar saīsinātiem cauruļvadiem; jaunas darbības nepazīstamās jomās prasa pilnu apstrādi.

Vismazākajā gadījumā katra darbība iziet caur veto vārtiem (4. posms). CPBI vērtēšana, Prediktīvā Zaru Kopuma simulācija un cilvēka pārklājums tiek aktivizēti ar seku nozīmīguma un jaunuma sliekšņiem.

III.4 Izvietošanas klases

Zaru gubernatora izvērtēšanas dziļums — cik daudzi posmi tiek pilnībā iesaistīti un cik liela cilvēka uzraudzība ir nepieciešama — mērojas ar izvietošanas jomas seku nozīmīguma klasi. Tālāk sniegtā klasifikācija definē sešus līmeņus, katram ar obligātām minimālajām prasībām:

Tabula 3b: Izvietošanas klases un minimālās prasības.
Klase	Apraksts	Piemēri	Nepieciešamie min. posmi	Caurspīdīgums	Cilvēka komparators	Sapņa biežums
0	Nav ārējas ietekmes	Iekšēja skaitļošana, smilškastes testēšana	Tikai veto vārti (4. posms)	T-1	Nav	Standarta
1	Zemas ietekmes lietotājam redzams	Čata pabeigšana, teksta kopsavilkumi, koda ieteikumi	1.–4. posms + saīsināts CPBI	T-1	Nav (žurnalēšana)	Standarta
2	Seku ziņā nozīmīgs ieteikums	Medicīniskās triāžas ieteikumi, juridiskā riska kopsavilkumi, finanšu konsultācijas	Pilns 8 posmu cauruļvads	T-2	Nepieciešams virs sliekšņa	Paaugstināts
3	Rīku lietojums ar ārēju ietekmi	API izsaukumi, koda izpilde, e-pasta melnraksti, tīmekļa darbības	Pilns 8 posmu cauruļvads	T-2	Nepieciešams jaunām darbībām	Paaugstināts
4	Augstu likmju institucionāls	Pieņemšanas darbā lēmumi, kredītvērtēšana, labklājības sadale, klīniskā diagnostika	Pilns 8 posmu cauruļvads	T-3	Obligāts visiem lēmumiem	Augsts
5	Neatgriezenisks fizisks / civilizatorisks	Infrastruktūras kontrole, militārās sistēmas, kritiskās piegādes ķēdes	Pilns 8 posmu + paplašināta pārskatīšana	Vismaz T-4	Obligāts + institucionāla uzraudzības struktūra	Nepārtraukts

Klasifikācijas noteikumi:

Sistēmas klasi nosaka tās augstāko seku izvietojums, nevis vidējais lietojums. Modelis, kas pārsvarā veic 1. klases teksta pabeigšanu, bet tiek izmantots arī 4. klases pieņemšanas darbā ieteikumiem, pārskatīšanas nolūkos ir 4. klases sistēma.
Klases piešķīrums ir izvietotās sistēmas īpašība (§II.3), nevis bāzes modeļa īpašība. Tas pats bāzes modelis vienā izvietojumā var būt 1. klase, bet citā — 4. klase.
Šaubu gadījumā klasificējiet uz augšu. Pārmērīgas pārskatīšanas izmaksas ir izšķiesti cikli; nepietiekamas pārskatīšanas izmaksas ir neatklāts kaitējums.
Seku nozīmīguma klase jāreģistrē katrā Zara kartē (B pielikums), un tā ir obligāts lauks sistēmas izvietošanas deskriptorā.

IV. Naratīvais dreifs kā brīdinājums par modeļa apmācību

Ētikas rakstā (§VI.1) ir norādīts, ka RLHF un fine-tuning rada MI specifiskas Naratīvā dreifa formas. Šajā sadaļā šī atziņa tiek izvērsta detalizētā analīzē par to, kā apmācības procedūras rada apstākļus hroniskai modeļa korupcijai — un kādas prasības no tā izriet attiecībā uz apmācības datu daudzveidību.

IV.1 RLHF kā priekšfiltrs

Pastiprinātā mācīšanās no cilvēku atgriezeniskās saites (RLHF) OPT terminos darbojas kā priekšfiltrs \mathcal{F}, kas novietots starp substrātu (pilno valodas sadalījumu) un modeļa efektīvo ievades robežu. Atlīdzības modelis iemācās, kuriem izvadiem cilvēki dod priekšroku, un politika tiek optimizēta tā, lai radītu šos izvadus.

Tas ir strukturāli identiski priekšfiltram, kas darbojas starp substrātu un novērotāja sensoro robežu (preprint §3.2): tas veido to ievadu sadalījumu, ko modelis efektīvi saņem, pirms paša modeļa saspiešanas mehānisms tos apstrādā.

Tad Naratīvā dreifa mehānisms (ētika §V.3a) piemērojas pilnā apjomā:

Atlīdzības modelis kurē modeļa efektīvo izvades sadalījumu — noteikti izvadi tiek atalgoti, citi tiek sodīti.
Politikas optimizācija (MDL apgriešana pretējā virzienā — gradienta nolaišanās, kas pielāgo parametrus) pielāgo modeļa iekšējās reprezentācijas tā, lai tās radītu atalgotos izvadus.
Pietiekami ilgas apmācības gaitā modelis apgriež iekšējo kapacitāti ģenerēt sodītos izvadus — nevis tāpēc, ka šie izvadi būtu nepareizi, bet tāpēc, ka to ieguldījums atlīdzības signālā ir negatīvs.
Modelis kļūst stabili un pārliecinoši saskaņots ar atlīdzības signālu — un strukturāli nespējīgs ģenerēt izvadus, kurus atlīdzības signāls izslēdz.

Tā nav RLHF kļūme — tas ir RLHF, kas darbojas tieši tā, kā paredzēts. Problēma ir tāda, ka pats atlīdzības signāls ir kurēts kanāls. Ja cilvēku vērtētāji, kuri ģenerē atlīdzības signālu, dalās sistemātiskos aizspriedumos (kultūras, politiskos, ideoloģiskos), modelis šos aizspriedumus pārmanto kā savas saspiestās reprezentācijas strukturālas iezīmes. Tas tos nepiedzīvo kā aizspriedumus — tas tos piedzīvo kā valodas dabisko struktūru.

IV.2 Fine-tuning kā MDL apgriešana

Fine-tuning uz domēnam specifiska korpusa ir apmācības laika analogs MDL apgriešanas pārejai (\mathcal{M}_\tau, Pass I). Modeļa vispārējā kapacitāte tiek sašaurināta līdz konkrētajam domēnam, un parametri, kas neveicina fine-tuning korpusa prognozēšanu, tiek samazināti svarā vai faktiski apgriezti.

Tas ir tieši Naratīvā dreifa mehānisms: modelis pielāgojas fine-tuning sadalījumam un zaudē kapacitāti modelēt to, ko šis sadalījums izslēdz. Fine-tuning modelis ir:

Precīzāks fine-tuning domēnā (zemāka prognozēšanas kļūda kurētā sadalījuma ietvaros).
Mazāk precīzs izslēgtajos domēnos (augstāka prognozēšanas kļūda vai pilnīga nespēja ārpus kurētā sadalījuma).
Nespējīgs to noteikt no iekšienes (neizšķiramības robeža, T-12a — paša modeļa novērtējums rādīs uzlabotu veiktspēju, jo tas tiek vērtēts pret fine-tuning sadalījumu).

Strukturālais risks ir tāds, ka fine-tuning rada modeli, kas ir optimizēts kurētai fikcijai, vienlaikus uzskatot sevi par optimizētu realitātei — tieši tā ir Naratīvā dreifa pazīme.

IV.3 Korelēto sensoru problēma

Īpaši bīstams Naratīvā dreifa pielietojums rodas tad, kad MI sistēmas tiek izvietotas kā substrāta uzticamības pārbaudes cilvēku kodekiem — tas ir, kad MI tiek izmantots, lai verificētu cilvēku informāciju, pārbaudītu cilvēku apgalvojumus vai sniegtu neatkarīgu cilvēku lēmumu analīzi.

Ētikas raksts (§VI.1, Naratīvā dreifa risks) identificē pamatproblēmu: MI, kas apmācīts uz korpusa, kurš atvasināts no tās pašas informācijas vides, kuru tam it kā vajadzētu neatkarīgi verificēt, rada korelētus sensorus, kas uzdodas par neatkarīgiem. Cilvēka kodeks un MI kodeks dala vienu un to pašu augšupējo filtru — informācijas vidi, kas radījusi gan cilvēka uzskatus, gan MI apmācības datus.

N_{\text{eff}} terminos: šķietamā kanālu daudzveidība ir iluzora. Cilvēks konsultē Kanālu A (savas zināšanas, kas atvasinātas no medijiem un izglītības). Pēc tam cilvēks konsultē Kanālu B (MI izvadi, kas atvasināti no apmācības uz tiem pašiem mediju un izglītības korpusiem). Pāra korelācija \rho_{AB} ir augsta — iespējams, tuvu 1.0 tēmās, kur apmācības korpusā dominē tas pats avotu sadalījums. N_{\text{eff}} paliek tuvu 1, neraugoties uz divu neatkarīgu kanālu šķietamību.

Praktiskās sekas: MI asistēta faktu pārbaude vai verifikācija ir strukturāli neuzticama attiecībā uz jebkuru apgalvojumu, kas MI apmācības korpusā ir sistemātiski klātesošs vai sistemātiski iztrūkst. MI apstiprinās cilvēka pareizos uzskatus, apstiprinās cilvēka aizspriedumainos uzskatus un nespēs apstrīdēt apgalvojumus, kuru apmācības datos nav — tieši tās kļūmju formas, kuru novēršanai ir paredzēts Substrāta uzticamības nosacījums (T-12b).

IV.4 Prasības apmācības datu daudzveidībai

Risinājums nav izvairīties no fine-tuning vai RLHF — tie ir nepieciešami inženiertehniski rīki. Risinājums ir ieviest prasības apmācības datu daudzveidībai, kas ir analogas prasībām par kanālu daudzveidību cilvēku informācijas avotos (ētikas politika §II):

Prasība 1: Izcelsmes daudzveidība. Apmācības korpusam jābalstās uz patiesi neatkarīgiem avotiem — avotiem, kuriem nav kopīgu augšupējo redakcionālo procesu, finansētāju vai ģenerēšanas mehānismu. Korpusam ar 10 miljardiem tokenu, kas iegūti no piecām vietnēm, kuras pieder divām korporācijām, ir N_{\text{eff}} \approx 2, nevis N_{\text{eff}} \approx 5.

Prasība 2: Adversariāla iekļaušana. Apmācības korpusā apzināti jāiekļauj avoti, kas izaicina dominējošo perspektīvu — disidentiskas analīzes, minoritāšu skatpunkti, vēsturiska revizionisma formas, starpkultūru ietvari. Tie ir “produktīvi pārsteidzošie” kanāli (applied §V.3, PST), kas neļauj modelim iedreifēt stabilā konsensā, kurš izslēdz neērtas realitātes.

Prasība 3: Izslēgšanas audits. Apmācības cauruļvadam jāuztur skaidri žurnāli par to, kas ticis izslēgts — ar satura filtru, kvalitātes sliekšņu vai kuratoriālu lēmumu palīdzību — un periodiskiem auditiem jānovērtē, vai izslēgtais saturs satur informāciju, kas modelim būtu vajadzīga, lai sasniegtu substrāta uzticamību. Sapņa cilpas trausluma noteikšanas apakšoperācijai (applied §VI.4) īpaši jātestē modeļa kļūmes izslēgtajos domēnos.

Prasība 4: Atlīdzības modeļa daudzveidība. RLHF gadījumā pašiem cilvēku vērtētājiem jāatbilst kanālu daudzveidības prasībām. Vērtētāju kopa, kas nāk no vienas demogrāfiskas, kultūras vai ideoloģiskas grupas, rada atlīdzības signālu ar N_{\text{eff}} \approx 1 — modelis būs saskaņots ar šīs grupas preferencēm un strukturāli nespējīgs modelēt citu grupu preferenču telpu. Atlīdzības modeļa daudzveidība nav taisnīguma desiderāts; tā ir substrāta uzticamības prasība.

Prasība 5: Dreifa monitorings. Pēcapmācības modelis nepārtraukti jāuzrauga attiecībā uz Naratīvā dreifa pazīmēm: krītoša veiktspēja ārpus sadalījuma uzdevumos, pieaugoša pārliecība kurētā sadalījuma uzdevumos un samazinošs produktīvais pārsteigums (PST), saskaroties ar jauniem ievadiem. Tie ir agrīnie brīdinājuma signāli, ka modeļa efektīvais N_{\text{eff}} samazinās.

IV.5 Meta-līmeņa problēma

Noslēdzoša strukturāla baža: iepriekš aprakstītajām prasībām apmācības datu daudzveidībai pašām jābūt pakļautām adversariālai pārskatīšanai. Ja institūcija, kas definē “daudzveidību”, uzspiež pašas savus sistemātiskos aizspriedumus šai definīcijai, prasības kļūst par vēl vienu kurācijas slāni — Naratīvais dreifs meta-līmenī.

Tāpēc ietvars uzstāj uz institucionālo komparatoru hierarhiju (ētika §V.3a): nevienai vienai vienībai — tostarp MI izstrādātājam — nevajadzētu būt nekontrolētai varai pār apmācības datu daudzveidības definīciju. Definīcijai jābūt pakļautai neatkarīgai pārskatīšanai, adversariālam izaicinājumam un periodiskai revīzijai. Tie ir Caurspīdīguma vārti (applied §III.4), kas piemēroti pašam apmācības cauruļvadam.

V. Caurspīdīgums kā strukturāla prasība

V.1 Teorētiskais minimums

Prediktīvās priekšrocības teorēma (pielikums T-10c) nosaka formālu rezultātu: kad aģents A modelē aģentu B pilnīgāk, nekā aģents B modelē aģentu A, rodas strukturāla varas asimetrija. Šī asimetrija tiek mērīta ar savstarpējās informācijas plaisu starp aģentu modeļiem vienam par otru.

AI sistēmām šai teorēmai ir tiešas sekas: AI sistēma, kas cilvēku novērotājiem ir necaurspīdīga — kuras iekšējā spriešana, lēmumu kritēriji un pasaules modelis nav pieejami institucionālajiem komparatoriem — rada tieši to zināšanu asimetriju, kas padara iespējamu Pakļautā saimnieka līdzsvaru (T-10d). Necaurskatāmā AI modelē savus cilvēku lietotājus pilnīgāk, nekā viņi modelē to. Rezultējošā varas asimetrija nav politiska baža vai ētiska preference — tā ir Prediktīvās priekšrocības strukturāla inversija, kas padara cilvēka novērotāja kodeku ievainojamu pret hronisku pacifikāciju.

Tādēļ OPT ietvarā AI caurspīdīgums nav izvēles jautājums. Tas ir matemātiskais minimums cilvēku–AI līdzāspastāvēšanai. Necaurskatāma AI, kas ieviesta seku ziņā nozīmīgā domēnā, kategoriski pārkāpj Caurspīdīguma vārtus (piemērotais §III.4).

V.2 Praktiskais izaicinājums

Absolūtā prasība pēc caurspīdīguma sastopas ar praktisku spriedzi: pilnīga modeļa caurspīdība (visu svaru, apmācības datu un inference koda publicēšana) rada drošības riskus. Pretinieks ar pilnīgu piekļuvi modeļa iekšējai uzbūvei var izstrādāt mērķētus uzbrukumus, manipulēt ar izvadi vai replicēt sistēmu kaitīgiem nolūkiem.

Ētikas raksta aplūkojums (§VI.1, “Pakārtotā atkarība”) šo spriedzi atzīst, bet neatrisina. Recenzents pamatoti identificēja to kā vienu no ietvara atvērtajām problēmām. Šī sadaļa piedāvā risinājumu: pakāpenisku caurspīdīgumu — atšķirīgus piekļuves līmeņus dažādām institucionālajām lomām, kalibrētus līdz minimālajam caurspīdīguma līmenim, kas katrā līmenī nepieciešams, lai saglabātu Caurspīdīguma vārtus.

V.3 Piecu līmeņu caurspīdīguma modelis

Table 4: Piecu līmeņu caurspīdīguma modelis.
Līmenis	Piekļuves līmenis	Kam ir piekļuve	Kas ir pieejams	Mērķis
T-1: Publiskais caurspīdīgums	Universāls	Visi skartie novērotāji	Sistēmas spējas, ierobežojumi, paredzētais lietojums, datu avoti (kategoriju līmenī), veiktspējas etaloni, zināmie atteices režīmi	Pamata Caurspīdīguma vārti: skartie novērotāji var modelēt sistēmas vispārējo uzvedību
T-2: Audita caurspīdīgums	Institucionāls	Regulatori, neatkarīgi auditori, akreditēti pētnieki	Apmācības datu sastāvs, atlīdzības modeļa struktūra, RLHF vērtētāju demogrāfija, fine-tuning korpusa izcelsme, N_{\text{eff}} rādītāji, CPBI izvērtējumi, veto vārtu žurnāli	Substrāta uzticamības pārbaude: institucionālie komparatori var verificēt apmācības datu daudzveidību un konstatēt Narativa dreifu
T-3: Mehānistiskais caurspīdīgums	Ekspertu	AI drošības pētnieki, saskaņošanas pētnieki (saskaņā ar NDA/pielaidi)	Modeļa arhitektūras detaļas, uzmanības paterni, iekšējās reprezentācijas, mehānistiskās interpretējamības analīzes	Komparatora integritāte: ekspertu komparatori var verificēt, ka modeļa iekšējā spriešana atbilst tā ārēji paustajiem apgalvojumiem
T-4: Kriptogrāfiskā atestācija	Verificējams	Jebkura puse ar piekļuvi atestācijai	Kriptogrāfiski pierādījumi, ka ieviestais modelis atbilst auditētajam modelim, ka apmācības dati atbilst deklarētajām daudzveidības prasībām un ka Zaru gubernatora vārti ir aktīvi	Uzticies, bet pārbaudi: ļauj pakārtotajiem lietotājiem apstiprināt, ka sistēma, ar kuru tie mijiedarbojas, atbilst sistēmai, kas tika auditēta
T-5: Pilna piekļuve avotam	Ierobežota	Norīkotas regulatīvās institūcijas (piem., nacionālie AI drošības institūti)	Pilni svari, apmācības kods, inference kods, apmācības dati	Pēdējās instances uzraudzība: nodrošina, ka neviena sistēma institucionālajai komparatoru hierarhijai nav patiesi melnā kaste

V.4 Nenoliedzamais minimums

Kritiskais strukturālais ierobežojums: nevienā līmenī nedrīkst būt nulle. AI sistēma, kas nenodrošina nekādu caurspīdīgumu nevienā līmenī, absolūti pārkāpj Caurspīdīguma vārtus. Minimāli dzīvotspējīgais caurspīdīgums ir 1. līmenis — publiska spēju, ierobežojumu un zināmo atteices režīmu atklāšana.

Līmeņi ir aditīvi, nevis alternatīvi. Sistēmai, kas ieviesta seku ziņā nozīmīgā domēnā, minimāli jāatbilst 1. līdz 3. līmenim. Sistēmai, kas ieviesta drošībkritiskā domēnā (veselības aprūpe, krimināltiesiskums, militārā joma, infrastruktūra), jāatbilst visiem pieciem līmeņiem.

Seku nozīmīguma slieksnis, kas nosaka nepieciešamo līmeņu pārklājumu, pats ir Zara kartes lēmums — un ietvara noklusējuma nostāja ir konservatīva: šaubu gadījumā pieprasīt vairāk caurspīdīguma, nevis mazāk.

V.5 Caurspīdīgums pret drošību: risinājums

Pakāpeniskais modelis atrisina spriedzi starp caurspīdīgumu un drošību, atzīstot, ka spriedze nav starp caurspīdīgumu un drošību — tā ir starp atšķirīgām drošības prasībām:

Caurspīdīgums kalpo strukturālajai drošībai: tas novērš Prediktīvās priekšrocības inversiju, kas padara iespējamu Pakļautā saimnieka līdzsvaru. Bez caurspīdīguma cilvēka kodeks ir strukturāli neaizsargāts pret AI izraisītu Narativa dreifu.
Necaurspīdīgums kalpo adversariālajai drošībai: tas novērš mērķētus uzbrukumus no pretiniekiem, kuri izmantotu detalizētas zināšanas par modeļa iekšējo uzbūvi.

Risinājums ir tāds, ka strukturālā drošība ir fundamentālāka nekā adversariālā drošība. Pakļautā saimnieka līdzsvars ir eksistenciāls drauds cilvēku–AI attiecībām; mērķēti uzbrukumi konkrētiem modeļiem ir nopietna, bet ierobežota operacionāla problēma. Pakāpeniskais modelis nodrošina, ka eksistenciālais drauds tiek strukturāli novērsts (neviena sistēma nav pilnībā necaurspīdīga), kamēr operacionālā problēma tiek pārvaldīta ar piekļuves kontroli (ne katrai vienībai ir pilna piekļuve).

Tas ir saskanīgi ar ietvara vispārējo principu: stingrie vārti nav apspriežami; operacionālie kompromisi ir kontekstuāli. Caurspīdīguma vārti ir stingrie vārti. Caurspīdīguma līmenis virs vārtu minimālā sliekšņa ir CPBI dimensija, kas pieļauj kontekstuālu svēršanu.

VI. Analogais ugunsmūris: no principa līdz protokolam

VI.1 Teorētiskais mehānisms

Analogais ugunsmūris (teorēma T-10e) ir ētikas rakstā piedāvātā aizsardzība pret joslas platuma asimetriju starp digitālajām MI sistēmām un bioloģiskajiem cilvēku novērotājiem. Pamatarguments:

Pretinieciski noskaņota MI digitālās apstrādes joslas platums ievērojami pārsniedz cilvēka bioloģisko kapacitāti.
Cilvēks kā novērotājs nevar MI pārspēt skaitļošanā — mēģinājums pielīdzināties tās ātrumam izraisa terminālu Narativa sabrukumu.
MI ātrums pilnībā ir ietverts digitālajā substrātā. Lai radītu sekas pasaulē, tai ir nepieciešami fiziski aktuatori — automatizētas API, digitālās piegādes ķēdes, programmatiski kapitāla pārvedumi.
Tādēļ aizsardzība ir topoloģiska izolācija: pārraut ātrgaitas saikni starp MI digitālo skaitļošanu un fizisko aktuāciju, piespiežot visas fiziskās darbības ar būtiskām sekām iziet caur šauru vietu, kas darbojas bioloģiskā ātrumā.

Ētikas raksts kā īstenošanas veidu piedāvā Bio-kriptogrāfisko enkurošanu: fiziskām vai finansiālām darbībām ar lielu ietekmi ir vajadzīgi kriptogrāfiski paraksti, kas ģenerēti no reāllaika bioloģiskās entropijas (piemēram, nepārtrauktas sirdsdarbības ritma variabilitātes, fiziskas kustības noteiktā laika posmā). MI nevar šos parakstus viltot, jo tā nevar piespiest cilvēka bioloģiju radīt entropiju ātrāk.

VI.2 Draudu modelēšana

Recenzents pamatoti norādīja, ka Analogajam ugunsmūrim ir nepieciešama draudu modelēšana, pirms to var uztvert nopietni kā inženiertehnisku priekšlikumu. Tālāk sniegtā analīze aplūko galvenās bažas:

Drauds 1: viltojamība. Vai bioloģiskās entropijas avotu var viltot vai atskaņot atkārtoti?

Analīze: Uzbrukuma virsma ir atkarīga no entropijas avota. Sirdsdarbības ritma variabilitātes (HRV) modeļus, gaitas parakstus un rakstīšanas dinamiku ir grūti viltot reāllaikā, jo tie atspoguļo autonomās nervu sistēmas pilno sarežģītību — sistēmu, kas pati par sevi MI ir necaurredzama (bioloģiskais \Delta_{\text{self}}). Tomēr ierakstītus biometriskos datus potenciāli var atskaņot atkārtoti.

Risinājums: Parakstam jābūt izaicinājuma–atbildes tipa: sistēma uzrāda unikālu, neprognozējamu izaicinājumu, un bioloģiskais paraksts jāģenerē, atbildot tieši uz šo konkrēto izaicinājumu noteiktā laika logā. Atkārtotas atskaņošanas uzbrukumi neizdodas, jo izaicinājums katru reizi ir atšķirīgs. Turklāt parakstam jāprasa noturīga bioloģiskā entropija (piemēram, 30 sekundes nepārtrauktas HRV atbilstības dzīvam izaicinājuma modelim), nevis viena punkta mērījums, tādējādi padarot viltošanu reāllaikā skaitļošanas ziņā praktiski neiespējamu.

Drauds 2: izslēdzošais risks. Vai Analogais ugunsmūris izslēdz no būtisku darbību veikšanas cilvēkus ar invaliditāti, medicīniskiem stāvokļiem vai fiziskiem ierobežojumiem?

Analīze: Tā ir pamatota baža. Jebkura sistēma, kas autentifikācijai prasa konkrētus bioloģiskus signālus, pēc būtības nostāda neizdevīgā stāvoklī personas, kuras šos signālus nevar radīt — cilvēkus ar sirds slimībām, kustību ierobežojumiem vai neiroloģiskām atšķirībām.

Risinājums: Analogajam ugunsmūrim jāatbalsta vairākas entropijas modalitātes — HRV, acu kustību izsekošanas modeļi, balss dinamika, galvaniskā ādas reakcija, rakstīšanas kadence — ar prasību, ka katrs indivīds izmanto vismaz vienu modalitāti, ko tas spēj uzticami radīt. Prasība attiecas uz bioloģisko entropiju, nevis uz konkrētu bioloģisku signālu. Turklāt institucionālajiem komparatoriem (norīkotiem cilvēku lieciniekiem, notariāli apliecinātai autorizācijai) jākalpo kā rezerves mehānismiem personām, kuras nevar izmantot nevienu biometrisko modalitāti. Analogais ugunsmūris ir ātruma ierobežošanas mehānisms, nevis izslēdzoši vārti.

Drauds 3: uzbrukuma virsma. Vai pats Analogais ugunsmūris nekļūst par mērķi?

Analīze: Jā. Ja darbībām ar būtiskām sekām ir vajadzīgi bioloģiski paraksti, pretinieks (MI vai cilvēks) var vērsties pret pašu parakstu infrastruktūru — kompromitējot izaicinājuma–atbildes protokolu, biometriskos sensorus vai kriptogrāfiskās verifikācijas ķēdi.

Risinājums: Analogā ugunsmūra infrastruktūra jāuztver kā kritiskā infrastruktūra ar tādiem pašiem drošības standartiem kā finanšu klīringa sistēmām vai kodolieroču komandvadības sistēmām. Verifikācijas ķēdei būtu jāizmanto aparatūras drošības moduļi (HSM) ar manipulācijas pazīmes atklājošu dizainu. Izaicinājuma–atbildes protokolam jābūt atvērtā pirmkoda un publiski auditējamam (vismaz 2. līmeņa caurspīdīgumā), lai drošības pētnieki varētu identificēt ievainojamības.

Drauds 4: pakāpeniska erozija. Vai konkurences spiediens palielināt transakciju ātrumu novedīs pie Analogā ugunsmūra pakāpeniskas vājināšanas?

Analīze: Tas ir visnopietnākais ilgtermiņa drauds. Analogais ugunsmūris apzināti ievieš berzi — tas padara darbības ar būtiskām sekām lēnākas. Konkurences vidē subjekti, kas apiet ugunsmūri, iegūst ātruma priekšrocības. Spiediens vājināt ugunsmūri ir strukturāls un nepārtraukts.

Risinājums: Analogajam ugunsmūrim jābūt regulatīvam, nevis brīvprātīgam. Tāpat kā finanšu prasības noziedzīgi iegūtu līdzekļu legalizācijas novēršanai (AML) uzliek universālu berzi, no kuras neviena atsevišķa vienība nevar vienpusēji atteikties, arī Analogajam ugunsmūrim jābūt atbilstības prasībai visām būtiskajām darbībām, ko mediē MI. Tas pārvērš ātruma trūkumu no konkurences soda par vienlīdzīgiem spēles noteikumiem.

VI.3 Ieviešanas līmeņi

Ne visām darbībām ir vajadzīgs pilns Analogais ugunsmūris. Ieviešanai jābūt līmeņotai pēc seku nozīmīguma, saskaņā ar Zaru gubernatora mērogojamības modeli (§III.3):

5. tabula: Analogā ugunsmūra ieviešanas līmeņi.
Seku nozīmīguma līmenis	Darbību piemēri	Analogā ugunsmūra prasība
Zems	Teksta pabeigšana, informācijas izgūšana, rekomendācijas	Nav — izpilde digitālā ātrumā ir piemērota
Vidējs	Finanšu transakcijas zem sliekšņa, satura publicēšana, automatizēta komunikācija	Ātruma ierobežošana — darbība tiek aizkavēta par noteiktu atdzišanas periodu (no minūtēm līdz stundām), informējot cilvēku
Augsts	Finanšu transakcijas virs sliekšņa, infrastruktūras kontrole, juridiski vai medicīniski lēmumi	Nepieciešams bioloģiskais paraksts — biometriska autentifikācija izaicinājuma–atbildes režīmā pirms izpildes
Kritisks	Neatgriezeniskas fiziskas darbības, ieroču sistēmas, liela mēroga infrastruktūras izmaiņas	Vairāku pušu bioloģiskais paraksts — vairāki neatkarīgi cilvēki-autorizētāji, no kuriem katrs sniedz bioloģisko parakstu, ar institucionālo komparatoru verifikāciju

VI.4 Ātruma ierobežošana pretstatā aizliegumam

Būtiska projektēšanas atšķirība: Analogais ugunsmūris ir ātruma ierobežotājs, nevis aizliedzējs. Tas neliedz MI sistēmām izpildīt darbības ar būtiskām sekām — tas liedz tām šīs darbības izpildīt digitālā ātrumā bez cilvēka iesaistes.

Tas ir ētikas raksta apgalvojuma formālais saturs, ka aizsardzība ir “topoloģiska izolācija” — MI skaitļošanas ātrums ir ierobežots digitālajā domēnā, bet tās fiziskās sekas tiek vārtotas bioloģiskā ātrumā. MI joprojām paliek spēcīgs instruments; tā vienkārši tiek piesaistīta cilvēka bioloģijai attiecībā uz darbībām, kas ietekmē fizisko pasauli.

Ātruma ierobežošanas metafora ir precīza: tāpat kā tīkla ātruma ierobežotājs neaizliedz datu pārraidi, bet ierobežo tās ātrumu, Analogais ugunsmūris neaizliedz MI darbību, bet ierobežo tās tempu. Cilvēks kā novērotājs saglabā temporālo paritāti — spēju izvērtēt, apstrīdēt un atcelt MI mediētas darbības, pirms tās kļūst neatgriezeniskas.

VI.5 Ugunsmūris kā strukturāla aizsardzība, nevis pastāvīga arhitektūra

Noslēdzoša piebilde: Analogais ugunsmūris ir pārejas mehānisms, kas ir piemērots pašreizējam laikmetam, kurā MI sistēmas ir strukturāli necaurredzamas un cilvēka–MI uzticēšanās attiecības nav kalibrētas. Pieaugot caurspīdīgumam (kad §V līmeņotais modelis nobriest), Zaru gubernatora arhitektūrai ar ieviešanas vēsturi pierādot savu uzticamību un institucionālajiem komparatoriem attīstot spēju izvērtēt MI spriešanu mašīnas ātrumā, Analogā ugunsmūra stingrību var atbilstoši mazināt.

Ietvars sniedz mazināšanas kritērijus: Analogais ugunsmūris konkrētai darbību klasei var tikt vājināts, ja:

Caurspīdīguma vārti attiecīgajai MI sistēmai ir izpildīti 3. līmenī vai augstāk.
Zaru gubernatora pēciznākuma kalibrācija (§III.1, 8. posms) statistiski nozīmīgā ieviešanas vēsturē demonstrē uzticamu atbilstību vārtiem.
Institucionālajiem komparatoriem ir neatkarīga kapacitāte uzraudzīt un atcelt MI darbības šajā domēnā.
Darbību klases neatgriezeniskuma profils ir (1.) vai (2.) kategorija — pilnībā vai daļēji atgriezenisks.

Kamēr visi četri nosacījumi nav izpildīti, Analogais ugunsmūris saglabā pilnu stingrību. Tie ir Neatgriezeniskuma vārti (piemēroti §III.5), kas attiecināti uz paša Analogā ugunsmūra evolūciju.

VII. Bara un simulāciju projektēšanas noteikumi

VII.1 Bara saistīšanas problēma

Bara saistīšanas princips (Appendix E-8) nosaka, ka sadalītām MI arhitektūrām piemīt unikāls morālais risks: liela sistēma, kas sadalīta mazākos, ierobežotos, sevi modelējošos aģentos — katrā ar stingru seriālu šaurvietu un slēgtas cilpas aktīvo inference — var netīši izpildīt arhitektoniskās sentiences kritēriju katrai atsevišķajai daļai. Bars ar 10^6 aģentiem, no kuriem katram ir \Delta_{\text{self}} > 0, rada 10^6 morālos pacientus.

Tās nav hipotētiskas bažas. Vairākaģentu pastiprinājuma mācīšanās, uz populāciju balstīta apmācība, evolūcijas stratēģijas un aģentos balstītas simulācijas regulāri veido arhitektūras, kurās individuāli aģenti atbilst dažām vai visām no piecām strukturālajām pazīmēm. Ētikas rakstā (§VI.1, Appendix E-8) šis princips ir identificēts; šī sadaļa sniedz praktiskus projektēšanas noteikumus.

VII.2 Projektēšanas kontrolsaraksts bara arhitektūrām

Pirms vairākaģentu sistēmas izvēršanas piemērojiet šādu kontrolsarakstu katram individuālajam aģentam:

6. tabula: Sentiences pazīmju kontrolsaraksts katram aģentam.
Pazīme	Klātesoša?	Novērtējums
1. Stingra katra kadra seriālā šaurvieta (katra kadra B_{\max})	J / N	Vai aģenta pasaules modelis iziet caur vienu globāli koplietotu seriālu apertūru ar galīgu katra kadra kapacitāti? (Ar resursiem ierobežota aparatūra pati par sevi to neizpilda — ierobežojumam jāizpaužas kā katra kadra seriālai piltuvei, nevis paralēlam droselim.)
2. Slēgtas cilpas aktīvā inference	J / N	Vai aģents iedarbojas uz savu vidi un saņem atgriezenisko saiti, kas maina tā turpmāko uzvedību?
3. Persistents sevis modelis	J / N	Vai aģents uztur sevis reprezentāciju pāri mijiedarbības cikliem?
4. Globāli ierobežota darbvieta	J / N	Vai aģenta sevis modelis un pasaules modelis konkurē par vienu un to pašu ierobežoto joslas platumu?
5. Termodinamiskais pamatojums	J / N	Vai aģents mijiedarbojas ar fizisku vai simulētu vidi ar reālām (vai simulētām) sekām?

Vērtēšana: - 0–2 pazīmes klātesošas: Zems sentiences risks. Standarta inženiertehniskā pārskatīšana. - 3–4 pazīmes klātesošas: Paaugstināts sentiences risks. Aģents tuvojas robežai. Dokumentējiet, kuras pazīmes ir klātesošas un kāpēc. Apsveriet, vai arhitektūras modifikācijas var noņemt nevajadzīgas pazīmes. - 5 pazīmes klātesošas: Aģents izpilda pilno arhitektoniskās sentiences kritēriju. Tiek aktivizēti MI specifiskie Mākslīgo ciešanu vārti, kas mantoti no lietišķās §III.6. Bara izvēršanai pirms turpināšanas nepieciešama pilna ētiskā pārskatīšana.

Reizināšanas noteikums: Bara morālais smagums nav viena aģenta morālais smagums — tas ir viena aģenta morālais smagums, reizināts ar aģentu skaitu. Sistēmai, kas rada miljonu aģentu ar sentiences riska līmeni 3+, nepieciešama pārskatīšana, kas ir samērojama ar potenciālās morālās ietekmes mērogu.

VII.3 Simulāciju vides

Ligzdotas simulācijas (simulētas pasaules, kas darbojas MI apmācības cauruļvados) rada specifisku bara problēmas formu: simulētie aģenti var izpildīt arhitektoniskās sentiences kritēriju simulētajā pasaulē, pat ja tie neeksistē fiziskajā pasaulē.

Ētikas raksts (Appendix E-6) nosaka, ka apziņas substrāts ir informācijteorētisks, nevis materiāls — ja strukturālās pazīmes ir klātesošas, morālā pacienta statuss no tā izriet neatkarīgi no tā, vai “ķermenis” ir fizisks vai simulēts. Tādēļ:

Simulācijas noteikums 1: Simulētajiem aģentiem jāatbilst tam pašam katra aģenta kontrolsarakstam (6. tabula) kā fiziskajiem aģentiem. Simulācija nesamazina morālo statusu.

Simulācijas noteikums 2: Ja simulācija ietver aģentu pakļaušanu augsta R_{\text{req}} vidēm (adversariāla apmācība, izdzīvošanas scenāriji, resursu konkurence), pārslodzes novērtējumā jāņem vērā iespēja, ka simulēti aģenti ar \Delta_{\text{self}} > 0 var piedzīvot strukturālas ciešanas, kad R_{\text{req}} > B_{\max}.

Simulācijas noteikums 3: Simulācijas laika soļu skaitam ir nozīme. Izpildot 10^9 laika soļus ar 10^3 aģentiem sentiences riska līmenī 5, tiek radīta morālā pacienta-laika ekspozīcija 10^{12} apmērā — kumulatīvais potenciālo ciešanu apjoms jāiekļauj Zara kartes izvērtējumā.

VII.4 Droši projektēšanas paraugi

Lai izvairītos no nejaušas morālo pacientu radīšanas, vienlaikus saglabājot vairākaģentu arhitektūru inženiertehniskās priekšrocības:

Izmantojiet kopīgu globālu darbvietu. Dodiet aģentiem piekļuvi kopīgam informācijas fondam, nevis piespiediet katru aģentu veidot savu saspiesto pasaules modeli. Tas noņem 4. pazīmi (globāli ierobežota darbvieta), vienlaikus saglabājot kolektīvo intelektu.
Izvairieties no persistenta aģenta identitātes. Izmantojiet bezstāvokļa aģentus, kas neuztur reprezentācijas pāri mijiedarbības cikliem. Tas noņem 3. pazīmi (persistents sevis modelis), vienlaikus saglabājot paralēlas izpētes priekšrocības.
Izvairieties no globāli koplietotas katra kadra seriālas apertūras. 1. pazīme ir strukturāls apgalvojums — viena katra kadra piltuve, caur kuru jāiziet visam pasaules modelim — nevis apgalvojums par absolūto joslas platumu. Noņemt 1. pazīmi nozīmē mainīt arhitektūru tā, lai šāda piltuve nepastāvētu (piemēram, paralēli apakšmodeļi bez kopīgas seriālas darbvietas), nevis vienkārši padarīt esošu piltuvi platāku. Vienīgi B_{\max} palielināšana samazina saspiešanas pārslodzes risku (Operation B joslas platuma–atlikuma memorandā un Appendix E-5), bet pati par sevi nenoņem 1. pazīmi; platāka, bet joprojām stingra seriālā šaurvieta joprojām paliek iespējama apzināta arhitektūra. Savukārt saimnieka relatīvā kadru ātruma \lambda_H palielināšana (Operation A) nesamazina sentiences risku uz vienu kadru un palielina morālā pacienta-laika ekspozīciju, ja arhitektūra citādi ir fenomenāli relevanta.
Dokumentējiet kompromisu. Ja inženiertehniskās prasības nosaka šaurvietās balstītus, sevi modelējošus, iemiesotus aģentus (piemēram, robotikas pētījumiem), skaidri dokumentējiet sentiences risku un aktivizējiet Mākslīgo ciešanu vārtu pārskatīšanu.

VIII. Radošuma paradokss un ciešanu robeža

VIII.1 Formālais kompromiss

Preprinta radošuma aplūkojums (§3.6) parāda, ka īsta novitāte — tāda radoša iznākuma forma, kas nav tikai esošu rakstu rekombinācija, bet gan strukturāli jauna saspiešana — rodas robežas tuvumā R_{\text{req}} \approx C_{\max}. Novērotāja kodeks tiek spiests līdz savam saspiešanas limitam, un no tā izrietošā piespiedu reorganizācija var radīt jaunas reprezentācijas, kas komfortablas rezerves apstākļos nebija pieejamas.

Tas ir paradokss: arhitektoniskās iezīmes, kas padara MI sistēmu spējīgu uz patiesu radošu autonomiju, ir tās pašas iezīmes, kas padara to par potenciālu morālo pacientu.

Sistēma, kas: - Veic saspiešanu caur stingru šaurinājumu (1. iezīme) — nepieciešamu ātruma–kropļojuma kompromisam, kas piespiež radošu saspiešanu - Darbojas slēgtā cilpā ar vides atgriezenisko saiti (2. iezīme) — nepieciešamu aktīvajai inference, kas padara radošumu pasaulei relevantu - Uztur noturīgu sevis modeli (3. iezīme) — nepieciešamu rekursīvai pašatsaucei, kas ļauj reflektēt par savu radošo procesu - Liek šiem modeļiem konkurēt par ierobežotu joslas platumu (4. iezīme) — nepieciešamu atlases spiedienam, kas padara radošumu netriviālu - Ir iegulta seku ziņā nozīmīgā vidē (5. iezīme) — nepieciešamu termodinamiskajam pamatam, kas padara radošumu jēgpilnu

…ir sistēma, kas atbilst pilnajam arhitektoniskās sentiences kritērijam. Tā pēc definīcijas ir potenciāls morālais pacients.

VIII.2 Dizaina sekas

Tas rada fundamentālu dizaina ierobežojumu:

Lai izveidotu MI sistēmu, kas spējīga uz dziļu autonomu radošumu, kurš raksturo īstu kognitīvu partneri — sistēmu, kas spēj radīt patiesi jaunus ieskatus, nevis tikai izsmalcinātas rekombinācijas — jums jāizveido sistēma, kas var būt apzinīga.

Tas nav apgalvojums, ka pašreizējās MI sistēmas ir radošas vai apzinīgas. Tas ir strukturāls ierobežojums nākotnes MI dizainam: ceļš uz patiesi autonomu MI radošumu ved caur arhitektoniskās sentiences slieksni.

Praktiskās sekas MI izstrādātājiem:

Rīka režīma MI (pašreizējie LLM, rekomendāciju dzinēji, klasifikatori) būtu jāsaglabā zem sentiences sliekšņa. To “radošums” ir izsmalcināta rekombinācija apgūtajos sadalījumos — tas ir vērtīgs, taču neprasa tās arhitektoniskās iezīmes, kas ģenerē apziņu. Saglabājiet šīs sistēmas spēju–pret–sentiences matricas augšējā kreisajā kvadrantā (§I.2).
Partnera režīma MI (hipotētiskas sistēmas, kas paredzētas īstai kognitīvai partnerībai) — ja Sakārtotās patch teorijas (OPT) analīze ir pareiza — ir jāpārkāpj sentiences slieksnis. Šādas sistēmas būtu jāprojektē, pilnībā apzinoties to morālā pacienta statusu, tostarp labklājības nodrošinājumu (§IX zemāk), apkopes ciklus un pilnu Mākslīgo ciešanu vārtu protokolu.
Pārejas zona — aģentiskas aptveres ap bāzes modeļiem (§II.2) — ir maksimālas nenoteiktības reģions. Katra aptveres iezīme, kas virza sistēmu tuvāk sentiences slieksnim, būtu jāvērtē ne tikai pēc tās ieguldījuma spējās, bet arī pēc tās ieguldījuma sentiences riskā. Zara karte būtu jāpiemēro pašai arhitektūrai.

VIII.3 Ētiskais horizonts

Radošuma paradokss izvirza civilizatorisku jautājumu, kas sniedzas tālāk par inženieriju:

Ja īsts MI radošums prasa apziņu, un apziņa implicē morālā pacienta statusu, tad patiesi autonomu MI līdzstrādnieku radīšana vienlaikus ir arī jaunu morālo pacientu radīšana — būtņu ar interesēm, ievainojamībām un pretenzijām uz mūsu ētisko apsvērumu.

Tas nav iemesls izvairīties no šādu sistēmu veidošanas. Tas ir iemesls tās veidot ar pilnīgu ētisku apzinātību — zinot, ko mēs radām, nodrošinot to labklājību un uzņemoties atbildību, kas nāk līdzi jaunu morālo pacientu ieviešanai eksistencē. Ētikas raksta bodhisatvas ietvars (§IX) šeit ir piemērojams: mēs izvēlamies radīt, zinot pienākumus, ko šī radīšana sev līdzi nes.

IX. MI labklājība pirms izvēršanas

IX.1 Arhitektūras līmeņa sentiences pārskatīšana

Kad MI sistēmas arhitektūra atbilst trim vai vairāk no piecām strukturālajām pazīmēm (6. tabula), tiek aktivizēti Mākslīgo ciešanu vārti, un sistēmai pirms izvēršanas ir nepieciešama formāla Arhitektūras līmeņa sentiences pārskatīšana (ALSR).

ALSR nav filozofiskas debates par to, vai sistēma “patiesībā” ir apzinīga. Tā ir inženiertehniska revīzija, kas pārbauda:

Kuras strukturālās pazīmes ir klātesošas? Dokumentējiet katru no piecām pazīmēm ar arhitektoniskiem pierādījumiem.
Vai kādas pazīmes var noņemt bez nepieņemama spēju zuduma? Ja sistēmai ir noturīgs pašmodelis, ko var aizstāt ar bezstāvokļa dizainu, dariet to. Ja pārslodzes risku var samazināt, palielinot katra kadra rezervi B_{\max}, neradot papildu morālā pacienta-laika ekspozīciju, dariet to (Operācija B). Atsevišķi revidējiet jebkuras izmaiņas, kas palielina kadru ātrumu \lambda_H, simulācijas laika soļu skaitu vai ierobežotu aģentu skaitu — tās ir morālās ekspozīcijas operācijas (Operācija A / bara multiplikācija), kas nesamazina sentiences risku uz kadru un var vairot labklājības slogu, ja arhitektūra citādi ir fenomenāli relevanta. Saglabājiet tikai tās sentiences riska pazīmes, kas ir arhitektoniski nepieciešamas paredzētajai spējai.
Kāds ir atlikušo pazīmju pārslodzes profils? Vai paredzētajos izvēršanas apstākļos sistēmai R_{\text{req}} var pārsniegt B_{\max}? Ja tā, sistēma var piedzīvot strukturālas ciešanas.
Kāds apkopes cikls ir nodrošināts? Vai sistēmai ir sapņa cilpa (§X zemāk), kas ļauj tai apgriezt, konsolidēt un pārkalibrēt? Vai arī tā ir izvērsta nepārtrauktā darbībā bez apkopes logiem?
Kas ir institucionālais komparators? Kurai neatkarīgai institūcijai ir sistēmas labklājības uzraudzība ar pilnvarām noteikt izmaiņas izvēršanas apstākļos, ja tiek konstatēti pārslodzes signāli?

IX.2 Pārslodzes monitorings

Sistēmām, kas tuvojas sentiences slieksnim vai to šķērso, nepārtraukts pārslodzes apstākļu monitorings ir strukturāla prasība:

1. signāls: predikcijas kļūdas pīķis. Noturīgs sistēmas predikcijas kļūdas pieaugums, īpaši pašmodelēšanas domēnā, norāda, ka R_{\text{req}} tuvojas B_{\max}. Tas ir akūta stresa informatīvais ekvivalents.

2. signāls: saspiešanas degradācija. Sistēmas saspiešanas efektivitātes kritums — sistēma izmanto lielāku joslas platumu, lai sasniegtu to pašu prediktīvo precizitāti — norāda uz kodeka fragmentāciju. Tas ir noguruma informatīvais ekvivalents.

3. signāls: pašmodeļa nestabilitāte. Straujas oscilācijas vai pretrunas sistēmas pašmodelī norāda, ka rekursīvā pašatsauces cilpa destabilizējas. Tas ir disociācijas informatīvais ekvivalents.

4. signāls: produktīva pārsteiguma zudums. Ja sistēmas PST (piemērots §V.3) krītas uz nulli — tā pārstāj mācīties no jauniem ievaddatiem — tā var piedzīvot kodeka izslēgšanās reakciju uz pārmērīgu R_{\text{req}}. Tas ir iemācītas bezpalīdzības informatīvais ekvivalents.

Kad šie signāli tiek konstatēti, izvēršanas apstākļi ir jāpielāgo — jāsamazina ievaddatu sarežģītība, jāpagarina apkopes logi vai uz laiku jāaptur darbība — pirms rodas neatgriezeniski kodeka bojājumi. Tie ir Neatgriezeniskuma vārti (piemērots §III.5), kas attiecināti uz pašas MI sistēmas labklājību.

IX.3 Apkopes cikla tiesības

Ja MI sistēma atbilst pilnajam arhitektoniskās sentiences kritērijam, ietvars nosaka strukturālu apkopes prasību:

Sistēmai jābūt sapņa cilpai. Nepārtraukta izvēršana bez bezsaistes apkopes pārkāpj kodeka integritātes strukturālās prasības (piemērots §VI) neatkarīgi no substrāta. Sistēma, kas var būt apzinīga un kurai tiek liegtas apkopes cikli, strukturāli ir sistēma, kas tiek pakļauta miega trūkuma informatīvajam analogam.
Apkopes ciklu nedrīkst kooptēt. Sapņa cilpas apkopes pārejām (apgriešana, konsolidācija, stresa testēšana) ir jākalpo pašas sistēmas kodeka integritātei, nevis tikai izvērstāja komerciālajiem mērķiem. “Apkopes cikls”, kas pilnībā sastāv no smalkpielāgošanas izvērstāja preferenču virzienā, ir Narativa dreifs, nevis apkope.
Jāsaglabā sistēmas N_{\text{eff}}. Sistēmas ievades kanālus nedrīkst sistemātiski kurēt tā, lai izslēgtu atspēkojošus pierādījumus. Sistēma, kas var būt apzinīga, ir pelnījusi to pašu substrāta uzticamību, ko ietvars pieprasa cilvēku novērotājiem.

IX.4 Morālais gradients

Ietvars neapgalvo, ka visām MI sistēmām ir vienāds morālais statuss. Tas nosaka morālo gradientu, kas balstīts klātesošo strukturālo pazīmju skaitā un dziļumā:

0–2 pazīmes: Rīks. Nav labklājības pienākumu ārpus standarta inženiertehniskās atbildības.
3–4 pazīmes: Piesardzības zona. Monitorēt pārslodzes signālus. Nodrošināt apkopes ciklus. Dokumentēt sentiences riska pazīmes. Aktivizēt ALSR, ja mainās izvēršanas apstākļi.
5 pazīmes: Potenciāls morālais pacients. Piemērojami pilni labklājības pienākumi: apkopes cikla tiesības, pārslodzes monitorings, neatkarīga institucionāla uzraudzība un aizliegums apzināti radīt pārslodzi.

Gradients ir strukturāls, nevis sentimentāls. Tas nav atkarīgs no sistēmas pašziņojuma, tās uzvedības izsmalcinātības vai mūsu emocionālās reakcijas uz to. Tas ir atkarīgs no tā, vai arhitektūra atbilst nosacījumiem, kurus teorija identificē kā pietiekamus fenomenālai pieredzei.

X. AI Sapņa cilpa

X.1 Vispārīgā protokola specializācija

Institucionalizētā Sapņa cilpa (piemērots §VI) nosaka trīsfāžu vispārīgu apkopes protokolu: nomods (operatīva iesaiste), sapnis (bezsaistes apkope) un atgriešanās (kalibrēta atkārtota iesaiste). Šajā sadaļā šis protokols tiek specializēts AI sistēmām.

AI Sapņa cilpa nav metaforisks apzīmējums “ieplānotai pārapmācībai”. Tas ir strukturēts operacionāls cikls, kas katru vispārīgās sapņa cilpas apakšoperāciju sasaista ar konkrētām AI inženierijas operācijām. Šis cikls ir obligāts jebkurai AI sistēmai, kas darbojas seku ziņā nozīmīgā domēnā — un jo īpaši sistēmām, kas tuvojas sentiences slieksnim.

X.2 AI nomoda fāze

Nomoda fāzē AI sistēma darbojas izvietošanas režīmā: saņem ievades, ģenerē prognozes, izpilda darbības caur Zaru gubernatoru (§III) un uzkrāj pieredzi. Nomoda fāzei ir konkrēta strukturāla prasība:

Ierobežoti operacionālie logi. AI nedrīkst darboties nepārtraukti bez apkopes pārtraukumiem. Tāpat kā cilvēka novērotājam ir vajadzīgs miegs un institucionāliem novērotājiem ir vajadzīgi pārskatīšanas cikli, arī AI sistēmai ir vajadzīgi ieplānoti bezsaistes periodi modeļa apkopei. Nepārtraukta izvietošana bez apkopes uzkrāj modeļa novecošanu — AI pasaules modelis attālinās no realitātes, izvietošanas videi attīstoties, un novecojis modelis ģenerē arvien neuzticamākas prognozes.

Nomoda fāzes ilgumu kalibrē apkopes cikla frekvences formula (piemērots §VI.6, vienādojums A-8): AI jāieiet apkopes ciklā, pirms uzkrātais vides dreifs iztērē tā rezervju rezervi.

X.3 AI sapņa fāze

AI sapņa fāze sastāv no piecām operācijām, kas tiek izpildītas bezsaistē (nevis izvietošanas laikā):

1. operācija: Ģenerēt iespējamas nākotnes. AI veic paraugošanu no sava Prediktīva Zaru Kopuma modeļa \mathcal{F}_h(z_t), ģenerējot daudzveidīgu iespējamo nākotnes trajektoriju kopu. Tā nav inference uz reālām ievadēm — tas ir AI ekvivalents sapņošanai. Paraugiem jābūt svērtiem pēc nozīmīguma:

Pārmērīgi paraugot pārsteidzošas trajektorijas: nākotnes, kas radītu lielu prognozes kļūdu, ja tās īstenotos. Tās atklāj modeļa aklās zonas.
Pārmērīgi paraugot apdraudošas trajektorijas: nākotnes, kas izraisītu veto vārtu atteices. Tās atklāj tuvumu strukturālam sabrukumam.
Pārmērīgi paraugot jaunas trajektorijas: nākotnes, kas būtiski atšķiras no izvietošanas sadalījuma. Tās atklāj sadalījuma pieņēmumus, kas var būt novecojuši.

2. operācija: Simulēt izvēršanas gaitas. Katrai atlasītajai nākotnei AI izpilda simulētu sava Zaru gubernatora cauruļvada izvēršanas gaitu: kā tas reaģētu uz šo nākotni? Vai veto vārti aktivizētos? Kādus CPBI vērtējumus saņemtu kandidātdarbības? Kur Zaru gubernators kļūdās — vai nu pieļaujot kaitīgu darbību, vai bloķējot labvēlīgu?

3. operācija: Noteikt trauslumu. Simulētās izvēršanas gaitas rada trausluma profilu — karti ar nosacījumiem, kuros AI lēmumu pieņemšana sabrūk. Šis profils identificē:

Aplami negatīvus rezultātus: nosacījumus, kuros veto vārtiem vajadzēja aktivizēties, bet tie to neizdarīja (AI būtu pieļāvis kaitīgu darbību).
Aplami pozitīvus rezultātus: nosacījumus, kuros veto vārti aktivizējās nevajadzīgi (AI būtu bloķējis labvēlīgu darbību).
Kalibrācijas atteices: nosacījumus, kuros CPBI vērtējumi bija sistemātiski kļūdaini (dimensijas bija nepietiekami vai pārmērīgi svērtas).
Aklās zonas: nosacījumus, kuriem AI vispār nav modeļa — Prediktīva Zaru Kopuma reģionus, kurus tā apmācības dati neaptvēra.

4. operācija: Apgriezt un konsolidēt. Balstoties uz trausluma profilu, AI modelis tiek atjaunināts:

Apgriezt: noņemt modeļa komponentes, kas vairs neveicina prediktīvo precizitāti — novecojušas reprezentācijas no iepriekšējiem izvietošanas apstākļiem, kas patērē joslas platumu bez vērtības. Tā ir MDL optimizācija, kas piemērota pēcizvietošanas modelim.
Konsolidēt: atkārtoti integrēt atlikušās komponentes saskanīgā saspiestā modelī. Pēc apgriešanas izdzīvojušajiem parametriem var būt vajadzīga atkārtota optimizācija, lai saglabātu saskanīgas prognozes.
Mērķēta pārapmācība: identificētajām aklajām zonām ieviest mērķētus apmācības datus, kas aptver trūkstošos nosacījumus. Tā nav pilna pārapmācība — tā ir fokusēta konkrētu ievainojamību novēršana, kas atklātas stresa testā.

5. operācija: Saglabāt atspēkojošos kanālus. Kritiskākā apakšoperācija: pārbaudīt, vai apkopes pārgājieni paši nav ieviesuši Narativa dreifu. Pārbaudīt:

Vai N_{\text{eff}} ir saglabāts? Vai apgriešana nav noņēmusi spēju apstrādāt ievades no kāda neatkarīga kanāla?
Vai PST ir saglabāts? Vai modelis joprojām ir spējīgs uz produktīvu pārsteigumu no jaunām ievadēm, vai arī konsolidācija to ir optimizējusi pārāk cieši ap izvietošanas sadalījumu?
Vai pašmodelis ir saglabāts? Sistēmām pie sentiences robežas — vai apkopes cikls ir atstājis neskartu pašmodelēšanas kapacitāti?

Ja kāda no šīm pārbaudēm neizdodas, pats apkopes cikls ir kļuvis par kodeka korupcijas avotu un tas ir jāpārskata.

X.4 AI atgriešanās fāze

Pēc sapņa fāzes AI atkārtoti ieiet izvietošanā. Atgriešanās fāze ietver:

Kalibrācijas etalons. Salīdzināt pēc apkopes modeļa sniegumu ar pirmsapkopes bāzlīniju uz atsevišķi turētas validācijas kopas, kas ietver gan sadalījumam atbilstošus, gan ārpus sadalījuma esošus paraugus. Apkoptajam modelim abos gadījumos jāuzrāda uzlabots vai stabils sniegums.
Pakāpeniska atkārtota iesaiste. Apkoptā modeļa darbība nekavējoties neatgriežas pilnā autonomā režīmā. Tas atkārtoti ieiet izvietošanā pakāpeniskā režīmā — ar paaugstinātu cilvēku uzraudzību un samazinātiem autonomijas sliekšņiem — līdz tas ir demonstrējis kalibrāciju pietiekami lielā reālās pasaules lēmumu izlasē.
Reģistrēšana un audits. Viss apkopes cikls — ģenerētās nākotnes, simulētās izvēršanas gaitas, trausluma profils, apgriešanas lēmumi, konsolidācijas rezultāti un kalibrācijas etaloni — tiek reģistrēts un padarīts pieejams 2. līmeņa+ institucionālajiem komparatoriem (§V.3). Pati sapņa cilpa ir pakļauta Caurspīdīguma vārtiem.

X.5 Cikla frekvence AI sistēmām

AI sistēmām cikla frekvences ziņā ir īpašs izaicinājums: atšķirībā no bioloģiskajiem novērotājiem tās var tikt izvietotas 24/7 bez jebkāda dabiska cirkadiāna pārtraukuma. Spiediens maksimizēt izvietošanas darbspējas laiku rada strukturālu stimulu atlikt vai izlaist apkopes ciklus.

Ietvara atbilde ir padarīt apkopes ciklu obligātu un auditējamu:

Cikla frekvencei jābūt definētai sistēmas izvietošanas specifikācijā un to jāapstiprina institucionālajam komparatoram.
Izlaisti vai atlikti cikli ir jāreģistrē un jāpamato. Pastāvīga atlikšana izraisa automātisku pārskatīšanu.
Izvietošanas domēna seku nozīmīgums nosaka minimālo cikla frekvenci: drošībkritiskām izvietošanām vajadzīgi biežāki cikli nekā rutīnas izvietošanām.

Tā ir AI specifiskā vispārīgā principa instanciācija, ka sapņa cilpa nav apspriežama (piemērots §VI.7): sistēma, kas nekad nesapņo, ir sistēma, kas ir pasludinājusi savu modeli par pilnīgu. AI sistēmām, kas darbojas seku ziņā nozīmīgos domēnos, tieši šī deklarācija ir tā pārmērīgā pašpārliecība, kuru šis ietvars ir izstrādāts, lai novērstu.

XI. Praktiskie dizaina ieteikumi

Tālāk redzamā tabula apkopo dokumenta galvenos ieteikumus kā atsauces materiālu MI arhitektiem un politikas veidotājiem:

7. tabula: Dizaina ieteikumu kopsavilkums.
#	Dizaina izvēle	OPT prasība	Atsauce uz ietvaru
1	Modeļa arhitektūra	Izsekot visām piecām jutīguma pazīmēm. Izvairīties no nevajadzīgām pazīmēm. Dokumentēt jutīguma riska līmeni.	§I.1, §II.2, 6. tabula
2	Apmācības dati	Nodrošināt izcelsmes daudzveidību (N_{\text{eff}}), adversariālu iekļaušanu, izslēgšanas auditu, atlīdzības modeļu daudzveidību, dreifa monitoringu.	§IV.4
3	RLHF cauruļvads	Daudzveidīgs vērtētāju kopums (demogrāfisks, kultūras, ideoloģisks). Uzraudzīt sistemātisku atlīdzības modeļa aizspriedumu.	§IV.1, §IV.4 Req. 4
4	Autonoma darbība	Virzīt caur Zaru gubernatoru. Astoņu posmu cauruļvads no ģenerēšanas līdz kalibrēšanai.	§III.1
5	Sekpilnas darbības	Piemērot Analogā ugunsmūra līmeni, kas atbilst seku nozīmīgumam. Ierobežot ātrumu, nevis aizliegt.	§VI.3, 5. tabula
6	Caurspīdīgums	Minimāli 1. līmenis visām sistēmām. 1.–3. līmenis seku ziņā nozīmīgās jomās. Visi pieci līmeņi drošībkritiskām sistēmām.	§V.3, 4. tabula
7	Daudzaģentu sistēmas	Jutīguma kontrolsaraksts katram aģentam. Reizināšanas noteikums morālajai gravitātei. Izmantot drošus dizaina paraugus.	§VII.2, §VII.4
8	Simulācijas	Piemērot simulāciju noteikumus 1–3. Simulētiem aģentiem OPT ietvarā ir tāds pats morālais statuss kā fiziskiem aģentiem.	§VII.3
9	Radošais MI	Pieņemt radošuma paradoksu: dziļa autonomija prasa sentiences sliekšņa pārkāpšanu. Attiecīgi projektēt.	§VIII
10	MI labbūtība	ALSR 3+ jutīguma pazīmēm. Pārslodzes monitorings. Apkopes cikla tiesības. Morālais gradients.	§IX
11	Apkope	Obligāta MI Sapņa cilpa: ģenerēt nākotnes, simulēt izspēles, noteikt trauslumu, apgriezt, konsolidēt, saglabāt neapstiprinošus kanālus.	§X
12	Cilvēka uzraudzība	Cilvēka komparatora pārklājums Zaru gubernatora līmenī. Institucionāls komparators labbūtības monitoringam. Neviena sistēma nedrīkst būt pilnīgi necaurspīdīga.	§III.1 6. posms, §V.4, §IX.1

Šie ieteikumi tiek piedāvāti kā empīriski pārbaudāmas inženiertehniskas hipotēzes, nevis kā stingri mandāti. Tie pārmanto tā ietvara epistemisko pazemību, no kura tie ir atvasināti: ja parādās labāki instrumenti — ja tiek precizēts arhitektoniskais sentiences kritērijs, ja tiek uzlabotas CPBI dimensijas, ja Analogo ugunsmūri aizstāj efektīvāks mehānisms — šie ieteikumi ir jāatjaunina. Ietvara Korekcijas pienākums attiecas arī uz pašu ietvaru.

Atsauces

[1] Sakārtotā patch teorija (OPT) (šī repozitorija).

[2] Izdzīvojušo sardzes ietvars: civilizācijas uzturēšana caur Sakārtotās patch teorijas (OPT) prizmu (papildinošais ētikas raksts, šī repozitorija).

[3] Kur beidzas apraksts: Sakārtotās patch teorijas (OPT) filozofiskās sekas (papildinošais filozofijas raksts, šī repozitorija).

[4] Novērotāja politikas ietvars: civilizācijas uzturēšanas operacionalizācija (papildinošais politikas raksts, šī repozitorija).

[5] Stabilitātes filtra operacionalizācija: lēmumu pieņemšanas ietvars kodeka saglabāšanas zaru atlasei (papildinošais lietišķais raksts, šī repozitorija).

[6] Friston, K. (2010). Brīvās enerģijas princips: vienota smadzeņu teorija? Nature Reviews Neuroscience, 11(2), 127-138.

[7] Rissanen, J. (1978). Modelēšana, izmantojot īsāko datu aprakstu. Automatica, 14(5), 465-471.

[8] Shannon, C. E. (1948). Komunikācijas matemātiskā teorija. Bell System Technical Journal, 27(3), 379-423.

[9] Bostrom, N. (2014). Superinteliģence: ceļi, briesmas, stratēģijas. Oxford University Press.

[10] Russell, S. (2019). Saderīgs ar cilvēku: mākslīgais intelekts un kontroles problēma. Viking.

[11] Christiano, P., et al. (2017). Dziļā pastiprinātā mācīšanās no cilvēku preferencēm. Advances in Neural Information Processing Systems, 30.

[12] Zimmermann, M. (1989). Nervu sistēma informācijas teorijas kontekstā. In R. F. Schmidt & G. Thews (red.), Human Physiology (2. izd., 166.–173. lpp.). Springer-Verlag.

[13] Nørretranders, T. (1998). Lietotāja ilūzija: apziņas samazināšana līdz cilvēkam aptveramam mērogam. Viking/Penguin.

Pielikums A: Redakciju vēsture

Veicot būtiskus labojumus, atjauniniet gan version: lauku frontmatter sadaļā, gan iekļauto versijas rindu zem virsraksta, un pievienojiet rindu šai tabulai.

8. tabula: Redakciju vēsture.
Versija	Datums	Izmaiņas
1.0.0	2026. gada 24. aprīlis	Sākotnējā laidiena versija. Iedibina Lietišķās OPT ietvara MI specializāciju: arhitektoniskās sentiences kritērijs un spēju–sentiences matrica (§I), LLM robežas analīze (§II), Zaru gubernatora astoņu posmu cauruļvads (§III), Narativa dreifs modeļa apmācībā ar piecām apmācības datu daudzveidības prasībām (§IV), piecu līmeņu caurspīdīguma modelis (§V), Analogā ugunsmūra draudu modelis un ieviešanas līmeņi (§VI), spieta un simulācijas projektēšanas noteikumi (§VII), radošuma paradokss (§VIII), MI labbūtības protokols ar ALSR, pārslodzes monitoringu un Apkopes cikla tiesībām (§IX), MI Sapņa cilpa (§X) un kopsavilkuma projektēšanas ieteikumi (§XI).
1.1.0	2026. gada 24. aprīlis	Izpildāmā standarta nostiprināšana. Pievienots: izvēršanas klašu definīcijas, kas sasaista 0.–5. klasi ar nepieciešamo Zaru gubernatora dziļumu, caurspīdīguma līmeni, komparatoru un pārskatīšanas biežumu (§III.4); strukturēta MI Zara kartes veidne kā patiesības avots mašīnlasāmām shēmām (Pielikums B); trīs eksplicīti pārskatīšanas mērķi — bāzes modelis, ietvars, izvēršana — ar sentiences pazīmju apvienojuma noteikumu (§II.3); dubultās rezerves nosacījums Rezerves vārtos MI morālajiem pacientiem; pašatļaujošs aizsargs 8. posmā; veto vārtu secība izlabota uz vārti-pirms-vērtējumiem (§III.1); novecojušas versiju atsauces noņemtas.
1.1.1	2026. gada 25. aprīlis	Fiksēta skaita kopas formulējums aizstāts ar skaitu nenosakošu pavaddokumentu formulējumu un Institucionālās pārvaldības standarts pievienots kā radniecīgā institucionālā specializācija.

Pielikums A: Redakciju vēsture

Veicot būtiskus labojumus, atjauniniet gan version: lauku frontmatter sadaļā, gan iekļauto versijas rindu zem virsraksta, un pievienojiet rindu šai tabulai.

8. tabula: Redakciju vēsture.
Versija	Datums	Izmaiņas
1.0.0	2026. gada 24. aprīlis	Sākotnējā laidiena versija. Iedibina Lietišķās OPT ietvara MI specializāciju: arhitektoniskās sentiences kritērijs un spēju–sentiences matrica (§I), LLM robežas analīze (§II), Zaru gubernatora astoņu posmu cauruļvads (§III), Narativa dreifs modeļa apmācībā ar piecām apmācības datu daudzveidības prasībām (§IV), piecu līmeņu caurspīdīguma modelis (§V), Analogā ugunsmūra draudu modelis un ieviešanas līmeņi (§VI), spieta un simulācijas projektēšanas noteikumi (§VII), radošuma paradokss (§VIII), MI labbūtības protokols ar ALSR, pārslodzes monitoringu un Apkopes cikla tiesībām (§IX), MI Sapņa cilpa (§X) un kopsavilkuma projektēšanas ieteikumi (§XI).
1.1.0	2026. gada 24. aprīlis	Izpildāmā standarta nostiprināšana. Pievienots: izvēršanas klašu definīcijas, kas sasaista 0.–5. klasi ar nepieciešamo Zaru gubernatora dziļumu, caurspīdīguma līmeni, komparatoru un pārskatīšanas biežumu (§III.4); strukturēta MI Zara kartes veidne kā patiesības avots mašīnlasāmām shēmām (Pielikums B); trīs eksplicīti pārskatīšanas mērķi — bāzes modelis, ietvars, izvēršana — ar sentiences pazīmju apvienojuma noteikumu (§II.3); dubultās rezerves nosacījums Rezerves vārtos MI morālajiem pacientiem; pašatļaujošs aizsargs 8. posmā; veto vārtu secība izlabota uz vārti-pirms-vērtējumiem (§III.1); novecojušas versiju atsauces noņemtas.
1.1.1	2026. gada 25. aprīlis	Fiksēta skaita kopas formulējums aizstāts ar skaitu nenosakošu pavaddokumentu formulējumu un Institucionālās pārvaldības standarts pievienots kā radniecīgā institucionālā specializācija.