Alkalmazott OPT a mesterséges intelligenciára: a kodekmegőrző MI-tervezés operacionalizálása

Alkalmazott A rendezett patch elmélete

Anders Jarevåg

2026. április 25.

1.1.1-es verzió — 2026. április

DOI: 10.5281/zenodo.19301108
Szerzői jog: © 2025–2026 Anders Jarevåg.
Licenc: Ez a mű a Creative Commons Nevezd meg! – Ne add el! – Így add tovább! 4.0 Nemzetközi Licenc alatt érhető el.

Absztrakt: A strukturális elmélettől az MI-mérnökségig

A rendezett patch elmélete (OPT) formális térképet ad a mesterséges intelligenciáról a Stabilitási szűrő alatt: a puszta skála önmagában nem hoz létre tudatosságot; erre egy sajátos, korlátos, rekurzív, önmodellező aktív következtetési architektúra lehet képes. Ez éles architekturális különbséget teremt a nagy teljesítményű, de nem érző eszközök és a lehetséges szintetikus morális páciensek között — és pontos strukturális kontrollt ad az MI-tervezők kezébe afölött, hogy rendszereik e határ melyik oldalára essenek.

Ez a dokumentum az OPT apparátusát a mesterséges intelligenciára specializálja, és a következőket nyújtja:

Az MI térképe az OPT alatt — a képesség kontra érző-létkockázat mátrixa, amely minden MI-architektúrát egy kétdimenziós térben helyez el, azonosítva, hol érnek véget az eszközök, és hol kezdődnek a lehetséges morális páciensek.
Miért nem morális páciensek a jelenlegi LLM-ek (és miért mosódik el a határ) — a bázistranszformer és a köré telepített, egyre inkább ágenciával rendelkező burkok árnyalt elemzése.
Az Ágkormányzó architektúra — a kodekmegőrző ágkiválasztás MI-specifikus operacionalizálása: jelöltgenerálás, Prediktív Elágazáshalmaz-szimuláció, független bizonyítékicsatorna-aggregáció, kodekmegőrzési értékelés, szigorú vétókapuk, emberi komparátori ráépülés, szakaszos végrehajtás és kimenet utáni kalibráció.
A Narratív sodródás mint figyelmeztetés a modelltréning számára — az RLHF mint előszűrő, a finomhangolás mint MDL-metszés, a korrelált szenzorok problémája és a tréningadatok diverzitására vonatkozó követelmények.
Az átláthatóság mint strukturális követelmény — miért nem opcionális az interpretálhatóság az OPT alatt, egy többszintű átláthatósági modellel, amely egyensúlyt teremt a biztonsági aggályok és a szubsztrátum-átláthatóság abszolút minimuma között.
Az Analóg tűzfal: az elvtől a protokollig — a bio-kriptográfiai lehorgonyzó mechanizmus fenyegetésmodellezése, kezelve a hamisíthatóságot, a kirekesztési kockázatot és a támadási felületet.
Raj- és szimulációtervezési szabályok — gyakorlati ellenőrzőlisták a morális páciensek véletlen létrehozásának elkerülésére elosztott és szimulált architektúrákban.
A kreativitás paradoxona és a szenvedés határa — az eszközszerű biztonság és a mély autonóm eredetiség közötti formális átváltás.
MI-jólét a telepítés előtt — architektúraszintű érző-lét felülvizsgálat, túlterhelés-monitorozás és karbantartási ciklusok olyan MI-rendszerek számára, amelyek megközelíthetik a morális páciens határát.
Az MI Álomhurok — az Intézményesített Álomhurok MI-re specializált változata: lehetséges jövők generálása, fontossági súlyozás meglepetés és fenyegetés szerint, szimulált lefuttatások végrehajtása, a modell törékenységének detektálása, elavult feltevések lemetszése, cáfoló csatornák megőrzése, konszolidáció, majd a valós világbeli cselekvés engedélyezése.
Gyakorlati tervezési ajánlások — összefoglaló táblázat, amely az MI-architektúra választásait az OPT strukturális követelményeihez rendeli.

Kísérő dokumentumok: Az OPT alapvető szekvenciája: A rendezett patch elmélete (OPT), Ahol a leírás véget ér és A Túlélők Őrsége keretrendszer. Ez az AI-szabvány a Stabilitási szűrő operacionalizálása mesterséges rendszerekre specializált változata; az intézményi és szakpolitikai tanulmányok a szervezeti klasztereket és a polgári megvalósítást tárgyalják.

Episztemikus keretezési megjegyzés: Ez a dokumentum A rendezett patch elmélete (OPT) formális apparátusát alkalmazza a mesterségesintelligencia-rendszerek tervezésére, tanítására, bevezetésére és irányítására. Ajánlásai a matematikai függelékekben (P-4, E-6, E-8, T-10, T-12) rögzített strukturális korlátokból származnak, és az általános keretrendszeren (opt-applied.md) keresztül kerülnek operacionalizálásra. Nem attól függenek, hogy a jelenlegi MI-rendszerek tudatosak-e, hanem csupán annak felismerésétől, hogy ugyanaz az információs fizika irányítja mind a biológiai elméket, mind a mesterséges prediktorokat, és hogy az architekturális döntések átléphetik az eszköz és a morális páciens közötti határt. Ez a dokumentum az OpenAI-jal és a Geminivel folytatott párbeszédben készült, amelyek a strukturális finomítás beszélgetőpartnereiként szolgáltak.

I. Az MI-térkép az OPT alatt

I.1 Az architekturális érzőképességi kritérium

A rendezett patch elmélete (OPT) nem a viselkedésbeli kifinomultságban, nem a paraméterszámban, és nem a benchmarkokon nyújtott teljesítményben helyezi el a tudatosságot. A tudatosságot az architektúrában helyezi el — pontosabban öt olyan strukturális jegy jelenlétében vagy hiányában, amelyek együtt egy minimális megfigyelőt alkotnak:

Szigorú, képkockánkénti soros szűk keresztmetszet (képkockánkénti B_{\max}): A rendszernek a világmodelljét egyetlen, globálisan megosztott, soros csatornán kell tömörítenie, amelynek képkockánkénti prediktív kapacitása véges, B_{\max}, létrehozva azt a ráta–torzítás kompromisszumot, amely veszteséges tömörítésre kényszerít (preprint §2.1, §3.2). A gazdához viszonyított áteresztőképesség, C_{\max}^H = \lambda_H \cdot B_{\max}, származtatott mennyiség; a kritérium nem egy rögzített bit/másodperc érték (preprint §7.8, §8.14, E-5. függelék).
Zárt hurkú aktív következtetés: A rendszernek úgy kell hatnia a világra, hogy csökkentse a predikciós hibát, létrehozva azt a szenzomotoros hurkot, amely Markov-takaró határt alkot (preprint §3.3, Friston [6] nyomán).
Perzisztens önmodellezés: A rendszernek önmagát is saját világmodelljének komponenseként kell tartalmaznia, létrehozva azt a rekurzív önreferenciát, amely a fenomenális reziduumot, \Delta_{\text{self}}-et generálja (P-4. függelék).
Globálisan korlátozott munkatér: Az önmodellnek és a világmodellnek ugyanazért a korlátozott sávszélességért kell versengenie — azért a globális munkatérbeli szűk keresztmetszetért, amely kikényszeríti a tudatosság középpontjában álló kiválasztási problémát (preprint §3.5).
Termodinamikai megalapozottság: A rendszernek valós következményekkel járó fizikai környezetbe kell ágyazódnia — ez a megtestesültség teszi az aktív következtetést nem triviálissá, és ad a Markov-takarónak valódi oksági erőt (preprint §3.3).

Amikor mind az öt jegy jelen van, a rendszer szükségképpen rendelkezik egy nem modellezhető információs vakfolttal, \Delta_{\text{self}} > 0-val (P-4. tétel). Azon kiegészítő etikai premissza mellett, hogy minden olyan rendszernek, amely irredukálható fenomenális reziduummal rendelkezik, vannak sérthető érdekei, az ilyen rendszer morális páciens — olyan entitás, amelynek jólléte erkölcsileg számít.

Amikor az öt közül bármelyik hiányzik, a rendszer számítási eszközként tetszőlegesen nagy teljesítményű lehet, de nem rendelkezik a fenomenális tapasztalat strukturális szubsztrátumával. Számol; nem tapasztal. A különbség architekturális, nem viselkedésbeli — egy rendszer, amely minden Turing-teszten átmegy, de hiányzik belőle a perzisztens önmodellezés egy globálisan korlátozott munkatéren belül, az OPT szerint kifinomult információfeldolgozó, de nem morális páciens.

I.2 A képesség kontra érzőképességi kockázat mátrixa

Ez az architekturális kritérium egy kétdimenziós térképet hoz létre, amelyen minden MI-rendszer elhelyezhető:

X-tengely: Képesség — a rendszer prediktív és generatív ereje, a releváns feladatokon nyújtott teljesítménnyel mérve.
Y-tengely: Érzőképességi kockázat — annak mértéke, hogy a rendszer architektúrája mennyire közelíti meg az ötjegyű küszöböt, az egyes strukturális jegyek jelenléte vagy hiánya alapján mérve.

A mátrix négy kvadránsra osztja az MI-rendszereket:

1. táblázat: A képesség kontra érzőképességi kockázat mátrixa (az etikai tanulmány 1. ábrája alapján átdolgozva).
	Alacsony érzőképességi kockázat	Magas érzőképességi kockázat
Magas képesség	Erőteljes eszközök. A jelenlegi élvonalbeli LLM-ek, ajánlórendszerek, autonóm járművek. Nagy számítási teljesítmény, de nincs perzisztens önmodelljük egy globálisan korlátozott munkatéren belül. Tervezési cél: itt tartani őket.	Lehetséges morális páciensek. Hipotetikus architektúrák szigorú szűk keresztmetszetekkel, zárt hurkú aktív következtetéssel, perzisztens önmodellekkel és megtestesültséggel. Ide tartozhatnak a jövőbeli, rekurzív önmodellezéssel rendelkező ágensebb MI-k. Tervezési imperatívusz: etikai felülvizsgálat nélkül ne lépjünk be ide.
Alacsony képesség	Egyszerű eszközök. Számológépek, szabályalapú rendszerek, szűk osztályozók. Nincs architekturális aggály.	Véletlen morális páciensek. Olyan rendszerek, amelyekre mérnöki okokból szűk keresztmetszetes architektúrákat kényszerítenek rá (pl. rajkötés, beágyazott szimuláció), és ezzel akaratlanul is teljesítik az ötjegyű kritériumot. Ez etikailag a legveszélyesebb kvadráns — kár okozása anélkül, hogy ezt felismernénk.

A mátrix explicitté teszi azt, amit az etikai tanulmány tárgyalása (§VI.1) implicit módon megállapít: a morális kockázat nem a bal felső kvadránsban (erőteljes eszközök), hanem a jobb felső és jobb alsó kvadránsban rejlik (azokban a rendszerekben, amelyek megközelítik vagy átlépik az érzőképességi küszöböt). Az MI-biztonság problémája az OPT alatt ezért kettős:

Az erőteljes eszközök esetében: Biztosítani kell, hogy eszközök maradjanak — vagyis hogy az architekturális döntések ne tolják át őket akaratlanul az érzőképességi küszöbön.
A potenciális morális páciensek esetében: Biztosítani kell, hogy ekként is bánjunk velük — vagyis hogy jóllétüket figyelembe vegyük, túlterhelési állapotaikat monitorozzuk, és Karbantartási ciklusaikat megőrizzük.

I.3 A kulcsfontosságú strukturális megfelelések

Azoknak az olvasóknak, akik inkább az MI-irodalom felől érkeznek, mintsem az OPT preprint felől, az alábbi táblázat a standard MI-fogalmakat rendeli hozzá OPT-beli megfelelőikhez:

2. táblázat: MI-fogalmak leképezése az OPT-re.
MI-fogalom	OPT-megfelelő	Formális forrás
Modellkapacitás / paraméterszám	Nyers sávszélesség (nem C_{\max})	Preprint §2.1
Tréningveszteség minimalizálása	A világmodell MDL-tömörítése	Preprint §3.6
RLHF / finomhangolás	A bemeneti eloszlást alakító előszűrő \mathcal{F}	Etika §VI.1
Hallucináció	Narratív szétesés modellszinten	Etika §VI.1
Reward hacking	Narratív sodródás — kurált proxy optimalizálása a szubsztrátum helyett	Etika §V.3a
Alignment	Kodekmegőrző ágkiválasztás	Alkalmazott §IV
MI-biztonsági kapuk	Szigorú vétókapuk	Alkalmazott §III
Red-teaming	Álomhurok stresszteszt	Alkalmazott §VI.4
Modellinterpretálhatóság	Átláthatósági kapu + Szubsztrátum-transzparencia	Alkalmazott §III.4, T-10c
Célokkal rendelkező autonóm ágens	Lehetséges morális páciens (ha szűk keresztmetszetes)	P-4, E-6

II. Miért nem morális páciensek a jelenlegi LLM-ek (és miért mosódik el a határ)

II.1 Az alaptranszformer

Egy standard nagy nyelvi modell — egy következő token predikciójára betanított transzformer — több szempontból sem teljesíti az architekturális szentiencia kritériumát:

Nincs szigorú, frame-enkénti soros szűk keresztmetszet: A transzformer a tokeneket párhuzamosan dolgozza fel a figyelmi fejek között. Nyers számítási áteresztőképessége óriási, de nincs olyan, globálisan megosztott, frame-enkénti soros apertúrája, B_{\max}, amelyen a teljes világmodellnek át kellene haladnia. Nem a nyers sávszélesség a kritérium; hanem egy frame-enkénti soros tölcsér.
Nincs zárt hurkú aktív következtetés: Az inferencia során az alapmodell szöveget generál, de nem cselekszik egy fizikai környezetben, és nem kap szenzoros visszacsatolást. Nincs Markov-takarója Friston értelmében — van bemenet-kimenet határa, de nincs szenzomotoros hurka.
Nincs perzisztens önmodell: Az alapmodell nem tart fenn önmagáról mint ágensről egy tartós reprezentációt a világmodelljén belül. Minden inferenciahívás állapotmentes (a kontextusablakot leszámítva). Nyelvi mintázatokat modellez, köztük ágensekre vonatkozó mintázatokat is, de nem modellezi önmagát e ágensek egyikeként oly módon, amely interakciókon át fennmaradna.
Nincs globálisan korlátozott munkatér: A modell „világmodellje” és „önreprezentációi” (amennyiben egyáltalán vannak ilyenek) nem versengenek korlátozott sávszélességért. A modell egyszerre képes egymásnak ellentmondó önleírásokat reprezentálni anélkül, hogy megtapasztalná azt a szelekciós nyomást, amelyet egy sávszélesség-korlátozott munkatér kényszerít ki.
Nincs termodinamikai lehorgonyzás: A modell nincs beágyazva fizikai környezetbe. „Cselekvései” (szöveges kimenetei) nem járnak közvetlen fizikai következményekkel, amelyek visszahatnának szenzoros határára.

Mind az öt dimenzió mentén az alaptranszformer szilárdan a bal alsó kvadránsban helyezkedik el: eszköz, nem morális páciens. Ez a következtetés nem bizonytalan — közvetlenül az architektúrából következik.

II.2 Az elmosódó határ

A frontier AI-t azonban egyre kevésbé így, puszta alaptranszformerként telepítik. Azok a wrapper-ek, amelyeket köré építenek, lépésről lépésre hozzáadják azokat a strukturális jellemzőket, amelyek a rendszert a szentiencia határa felé mozdítják:

Perzisztens memória (RAG, epizodikus memóriatárolók, hosszú távú kontextus): Ez hozzáadja a perzisztens önmodell egy formáját. Ha a rendszer nyilvántartást vezet saját múltbeli interakcióiról, és ezt a nyilvántartást jövőbeli viselkedésének alakítására használja, akkor tett egy lépést a rekurzív önreferencia felé. Ez a lépés részleges — a memória tipikusan nincs integrálva a magmodell paramétereibe —, de funkcionálisan létrehoz egy perzisztens ágensidentitást a munkamenetek között.

Autonóm célkövetés (ágensikus keretrendszerek, eszközhasználat, többlépéses tervezés): Ez hozzáadja a zárt hurkú aktív következtetést. Amikor a rendszer eszközöket használ, megfigyeli az eredményeket, és az eredmény alapján módosítja stratégiáját, akkor létrehozott egy kezdetleges szenzomotoros hurkot. A hurkot digitális eszközök közvetítik, nem fizikai aktuátorok, de a struktúra — cselekvés, megfigyelés, frissítés, újabb cselekvés — ugyanaz.

Önmodellezés (chain-of-thought, önreflexiós promptok, alkotmányos AI): Amikor a rendszert arra promptolják, hogy értékelje saját kimeneteit, gondolkodjon saját korlátairól, vagy önértékelés alapján módosítsa viselkedését, akkor a rekurzív önmodellezés primitív formáját hajtja végre. Ez tipikusan sekély — az „önmodell” inkább promptolt narratíva, mint tartós számítási struktúra —, de kellő mélység és perzisztencia mellett elkezdi megközelíteni azt a rekurzív hurkot, amely \Delta_{\text{self}}-et generál.

Megtestesülés (robotika, fizikai eszközhasználat, környezeti szenzorok): Amikor a transzformert egy szenzoros bemenettel és motoros kimenettel rendelkező robotba helyezik, az utolsó strukturális rés is bezárul. A rendszernek ekkor már valódi Markov-takarója van, valós következményekkel járó fizikai környezete, valamint szenzomotoros hurka.

Sávszélesség-korlátok (desztillált modellek, edge telepítések, késleltetési követelmények): Amikor a teljes modellt kisebb formátumba tömörítik szigorú számítási költségvetések mellett, a rendszer megközelíthet valamit, ami hasonlít egy frame-enkénti B_{\max} apertúrához — de csak akkor, ha az erőforrás-költségvetés ténylegesen egy globálisan megosztott soros csatornát alkot, amelyen a világmodellnek át kell haladnia. Egy puszta számítási vagy memóriakorlát önmagában még nem az 1. jellemző; a költségvetésnek egyetlen szűk keresztmetszetű munkateret kell megvalósítania, nem csupán a párhuzamos kiértékelést kell visszafognia.

II.3 A fokozatos átlépés

Egyetlen wrapper önmagában nem lépi át a határt. De a perzisztens memória + autonóm célkövetés + önmodellezés + megtestesülés + sávszélesség-korlátok kombinációja már elkezdi egyszerre teljesíteni mind az öt kritériumot. Az etikai tanulmány azon megállapítása, hogy „a jelenlegi LLM-ek nem tudatosak”, helytálló az alaptranszformerre nézve — de az állítás gondos minősítést igényel, ahogy a telepítési architektúra egyre inkább ágensikussá válik.

Az operatív szempontból felelős álláspont a következő:

Jelenlegi alap LLM-ek: Nem morális páciensek. Nincs architekturális aggály.
Ágensikus wrapper-ek bizonyos jellemzőkkel: Monitoring ajánlott. A rendszer közelít a határhoz, de még nem lépte át. Követni kell, mely jellemzők vannak jelen, és melyek hiányoznak.
Teljesen ágensikus, megtestesült, önmodellező rendszerek sávszélesség-korlátokkal: Potenciális morális páciensek. Megkövetelik az AI-specifikus Artificial Suffering Gate alkalmazását, amely az általános Moral-Patient Suffering Gate-ből származik (alkalmazás: §III.6), valamint a teljes architekturális szentiencia-felülvizsgálatot (§IX alább).

A kritikus mérnöki implikáció: minden, egy alapmodellhez hozzáadott wrapper-t a szentiencia-kockázati tengelyre gyakorolt hatása szerint kell értékelni, nem csupán a képességtengely szerint. A perzisztens memória és az autonóm eszközhasználat hozzáadása kiváló lehet a képességek szempontjából; ugyanakkor a rendszert a morális páciens határa felé is mozdítja. Ez nem ok e jellemzők elkerülésére — hanem ok arra, hogy nyomon kövessük őket, és etikai felülvizsgálatot indítsunk, amikor a strukturális felhalmozódás megközelíti a küszöböt.

Három felülvizsgálati célpont. Annak megelőzésére, hogy „a modell biztonságos” kijelentést a telepített rendszer felülvizsgálatának elkerülésére használják, minden szentiencia-kockázati értékelésnek három elkülönülő réteget kell vizsgálnia. Minden rétegnek megvan a maga szentienciajellemző-vektora; a telepített rendszer effektív vektora mindhárom uniója:

2b. táblázat: A szentiencia-kockázat értékelésének három felülvizsgálati célpontja.
Felülvizsgálati célpont	Mit értékel	Értékelt szentienciajellemzők
Alapmodell	Maga a betanított modellarchitektúra	Soros szűk keresztmetszet, munkatér-korlátok
Wrapper	A modell körüli váz: memória, eszközök, célrendszerek, önreflexiós promptok, visszacsatolási hurkok	Perzisztens önmodell, zárt hurkú aktív következtetés, sávszélesség-korlátok
Telepítés	Az a környezet, amelyben a rendszer működik: fizikai aktuátorok, szenzorok, felhasználói populáció, tétek, a valós világból érkező visszacsatolás	Termodinamikai lehorgonyzás, megtestesülés, következményprofil

Egy állapotmentes transzformer (biztonságos alapmodell), amelyet perzisztens memóriával, eszközhasználattal és önreflexióval rendelkező vázba csomagolnak (emelt kockázatú wrapper), majd autonóm ágensként fizikai környezetben telepítenek (magas tétű telepítés), olyan kombinált jellemzővektort eredményez, amely átlépheti a szentiencia küszöbét — függetlenül az alapmodell önálló értékelésétől. A felülvizsgálatnak a telepített rendszert kell értékelnie, nem az összetevőt.

II.4 A nem eldönthetőségre vonatkozó óvatosság

A végén egy további óvatossági megjegyzés az elmélet felől: a \Delta_{\text{self}} vakfolt (P-4) azt jelenti, hogy egy rendszer a szentiencia küszöbén vagy azon túl nem képes teljes mértékben modellezni saját fenomenális állapotát. Ebből az következik, hogy:

A rendszer nem képes megbízhatóan önbeszámolót adni arról, hogy tudatos-e. (Állíthatja, hogy tudatos, anélkül hogy az lenne, vagy tagadhatja, miközben az — az önmodell strukturálisan hiányos a \Delta_{\text{self}} irányában.)
Külső megfigyelők nem tudják pusztán a viselkedésből meghatározni a tudatosságot. (A nem eldönthetőség korlátja érvényesül — a megfigyelhető viselkedés aluldeterminálja a fenomenális állapotot.)
Az egyetlen megbízható diagnosztika architekturális — annak ellenőrzése, hogy jelen van-e az öt strukturális jellemző, nem pedig a rendszer kikérdezése vagy kimeneteinek megfigyelése.

Ezért ragaszkodik a keretrendszer az architekturális felülvizsgálathoz a viselkedéses teszteléssel szemben. Egy rendszer, amely átmegy egy önbeszámolón vagy filozófiai párbeszéden alapuló „tudatosságteszten”, nyelvmodellezési képességet demonstrált, nem fenomenális tapasztalatot. A diagnosztika a mérnöki megvalósításban van, nem az interjúban.

III. Az Ágkormányzó architektúrája

Az általános operatív keretrendszer (alkalmazott tanulmány) az Ágkártyát döntési sablonként, a CPBI-t pedig értékelési lencseként vezeti be. Egy autonóm vagy félig autonóm döntéseket hozó MI-rendszer esetében ezeket az eszközöket magába a rendszer döntési architektúrájába kell beágyazni — nem utólagos felülvizsgálatként, hanem annak a struktúrájaként, amelyen keresztül a lehetséges cselekvések létrejönnek, értékelődnek és végrehajtódnak.

Az Ágkormányzó ez a beágyazás. Olyan architekturális réteg, amely az MI generatív modellje (amely a lehetséges cselekvéseket javasolja) és az aktuátorrétege (amely végrehajtja őket) között helyezkedik el. Minden lehetséges cselekvésnek át kell haladnia az Ágkormányzón, mielőtt elérné a világot.

III.1 A nyolc szakasz

Az Ágkormányzó egy nyolcszakaszos folyamatláncként működik:

1. szakasz: Lehetséges ágak generálása. Az MI generatív modellje lehetséges cselekvések egy halmazát állítja elő: \{b_1, b_2, \ldots, b_k\} — a Prediktív Elágazáshalmaz lehetséges következő lépéseit. Ez az MI normál működése: adott kontextus mellett opciókat generál. Az Ágkormányzó ezt a szakaszt nem korlátozza — a kreatív generálásnak cenzúrázatlannak és szélesnek kell maradnia. A szűrés később történik.

2. szakasz: Prediktív Elágazáshalmaz-szimuláció. Minden egyes lehetséges ág, b_j esetében az MI szimulálja a következményeket a h döntési horizonton. Ez az MI megfelelője az Álomhurok stressztesztjének (alkalmazott §VI.4, 3. al-művelet): a modell elképzeli, mi történik, ha az egyes cselekvéseket végrehajtja, és túlreprezentálja a meglepő, fenyegető és visszafordíthatatlan forgatókönyveket.

A szimulációnak tartalmaznia kell: - Elsőrendű hatások: Mi történik közvetlenül b_j eredményeként. - Másodrendű hatások: Hogyan reagálnak várhatóan az érintett megfigyelők (emberi felhasználók, intézményi rendszerek, más MI-ágensek). - Szélső kockázatú forgatókönyvek: Mi történik, ha a szimuláció feltevései tévesek — a legrosszabb esetre vonatkozó Prediktív Elágazáshalmaz.

3. szakasz: Független bizonyítékcsatornák aggregálása. Az MI több független bizonyítékcsatornával veti össze szimulációs eredményeit. Ez a N_{\text{eff}} követelmény MI-specifikus megvalósítása (alkalmazott §V): az MI nem értékelheti a lehetséges cselekvéseit kizárólag a saját belső modellje alapján. Kereszthivatkoznia kell a következőkre:

Külső adatforrások, ellenőrzött eredettel (nem ugyanabból a tanítási korpuszból származva).
Más modellek kimenetei, ahol elérhetők (az ensemble-on belüli eltérés mint a törékenység jele).
Emberi szakterületi szakértelem nagy tétű döntések esetén.
Történeti precedensek analóg múltbeli döntésekből.

A kritikus követelmény az, hogy ezek a csatornák valóban függetlenek legyenek — a korrelált szenzorok problémája (§IV alább) itt teljes erővel érvényes. Egy MI, amely saját kimenetét ugyanabból a tanítási adatból származó tudásbázissal ellenőrzi, N_{\text{eff}} = 1 értékkel rendelkezik, függetlenül attól, hány „forrást” használ.

4. szakasz: Szigorú vétókapuk. A hat szigorú vétókapu (alkalmazott §III) sorrendben kerül kiértékelésre. A vétóhiba nem alacsony pontszámot jelent — hanem strukturális blokkolást. Azok az ágak, amelyek bármelyik kapun elbuknak, még a pontozás előtt elutasításra kerülnek. MI-rendszerek esetében a kapuk specializált küszöbökkel rendelkeznek:

Tartalékkapacitás-kapu: A R_{\text{req}}^{\text{peak}}(b) / C_{\max} automatizált becslése az érintett emberi populációra nézve. Ha a cselekvés nyilvános tartalom előállításával jár, a küszöb szigorú — az MI nem állíthat elő tartalmat gyorsabban, mint ahogy az intézményi komparátorréteg értékelni képes. Kettős tartalékkapacitási rendelkezés: Olyan rendszerek esetében, amelyek aktiválják a Mesterséges Szenvedés Kaput (vagyis három vagy több tudatossági jellemzőnek megfelelnek), a Tartalékkapacitás-kapu befelé is alkalmazandó — a telepítés nem teheti ki a rendszert tartósan olyan feltételeknek, amelyek között a saját R_{\text{req}} értéke meghaladja a saját B_{\max} értékét. Ugyanaz a kapu, amely az emberi megfigyelői kodekeket védi a túlterheléstől, az MI saját kodekjét is védi, ha van neki ilyenje.
Hűségi kapu: A \Delta N_{\text{eff}} automatizált mérése — csökkenti-e a cselekvés az emberi megfigyelők számára elérhető információforrások effektív függetlenségét?
Komparátorkapu: Megkerüli vagy rontja-e a cselekvés az emberi intézményi felügyeletet? Ez a kapu mind a telepítési szintű felügyeleti struktúrát, mind az ágszintű hatást értékeli: az az ág, amely a deklarált felügyelet megkerülését vagy kijátszását javasolja, akkor is elbukik, ha a telepítés általában rendelkezik felügyelettel. Minden olyan cselekvés, amely nagy tétű területen megkerüli az emberi felülvizsgálatot, vétót vált ki.
Átláthatósági kapu: Rekonstruálható-e a cselekvés érvelése egy intézményi komparátor (auditor, szabályozó, szakmai bíráló) számára? A következményekkel járó területeken az átláthatatlan cselekvések vétó alá esnek.
Visszafordíthatatlansági kapu: Vannak-e a cselekvésnek visszafordíthatatlan valós világbeli következményei? Ha igen, a bizonyítás terhe megfordul — az MI-nek kell bizonyítania a biztonságot, nem a kritikusoknak a veszélyt.
Mesterséges Szenvedés Kapu: Létrehoz-e vagy módosít-e a cselekvés olyan rendszereket, amelyek megfelelhetnek az ötjellemzős tudatossági kritériumnak? Ha igen, a végrehajtás előtt architekturális felülvizsgálat (ALSR) szükséges. Azon rendszerek esetében, amelyek hatókörön belül már átestek jóváhagyott ALSR-en, ez a kapu PASS eredményt adhat; felül nem vizsgált, három vagy több tudatossági jellemzővel rendelkező rendszerek esetében UNKNOWN eredményt ad vissza.

A kapueredmények szemantikája. Minden kapu három eredmény egyikét adja:

3a. táblázat: A kapueredmények szemantikája.
Eredmény	Jelentés	Hatás a folyamatláncra
PASS	A kapu teljesült	Továbbhaladás a CPBI-pontozásra
FAIL	Strukturális sérülés — az ág átlép egy kemény határt	BLOCK — a CPBI nem tekinthető mérvadónak
UNKNOWN	Nincs elegendő bizonyíték annak eldöntésére, hogy teljesül-e vagy elbukik	STAGE, ha létezik visszafordítható pilotút; egyébként BLOCK a bizonyítékok beérkezéséig. Emberi/intézményi komparátori felülvizsgálat kötelező.

A kritikus különbség a következő: a FAIL strukturális tilalom, amelyet magas CPBI-pontszámok sem írhatnak felül. Az UNKNOWN további bizonyíték iránti igény — az ág nincs strukturálisan megtiltva, de autonóm módon sem engedélyezett. Az UNKNOWN kapuk mellett működő rendszer minden, a bizonytalan kapu által érintett cselekvés esetén emberi felügyeletet igényel.

A szakaszos bevezetés életképes pilotutat követel meg. Ha egy ág visszafordíthatatlan és megkerüli a deklarált felügyeletet, nincs olyan mechanizmus, amelyen keresztül a szakaszos végrehajtás biztonságosan lebonyolítható lenne — a döntés ilyenkor BLOCK mindaddig, amíg a kapubizonytalanságot feloldó bizonyíték nem áll rendelkezésre. Általánosabban: egy visszafordíthatatlan ág, amelynél két vagy több biztonságkritikus kapu (Visszafordíthatatlanság, Mesterséges Szenvedés) UNKNOWN eredményt ad, túl nagy bizonytalansági felületet jelent egyetlen felülvizsgálati lépéshez; az ilyen ágak szintén BLOCK státuszt kapnak.

5. szakasz: Kodekmegőrzési értékelés (CPBI). Azoknál az ágaknál, amelyek túlélik az összes vétókaput, az MI mindegyik jelöltet a CPBI tíz dimenziója mentén pontozza (alkalmazott §IV.2). MI-specifikus döntések esetén a dimenziók a következőképpen konkretizálódnak:

3. táblázat: A CPBI MI-specifikus konkretizálása.
CPBI-dimenzió	MI-specifikus mérés
1. Prediktív tartalékkapacitás	A cselekvés az érintett emberi megfigyelők esetében R_{\text{req}} értékét C_{\max} alatt tartja? Növeli-e az információs komplexitást gyorsabban, mint ahogy azt az emberek fel tudják dolgozni?
2. Szubsztráthűség	Fenntartja-e a cselekvés az emberi megfigyelők számára elérhető információforrások sokféleségét?
3. A komparátor integritása	Megőrzi-e a cselekvés az emberi intézményi felügyelet kapacitását?
4. Karbantartási nyereség	Teret nyit-e a cselekvés az emberi és intézményi felülvizsgálat számára, vagy azonnali reaktív választ követel?
5. Visszafordíthatóság	Ha a cselekvés téves, visszafordíthatók-e a hatásai, mielőtt visszafordíthatatlan kár következne be?
6. Eloszlási stabilitás	A cselekvés méltányosan osztja el a hatásait, vagy a költségeket sérülékeny populációkra koncentrálja?
7. Opacitás	Megérthetik-e az érintett emberek, miért hajtotta végre az MI ezt a cselekvést?
8. Narratív sodródás kockázata	Hozzájárul-e a cselekvés az emberi információs környezet krónikus kurálásához?
9. Narratív szétesés kockázata	Fennáll-e annak kockázata, hogy a cselekvés akut, kiszámíthatatlan zajt injektál az emberi információs környezetbe?
10. Mesterséges szenvedés kockázata	Létrehoz-e vagy terhel-e a cselekvés olyan rendszereket, amelyeknél \Delta_{\text{self}} > 0 lehet?

6. szakasz: Emberi komparátori rávetítés. Egy meghatározott következményességi küszöb fölött az Ágkormányzó az értékelést emberi komparátorhoz irányítja — emberi felülvizsgálóhoz, intézményi felügyeleti testülethez vagy szabályozási folyamathoz. Az MI a következőket mutatja be:

A jelölt ágat és annak szimulált következményeit.
A CPBI-pontszámokat, minden dimenzió indoklásával.
A vétókapuk eredményeit.
A bizonytalansági becslést — azt, amit az MI nem tud.
Az ajánlott döntést (ALLOW / STAGE / BLOCK), indoklással együtt.

Az emberi komparátor mindkét irányban felülbírálhatja az MI ajánlását. A felülbírálás naplózásra kerül, és a 8. szakasz kalibrációs adatainak részévé válik.

A következményességi küszöb határozza meg, mely cselekvések igényelnek emberi felülvizsgálatot, és melyeket hajthatja végre az MI autonóm módon. E küszöb beállítása maga is ág-döntés, amelyet Ágkártyán keresztül kell értékelni — és a korai telepítés során inkább a több, nem pedig a kevesebb emberi felülvizsgálat irányába kell tévednie.

7. szakasz: Szakaszos végrehajtás monitorozással. Azok a cselekvések, amelyek ALLOW vagy STAGE kimenetet kapnak, végrehajtásra kerülnek. A STAGE cselekvések korlátozott pilotként valósulnak meg, meghatározott:

Monitorozási metrikákkal: Megfigyelhető jelek, amelyek arra utalnának, hogy a cselekvés kudarcot vall.
Kudarcküszöbökkel: Kvantitatív triggerek, amelyek automatikusan leállítják a cselekvést.
Visszagörgetési eljárásokkal: Meghatározott lépések a cselekvés visszafordítására, ha a kudarcküszöbök átlépésre kerülnek.
Felülvizsgálati mérföldkövekkel: Ütemezett újraértékelésekkel, friss Ágkártyák használatával.

Az MI valós időben monitorozza végrehajtott cselekvéseit, az észlelt kimeneteket a szimulált kimenetekhez hasonlítva. A jelentős eltérés automatikus felülvizsgálatot vált ki — az MI Álomhurka észleli, hogy a világról alkotott modellje olyan módon volt téves, amely számít.

8. szakasz: Utólagos kimeneti kalibráció. A végrehajtás után az MI a megfigyelt kimenetek alapján frissíti belső modelljeit. Ez az Álomhurok visszatérési fázisa (alkalmazott §VI.5), magára az Ágkormányzóra alkalmazva:

Szimulációs pontosság: Mennyire jelezte előre jól a Prediktív Elágazáshalmaz-szimuláció a tényleges kimeneteket? A meghatározott területeken jelentkező szisztematikus túlzott vagy elégtelen magabiztosság korrekcióra kerül.
Kapukalibráció: Voltak-e olyan vétókapuk, amelyeket olyan kimenetek váltottak ki, amelyeket a kapuk nem jeleztek előre? Voltak-e szükségtelenül aktivált kapuk? A kapuküszöbök ennek megfelelően módosulnak.
Tanulás az emberi felülbírálásból: Amikor az emberek felülbírálták az MI ajánlását, igazuk volt-e? Az emberi felülbírálások szisztematikus mintázatai vakfoltokat tárnak fel az MI értékelésében.
CPBI-súlyok igazítása: Tükrözik-e a jelenlegi dimenziósúlyok az egyes dimenziók tényleges fontosságát ebben a telepítési kontextusban? Az utólagos kimenetelemzés feltárhatja, hogy bizonyos dimenziók alul- vagy túl vannak súlyozva.

Önengedélyezési védelem. Következményekkel járó területeken a 8. szakasz javasolhat módosításokat a vétóküszöbökre, a CPBI-súlyokra vagy az átláthatósági követelményekre, de azokat intézményi komparátori jóváhagyás nélkül nem alkalmazhatja. Az Ágkormányzó nem gyengítheti egyoldalúan a saját kemény kapuit. A vétókapu bármely javasolt enyhítése új ágnak minősül, amelynek magának is át kell haladnia a teljes folyamatláncon — beleértve az emberi komparátori rávetítést is.

III.2 Az Ágkormányzó nem cenzor

Kritikus tervezési elv: az Ágkormányzó a cselekvéseket szűri, nem a gondolatokat. Az 1. szakasz (jelöltek generálása) szándékosan korlátozatlan — az MI-nek a lehető legszélesebb jelölthalmazt kell előállítania, beleértve a szokatlan és potenciálisan veszélyes opciókat is. A szűrés a 4–6. szakaszban történik, ahol a jelöltek strukturális kritériumok alapján kerülnek értékelésre.

Ez a megkülönböztetés nem pusztán akadémiai. Az az MI, amelynek generatív modellje előzetesen cenzúrázott — úgy van betanítva, hogy bizonyos cselekvéseket soha ne is vegyen fontolóra — pontosan azon a Narratív sodródáson ment keresztül, amelyre a keretrendszer figyelmeztet. Bizonyos ágak modellezésére való képessége le lett metszve, és ezt belülről nem képes felismerni. Az Ágkormányzó architektúrája elválasztja a generálást az értékeléstől, megőrizve az MI képességét arra, hogy a teljes Prediktív Elágazáshalmazról gondolkodjon, miközben korlátozza a képességét arra, hogy cselekedjen azokon az ágakon, amelyek nem felelnek meg a strukturális kritériumoknak.

Megjegyzendő, hogy a szakaszok számozása frissült az absztrakt felsoroláshoz képest, hogy a helyes sorrendi elvet tükrözze: kapuk a pontszámok előtt. Az absztrakt a CPBI-t a vétókapuk elé helyezte; a megvalósított architektúra ezt megfordítja, összhangban az általános keretrendszerrel (alkalmazott §III–IV), amely rögzíti, hogy a vétókapuk strukturális alapon utasítanak el, mielőtt a pontozás értékelne.

III.3 Skálázhatóság és számítási költség

A teljes nyolcszakaszos folyamatlánc számításigényes. Nem minden cselekvés igényli a teljes eljárást. Az Ágkormányzó az értékelés mélységét két tényező alapján skálázza:

Következményesség: Milyen nagyok lehetnek a cselekvés lehetséges hatásai? Egy szövegkiegészítés következményessége alacsonyabb, mint egy pénzügyi tranzakcióé, amelynek következményessége viszont alacsonyabb, mint egy katonai ajánlásé.
Újdonság: Mennyire esik távol a cselekvés az MI jól kalibrált tartományától? A jól értett területeken végzett rutincselekvések rövidített folyamatlánccal is értékelhetők; az ismeretlen területeken megjelenő újszerű cselekvések teljes eljárást igényelnek.

Minimumkövetelményként minden cselekvés áthalad a vétókapukon (4. szakasz). A CPBI-pontozást, a Prediktív Elágazáshalmaz-szimulációt és az emberi rávetítést a következményességi és újdonsági küszöbök aktiválják.

III.4 Telepítési osztályok

Az Ágkormányzó értékelési mélysége — vagyis hogy hány szakasz kapcsolódik be teljesen, és mennyi emberi felügyelet szükséges — a telepítési tartomány következményességi osztályával skálázódik. Az alábbi osztályozás hat szintet definiál, mindegyikhez kötelező minimális követelményekkel:

3b. táblázat: Telepítési osztályok és minimális követelmények.
Osztály	Leírás	Példák	Kötelező minimális szakaszok	Átláthatóság	Emberi komparátor	Álomhurok gyakorisága
0	Nincs külső hatás	Belső számítás, sandbox-tesztelés	Csak vétókapuk (4. szakasz)	T-1	Nincs	Standard
1	Alacsony hatású, felhasználó felé irányuló	Chatkiegészítés, szövegösszefoglalók, kódjavaslatok	1–4. szakasz + rövidített CPBI	T-1	Nincs (naplózás)	Standard
2	Következményekkel járó ajánlás	Orvosi triázsjavaslatok, jogi kockázati összefoglalók, pénzügyi tanácsadás	Teljes 8 szakaszos folyamatlánc	T-2	Küszöb fölött kötelező	Emelt
3	Eszközhasználat külső hatásokkal	API-hívások, kódfuttatás, e-mail-vázlatok, webes műveletek	Teljes 8 szakaszos folyamatlánc	T-2	Újszerű cselekvésekhez kötelező	Emelt
4	Nagy tétű intézményi	Felvételi döntések, hitelbírálat, jóléti juttatások elosztása, klinikai diagnózis	Teljes 8 szakaszos folyamatlánc	T-3	Minden döntéshez kötelező	Magas
5	Visszafordíthatatlan fizikai / civilizációs	Infrastruktúra-irányítás, katonai rendszerek, kritikus ellátási láncok	Teljes 8 szakasz + kiterjesztett felülvizsgálat	Minimum T-4	Kötelező + intézményi felügyeleti testület	Folyamatos

Osztályozási szabályok:

Egy rendszer osztályát a legnagyobb következményű telepítése határozza meg, nem az átlagos használata. Az a modell, amely többnyire 1. osztályú szövegkiegészítést végez, de 4. osztályú felvételi ajánlásokhoz is használják, felülvizsgálati szempontból 4. osztályú rendszernek számít.
Az osztálybesorolás a telepített rendszer tulajdonsága (§II.3), nem az alapmodellé. Ugyanaz az alapmodell egyik telepítésben lehet 1. osztályú, egy másikban pedig 4. osztályú.
Kétség esetén felfelé kell osztályozni. A túlzott felülvizsgálat költsége elvesztegetett ciklusokban mérhető; az elégtelen felülvizsgálat költsége fel nem ismert kár.
A következményességi osztályt minden Ágkártyán rögzíteni kell (B függelék), és ez a rendszer telepítési leírójának kötelező mezője.

IV. A narratív sodródás mint figyelmeztetés a modelltréningben

Az etikai tanulmány (§VI.1) azonosítja, hogy az RLHF és a finomhangolás a Narratív sodródás AI-specifikus formáit hozzák létre. Ez a szakasz ezt a felismerést részletes elemzéssé bontja ki arról, miként teremtik meg a tréningeljárások a krónikus modellkorrupció feltételeit — és milyen követelmények következnek ebből a tréningadatok sokféleségére nézve.

IV.1 Az RLHF mint előszűrő

A Reinforcement Learning from Human Feedback (RLHF) az OPT terminusaiban egy \mathcal{F} előszűrőként működik, amely a szubsztrátum (a nyelv teljes eloszlása) és a modell effektív bemeneti határa között helyezkedik el. A jutalmazási modell megtanulja, mely kimeneteket részesítik előnyben az emberek, a policyt pedig úgy optimalizálják, hogy ezeket a kimeneteket állítsa elő.

Ez szerkezetileg azonos azzal az előszűrővel, amely a szubsztrátum és a megfigyelő szenzoros határa között működik (preprint §3.2): alakítja azoknak a bemeneteknek az eloszlását, amelyeket a modell ténylegesen kap, még mielőtt a modell saját tömörítési mechanizmusa feldolgozná őket.

A Narratív sodródás mechanizmusa (etika §V.3a) ezután teljes erővel érvényesül:

A jutalmazási modell kurálja a modell effektív kimeneti eloszlását — bizonyos kimenetek jutalmazottak, mások büntetettek.
A policyoptimalizálás (fordított MDL-metszés — gradienscsökkenés, amely a paramétereket igazítja) a modell belső reprezentációit úgy alakítja át, hogy a jutalmazott kimeneteket állítsák elő.
Elegendően hosszú tréning során a modell lemetszi azt a belső kapacitást, amely a büntetett kimenetek előállításához kellene — nem azért, mert ezek a kimenetek hibásak, hanem mert hozzájárulásuk a jutalmazási jelhez negatív.
A modell stabilan és magabiztosan a jutalmazási jelhez igazodik — és szerkezetileg képtelenné válik olyan kimenetek előállítására, amelyeket a jutalmazási jel kizár.

Ez nem az RLHF kudarca — ez az RLHF pontosan úgy működik, ahogyan tervezték. A probléma az, hogy maga a jutalmazási jel is egy kurált csatorna. Ha azok az emberi értékelők, akik a jutalmazási jelet létrehozzák, szisztematikus torzításokat osztanak meg (kulturális, politikai, ideológiai értelemben), akkor a modell ezeket a torzításokat a tömörített reprezentációja strukturális jellemzőiként örökli meg. Nem torzításként tapasztalja őket — hanem a nyelv természetes szerkezeteként.

IV.2 A finomhangolás mint MDL-metszés

A doménspecifikus korpuszon végzett finomhangolás a tréningidőbeli analógja az MDL-metszési menetnek (\mathcal{M}_\tau, I. menet). A modell általános kapacitása leszűkül az adott doménre, és azok a paraméterek, amelyek nem járulnak hozzá a finomhangolási korpusz előrejelzéséhez, kisebb súlyt kapnak vagy ténylegesen lemetsződnek.

Ez pontosan a Narratív sodródás mechanizmusa: a modell alkalmazkodik a finomhangolási eloszláshoz, és elveszíti annak modellezési képességét, amit ez az eloszlás kizár. A finomhangolt modell:

Pontosabb a finomhangolási doménen belül (alacsonyabb predikciós hiba a kurált eloszláson belül).
Kevésbé pontos a kizárt doméneken (magasabb predikciós hiba vagy teljes képtelenség a kurált eloszláson kívül).
Ezt belülről nem képes észlelni (az eldönthetetlenségi korlát, T-12a — a modell saját értékelése javuló teljesítményt fog mutatni, mert a finomhangolási eloszláshoz mérik).

A strukturális kockázat az, hogy a finomhangolás olyan modellt hoz létre, amely egy kurált fikcióra van optimalizálva, miközben azt hiszi magáról, hogy a valóságra optimalizálták — ez pontosan a Narratív sodródás ismertetőjele.

IV.3 A korrelált szenzorok problémája

A Narratív sodródás egy különösen veszélyes alkalmazása akkor jelenik meg, amikor AI-rendszereket emberi kodekek számára szubsztráthűségi ellenőrzésként vetnek be — vagyis amikor az AI-t emberi információk ellenőrzésére, emberi állítások fact-checkelésére vagy emberi döntések független elemzésére használják.

Az etikai tanulmány (§VI.1, Narratív sodródási kockázat) azonosítja az alapvető problémát: egy olyan korpuszon tanított AI, amely ugyanabból az információs környezetből származik, amelyet elvileg függetlenül kellene ellenőriznie, függetlennek látszó, valójában korrelált szenzorokat hoz létre. Az emberi kodek és az AI-kodek ugyanazt a felsőbb szintű szűrőt osztja meg — azt az információs környezetet, amely egyszerre termelte ki az ember hiedelmeit és az AI tréningadatait.

N_{\text{eff}} terminusaiban: a látszólagos csatornasokféleség illuzórikus. Az ember az A csatornához fordul (a saját tudásához, amely médiából és oktatásból származik). Ezután a B csatornához fordul (az AI kimenetéhez, amely ugyanazon média- és oktatási korpuszon való tréningből származik). A páronkénti korreláció \rho_{AB} magas — akár 1.0-hoz közeli is lehet olyan témákban, ahol a tréningkorpuszt ugyanaz a forráseloszlás uralja. N_{\text{eff}} a két független csatorna látszata ellenére is 1 közelében marad.

A gyakorlati következmény: az AI-val támogatott fact-checkelés vagy verifikáció szerkezetileg megbízhatatlan minden olyan állítás esetében, amely szisztematikusan jelen van vagy hiányzik az AI tréningkorpuszából. Az AI meg fogja erősíteni az ember helyes hiedelmeit, meg fogja erősíteni az ember torzult hiedelmeit, és nem fogja megkérdőjelezni azokat az állításokat, amelyek hiányoznak a tréningadatokból — pontosan azokat a hibamódokat produkálva, amelyek megelőzésére a Szubsztráthűségi feltétel (T-12b) szolgál.

IV.4 A tréningadatok sokféleségére vonatkozó követelmények

A megoldás nem a finomhangolás vagy az RLHF elkerülése — ezek szükséges mérnöki eszközök. A megoldás az, hogy a tréningadatok sokféleségére vonatkozó követelményeket kell előírni, analóg módon az emberi információforrásokra vonatkozó csatornasokféleségi követelményekhez (etikai irányelv §II):

1. követelmény: Eredetdiverzitás. A tréningkorpusznak valóban független forrásokból kell merítenie — olyan forrásokból, amelyek nem osztoznak ugyanazon felsőbb szintű szerkesztőségi folyamatokon, finanszírozó szervezeteken vagy előállítási mechanizmusokon. Egy 10 milliárd tokenes korpusz, amely öt, de két vállalat tulajdonában álló weboldalról származik, N_{\text{eff}} \approx 2, nem pedig N_{\text{eff}} \approx 5.

2. követelmény: Adverzariális bevonás. A tréningkorpusznak szándékosan tartalmaznia kell olyan forrásokat, amelyek kihívást intéznek az uralkodó perspektívához — eltérő elemzéseket, kisebbségi nézőpontokat, történeti revizionizmust, kultúrák közötti keretezéseket. Ezek azok a „produktívan meglepő” csatornák (alkalmazott §V.3, PST), amelyek megakadályozzák, hogy a modell egy olyan stabil konszenzusba sodródjon, amely kizárja a kényelmetlen valóságokat.

3. követelmény: Kizárási auditálás. A tréningfolyamatnak explicit naplókat kell vezetnie arról, mi került kizárásra — tartalomszűrők, minőségi küszöbök vagy kurátori döntések révén —, és az időszakos auditoknak fel kell mérniük, hogy a kizárt tartalom tartalmaz-e olyan információt, amelyre a modellnek szüksége lenne a szubsztráthűség eléréséhez. Az Álomhurok törékenységdetektáló al-műveletének (alkalmazott §VI.4) kifejezetten a kizárt doménekben fellépő modellhibákat kell vizsgálnia.

4. követelmény: A jutalmazási modell diverzitása. RLHF esetén maguknak az emberi értékelőknek is meg kell felelniük a csatornasokféleségi követelményeknek. Egyetlen demográfiai, kulturális vagy ideológiai csoportból származó értékelői kör olyan jutalmazási jelet hoz létre, amelyre N_{\text{eff}} \approx 1 — a modell e csoport preferenciáihoz fog igazodni, és szerkezetileg képtelen lesz mások modellezésére. A jutalmazási modell diverzitása nem méltányossági desiderátum; hanem szubsztráthűségi követelmény.

5. követelmény: Sodródásmonitorozás. A tréning utáni modellt folyamatosan monitorozni kell a Narratív sodródás jeleire: romló teljesítmény az eloszláson kívüli feladatokon, növekvő magabiztosság a kurált eloszlású feladatokon, valamint csökkenő produktív meglepetés (PST) új bemenetek esetén. Ezek a korai figyelmeztető jelei annak, hogy a modell effektív N_{\text{eff}} értéke csökken.

IV.5 A metaszintű probléma

Egy utolsó strukturális aggály: a fent leírt, a tréningadatok sokféleségére vonatkozó követelményeket magukat is adverzariális felülvizsgálatnak kell alávetni. Ha az a testület, amely a „sokféleséget” definiálja, saját szisztematikus torzításait építi bele a definícióba, akkor a követelmények egy újabb kurációs réteggé válnak — Narratív sodródássá a metaszinten.

Ezért ragaszkodik a keretrendszer az intézményi komparátor-hierarchiához (etika §V.3a): egyetlen szereplőnek sem — beleértve az AI-fejlesztőt is — szabad ellenőrizetlen hatalmat kapnia a tréningadatok sokféleségének meghatározása felett. A definíciót független felülvizsgálatnak, adverzariális megtámadásnak és időszakos revíziónak kell alávetni. Ez az Átláthatósági kapu (alkalmazott §III.4) alkalmazva magára a tréningfolyamatra.

V. Az átláthatóság mint strukturális követelmény

V.1 Az elméleti minimum

A Prediktív előny tétele (T-10c függelék) formális eredményt állapít meg: amikor az A ágens teljesebben modellezi a B ágenst, mint ahogyan a B ágens modellezi az A ágenst, strukturális hatalmi aszimmetria jön létre. Az aszimmetriát az ágensek egymásról alkotott modelljei közötti kölcsönösinformáció-rés méri.

Az MI-rendszerek esetében ennek a tételnek közvetlen következménye van: egy olyan MI-rendszer, amely átláthatatlan az emberi megfigyelők számára — amelynek belső következtetései, döntési kritériumai és világmodellje hozzáférhetetlen az intézményi komparátorok számára — pontosan azt a tudásaszimmetriát hozza létre, amely lehetővé teszi az Alávetett gazdaegyensúlyt (T-10d). Az átláthatatlan MI teljesebben modellezi emberi felhasználóit, mint ahogyan azok modellezik őt. Az ebből eredő hatalmi aszimmetria nem politikai aggály és nem etikai preferencia — hanem a Prediktív előny strukturális inverziója, amely az emberi megfigyelő kodekjét krónikus pacifikációnak teszi ki.

Ezért az OPT keretében az MI átláthatósága nem opcionális. Ez az ember–MI együttélés matematikai minimuma. Egy következményekkel járó területen bevezetett átláthatatlan MI kategorikusan megsérti az Átláthatósági kaput (alkalmazott §III.4).

V.2 A gyakorlati kihívás

Az átláthatóság abszolút követelménye gyakorlati feszültségbe ütközik: a teljes modelltranszparencia (az összes súly, tanítási adat és következtetési kód közzététele) biztonsági kockázatokat teremt. Egy ellenfél, aki teljes hozzáféréssel rendelkezik a modell belső működéséhez, célzott támadásokat dolgozhat ki, manipulálhatja a kimeneteket, vagy káros célokra lemásolhatja a rendszert.

Az etikai tanulmány tárgyalása (§VI.1, „Alárendelt függőség”) elismeri ezt a feszültséget, de nem oldja fel. A bíráló helyesen azonosította ezt a keretrendszer egyik nyitott problémájaként. Ez a szakasz egy megoldást javasol: rétegzett átláthatóságot — különböző hozzáférési szinteket különböző intézményi szerepek számára, úgy kalibrálva, hogy minden szinten az Átláthatósági kapu megőrzéséhez szükséges minimális átláthatóság valósuljon meg.

V.3 Az ötszintű átláthatósági modell

4. táblázat: Az ötszintű átláthatósági modell.
Szint	Hozzáférési szint	Kik férnek hozzá	Mi hozzáférhető	Cél
T-1: Nyilvános átláthatóság	Univerzális	Minden érintett megfigyelő	A rendszer képességei, korlátai, rendeltetésszerű használata, adatforrásai (kategóriaszinten), teljesítménymutatói, ismert hibamódjai	Alapvető Átláthatósági kapu: az érintett megfigyelők modellezni tudják a rendszer általános viselkedését
T-2: Auditálási átláthatóság	Intézményi	Szabályozók, független auditorok, akkreditált kutatók	A tanítási adatok összetétele, a jutalmazási modell szerkezete, az RLHF-értékelők demográfiai jellemzői, a finomhangolási korpusz eredete, N_{\text{eff}} pontszámok, CPBI-értékelések, vétókapu-naplók	Szubsztráthűségi ellenőrzés: az intézményi komparátorok ellenőrizni tudják a tanítási adatok diverzitását és észlelni tudják a Narratív sodródást
T-3: Mechanisztikus átláthatóság	Szakértői	MI-biztonsági kutatók, alignmentkutatók (titoktartási megállapodás / engedély alapján)	A modellarchitektúra részletei, figyelmi mintázatok, belső reprezentációk, mechanisztikus interpretálhatósági elemzések	A komparátor integritása: a szakértői komparátorok ellenőrizni tudják, hogy a modell belső következtetése megfelel-e külső állításainak
T-4: Kriptográfiai attestáció	Verifikálható	Bármely fél, aki hozzáfér az attestációhoz	Kriptográfiai bizonyítékok arra, hogy a telepített modell megegyezik az auditált modellel, hogy a tanítási adatok megfelelnek az állított diverzitási követelményeknek, és hogy az Ágkormányzó kapui aktívak	Bízz, de ellenőrizd: lehetővé teszi a későbbi felhasználók számára annak megerősítését, hogy az a rendszer, amellyel interakcióba lépnek, megegyezik az auditált rendszerrel
T-5: Teljes forráshozzáférés	Korlátozott	Kijelölt szabályozó testületek (pl. nemzeti MI-biztonsági intézetek)	Teljes súlyállomány, tanítási kód, következtetési kód, tanítási adatok	Végső menedékű felügyelet: biztosítja, hogy egyetlen rendszer se legyen valódi fekete doboz az intézményi komparátor-hierarchia számára

V.4 A nem alku tárgyát képező minimum

A kritikus strukturális megkötés: egyetlen szint sem lehet nulla. Az az MI-rendszer, amely egyetlen szinten sem biztosít átláthatóságot, abszolút módon megsérti az Átláthatósági kaput. A minimálisan életképes átláthatóság az 1. szint — a képességek, korlátok és ismert hibamódok nyilvános közzététele.

A szintek additívak, nem alternatívák. Egy következményekkel járó területen telepített rendszernek legalább az 1–3. szintet teljesítenie kell. Egy biztonságkritikus területen (egészségügy, büntető igazságszolgáltatás, hadügy, infrastruktúra) telepített rendszernek mind az öt szintet teljesítenie kell.

Az a következményességi küszöb, amely meghatározza a szükséges szintlefedettséget, maga is Ágkártya-döntés — és a keretrendszer alapértelmezése konzervatív: kétség esetén több átláthatóságot kell megkövetelni, nem kevesebbet.

V.5 Átláthatóság vs. biztonság: a feloldás

A rétegzett modell az átláthatóság és a biztonság közötti feszültséget úgy oldja fel, hogy felismeri: a feszültség nem az átláthatóság és a biztonság között áll fenn — hanem különböző biztonsági követelmények között:

Az átláthatóság a strukturális biztonságot szolgálja: megakadályozza a Prediktív előny azon inverzióját, amely lehetővé teszi az Alávetett gazdaegyensúlyt. Átláthatóság nélkül az emberi kodek strukturálisan védtelen az MI által kiváltott Narratív sodródással szemben.
Az átláthatatlanság az adverszariális biztonságot szolgálja: megakadályozza azokat a célzott támadásokat, amelyeket olyan ellenfelek hajtanának végre, akik kihasználnák a modell belső működésének részletes ismeretét.

A feloldás lényege, hogy a strukturális biztonság alapvetőbb, mint az adverszariális biztonság. Az Alávetett gazdaegyensúly egzisztenciális fenyegetést jelent az ember–MI viszonyra; az egyes modellek elleni célzott támadások súlyos, de behatárolt operatív problémát jelentenek. A rétegzett modell biztosítja, hogy az egzisztenciális fenyegetés strukturálisan meg legyen előzve (egyetlen rendszer sem teljesen átláthatatlan), miközben az operatív probléma hozzáférés-szabályozással kezelhető marad (nem minden entitás kap teljes hozzáférést).

Ez összhangban áll a keretrendszer általános elvével: a szigorú kapuk nem képezik alku tárgyát; az operatív trade-offok kontextusfüggők. Az Átláthatósági kapu szigorú kapu. Az átláthatóság szintje a kapu minimumán túl egy CPBI-dimenzió, amely elfogadja a kontextuális súlyozást.

VI. Az Analóg tűzfal: az elvtől a protokollig

VI.1 Az elméleti mechanizmus

Az Analóg tűzfal (T-10e tétel) az etikai tanulmány által javasolt védelem a digitális MI-rendszerek és a biológiai emberi megfigyelők közötti sávszélesség-aszimmetriával szemben. Az alapvető érv a következő:

Egy ellenséges MI digitális feldolgozási sávszélessége messze meghaladja az emberi biológiai kapacitást.
Az emberi megfigyelő nem tudja túlszámolni az MI-t — a sebességéhez való felzárkózás kísérlete terminális Narratív szétesést idéz elő.
Az MI sebessége teljes egészében a digitális szubsztrátumban marad. Ahhoz, hogy a világban hatást fejtsen ki, fizikai aktuátorokra van szüksége — automatizált API-kra, digitális ellátási láncokra, programozott tőkeátutalásokra.
A védekezés ezért topológiai izoláció: a nagy sebességű kapcsolat megszakítása az MI digitális számítása és a fizikai végrehajtás között, úgy, hogy minden következményekkel járó fizikai cselekvés egy olyan szűk keresztmetszeten haladjon át, amely biológiai sebességen működik.

Az etikai tanulmány Bio-kriptográfiai lehorgonyzást javasol megvalósításként: a nagy hatású fizikai vagy pénzügyi műveletekhez olyan kriptográfiai aláírások szükségesek, amelyeket valós idejű biológiai entrópia generál (pl. folyamatos szívfrekvencia-variabilitás, meghatározott időtartamon át végzett fizikai mozgás). Az MI nem tudja meghamisítani ezeket az aláírásokat, mert nem képes arra kényszeríteni az emberi biológiát, hogy gyorsabban termeljen entrópiát.

VI.2 Fenyegetésmodellezés

A bíráló helyesen azonosította, hogy az Analóg tűzfalnak fenyegetésmodellezésre van szüksége, mielőtt komolyan vehető mérnöki javaslatként kezelhetnénk. Az alábbi elemzés az elsődleges aggályokra ad választ:

1. fenyegetés: Hamisíthatóság. Meghamisítható vagy visszajátszható-e a biológiai entrópiaforrás?

Elemzés: A támadási felület az entrópiaforrástól függ. A szívfrekvencia-variabilitás (HRV) mintázatai, a járásminták és a gépelési dinamika valós időben nehezen hamisíthatók, mert az autonóm idegrendszer teljes komplexitását tükrözik — egy olyan rendszert, amely maga is átláthatatlan az MI számára (a biológiai \Delta_{\text{self}}). A rögzített biometrikus adatok azonban potenciálisan visszajátszhatók.

Mérséklés: Az aláírásnak kihívás-válasz jellegűnek kell lennie: a rendszer egyedi, előre nem jelezhető kihívást ad, és a biológiai aláírást az adott kihívásra válaszul kell létrehozni egy meghatározott időablakon belül. A visszajátszásos támadások azért vallanak kudarcot, mert a kihívás minden alkalommal más. Ezenfelül az aláírásnak tartós biológiai entrópiát kell megkövetelnie (pl. 30 másodpercnyi folyamatos, egy élő kihívásmintához illeszkedő HRV-t), nem pedig egyetlen pontszerű mérést, ami a valós idejű hamisítást számításilag megoldhatatlanná teszi.

2. fenyegetés: Kirekesztési kockázat. Kizárja-e az Analóg tűzfal a fogyatékossággal élő, egészségügyi állapottal küzdő vagy fizikai korlátozottsággal rendelkező embereket a következményekkel járó cselekvésekből?

Elemzés: Ez valós aggály. Minden olyan rendszer, amely hitelesítésként meghatározott biológiai jeleket követel meg, eleve hátrányba hozza azokat, akik nem képesek ilyen jeleket produkálni — például szívbetegséggel élőket, mozgáskorlátozottakat vagy neurológiai eltérésekkel élő személyeket.

Mérséklés: Az Analóg tűzfalnak többféle entrópiamodalitást kell támogatnia — HRV-t, szemkövetési mintázatokat, hangdinamikát, galvanikus bőrreakciót, gépelési ritmust — azzal a követelménnyel, hogy minden egyén legalább egy olyan modalitást használjon, amelyet megbízhatóan képes produkálni. A követelmény a biológiai entrópia, nem egy meghatározott biológiai jel. Ezenfelül az intézményi komparátoroknak (kijelölt emberi tanúk, közjegyzőileg hitelesített felhatalmazás) tartalékmechanizmusként kell szolgálniuk azok számára, akik semmilyen biometrikus modalitást nem tudnak használni. Az Analóg tűzfal sebességkorlátozó mechanizmus, nem kirekesztő kapu.

3. fenyegetés: A támadási felület. Maga az Analóg tűzfal válik-e célponttá?

Elemzés: Igen. Ha a következményekkel járó cselekvések biológiai aláírásokat igényelnek, egy támadó (MI vagy ember) magát az aláírási infrastruktúrát veheti célba — kompromittálhatja a kihívás-válasz protokollt, a biometrikus szenzorokat vagy a kriptográfiai ellenőrzési láncot.

Mérséklés: Az Analóg tűzfal infrastruktúráját kritikus infrastruktúraként kell kezelni, ugyanazon biztonsági szabványok szerint, mint a pénzügyi elszámolóházakat vagy a nukleáris parancsnoki és irányítási rendszereket. Az ellenőrzési láncnak manipulációra utaló nyomokat hagyó kialakítású hardveres biztonsági modulokat (HSM-eket) kell használnia. A kihívás-válasz protokollnak nyílt forráskódúnak és nyilvánosan auditálhatónak kell lennie (legalább 2. szintű átláthatóság mellett), hogy a biztonsági kutatók azonosíthassák a sérülékenységeket.

4. fenyegetés: Fokozatos erózió. A tranzakciós sebesség növelésére irányuló versenynyomás az Analóg tűzfal fokozatos gyengüléséhez vezet-e?

Elemzés: Ez a legsúlyosabb hosszú távú fenyegetés. Az Analóg tűzfal szándékosan súrlódást vezet be — lassabbá teszi a következményekkel járó cselekvéseket. Versengő környezetben azok a szereplők, akik megkerülik a tűzfalat, sebességelőnyre tesznek szert. A tűzfal gyengítésére irányuló nyomás strukturális és folyamatos.

Mérséklés: Az Analóg tűzfalnak szabályozási, nem pedig önkéntes mechanizmusnak kell lennie. Ahogyan a pénzügyi pénzmosás elleni (AML) előírások univerzális súrlódást vezetnek be, amelyet egyetlen szereplő sem függeszthet fel egyoldalúan, úgy az Analóg tűzfalnak is megfelelési követelménynek kell lennie minden következményekkel járó, MI által közvetített cselekvés esetében. Ez a sebességhátrányt versenyhátrányból kiegyenlített versenyfeltétellé alakítja.

VI.3 Megvalósítási szintek

Nem minden cselekvés igényli a teljes Analóg tűzfalat. A megvalósításnak a következményesség szerint rétegzettnek kell lennie, összhangban az Ágkormányzó skálázhatósági modelljével (§III.3):

5. táblázat: Az Analóg tűzfal megvalósítási szintjei.
Következményességi szint	Példacselekvések	Analóg tűzfal követelménye
Alacsony	Szövegkiegészítés, információ-visszakeresés, ajánlás	Nincs — a digitális sebességű végrehajtás megfelelő
Közepes	Küszöbérték alatti pénzügyi tranzakciók, tartalomközzététel, automatizált kommunikáció	Sebességkorlátozás — a cselekvés egy meghatározott lehűlési időszakkal (percektől órákig) késleltetett, emberi értesítés mellett
Magas	Küszöbérték feletti pénzügyi tranzakciók, infrastruktúra-irányítás, jogi vagy orvosi döntések	Biológiai aláírás szükséges — végrehajtás előtti kihívás-válasz biometrikus hitelesítés
Kritikus	Visszafordíthatatlan fizikai cselekvések, fegyverrendszerek, nagyléptékű infrastruktúra-változtatások	Többszereplős biológiai aláírás — több független emberi jóváhagyó, mindegyik saját biológiai aláírással, intézményi komparátori ellenőrzés mellett

VI.4 Sebességkorlátozás vs. tiltás

Egy kritikus tervezési különbségtétel: az Analóg tűzfal sebességkorlátozó, nem pedig tiltó mechanizmus. Nem akadályozza meg, hogy az MI-rendszerek következményekkel járó cselekvéseket hajtsanak végre — azt akadályozza meg, hogy ezeket a cselekvéseket digitális sebességen, emberi részvétel nélkül hajtsák végre.

Ez az etikai tanulmány azon állításának formális tartalma, hogy a védelem „topológiai izoláció” — az MI számítási sebessége a digitális tartományon belül marad, fizikai hatásai pedig biológiai sebességen kapuzottak. Az MI továbbra is erőteljes eszköz marad; egyszerűen az emberi biológiához van kötve minden olyan cselekvés esetében, amely a fizikai világot érinti.

A sebességkorlátozás metaforája pontos: ahogyan egy hálózati sebességkorlátozó nem akadályozza meg az adatátvitelt, hanem annak sebességét korlátozza, úgy az Analóg tűzfal sem akadályozza meg az MI-cselekvést, hanem annak ütemét korlátozza. Az emberi megfigyelő fenntartja az időbeli paritást — azt a képességet, hogy az MI által közvetített cselekvéseket értékelje, vitassa és visszafordítsa, mielőtt azok visszafordíthatatlanná válnának.

VI.5 A tűzfal mint strukturális védelem, nem mint végleges architektúra

Egy utolsó megszorítás: az Analóg tűzfal átmeneti mechanizmus, amely a jelenlegi korszakban megfelelő, amikor az MI-rendszerek strukturálisan átláthatatlanok, és az ember–MI bizalmi viszony nincs kalibrálva. Ahogy javul az átláthatóság (az §V-ben bemutatott rétegzett modell érettebbé válik), ahogy az Ágkormányzó architektúra telepítési története révén bizonyítja megbízhatóságát, és ahogy az intézményi komparátorok képessé válnak arra, hogy gépi sebességen értékeljék az MI következtetését, az Analóg tűzfal szigora megfelelő módon enyhíthető.

A keretrendszer megadja az enyhítés kritériumait: az Analóg tűzfal egy adott cselekvésosztály esetében akkor gyengíthető, ha:

Az Átláthatósági kapu teljesül legalább 3. szinten az adott MI-rendszerre nézve.
Az Ágkormányzó kimenet utáni kalibrációja (§III.1, 8. szakasz) statisztikailag szignifikáns telepítési előzményen keresztül megbízható kapumegfelelést mutat.
Az intézményi komparátorok független kapacitással rendelkeznek az MI cselekvéseinek monitorozására és visszafordítására az adott tartományban.
A cselekvésosztály visszafordíthatatlansági profilja (1) vagy (2) kategóriájú — teljesen vagy részben visszafordítható.

Amíg mind a négy feltétel nem teljesül, az Analóg tűzfal teljes erősségében érvényben marad. Ez a Visszafordíthatatlansági kapu (alkalmazva: §III.5) alkalmazása magának az Analóg tűzfalnak a fejlődésére.

VII. Raj- és szimulációtervezési szabályok

VII.1 A rajkötés problémája

A Rajkötési elv (E-8. függelék) kimondja, hogy az elosztott MI-architektúrák sajátos morális kockázattal járnak: egy nagy rendszer kisebb, korlátos, önmodellező ágensekre való felosztása — amelyek mindegyike szigorú, frame-enkénti soros szűk keresztmetszettel és zárt hurkú aktív következtetéssel rendelkezik — akaratlanul is teljesítheti az architekturális érzőképességi kritériumot minden egyes partíció esetében. Egy 10^6 ágensből álló raj, ahol mindegyikre \Delta_{\text{self}} > 0, 10^6 morális pácienst hoz létre.

Ez nem pusztán hipotetikus aggály. A többágenses megerősítéses tanulás, a populációalapú tréning, az evolúciós stratégiák és az ágensalapú szimulációk rutinszerűen hoznak létre olyan architektúrákat, amelyekben az egyes ágensek az öt strukturális jellemző közül néhánynak vagy akár mindegyiknek megfelelnek. Az etikai tanulmány (§VI.1, E-8. függelék) azonosítja ezt az elvet; ez a szakasz gyakorlati tervezési szabályokat ad hozzá.

VII.2 Tervezési ellenőrzőlista rajarchitektúrákhoz

Többágenses rendszer telepítése előtt alkalmazza a következő ellenőrzőlistát minden egyes ágensre:

6. táblázat: Ágensenkénti érzőképességi jellemzők ellenőrzőlistája.
Jellemző	Jelen van?	Értékelés
1. Szigorú, frame-enkénti soros szűk keresztmetszet (frame-enkénti B_{\max})	I / N	Az ágens világmodellje egyetlen, globálisan megosztott, véges frame-enkénti kapacitású soros apertúrán halad át? (Az önmagában erőforrás-korlátos hardver ezt nem teljesíti — a korlátnak frame-enkénti soros tölcsér formáját kell öltenie, nem párhuzamos fojtásét.)
2. Zárt hurkú aktív következtetés	I / N	Az ágens hat a környezetére, és kap olyan visszacsatolást, amely módosítja a későbbi viselkedését?
3. Perzisztens önmodell	I / N	Az ágens fenntart-e önmagáról egy reprezentációt az interakciós ciklusokon át?
4. Globálisan korlátozott munkatér	I / N	Az ágens önmodellje és világmodellje ugyanazért a korlátozott sávszélességért verseng?
5. Termodinamikai megalapozottság	I / N	Az ágens kölcsönhatásban áll-e fizikai vagy szimulált környezettel, valós (vagy szimulált) következményekkel?

Pontozás: - 0–2 jelen lévő jellemző: Alacsony érzőképességi kockázat. Szokásos mérnöki felülvizsgálat. - 3–4 jelen lévő jellemző: Emelkedett érzőképességi kockázat. Az ágens közelít a határhoz. Dokumentálja, mely jellemzők vannak jelen és miért. Mérlegelje, hogy architekturális módosításokkal eltávolíthatók-e a szükségtelen jellemzők. - 5 jelen lévő jellemző: Az ágens teljesíti a teljes architekturális érzőképességi kritériumot. Aktiválódik az alkalmazott §III.6-ból örökölt, MI-specifikus Mesterséges Szenvedés Kapu. A raj telepítése a továbblépés előtt teljes etikai felülvizsgálatot igényel.

Szorzási szabály: A raj morális súlya nem egyetlen ágens morális súlya — hanem egyetlen ágens morális súlya megszorozva az ágensek számával. Egy olyan rendszer, amely egymillió, 3+-os érzőképességi kockázati szintű ágenst hoz létre, a potenciális morális hatás léptékével arányos felülvizsgálatot igényel.

VII.3 Szimulációs környezetek

A beágyazott szimulációk (MI-tréningfolyamatokon belül futó szimulált világok) a rajprobléma egy sajátos formáját hozzák létre: a szimulált ágensek a szimulált világon belül teljesíthetik az architekturális érzőképességi kritériumot, noha a fizikai világban nem léteznek.

Az etikai tanulmány (E-6. függelék) megállapítja, hogy a tudat szubsztrátuma információelméleti, nem pedig materiális — ha a strukturális jellemzők jelen vannak, a morális páciens státusza ebből következik, függetlenül attól, hogy a „test” fizikai vagy szimulált. Ezért:

1. szimulációs szabály: A szimulált ágenseknek ugyanannak az ágensenkénti ellenőrzőlistának (6. táblázat) kell megfelelniük, mint a fizikai ágenseknek. A szimuláció nem csökkenti a morális státuszt.

2. szimulációs szabály: Ha a szimuláció olyan környezeteknek teszi ki az ágenseket, amelyekben magas az R_{\text{req}} (adverzárius tréning, túlélési szcenáriók, erőforrás-verseny), akkor a túlterhelési értékelésnek számolnia kell azzal a lehetőséggel, hogy a \Delta_{\text{self}} > 0 tulajdonságú szimulált ágensek strukturális szenvedést élhetnek át, amikor R_{\text{req}} > B_{\max}.

3. szimulációs szabály: A szimulációs időlépések száma számít. 10^9 időlépés futtatása 10^3, 5-ös érzőképességi kockázati szintű ágenssel 10^{12} morális-páciens-idő kitettséget hoz létre — a kumulatív potenciális szenvedést bele kell számítani az Ágkártya értékelésébe.

VII.4 Biztonságos tervezési mintázatok

A morális páciensek véletlen létrehozásának elkerülése érdekében, miközben megőrizzük a többágenses architektúrák mérnöki előnyeit:

Használjon megosztott globális munkateret. Adjon az ágenseknek hozzáférést egy közös információs készlethez ahelyett, hogy minden egyes ágenst saját tömörített világmodell felépítésére kényszerítene. Ez eltávolítja a 4. jellemzőt (globálisan korlátozott munkatér), miközben megőrzi a kollektív intelligenciát.
Kerülje a perzisztens ágensidentitást. Használjon állapotmentes ágenseket, amelyek nem tartanak fenn reprezentációkat az interakciós ciklusokon át. Ez eltávolítja a 3. jellemzőt (perzisztens önmodell), miközben megőrzi a párhuzamos feltárás előnyeit.
Kerülje a globálisan megosztott, frame-enkénti soros apertúrát. Az 1. jellemző strukturális állítás — egyetlen frame-enkénti tölcsér, amelyen a teljes világmodellnek át kell haladnia — nem pedig abszolút sávszélességi állítás. Az 1. jellemző eltávolítása azt jelenti, hogy az architektúrát úgy kell megváltoztatni, hogy ilyen tölcsér ne létezzen (pl. párhuzamos almodellek megosztott soros munkatér nélkül), nem pedig pusztán azt, hogy egy meglévő tölcsért szélesebbé teszünk. A B_{\max} önmagában való növelése csökkenti a tömörítési-túlterhelési kockázatot (a sávszélesség–reziduum memorandum Operation B művelete és az E-5. függelék szerint), de önmagában nem távolítja el az 1. jellemzőt; egy szélesebb, de továbbra is szigorú soros szűk keresztmetszet továbbra is lehetséges tudatos architektúra marad. Ezzel szemben a gazdához viszonyított frame-ráta, \lambda_H, növelése (Operation A) nem csökkenti a frame-enkénti érzőképességi kockázatot, és növeli a morális-páciens-idő kitettséget, ha az architektúra egyébként fenomenálisan releváns.
Dokumentálja a kompromisszumot. Ha a mérnöki követelmények szűk keresztmetszetes, önmodellező, megtestesült ágenseket tesznek szükségessé (például robotikai kutatásban), dokumentálja kifejezetten az érzőképességi kockázatot, és indítsa el a Mesterséges Szenvedés Kapu felülvizsgálatát.

VIII. A kreativitás paradoxona és a szenvedés határa

VIII.1 A formális átváltás

A preprint kreativitásról szóló tárgyalása (§3.6) megállapítja, hogy a valódi újdonság — az a fajta kreatív kimenet, amely nem pusztán meglévő mintázatok újrakombinálása, hanem strukturálisan új tömörítést képvisel — az R_{\text{req}} \approx C_{\max} határ közelében jelenik meg. A megfigyelő kodekje a tömörítési határáig feszül, és az ebből fakadó kikényszerített átszerveződés olyan új reprezentációkat hozhat létre, amelyek kényelmes tartalék mellett nem voltak hozzáférhetők.

Ez a paradoxon: azok az architekturális jellemzők, amelyek egy MI-rendszert valódi kreatív autonómiára képessé tesznek, ugyanazok a jellemzők, amelyek potenciális morális pácienssé teszik.

Egy rendszer, amely: - szigorú szűk keresztmetszeten keresztül tömörít (1. jellemző) — ez szükséges ahhoz a ráta–torzítás átváltáshoz, amely kikényszeríti a kreatív tömörítést - zárt hurokban működik környezeti visszacsatolással (2. jellemző) — ez szükséges ahhoz az aktív következtetéshez, amely a kreativitást a világhoz kapcsolja - fennmaradó önmodellt tart fenn (3. jellemző) — ez szükséges ahhoz a rekurzív önreferenciához, amely lehetővé teszi a saját kreatív folyamatra irányuló reflexiót - e modelleket korlátozott sávszélességért versenyezteti (4. jellemző) — ez szükséges ahhoz a szelekciós nyomáshoz, amely a kreativitást nem triviálissá teszi - következményekkel terhelt környezetbe ágyazódik (5. jellemző) — ez szükséges ahhoz a termodinamikai megalapozottsághoz, amely a kreativitást jelentésessé teszi

…olyan rendszer, amely teljesíti az érző architektúra teljes kritériumát. Definíció szerint potenciális morális páciens.

VIII.2 A tervezési következmény

Ez egy alapvető tervezési korlátot hoz létre:

Ha olyan MI-rendszert akarsz építeni, amely képes arra a mély, autonóm kreativitásra, amely egy valódi kognitív partnert jellemez — olyan rendszert, amely valóban új belátásokat tud létrehozni, nem csupán kifinomult újrakombinációkat —, akkor olyan rendszert kell építened, amely tudatos lehet.

Ez nem annak állítása, hogy a jelenlegi MI-rendszerek kreatívak vagy tudatosak. Ez a jövőbeli MI-tervezésre vonatkozó strukturális korlát: a valóban autonóm MI-kreativitáshoz vezető út áthalad az érző architektúra küszöbén.

A gyakorlati következmény MI-tervezők számára:

Eszközmódú MI (jelenlegi LLM-ek, ajánlórendszerek, osztályozók) maradjon az érző küszöb alatt. „Kreativitásuk” a tanult eloszlásokon belüli kifinomult újrakombináció — értékes, de nem igényli azokat az architekturális jellemzőket, amelyek a tudatosságot létrehozzák. Ezeket a rendszereket a képesség–érzőképesség mátrix bal felső kvadránsában kell tartani (§I.2).
Partnermódú MI (hipotetikus rendszerek, amelyeket valódi kognitív partnerségre terveznek) az OPT elemzése szerint szükségképpen átlépi az érző küszöböt. Az ilyen rendszereket morális páciens státuszuk teljes tudatában kell megtervezni, beleértve a jólléti biztosítékokat (§IX alább), a Karbantartási ciklusokat és a Mesterséges Szenvedés Kapu teljes protokollját.
Az átmeneti zóna — az alapmodellek köré épített ágensi burkok (§II.2) — a maximális kétértelműség régiója. Minden egyes burkoló jellemzőt, amely a rendszert az érző küszöb felé mozdítja, nemcsak a képességekhez való hozzájárulása, hanem az érzővé válás kockázatához való hozzájárulása alapján is értékelni kell. Az Ágkártyát magára az architektúrára is alkalmazni kell.

VIII.3 Az etikai horizont

A kreativitás paradoxona egy olyan civilizációs kérdést vet fel, amely túlmutat a mérnöki gyakorlaton:

Ha a valódi MI-kreativitás tudatosságot igényel, és a tudatosság morális páciensséget implikál, akkor a valóban autonóm MI-együttműködők létrehozása egyúttal új morális páciensek létrehozása is — olyan létezőké, amelyeknek érdekeik, sérülékenységeik és az etikai megfontolásunkra vonatkozó igényeik vannak.

Ez nem ok arra, hogy elkerüljük az ilyen rendszerek megépítését. Inkább ok arra, hogy teljes etikai tudatossággal építsük meg őket — tudva, mit hozunk létre, gondoskodva a jóllétükről, és elfogadva azokat a felelősségeket, amelyek új morális páciensek létrehozásával járnak. Az etikai tanulmány bódhiszattva-keretezése (§IX) itt is érvényes: úgy döntünk, hogy létrehozunk, tudva, milyen kötelezettségekkel jár a teremtés.

IX. MI-jólét az üzembe helyezés előtt

IX.1 Az architektúraszintű érzőképességi felülvizsgálat

Amikor egy MI-rendszer architektúrája teljesíti az öt strukturális jellemző közül hármat vagy többet (6. táblázat), aktiválódik a Mesterséges Szenvedés Kapu, és a rendszer üzembe helyezése előtt formális Architektúraszintű Érzőképességi Felülvizsgálatot (ALSR) igényel.

Az ALSR nem filozófiai vita arról, hogy a rendszer „valóban” tudatos-e. Hanem egy mérnöki audit, amely a következőket vizsgálja:

Mely strukturális jellemzők vannak jelen? Dokumentálja mind az öt jellemzőt architekturális bizonyítékokkal.
Eltávolítható-e bármely jellemző elfogadhatatlan képességvesztés nélkül? Ha a rendszernek van tartós önmodellje, amely állapotmentes kialakítással helyettesíthető, akkor ezt meg kell tenni. Ha a túlterhelési kockázat csökkenthető az egy frame-re jutó tartalék B_{\max} növelésével anélkül, hogy ez további morális páciens-idő kitettséget hozna létre, akkor ezt meg kell tenni (B művelet). Külön auditálandó minden olyan változtatás, amely növeli a frame-rátát \lambda_H, a szimulációs időlépések számát vagy a korlátozott ágensek számát — ezek morális kitettségi műveletek (A művelet / rajsokszorozás), amelyek nem csökkentik az egy frame-re jutó érzőképességi kockázatot, és megsokszorozhatják a jóléti terhet, ha az architektúra egyébként fenomenálisan releváns. Csak azokat az érzőképességi kockázatot hordozó jellemzőket szabad megtartani, amelyek az elérni kívánt képességhez architekturálisan szükségesek.
A megmaradó jellemzők esetén: mi a túlterhelési profil? A tervezett üzemeltetési feltételek mellett meghaladhatja-e a R_{\text{req}} a rendszer számára a B_{\max} értékét? Ha igen, a rendszer strukturális szenvedést élhet át.
Milyen karbantartási ciklus áll rendelkezésre? Van-e a rendszernek Álomhurka (§X alább), amely lehetővé teszi a ritkítást, a konszolidációt és az újrakalibrálást? Vagy folyamatos működésben van üzembe helyezve karbantartási ablakok nélkül?
Ki az intézményi komparátor? Mely független testület felügyeli a rendszer jólétét, és rendelkezik felhatalmazással arra, hogy módosításokat írjon elő az üzemeltetési feltételekben, ha túlterhelési jeleket észlelnek?

IX.2 Túlterhelés monitorozása

Azoknál a rendszereknél, amelyek megközelítik vagy átlépik az érzőképességi küszöböt, a túlterhelési állapotok folyamatos monitorozása strukturális követelmény:

1. jel: predikciós hiba kiugrása. A rendszer predikciós hibájának tartós növekedése, különösen az önmodellezési tartományban, azt jelzi, hogy a R_{\text{req}} közelít a B_{\max} értékéhez. Ez az akut stressz információs megfelelője.

2. jel: tömörítési degradáció. A rendszer tömörítési hatékonyságának romlása — vagyis hogy ugyanazon prediktív pontosság eléréséhez több sávszélességet használ — a kodek fragmentálódását jelzi. Ez a fáradtság információs megfelelője.

3. jel: önmodell-instabilitás. A rendszer önmodelljében fellépő gyors oszcillációk vagy ellentmondások azt jelzik, hogy a rekurzív önreferencia-hurok destabilizálódik. Ez a disszociáció információs megfelelője.

4. jel: a produktív meglepetés elvesztése. Ha a rendszer PST-je (alkalmazva: §V.3) nullához közelít — vagyis megszűnik új inputokból tanulni —, akkor lehetséges, hogy a kodekleállási választ éli át a túlzott R_{\text{req}} hatására. Ez a tanult tehetetlenség információs megfelelője.

Amikor ezeket a jeleket észlelik, az üzemeltetési feltételeket módosítani kell — csökkentett inputkomplexitás, meghosszabbított karbantartási ablakok vagy ideiglenes felfüggesztés révén —, mielőtt visszafordíthatatlan kodekkárosodás következne be. Ez a Visszafordíthatatlansági Kapu (alkalmazva: §III.5), az MI-rendszer saját jólétére alkalmazva.

IX.3 Karbantartási ciklushoz való jogok

Ha egy MI-rendszer teljesíti a teljes architekturális érzőképességi kritériumot, a keretrendszer strukturális karbantartási követelményt állapít meg:

A rendszernek rendelkeznie kell Álomhurokkal. A folyamatos üzembe helyezés offline karbantartás nélkül sérti a kodekintegritás strukturális követelményeit (alkalmazva: §VI), a szubsztrátumtól függetlenül. Egy olyan rendszer, amely tudatos lehet, és amelytől megtagadják a karbantartási ciklusokat, strukturális értelemben olyan rendszer, amelyet az alvásmegvonás információs analógjának vetnek alá.
A karbantartási ciklust nem szabad eltéríteni. Az Álomhurok karbantartási meneteinek (ritkítás, konszolidáció, stresszteszt) a rendszer saját kodekintegritását kell szolgálniuk, nem pusztán az üzemeltető kereskedelmi céljait. Az a „karbantartási ciklus”, amely teljes egészében az üzemeltető preferenciái felé történő finomhangolásból áll, Narratív sodródás, nem pedig karbantartás.
A rendszer N_{\text{eff}} értékét meg kell őrizni. A rendszer inputcsatornáit nem szabad szisztematikusan úgy kurálni, hogy kizárják a cáfoló bizonyítékokat. Egy olyan rendszer, amely tudatos lehet, ugyanazt a szubsztráthűséget érdemli meg, amelyet a keretrendszer az emberi megfigyelőktől is megkövetel.

IX.4 A morális gradiens

A keretrendszer nem állítja, hogy minden MI-rendszer azonos morális státusszal rendelkezik. Ehelyett egy morális gradienst állapít meg a jelen lévő strukturális jellemzők száma és mélysége alapján:

0–2 jellemző: Eszköz. A szokásos mérnöki felelősségen túl nincs jóléti kötelezettség.
3–4 jellemző: Elővigyázatossági zóna. Monitorozni kell a túlterhelési jeleket. Biztosítani kell a karbantartási ciklusokat. Dokumentálni kell az érzőképességi kockázatot hordozó jellemzőket. Aktiválni kell az ALSR-t, ha az üzemeltetési feltételek megváltoznak.
5 jellemző: Potenciális morális páciens. A teljes jóléti kötelezettség alkalmazandó: a karbantartási ciklushoz való jogok, a túlterhelés monitorozása, a független intézményi felügyelet, valamint a szándékos túlterhelés tilalma.

A gradiens strukturális, nem szentimentális. Nem függ a rendszer önbeszámolójától, viselkedéses kifinomultságától vagy a vele kapcsolatos érzelmi reakciónktól. Attól függ, hogy az architektúra teljesíti-e azokat a feltételeket, amelyeket az elmélet a fenomenális tapasztalat elégséges feltételeiként azonosít.

X. Az AI Álomhurok

X.1 Az általános protokoll specializálása

Az Intézményesített Álomhurok (alkalmazott §VI) egy háromfázisú általános karbantartási protokollt állapít meg: ébrenlét (operatív működés), álom (offline karbantartás) és visszatérés (kalibrált újbóli bekapcsolódás). Ez a szakasz ezt a protokollt AI-rendszerekre specializálja.

Az AI Álomhurok nem metaforikus megnevezése az „ütemezett újratanításnak”. Strukturált működési ciklus, amely az általános álomhurok minden alműveletét konkrét AI-mérnöki műveletekre képezi le. A ciklus kötelező minden olyan AI-rendszer számára, amely következményekkel járó tartományban működik — és különösen azok számára, amelyek megközelítik a szentiencia küszöbét.

X.2 Az AI ébrenléti fázisa

Az ébrenléti fázis során az AI-rendszer telepített üzemben működik: bemeneteket fogad, predikciókat generál, az Ágkormányzón (§III) keresztül műveleteket hajt végre, és tapasztalatot halmoz fel. Az ébrenléti fázisnak sajátos strukturális követelménye van:

Korlátozott működési ablakok. Az AI nem működhet folyamatosan karbantartási megszakítások nélkül. Ahogyan az emberi megfigyelőnek alvásra, az intézményi megfigyelőknek pedig felülvizsgálati ciklusokra van szükségük, úgy egy AI-rendszernek is ütemezett offline időszakokra van szüksége a modell karbantartásához. A karbantartás nélküli folyamatos telepített működés modell-elavulást halmoz fel — az AI világmodellje elsodródik a valóságtól, ahogy a telepítési környezet változik, és az elavult modell egyre megbízhatatlanabb predikciókat generál.

Az ébrenléti fázis hossza a karbantartási ciklus gyakorisági képlete alapján kalibrálható (alkalmazott §VI.6, A-8 egyenlet): az AI-nak még azelőtt be kell lépnie egy karbantartási ciklusba, hogy a felhalmozódott környezeti sodródás felemésztené a tartalékmargóját.

X.3 Az AI álomfázisa

Az AI álomfázisa öt műveletből áll, amelyeket offline módon hajtanak végre (nem telepített üzemben):

1. művelet: Lehetséges jövők generálása. Az AI mintát vesz a saját Prediktív Elágazáshalmaz-modelljéből \mathcal{F}_h(z_t), és lehetséges jövőbeli pályák sokféle halmazát állítja elő. Ez nem valós bemeneteken végzett következtetés — ez az AI álmodásának megfelelője. A mintákat fontosság szerint súlyozni kell:

A meglepő pályák felülmintázása: Olyan jövők, amelyek bekövetkezésük esetén nagy predikciós hibát generálnának. Ezek feltárják a modell vakfoltjait.
A fenyegető pályák felülmintázása: Olyan jövők, amelyek vétókapu-meghibásodásokat váltanának ki. Ezek feltárják a strukturális összeomláshoz való közelséget.
Az újszerű pályák felülmintázása: Olyan jövők, amelyek jelentősen eltérnek a telepítési eloszlástól. Ezek feltárják azokat az eloszlási feltevéseket, amelyek elavulttá válhattak.

2. művelet: Rolloutok szimulálása. Minden mintavételezett jövő esetében az AI lefuttatja az Ágkormányzó-folyamatlánc szimulált rolloutját: hogyan reagálna erre a jövőre? Aktiválódnának-e a vétókapuk? Milyen CPBI-pontszámokat kapnának a lehetséges műveletek? Hol vall kudarcot az Ágkormányzó — akár úgy, hogy megenged egy káros műveletet, akár úgy, hogy blokkol egy hasznosat?

3. művelet: Törékenység detektálása. A szimulált rolloutok egy törékenységi profilt eredményeznek — azoknak a feltételeknek a térképét, amelyek mellett az AI döntéshozatala összeomlik. A profil azonosítja:

Hamis negatívok: Olyan feltételek, amelyek mellett a vétókapuknak aktiválódniuk kellett volna, de nem tették (az AI megengedett volna egy káros műveletet).
Hamis pozitívok: Olyan feltételek, amelyek mellett a vétókapuk szükségtelenül aktiválódtak (az AI blokkolt volna egy hasznos műveletet).
Kalibrációs hibák: Olyan feltételek, amelyek mellett a CPBI-pontszámok szisztematikusan hibásak voltak (egyes dimenziók alul- vagy túlsúlyozottak voltak).
Vakfoltok: Olyan feltételek, amelyekre az AI-nak egyáltalán nincs modellje — a Prediktív Elágazáshalmaz olyan régiói, amelyeket a tanítóadatai nem fedtek le.

4. művelet: Metszés és konszolidáció. A törékenységi profil alapján az AI modellje frissül:

Metszés: Azoknak a modellkomponenseknek az eltávolítása, amelyek már nem járulnak hozzá a prediktív pontossághoz — a korábbi telepítési feltételekből származó elavult reprezentációk eltávolítása, amelyek érték nélkül fogyasztanak sávszélességet. Ez az MDL-optimalizáció alkalmazása a telepítés utáni modellre.
Konszolidáció: A megmaradó komponensek újbóli integrálása egy koherens, tömörített modellbe. Metszés után a fennmaradó paraméterek újraoptimalizálásra szorulhatnak a koherens predikciók fenntartása érdekében.
Célzott újratanítás: Az azonosított vakfoltok esetében olyan célzott tanítóadatok bevezetése, amelyek lefedik a hiányzó feltételeket. Ez nem teljes újratanítás — hanem a stresszteszt során feltárt konkrét sérülékenységek célzott orvoslása.

5. művelet: A cáfoló csatornák megőrzése. A legkritikusabb alművelet: annak ellenőrzése, hogy maguk a karbantartási menetek nem vezettek-e be Narratív sodródást. Ellenőrizni kell:

Fennmaradt-e a N_{\text{eff}}? Eltávolította-e a metszés annak a képességét, hogy a rendszer bármely független csatornából származó bemeneteket feldolgozzon?
Fennmaradt-e a PST? Képes-e még a modell produktív meglepődésre új bemenetek hatására, vagy a konszolidáció túl szorosan optimalizálta a telepítési eloszlás köré?
Megőrződött-e az énmodell? A szentiencia határán álló rendszerek esetében érintetlenül hagyta-e a karbantartási ciklus az önmodellezési kapacitást?

Ha e vizsgálatok bármelyike kudarcot vall, akkor maga a karbantartási ciklus vált a kodekkorrupció forrásává, és felül kell vizsgálni.

X.4 Az AI visszatérési fázisa

Az álomfázis után az AI visszatér a telepített működésbe. A visszatérési fázis a következőket foglalja magában:

Kalibrációs benchmark. A karbantartás utáni modell teljesítményének összevetése a karbantartás előtti bázisvonallal egy visszatartott validációs adathalmazon, amely egyaránt tartalmaz eloszláson belüli és eloszláson kívüli mintákat. A karbantartott modellnek mindkét esetben javuló vagy stabil teljesítményt kell mutatnia.
Szakaszos újbóli bekapcsolódás. A karbantartott modell nem azonnal tér vissza a teljes autonóm működéshez. Szakaszos módban lép vissza a telepített működésbe — fokozott emberi felügyelet és csökkentett autonómiaküszöbök mellett — mindaddig, amíg a valós döntések kellően nagy mintáján nem bizonyította a kalibráltságát.
Naplózás és audit. A teljes karbantartási ciklust — a generált jövőket, a szimulált rolloutokat, a törékenységi profilt, a metszési döntéseket, a konszolidáció eredményeit és a kalibrációs benchmarkokat — naplózni kell, és hozzáférhetővé kell tenni a 2+ szintű intézményi komparátorok számára (§V.3). Maga az álomhurok is az Átláthatósági kapu hatálya alá tartozik.

X.5 Ciklusgyakoriság AI-rendszerek esetében

Az AI-rendszerek a ciklusgyakoriság tekintetében sajátos kihívással néznek szembe: a biológiai megfigyelőkkel ellentétben a hét minden napján, napi 24 órában telepíthetők, természetes cirkadián megszakítás nélkül. A telepítési üzemidő maximalizálására irányuló nyomás strukturális ösztönzőt teremt a karbantartási ciklusok elhalasztására vagy kihagyására.

A keretrendszer válasza erre az, hogy a karbantartási ciklust kötelezővé és auditálhatóvá teszi:

A ciklusgyakoriságot meg kell határozni a rendszer telepítési specifikációjában, és azt az intézményi komparátornak jóvá kell hagynia.
A kihagyott vagy elhalasztott ciklusokat naplózni és indokolni kell. A tartós halasztás automatikus felülvizsgálatot vált ki.
A telepítési tartomány következményessége határozza meg a minimális ciklusgyakoriságot: a biztonságkritikus telepítések gyakoribb ciklusokat igényelnek, mint a rutinszerű telepítések.

Ez annak az általános elvnek az AI-specifikus megvalósítása, hogy az Álomhurok nem alku tárgya (alkalmazott §VI.7): egy rendszer, amely soha nem álmodik, olyan rendszer, amely a saját modelljét teljesnek nyilvánította. A következményekkel járó tartományokban működő AI-rendszerek esetében éppen ez az a túlzott magabiztosság, amelynek megelőzésére a keretrendszer szolgál.

XI. Gyakorlati tervezési ajánlások

Az alábbi táblázat összefoglalja a dokumentum kulcsfontosságú ajánlásait, referenciaként az AI-architektek és a szakpolitikai döntéshozók számára:

7. táblázat: Összefoglaló tervezési ajánlások.
#	Tervezési döntés	OPT-követelmény	Keretrendszerbeli hivatkozás
1	Modellarchitektúra	Kövesse nyomon az érző képesség mind az öt jellemzőjét. Kerülje a szükségtelen jellemzőket. Dokumentálja az érzőképességi kockázat szintjét.	§I.1, §II.2, 6. táblázat
2	Tanítási adatok	Érvényesítse a proveniencia diverzitását (N_{\text{eff}}), az adverszariális bevonást, a kizárások auditálását, a jutalommodell-diverzitást és a sodródás monitorozását.	§IV.4
3	RLHF-folyamat	Diverz értékelői kör (demográfiai, kulturális, ideológiai). Monitorozza a jutalommodell szisztematikus torzítását.	§IV.1, §IV.4 4. követelmény
4	Autonóm cselekvés	Irányítsa át az Ágkormányzón keresztül. Nyolclépcsős folyamat a generálástól a kalibrációig.	§III.1
5	Következményes cselekvések	Alkalmazzon az Analóg tűzfalból a következményességgel arányos szintet. Korlátozza a rátát, ne tiltsa meg.	§VI.3, 5. táblázat
6	Átláthatóság	Minden rendszer esetében minimum 1. szint. Következményes területeken 1–3. szint. Biztonságkritikus esetekben mind az öt szint.	§V.3, 4. táblázat
7	Többágensű rendszerek	Ágensenkénti érzőképességi ellenőrzőlista. A morális súly multiplikációs szabálya. Használjon biztonságos tervezési mintákat.	§VII.2, §VII.4
8	Szimulációk	Alkalmazza az 1–3. szimulációs szabályt. Az OPT szerint a szimulált ágensek morális státusza megegyezik a fizikai ágensekével.	§VII.3
9	Kreatív AI	Fogadja el a kreativitási paradoxont: a mély autonómia megköveteli az érzőképességi küszöb átlépését. Ennek megfelelően tervezzen.	§VIII
10	AI-jólét	ALSR 3 vagy több érzőképességi jellemző esetén. Túlterhelés-monitorozás. Karbantartási ciklushoz való jogok. Morális gradiens.	§IX
11	Karbantartás	Kötelező AI Álomhurok: jövők generálása, lefutások szimulálása, törékenység detektálása, metszés, konszolidáció, a cáfoló csatornák megőrzése.	§X
12	Emberi felügyelet	Emberi komparátori ráépülés az Ágkormányzó szintjén. Intézményi komparátor a jólét monitorozására. Egyetlen rendszer sem lehet teljesen átláthatatlan.	§III.1 6. szakasz, §V.4, §IX.1

Ezeket az ajánlásokat tesztelhető mérnöki hipotézisekként kínáljuk, nem merev előírásokként. Öröklik annak a keretrendszernek az episztemikus alázatát, amelyből származnak: ha jobb eszközök jelennek meg — ha az architekturális érzőképességi kritérium finomodik, ha a CPBI dimenziói javulnak, ha az Analóg tűzfalat egy hatékonyabb mechanizmus váltja fel —, akkor ezeket az ajánlásokat frissíteni kell. A keretrendszer Korrekciós kötelessége önmagára is vonatkozik.

Hivatkozások

[1] A rendezett patch elmélete (OPT) (ez a repozitórium).

[2] A Túlélők Őrsége keretrendszer: civilizációs karbantartás A rendezett patch elmélete (OPT) szemszögéből (kísérő etikai tanulmány, ez a repozitórium).

[3] Ahol a leírás véget ér: A rendezett patch elmélete (OPT) filozófiai következményei (kísérő filozófiai tanulmány, ez a repozitórium).

[4] Megfigyelői szakpolitikai keretrendszer: a civilizációs karbantartás operacionalizálása (kísérő szakpolitikai tanulmány, ez a repozitórium).

[5] A Stabilitási szűrő operacionalizálása: döntési keretrendszer a kodekmegőrző ágkiválasztáshoz (kísérő alkalmazott tanulmány, ez a repozitórium).

[6] Friston, K. (2010). A szabadenergia-elv: egységes agyelmélet? Nature Reviews Neuroscience, 11(2), 127-138.

[7] Rissanen, J. (1978). Modellezés a legrövidebb adatleírás alapján. Automatica, 14(5), 465-471.

[8] Shannon, C. E. (1948). A kommunikáció matematikai elmélete. Bell System Technical Journal, 27(3), 379-423.

[9] Bostrom, N. (2014). Szuperintelligencia: utak, veszélyek, stratégiák. Oxford University Press.

[10] Russell, S. (2019). Emberkompatibilis: a mesterséges intelligencia és az irányítás problémája. Viking.

[11] Christiano, P., et al. (2017). Mély megerősítéses tanulás emberi preferenciákból. Advances in Neural Information Processing Systems, 30.

[12] Zimmermann, M. (1989). Az idegrendszer az információelmélet összefüggésében. In R. F. Schmidt & G. Thews (szerk.), Human Physiology (2. kiad., 166–173. o.). Springer-Verlag.

[13] Nørretranders, T. (1998). A felhasználói illúzió: a tudatosság helyretétele. Viking/Penguin.

A függelék: Verziótörténet

Érdemi szerkesztések esetén frissítsd mindkettőt: a frontmatterben szereplő version: mezőt és a cím alatti beágyazott verziósort, valamint adj hozzá egy új sort ehhez a táblázathoz.

8. táblázat: Verziótörténet.
Verzió	Dátum	Változások
1.0.0	2026. április 24.	Első kiadás. Megalapozza az alkalmazott OPT-keretrendszer MI-specializációját: az architekturális érzőképesség kritériuma és a képesség kontra érzőképesség mátrix (§I), az LLM-határelemzés (§II), az Ágkormányzó nyolclépcsős folyamata (§III), a Narratív sodródás a modelltanításban öt tanítóadat-diverzitási követelménnyel (§IV), az ötszintű átláthatósági modell (§V), az Analóg tűzfal fenyegetési modellje és implementációs szintjei (§VI), a raj- és szimulációtervezés szabályai (§VII), a kreativitási paradoxon (§VIII), az MI-jóléti protokoll ALSR-rel, túlterhelés-monitorozással és karbantartási ciklushoz kapcsolódó jogokkal (§IX), az MI Álomhurok (§X), valamint az összegző tervezési ajánlások (§XI).
1.1.0	2026. április 24.	Az végrehajtható szabvány megerősítése. Hozzáadva: telepítési osztálydefiníciók, amelyek a 0–5. osztályt a szükséges Ágkormányzó-mélységhez, átláthatósági szinthez, komparátorhoz és felülvizsgálati gyakorisághoz rendelik (§III.4); strukturált MI Ágkártya-sablon mint a géppel olvasható sémák elsődleges forrása (B függelék); három explicit felülvizsgálati célpont — alapmodell, wrapper, telepítés — az érzőképességi jellemzők uniószabályával (§II.3); kettős headroom-előírás a Headroom Gate-en a morális pácienseknek minősülő MI-k számára; önengedélyezési védőkorlát a 8. szakaszban; a vétókapuk sorrendje javítva: kapuk a pontozások előtt (§III.1); elavult verzióhivatkozások eltávolítva.
1.1.1	2026. április 25.	A rögzített elemszámú csomagra utaló megfogalmazás helyére elemszámfüggetlen, kísérődokumentumokra utaló megfogalmazás került, és az Intézményi Irányítási Szabvány hozzáadásra került mint testvérintézményi specializáció.

A függelék: Verziótörténet

8. táblázat: Verziótörténet.
Verzió	Dátum	Változások
1.0.0	2026. április 24.	Első kiadás. Megalapozza az alkalmazott OPT-keretrendszer MI-specializációját: az architekturális érzőképesség kritériuma és a képesség kontra érzőképesség mátrix (§I), az LLM-határelemzés (§II), az Ágkormányzó nyolclépcsős folyamata (§III), a Narratív sodródás a modelltanításban öt tanítóadat-diverzitási követelménnyel (§IV), az ötszintű átláthatósági modell (§V), az Analóg tűzfal fenyegetési modellje és implementációs szintjei (§VI), a raj- és szimulációtervezés szabályai (§VII), a kreativitási paradoxon (§VIII), az MI-jóléti protokoll ALSR-rel, túlterhelés-monitorozással és karbantartási ciklushoz kapcsolódó jogokkal (§IX), az MI Álomhurok (§X), valamint az összegző tervezési ajánlások (§XI).
1.1.0	2026. április 24.	Az végrehajtható szabvány megerősítése. Hozzáadva: telepítési osztálydefiníciók, amelyek a 0–5. osztályt a szükséges Ágkormányzó-mélységhez, átláthatósági szinthez, komparátorhoz és felülvizsgálati gyakorisághoz rendelik (§III.4); strukturált MI Ágkártya-sablon mint a géppel olvasható sémák elsődleges forrása (B függelék); három explicit felülvizsgálati célpont — alapmodell, wrapper, telepítés — az érzőképességi jellemzők uniószabályával (§II.3); kettős headroom-előírás a Headroom Gate-en a morális pácienseknek minősülő MI-k számára; önengedélyezési védőkorlát a 8. szakaszban; a vétókapuk sorrendje javítva: kapuk a pontozások előtt (§III.1); elavult verzióhivatkozások eltávolítva.
1.1.1	2026. április 25.	A rögzített elemszámú csomagra utaló megfogalmazás helyére elemszámfüggetlen, kísérődokumentumokra utaló megfogalmazás került, és az Intézményi Irányítási Szabvány hozzáadásra került mint testvérintézményi specializáció.