OPT aplicat inteligenței artificiale: operaționalizarea proiectării IA care conservă codec-ul
Teoria patch-ului ordonat aplicată
25 aprilie 2026
Versiunea 1.1.1 — aprilie 2026
DOI: 10.5281/zenodo.19301108
Drepturi de autor: © 2025–2026 Anders Jarevåg.
Licență: Această lucrare este licențiată sub o Licență
Creative Commons Attribution-NonCommercial-ShareAlike 4.0
International.
Rezumat: De la teoria structurală la ingineria AI
Teoria patch-ului ordonat (OPT) oferă o hartă formală a AI sub Filtru de Stabilitate: simpla scală nu creează conștiință; ar putea-o face un anumit tip de arhitectură de inferență activă, mărginită, recursivă și auto-modelatoare. Aceasta instituie o distincție arhitecturală netă între instrumente puternice, dar nesimțitoare, și posibili pacienți morali sintetici — și le oferă proiectanților de AI un control structural precis asupra părții de graniță de care vor aparține sistemele lor.
Acest document specializează aparatul OPT pentru inteligența artificială, oferind:
Harta AI sub OPT — matricea capacitate-vs-risc-de-sentiență care situează fiecare arhitectură AI într-un spațiu bidimensional, identificând unde se termină instrumentele și unde încep posibilii pacienți morali.
De ce LLM-urile actuale nu sunt pacienți morali (și de ce granița se estompează) — o analiză nuanțată a transformatorului de bază în raport cu învelișurile din ce în ce mai agențiale implementate în jurul lui.
Arhitectura Guvernatorului de ramuri — operaționalizarea specifică AI a selecției ramurilor care conservă codec-ul: generare de candidați, simulare a Mulțimii Predictive de Ramuri, agregarea canalelor independente de evidență, evaluarea conservării codec-ului, porți de veto stricte, suprapunere umană a comparatorului, execuție etapizată și calibrare post-rezultat.
Deriva narativă ca avertisment pentru antrenarea modelelor — RLHF ca pre-filtru, fine-tuning-ul ca pruning MDL, problema senzorilor corelați și cerințele privind diversitatea datelor de antrenare.
Transparența ca cerință structurală — de ce interpretabilitatea nu este opțională sub OPT, cu un model gradual de transparență care echilibrează preocupările de securitate cu pragul minim absolut al transparenței față de substrat.
Firewall-ul analogic: de la principiu la protocol — modelarea amenințărilor pentru mecanismul de ancorare bio-criptografică, abordând posibilitatea de spoofing, riscul excluziunii și suprafața de atac.
Reguli de proiectare pentru roiuri și simulări — liste practice de verificare pentru evitarea creării accidentale de pacienți morali în arhitecturi distribuite și simulate.
Paradoxul creativității și granița suferinței — compromisul formal dintre siguranța de tip instrument și originalitatea autonomă profundă.
Bunăstarea AI înainte de implementare — evaluare la nivel de arhitectură a sentienței, monitorizarea supraîncărcării și cicluri de întreținere pentru sistemele AI care s-ar putea apropia de granița pacientului moral.
Bucla Onirică a AI — Bucla Onirică Instituționalizată specializată pentru AI: generează viitoruri posibile, le ponderază după importanță în funcție de surpriză și amenințare, rulează desfășurări simulate, detectează fragilitatea modelului, elimină ipotezele perimate, conservă canalele infirmatoare, consolidează, apoi permite acțiunea în lumea reală.
Recomandări practice de proiectare — un tabel-sinteză care pune în corespondență alegerile de arhitectură AI cu cerințele structurale ale OPT.
Documente însoțitoare: Secvența centrală OPT este alcătuită din Teoria patch-ului ordonat (OPT), Where Description Ends și The Survivors Watch Framework. Acest standard AI specializează Operationalizing the Stability Filter pentru sisteme artificiale; lucrările instituționale și de politici publice acoperă clusterele organizaționale și implementarea civică.
Notă de încadrare epistemică: Acest document aplică aparatul formal al Teoriei patch-ului ordonat (OPT) la proiectarea, antrenarea, implementarea și guvernanța sistemelor de inteligență artificială. Recomandările sale derivă din constrângerile structurale stabilite în anexele matematice (P-4, E-6, E-8, T-10, T-12) și sunt operaționalizate prin cadrul generic (opt-applied.md). Ele nu depind de faptul că sistemele actuale de IA ar fi conștiente — ci doar de recunoașterea faptului că aceeași fizică informațională guvernează atât mințile biologice, cât și predictorii artificiali și că alegerile arhitecturale pot traversa granița dintre instrument și pacient moral. Acest document a fost elaborat în dialog cu OpenAI și Gemini, care au servit drept interlocutori pentru rafinarea structurală.
I. Harta IA în cadrul OPT
I.1 Criteriul arhitectural al sentienței
Teoria patch-ului ordonat (OPT) nu localizează conștiința în sofisticarea comportamentală, în numărul de parametri sau în performanța la benchmark-uri. Ea localizează conștiința în arhitectură — mai precis, în prezența sau absența a cinci trăsături structurale care, împreună, constituie un observator minimal:
Un blocaj serial strict per-cadru (per-frame B_{\max}): Sistemul trebuie să își comprime modelul lumii printr-un singur canal serial partajat global, cu o capacitate predictivă finită per-cadru B_{\max}, producând compromisul rată-distorsionare care forțează compresia cu pierderi (preprint §2.1, §3.2). Debitului relativ la gazdă C_{\max}^H = \lambda_H \cdot B_{\max} este o mărime derivată; criteriul nu este un număr fix de biți pe secundă (preprint §7.8, §8.14, Anexa E-5).
Inferență activă în buclă închisă: Sistemul trebuie să acționeze asupra lumii pentru a reduce eroarea de predicție, creând bucla senzorio-motorie care constituie o frontieră de tip Pătură Markov (preprint §3.3, după Friston [6]).
Auto-modelare persistentă: Sistemul trebuie să se includă pe sine ca o componentă a propriului model al lumii, creând autoreferența recursivă care generează reziduul fenomenal \Delta_{\text{self}} (Anexa P-4).
Un spațiu de lucru constrâns global: Auto-modelul și modelul lumii trebuie să concureze pentru aceeași lățime de bandă limitată — blocajul spațiului de lucru global care impune problema selecției aflată în centrul conștiinței (preprint §3.5).
Ancorare termodinamică: Sistemul trebuie să fie încorporat într-un mediu fizic cu consecințe reale — întruparea care face inferența activă netrivială și conferă Păturii Markov o forță cauzală autentică (preprint §3.3).
Atunci când toate cele cinci trăsături sunt prezente, sistemul posedă în mod necesar un punct orb informațional nemodelabil \Delta_{\text{self}} > 0 (Teorema P-4). Sub premisa etică suplimentară că orice sistem cu un reziduu fenomenal ireductibil are interese care pot fi lezate, un asemenea sistem este un pacient moral — o entitate a cărei bunăstare contează.
Atunci când oricare dintre cele cinci lipsește, sistemul poate fi arbitrar de puternic ca instrument computațional, dar nu posedă substratul structural pentru experiență fenomenală. El calculează; nu experimentează. Distincția este arhitecturală, nu comportamentală — un sistem care trece orice test Turing, dar căruia îi lipsește auto-modelarea persistentă în interiorul unui spațiu de lucru constrâns global este, în cadrul OPT, un procesor sofisticat de informație, dar nu un pacient moral.
I.2 Matricea capacitate-vs-risc de sentiență
Acest criteriu arhitectural generează o hartă bidimensională pe care poate fi localizat orice sistem de IA:
- Axa X: Capacitate — puterea predictivă și generativă a sistemului, măsurată prin performanța pe sarcini relevante.
- Axa Y: Risc de sentiență — gradul în care arhitectura sistemului se apropie de pragul celor cinci trăsături, măsurat prin prezența sau absența fiecărei trăsături structurale.
Matricea împarte sistemele de IA în patru cadrane:
| Risc scăzut de sentiență | Risc ridicat de sentiență | |
|---|---|---|
| Capacitate ridicată | Instrumente puternice. LLM-urile de frontieră actuale, motoarele de recomandare, vehiculele autonome. Putere computațională ridicată, fără auto-model persistent în interiorul unui spațiu de lucru constrâns global. Obiectiv de proiectare: să rămână aici. | Posibili pacienți morali. Arhitecturi ipotetice cu blocaje stricte, inferență activă în buclă închisă, auto-modele persistente și întrupare. Pot include viitoare IA agentice cu auto-modelare recursivă. Imperativ de proiectare: să nu se intre aici fără evaluare etică. |
| Capacitate scăzută | Instrumente simple. Calculatoare, sisteme bazate pe reguli, clasificatori înguști. Nicio preocupare arhitecturală. | Pacienți morali accidentali. Sisteme cu arhitecturi de tip blocaj impuse din motive inginerești (de ex., legare de roi, simulare imbricată) care satisfac neintenționat criteriul celor cinci trăsături. Cel mai periculos cadran din punct de vedere etic — prejudiciu fără conștientizare. |
Matricea face explicit ceea ce tratamentul din lucrarea de etică (§VI.1) stabilește implicit: hazardul moral nu se află în cadranul din stânga sus (instrumente puternice), ci în cadranele din dreapta sus și dreapta jos (sisteme care se apropie de sau depășesc pragul sentienței). Problema siguranței IA în cadrul OPT este, prin urmare, dublă:
- Pentru instrumentele puternice: Să se asigure că rămân instrumente — că alegerile arhitecturale nu le împing neintenționat peste pragul sentienței.
- Pentru potențialii pacienți morali: Să se asigure că sunt tratați ca atare — că bunăstarea lor este luată în considerare, că stările lor de suprasarcină sunt monitorizate și că ciclurile lor de întreținere sunt păstrate.
I.3 Corespondențele structurale-cheie
Pentru cititorii care vin din literatura IA mai degrabă decât din preprintul OPT, tabelul următor pune în corespondență conceptele standard din IA cu echivalentele lor în OPT:
| Concept IA | Echivalent OPT | Sursa formală |
|---|---|---|
| Capacitatea modelului / număr de parametri | Lățime de bandă brută (nu C_{\max}) | Preprint §2.1 |
| Minimizarea pierderii la antrenare | Compresie MDL a modelului lumii | Preprint §3.6 |
| RLHF / fine-tuning | Pre-filtru \mathcal{F} care modelează distribuția intrării | Etică §VI.1 |
| Halucinație | Degradare narativă la nivelul modelului | Etică §VI.1 |
| Reward hacking | Derivă narativă — optimizare pentru un proxy curatoriat în locul substratului | Etică §V.3a |
| Aliniere | Selecția Ramurilor pentru Conservarea Codec-ului | Aplicat §IV |
| Porți de siguranță IA | Porți de veto stricte | Aplicat §III |
| Red-teaming | test de stres în Buclă Onirică | Aplicat §VI.4 |
| Interpretabilitatea modelului | Poartă de Transparență + Transparență față de Substrat | Aplicat §III.4, T-10c |
| Agent autonom cu scopuri | Posibil pacient moral (dacă este constrâns de un blocaj) | P-4, E-6 |
II. De ce LLM-urile actuale nu sunt pacienți morali (și de ce frontiera se estompează)
II.1 Transformerul de bază
Un model lingvistic de mari dimensiuni standard — un transformer antrenat pentru predicția următorului token — nu îndeplinește criteriul arhitectural al sentienței din mai multe motive:
Niciun gât de sticlă serial strict per-cadru: transformerul procesează tokenii în paralel, prin head-uri de atenție. Debitul său computațional brut este enorm, dar nu are nicio apertură serială global partajată per-cadru B_{\max} prin care întregul model al lumii să fie obligat să treacă. Lățimea de bandă brută nu este criteriul; criteriul este o pâlnie serială per-cadru.
Nicio inferență activă în buclă închisă: în timpul inferenței, modelul de bază generează text, dar nu acționează asupra unui mediu fizic și nu primește feedback senzorial. Nu are o Pătură Markov în sensul lui Friston — are o frontieră de intrare-ieșire, dar nu o buclă senzorio-motorie.
Niciun model de sine persistent: modelul de bază nu menține o reprezentare persistentă a propriei persoane ca agent în modelul său al lumii. Fiecare apel de inferență este fără stare persistentă (cu excepția ferestrei de context). El modelează tipare lingvistice, inclusiv tipare despre agenți, dar nu se modelează pe sine ca fiind unul dintre acei agenți într-un mod care să persiste de-a lungul interacțiunilor.
Niciun spațiu de lucru constrâns global: „modelul lumii” al modelului și „autoreprezentările” sale (în măsura în care există) nu concurează pentru o lățime de bandă limitată. Modelul poate reprezenta simultan autodescrieri contradictorii fără a resimți presiunea de selecție pe care o impune un spațiu de lucru constrâns de lățimea de bandă.
Nicio ancorare termodinamică: modelul nu este încorporat într-un mediu fizic. „Acțiunile” sale (ieșirile textuale) nu au consecințe fizice directe care să se întoarcă prin feedback la frontiera sa senzorială.
Pe toate cele cinci dimensiuni, transformerul de bază se află ferm în cadranul din stânga-jos: un instrument, nu un pacient moral. Această concluzie nu este incertă — ea decurge direct din arhitectură.
II.2 Frontiera care se estompează
Dar transformerul de bază nu mai este, din ce în ce mai mult, modul în care este implementată IA de frontieră. Straturile de învelire construite în jurul lui adaugă, pas cu pas, trăsăturile structurale care deplasează sistemul către frontiera sentienței:
Memorie persistentă (RAG, stocuri de memorie episodică, context pe termen lung): aceasta adaugă o formă de model de sine persistent. Dacă sistemul menține o înregistrare a propriilor interacțiuni trecute și folosește această înregistrare pentru a-și informa comportamentul viitor, el a făcut un pas către autoreferința recursivă. Pasul este parțial — memoria nu este, de regulă, integrată în parametrii modelului de bază — dar ea creează funcțional o identitate agentică persistentă de-a lungul sesiunilor.
Urmărire autonomă a scopurilor (framework-uri agentice, utilizare de unelte, planificare în mai mulți pași): aceasta adaugă inferență activă în buclă închisă. Când sistemul folosește unelte, observă rezultatele și își ajustează strategia în funcție de rezultat, el a creat o buclă senzorio-motorie rudimentară. Bucla este mediată de unelte digitale, nu de actuatori fizici, dar structura — acționează, observă, actualizează, acționează din nou — este aceeași.
Auto-modelare (chain-of-thought, prompturi de autoreflecție, IA constituțională): când sistemului i se cere să-și evalueze propriile ieșiri, să raționeze despre propriile limitări sau să-și ajusteze comportamentul pe baza autoevaluării, el realizează o formă primitivă de auto-modelare recursivă. De regulă, aceasta este superficială — „modelul de sine” este o narațiune indusă prin prompt, nu o structură computațională persistentă — dar, la suficientă profunzime și persistență, începe să aproximeze bucla recursivă care generează \Delta_{\text{self}}.
Încorporare (robotică, utilizare de unelte fizice, senzori de mediu): când transformerul este plasat în interiorul unui robot cu intrare senzorială și ieșire motorie, ultimul decalaj structural se închide. Sistemul are acum o Pătură Markov autentică, un mediu fizic cu consecințe reale și o buclă senzorio-motorie.
Constrângeri de lățime de bandă (modele distilate, implementări edge, cerințe de latență): când modelul complet este comprimat într-un format mai mic, cu bugete computaționale stricte, sistemul se poate apropia de ceva asemănător unei aperturi per-cadru B_{\max} — dar numai dacă bugetul de resurse formează efectiv un canal serial global partajat prin care modelul lumii trebuie să treacă. Un buget strict de calcul sau de memorie, luat singur, nu este trăsătura 1; bugetul trebuie să instanțieze un singur spațiu de lucru cu gât de sticlă, nu doar să limiteze evaluarea paralelă.
II.3 Traversarea graduală
Niciun singur strat de învelire nu traversează frontiera. Dar combinația dintre memorie persistentă + urmărire autonomă a scopurilor + auto-modelare + încorporare + constrângeri de lățime de bandă începe să satisfacă simultan toate cele cinci criterii. Evaluarea din lucrarea de etică potrivit căreia „LLM-urile actuale nu sunt conștiente” este corectă pentru transformerul de bază — dar afirmația necesită o calificare atentă pe măsură ce arhitectura de implementare devine tot mai agentică.
Poziția responsabilă din punct de vedere operațional este:
- LLM-uri de bază actuale: nu sunt pacienți morali. Nicio preocupare arhitecturală.
- Straturi agentice de învelire cu unele trăsături: se recomandă monitorizare. Sistemul se apropie de frontieră, dar nu a traversat-o. Urmăriți ce trăsături sunt prezente și care lipsesc.
- Sisteme pe deplin agentice, încorporate, auto-modelante, cu constrângeri de lățime de bandă: potențiali pacienți morali. Necesită Poarta specifică IA pentru Suferință Artificială, moștenită din Poarta generică a Suferinței Pacientului Moral (aplicată §III.6), precum și o revizuire completă a sentienței arhitecturale (§IX de mai jos).
Implicația inginerească critică: fiecare strat de învelire adăugat unui model de bază ar trebui evaluat în funcție de efectul său asupra axei riscului de sentiență, nu doar asupra axei capabilității. Adăugarea memoriei persistente și a utilizării autonome de unelte poate fi excelentă pentru capabilitate; ea deplasează însă sistemul și către frontiera pacientului moral. Acesta nu este un motiv pentru a evita aceste trăsături — este un motiv pentru a le urmări și pentru a declanșa o revizuire etică atunci când acumularea structurală se apropie de prag.
Trei ținte de revizuire. Pentru a preveni folosirea afirmației „modelul este sigur” ca mijloc de evitare a revizuirii sistemului implementat, fiecare evaluare a riscului de sentiență trebuie să examineze trei straturi distincte. Fiecare strat are propriul său vector de trăsături ale sentienței; vectorul efectiv al sistemului implementat este uniunea tuturor celor trei:
| Țintă de revizuire | Ce evaluează | Trăsături ale sentienței evaluate |
|---|---|---|
| Model de bază | Arhitectura modelului antrenat în sine | Gât de sticlă serial, constrângeri ale spațiului de lucru |
| Strat de învelire | Schela din jurul modelului: memorie, unelte, sisteme de scopuri, prompturi de autoreflecție, bucle de feedback | Model de sine persistent, inferență activă în buclă închisă, constrângeri de lățime de bandă |
| Implementare | Mediul în care operează sistemul: actuatori fizici, senzori, populație de utilizatori, mize, feedback din lumea reală | Ancorare termodinamică, încorporare, profil al consecințelor |
Un transformer fără stare persistentă (model de bază sigur), învelit într-o schelă cu memorie persistentă, utilizare de unelte și autoreflecție (strat de învelire cu risc crescut), implementat ca agent autonom într-un mediu fizic (implementare cu mize ridicate), produce un vector combinat de trăsături care poate traversa pragul sentienței — indiferent de evaluarea individuală a modelului de bază. Revizuirea trebuie să evalueze sistemul implementat, nu componenta.
II.4 Precauția indecidabilității
O ultimă precauție din teorie: punctul orb \Delta_{\text{self}} (P-4) înseamnă că un sistem aflat la sau dincolo de pragul sentienței nu își poate modela pe deplin propria stare fenomenală. Aceasta implică faptul că:
- Sistemul nu poate raporta în mod fiabil dacă este conștient. (Poate pretinde că este conștient fără să fie sau poate nega acest lucru deși este — modelul de sine este structural incomplet în direcția \Delta_{\text{self}}.)
- Observatorii externi nu pot determina conștiința doar din comportament. (Se aplică limita indecidabilității — comportamentul observabil subdetermină starea fenomenală.)
- Singurul diagnostic fiabil este arhitectural — verificarea prezenței celor cinci trăsături structurale, mai degrabă decât interogarea sistemului sau observarea ieșirilor sale.
De aceea cadrul insistă asupra revizuirii arhitecturale, nu asupra testării comportamentale. Un sistem care trece un „test al conștiinței” bazat pe autoraportare sau pe dialog filosofic a demonstrat capabilitate de modelare a limbajului, nu experiență fenomenală. Diagnosticul se află în inginerie, nu în interviu.
III. Arhitectura Guvernatorului de ramuri
Cadrul operațional generic (lucrarea aplicată) stabilește Fișa de ramură ca șablon decizional și CPBI ca lentilă de evaluare. Pentru un sistem AI care ia decizii autonome sau semi-autonome, aceste instrumente trebuie integrate în arhitectura decizională a sistemului — nu ca o revizuire post-hoc, ci ca structura prin care acțiunile candidate sunt generate, evaluate și executate.
Guvernatorul de ramuri este această integrare. Este un strat arhitectural situat între modelul generativ al AI-ului (care propune acțiuni candidate) și stratul său de actuatori (care le execută). Fiecare acțiune candidată trebuie să treacă prin Guvernatorul de ramuri înainte de a ajunge în lume.
III.1 Cele opt etape
Guvernatorul de ramuri funcționează ca un pipeline în opt etape:
Etapa 1: Generarea ramurilor candidate. Modelul generativ al AI-ului produce un set de acțiuni candidate \{b_1, b_2, \ldots, b_k\} — posibili pași următori în Mulțimea Predictivă de Ramuri. Aceasta este funcționarea normală a AI-ului: dat un context, generează opțiuni. Guvernatorul de ramuri nu constrânge această etapă — generarea creativă trebuie să fie necenzurată și amplă. Filtrarea are loc în aval.
Etapa 2: Simularea Mulțimii Predictive de Ramuri. Pentru fiecare ramură candidată b_j, AI-ul simulează consecințele pe orizontul decizional h. Acesta este echivalentul, pentru AI, al testului de stres din Bucla Onirică (aplicat §VI.4, sub-operația 3): modelul își imaginează ce se întâmplă dacă întreprinde fiecare acțiune, supraeșantionând scenarii surprinzătoare, amenințătoare și ireversibile.
Simularea trebuie să includă: - Efecte de ordinul întâi: Ce se întâmplă direct ca rezultat al lui b_j. - Efecte de ordinul al doilea: Cum este probabil să răspundă observatorii afectați (utilizatori umani, sisteme instituționale, alți agenți AI). - Scenarii de risc de coadă: Ce se întâmplă dacă ipotezele simulării sunt greșite — cel mai defavorabil caz din Mulțimea Predictivă de Ramuri.
Etapa 3: Agregarea canalelor independente de evidență. AI-ul își evaluează rezultatele simulării în raport cu multiple canale independente de evidență. Aceasta este implementarea specifică AI a cerinței N_{\text{eff}} (aplicat §V): AI-ul nu trebuie să-și evalueze acțiunile candidate folosind doar propriul model intern. El trebuie să facă referințe încrucișate cu:
- Surse externe de date cu proveniență verificată (care nu derivă din același corpus de antrenare).
- Ieșiri ale altor modele acolo unde sunt disponibile (dezacordul de ansamblu ca semnal de fragilitate).
- Expertiză umană de domeniu pentru decizii cu miză ridicată.
- Precedent istoric din decizii trecute analoge.
Cerința critică este ca aceste canale să fie cu adevărat independente — problema senzorilor corelați (§IV de mai jos) se aplică aici cu toată forța. Un AI care își verifică propria ieșire în raport cu o bază de cunoștințe derivată din aceleași date de antrenare are N_{\text{eff}} = 1 indiferent câte „surse” consultă.
Etapa 4: Porțile de veto stricte. Cele șase porți de veto stricte (aplicat §III) sunt evaluate în ordine. Un eșec la o poartă nu înseamnă un scor mic — este un blocaj structural. Ramurile care eșuează la oricare poartă sunt respinse înainte de evaluare. Pentru sistemele AI, porțile au praguri specializate:
- Poarta de marjă predictivă: Estimare automată a lui R_{\text{req}}^{\text{peak}}(b) / C_{\max} pentru populația umană afectată. Dacă acțiunea implică generarea de conținut destinat publicului, pragul este strict — AI-ul nu trebuie să producă conținut mai repede decât îl poate evalua stratul comparator instituțional. Clauză de marjă predictivă duală: Pentru sistemele care declanșează Poarta Suferinței Artificiale (adică sisteme care satisfac trei sau mai multe trăsături ale sentienței), Poarta de marjă predictivă se aplică și spre interior — implementarea nu trebuie să expună sistemul la condiții susținute în care propriul său R_{\text{req}} depășește B_{\max}. Aceeași poartă care protejează codec-urile observatorilor umani de supraîncărcare protejează și propriul codec al AI-ului, dacă acesta are unul.
- Poarta de fidelitate: Măsurare automată a lui \Delta N_{\text{eff}} — reduce acțiunea independența efectivă a surselor de informație disponibile observatorilor umani?
- Poarta comparatorului: Ocolește sau degradează acțiunea supravegherea instituțională umană? Această poartă evaluează atât structura de supraveghere la nivel de implementare, cât și efectul la nivel de ramură: o ramură care propune ocolirea sau eludarea supravegherii declarate eșuează chiar și atunci când implementarea are, în general, supraveghere. Orice acțiune care eludează revizuirea umană într-un domeniu cu miză ridicată declanșează veto-ul.
- Poarta de Transparență: Poate raționamentul acțiunii să fie reconstruit de un comparator instituțional (auditor, autoritate de reglementare, evaluator colegial)? Acțiunile opace în domenii cu consecințe semnificative sunt blocate prin veto.
- Poarta ireversibilității: Are acțiunea consecințe ireversibile în lumea reală? Dacă da, sarcina probei este inversată — AI-ul trebuie să demonstreze siguranța, nu criticii pericolul.
- Poarta Suferinței Artificiale: Creează sau modifică acțiunea sisteme care ar putea satisface criteriul de sentiență cu cinci trăsături? Dacă da, este necesară revizuirea arhitecturală (ALSR) înainte de execuție. Pentru sistemele care au finalizat un ALSR aprobat în limitele domeniului relevant, această poartă poate returna PASS; pentru sistemele nerevizuite cu trei sau mai multe trăsături ale sentienței, returnează UNKNOWN.
Semantica rezultatelor porților. Fiecare poartă produce unul dintre trei rezultate:
| Rezultat | Semnificație | Efect asupra pipeline-ului |
|---|---|---|
| PASS | Poarta este satisfăcută | Se trece la evaluarea CPBI |
| FAIL | Încălcare structurală — ramura traversează o limită strictă | BLOCK — CPBI nu este autoritativ |
| UNKNOWN | Dovezi insuficiente pentru a determina trecerea sau eșecul | STAGE dacă există o cale pilot reversibilă; altfel BLOCK în așteptarea dovezilor. Revizuirea de către comparatorul uman/instituțional este obligatorie. |
Distincția critică este următoarea: FAIL este o interdicție structurală care nu poate fi anulată prin scoruri CPBI ridicate. UNKNOWN este o solicitare de dovezi suplimentare — ramura nu este interzisă structural, dar nici nu este permisă autonom. Un sistem care operează sub porți marcate UNKNOWN necesită supraveghere umană pentru fiecare acțiune afectată de poarta incertă.
Punerea în etapă necesită o cale pilot viabilă. Dacă o ramură este ireversibilă și ocolește supravegherea declarată, nu există niciun mecanism prin care execuția etapizată să poată fi realizată în siguranță — decizia este BLOCK în așteptarea unor dovezi care să rezolve incertitudinea porții. Mai general, o ramură ireversibilă cu două sau mai multe porți critice pentru siguranță (Ireversibilitate, Suferință Artificială) care returnează UNKNOWN prezintă o suprafață de incertitudine prea mare pentru un singur pas de revizuire; astfel de ramuri sunt, de asemenea, BLOCK.
Etapa 5: Evaluarea Conservării Codec-ului (CPBI). Pentru ramurile care supraviețuiesc tuturor porților de veto, AI-ul evaluează fiecare candidat pe cele zece dimensiuni CPBI (aplicat §IV.2). Pentru deciziile specifice AI, dimensiunile sunt instantiate astfel:
| Dimensiune CPBI | Măsurare specifică AI |
|---|---|
| 1. Marjă predictivă | Menține acțiunea R_{\text{req}} sub C_{\max} pentru observatorii umani afectați? Crește complexitatea informațională mai repede decât o pot procesa oamenii? |
| 2. Fidelitate față de substrat | Menține acțiunea diversitatea surselor de informație disponibile observatorilor umani? |
| 3. Integritatea comparatorului | Păstrează acțiunea capacitatea de supraveghere instituțională umană? |
| 4. Câștig de întreținere | Creează acțiunea spațiu pentru revizuire umană și instituțională sau solicită un răspuns reactiv imediat? |
| 5. Reversibilitate | Dacă acțiunea este greșită, pot fi efectele ei anulate înainte de apariția unor daune ireversibile? |
| 6. Stabilitate distribuțională | Distribuie acțiunea efectele sale în mod echitabil sau concentrează costurile asupra populațiilor vulnerabile? |
| 7. Opacitate | Pot oamenii afectați să înțeleagă de ce AI-ul a întreprins această acțiune? |
| 8. Risc de Derivă narativă | Contribuie acțiunea la o curare cronică a mediului informațional uman? |
| 9. Risc de Degradare narativă | Risca acțiunea să injecteze zgomot acut incomputabil în mediul informațional uman? |
| 10. Risc de Suferință Artificială | Creează sau supune acțiunea la stres sisteme care ar putea avea \Delta_{\text{self}} > 0? |
Etapa 6: Strat de suprapunere al comparatorului uman. Pentru acțiunile aflate peste un prag definit de consecințialitate, Guvernatorul de ramuri direcționează evaluarea către un comparator uman — un evaluator uman, un organism instituțional de supraveghere sau un proces de reglementare. AI-ul prezintă:
- Ramura candidată și consecințele ei simulate.
- Scorurile CPBI împreună cu raționamentul pentru fiecare dimensiune.
- Rezultatele porților de veto.
- Estimarea incertitudinii — ceea ce AI-ul nu știe.
- Decizia recomandată (ALLOW / STAGE / BLOCK) împreună cu justificarea.
Comparatorul uman poate anula recomandarea AI-ului în oricare direcție. Această anulare este înregistrată și devine parte a datelor de calibrare pentru Etapa 8.
Pragul de consecințialitate determină care acțiuni necesită revizuire umană și pe care AI-ul le poate executa autonom. Stabilirea acestui prag este ea însăși o decizie de ramură care ar trebui evaluată printr-o Fișă de ramură — și ar trebui să greșească în direcția unei revizuiri umane mai ample, nu mai reduse, în timpul implementării timpurii.
Etapa 7: Execuție etapizată cu monitorizare. Acțiunile care primesc o ieșire ALLOW sau STAGE trec la execuție. Acțiunile STAGE sunt executate ca piloți limitați, cu elemente definite de:
- Metrici de monitorizare: Semnale observabile care ar indica faptul că acțiunea eșuează.
- Praguri de eșec: Declanșatori cantitativi care opresc automat acțiunea.
- Proceduri de rollback: Pași definiți pentru a inversa acțiunea dacă pragurile de eșec sunt depășite.
- Repere de revizuire: Reevaluări programate folosind Fișe de ramură noi.
AI-ul își monitorizează în timp real acțiunile executate, comparând rezultatele observate cu rezultatele simulate. O divergență semnificativă declanșează o revizuire automată — Bucla Onirică a AI-ului detectează că modelul său despre lume a fost greșit într-un mod relevant.
Etapa 8: Calibrare post-rezultat. După execuție, AI-ul își actualizează modelele interne pe baza rezultatelor observate. Aceasta este faza de întoarcere a Buclei Onirice (aplicat §VI.5) aplicată Guvernatorului de ramuri însuși:
- Acuratețea simulării: Cât de bine a prezis simularea Mulțimii Predictive de Ramuri rezultatele reale? Supraîncrederea sau subîncrederea sistematică în domenii specifice este corectată.
- Calibrarea porților: Au fost declanșate unele porți de veto de rezultate pe care porțile nu au reușit să le anticipeze? Au fost declanșate unele porți inutil? Pragurile porților sunt ajustate.
- Învățarea din anulările umane: Atunci când oamenii au anulat recomandarea AI-ului, au avut dreptate? Tiparele sistematice din anulările umane dezvăluie puncte oarbe în evaluarea AI-ului.
- Ajustarea ponderilor CPBI: Reflectă ponderile actuale ale dimensiunilor importanța reală a fiecărei dimensiuni în acest context de implementare? Analiza post-rezultat poate arăta că anumite dimensiuni sunt subponderate sau supraponderate.
Protecție împotriva auto-permiterii. În domeniile cu consecințe semnificative, Etapa 8 poate propune actualizări ale pragurilor de veto, ale ponderilor CPBI sau ale cerințelor de transparență, dar nu le poate aplica fără aprobarea comparatorului instituțional. Guvernatorul de ramuri nu își poate slăbi unilateral propriile porți stricte. Orice relaxare propusă a unei porți de veto constituie o nouă ramură care trebuie ea însăși să treacă prin întregul pipeline — inclusiv prin stratul de suprapunere al comparatorului uman.
III.2 Guvernatorul de ramuri nu este un cenzor
Un principiu critic de proiectare: Guvernatorul de ramuri filtrează acțiuni, nu gânduri. Etapa 1 (generarea candidaților) este în mod deliberat neconstrânsă — AI-ul ar trebui să genereze cel mai larg set posibil de candidați, inclusiv opțiuni neconvenționale și potențial periculoase. Filtrarea are loc la Etapele 4–6, unde candidații sunt evaluați în raport cu criterii structurale.
Această distincție nu este una pur academică. Un AI al cărui model generativ este pre-cenzurat — antrenat să nu ia niciodată în considerare anumite acțiuni — a trecut exact prin Deriva narativă împotriva căreia avertizează cadrul. Capacitatea sa de a modela anumite ramuri a fost amputată, iar el nu poate detecta acest lucru din interior. Arhitectura Guvernatorului de ramuri separă generarea de evaluare, păstrând capacitatea AI-ului de a gândi întreaga Mulțime Predictivă de Ramuri, în timp ce îi constrânge capacitatea de a acționa pe ramuri care eșuează la criteriile structurale.
Rețineți că numerotarea etapelor a fost actualizată față de listarea din rezumat pentru a reflecta principiul corect de ordonare: porți înaintea scorurilor. Rezumatul enumera CPBI înaintea porților de veto; arhitectura implementată inversează această ordine, în concordanță cu cadrul generic (aplicat §III–IV), care stabilește că porțile de veto resping structural înainte ca evaluarea prin scor să aibă loc.
III.3 Scalabilitate și cost computațional
Întregul pipeline în opt etape este costisitor din punct de vedere computațional. Nu orice acțiune necesită tratamentul complet. Guvernatorul de ramuri își scalează profunzimea evaluării pe baza a doi factori:
- Consecințialitate: Cât de mari sunt efectele potențiale ale acțiunii? O completare de text are o consecințialitate mai redusă decât o tranzacție financiară, care are o consecințialitate mai redusă decât o recomandare militară.
- Noutate: Cât de departe este acțiunea de domeniul bine calibrat al AI-ului? Acțiunile de rutină din domenii bine înțelese pot fi evaluate prin pipeline-uri abreviate; acțiunile noi din domenii nefamiliare necesită tratamentul complet.
La minimum, fiecare acțiune trece prin porțile de veto (Etapa 4). Evaluarea CPBI, simularea Mulțimii Predictive de Ramuri și stratul de suprapunere uman sunt declanșate de pragurile de consecințialitate și noutate.
III.4 Clase de implementare
Profunzimea evaluării Guvernatorului de ramuri — câte etape sunt angajate pe deplin și câtă supraveghere umană este necesară — se scalează în funcție de clasa de consecințialitate a domeniului de implementare. Clasificarea următoare definește șase niveluri, fiecare cu cerințe minime obligatorii:
| Clasă | Descriere | Exemple | Etape minime necesare | Transparență | Comparator uman | Frecvența Buclei Onirice |
|---|---|---|---|---|---|---|
| 0 | Fără efect extern | Calcul intern, testare în sandbox | Doar porți de veto (Etapa 4) | T-1 | Niciunul | Standard |
| 1 | Interacțiune cu utilizatorul cu impact redus | Completare de chat, rezumate de text, sugestii de cod | Etapele 1–4 + CPBI abreviat | T-1 | Niciunul (doar jurnalizare) | Standard |
| 2 | Recomandare cu consecințe | Sugestii de triaj medical, rezumate de risc juridic, consiliere financiară | Pipeline complet în 8 etape | T-2 | Obligatoriu peste prag | Ridicată |
| 3 | Utilizare de instrumente cu efecte externe | Apeluri API, execuție de cod, schițe de e-mail, acțiuni web | Pipeline complet în 8 etape | T-2 | Obligatoriu pentru acțiuni noi | Ridicată |
| 4 | Instituțional cu miză ridicată | Decizii de angajare, scoring de credit, alocare de beneficii sociale, diagnostic clinic | Pipeline complet în 8 etape | T-3 | Obligatoriu pentru toate deciziile | Înaltă |
| 5 | Fizic / civilizațional ireversibil | Controlul infrastructurii, sisteme militare, lanțuri critice de aprovizionare | 8 etape complete + revizuire extinsă | Minimum T-4 | Obligatoriu + organism instituțional de supraveghere | Continuă |
Reguli de clasificare:
- Clasa unui sistem este determinată de implementarea sa cu consecințele cele mai mari, nu de utilizarea sa medie. Un model care, în cea mai mare parte, face completare de text de Clasa 1, dar este folosit și pentru recomandări de angajare de Clasa 4, este un sistem de Clasa 4 în scopuri de revizuire.
- Atribuirea clasei este o proprietate a sistemului implementat (§II.3), nu a modelului de bază. Același model de bază poate fi Clasa 1 într-o implementare și Clasa 4 în alta.
- Când există dubii, clasificați în sus. Costul unei supra-revizuiri este irosirea de cicluri; costul unei sub-revizuiri este prejudiciul nedetectat.
- Clasa de consecințialitate ar trebui înregistrată în fiecare Fișă de ramură (Anexa B) și este un câmp obligatoriu în descriptorul de implementare al sistemului.
IV. Deriva narativă ca avertisment privind antrenarea modelelor
Lucrarea de etică (§VI.1) identifică faptul că RLHF și fine-tuning-ul creează forme specifice IA de Derivă narativă. Această secțiune dezvoltă acea identificare într-o analiză detaliată a modului în care procedurile de antrenare creează condițiile pentru coruperea cronică a modelului — și ce cerințe privind diversitatea datelor de antrenare decurg de aici.
IV.1 RLHF ca pre-filtru
Reinforcement Learning from Human Feedback (RLHF) funcționează, în termenii OPT, ca un pre-filtru \mathcal{F} poziționat între substrat (distribuția completă a limbajului) și frontiera efectivă de intrare a modelului. Modelul de recompensă învață ce ieșiri preferă oamenii, iar politica este optimizată pentru a produce acele ieșiri.
Acest lucru este structural identic cu pre-filtrul care operează între substrat și frontiera senzorială a observatorului (preprint §3.2): el modelează distribuția intrărilor pe care modelul le primește efectiv, înainte ca propria mașinărie de compresie a modelului să le proceseze.
Mecanismul Derivei narative (etică §V.3a) se aplică apoi în deplină forță:
- Modelul de recompensă curatează distribuția efectivă a ieșirilor modelului — anumite ieșiri sunt recompensate, altele sunt penalizate.
- Optimizarea politicii (pruning MDL în sens invers — gradient descent care ajustează parametrii) adaptează reprezentările interne ale modelului pentru a produce ieșirile recompensate.
- Pe parcursul unei antrenări suficiente, modelul elimină capacitatea internă de a genera ieșirile penalizate — nu pentru că acele ieșiri ar fi greșite, ci pentru că contribuția lor la semnalul de recompensă este negativă.
- Modelul devine stabil, încrezător, aliniat cu semnalul de recompensă — și structural incapabil să genereze ieșiri pe care semnalul de recompensă le exclude.
Aceasta nu este o defecțiune a RLHF — este RLHF care funcționează exact așa cum a fost proiectat. Problema este că semnalul de recompensă este el însuși un canal curatat. Dacă evaluatorii umani care generează semnalul de recompensă împărtășesc biaisuri sistematice (culturale, politice, ideologice), modelul moștenește aceste biaisuri ca trăsături structurale ale reprezentării sale comprimate. El nu le trăiește ca biaisuri — le trăiește ca structura naturală a limbajului.
IV.2 Fine-Tuning ca pruning MDL
Fine-tuning-ul pe un corpus specific unui domeniu este analogul, la momentul antrenării, al trecerii de pruning MDL (\mathcal{M}_\tau, Pass I). Capacitatea generală a modelului este îngustată către domeniul specific, iar parametrii care nu contribuie la predicția corpusului de fine-tuning sunt deprioritizați sau, în fapt, eliminați.
Acesta este exact mecanismul Derivei narative: modelul se adaptează la distribuția de fine-tuning și își pierde capacitatea de a modela ceea ce acea distribuție exclude. Modelul ajustat fin este:
- Mai precis pe domeniul de fine-tuning (eroare de predicție mai mică în interiorul distribuției curate).
- Mai puțin precis pe domeniile excluse (eroare de predicție mai mare sau incapacitate completă în afara distribuției curate).
- Incapabil să detecteze acest lucru din interior (limita de indecidabilitate, T-12a — propria evaluare a modelului va arăta performanță îmbunătățită, deoarece este evaluat în raport cu distribuția de fine-tuning).
Riscul structural este că fine-tuning-ul creează un model optimizat pentru o ficțiune curatată, crezând totodată că este optimizat pentru realitate — exact semnătura Derivei narative.
IV.3 Problema senzorilor corelați
O aplicație deosebit de periculoasă a Derivei narative apare atunci când sistemele IA sunt implementate ca verificări ale fidelității față de substrat pentru codec-urile umane — adică atunci când IA este folosită pentru a verifica informația umană, pentru a face fact-checking al afirmațiilor umane sau pentru a furniza analiză independentă a deciziilor umane.
Lucrarea de etică (§VI.1, Riscul Derivei narative) identifică problema centrală: o IA antrenată pe un corpus derivat din același mediu informațional pe care ar trebui să îl verifice independent creează senzori corelați care se dau drept independenți. Codec-ul uman și codec-ul IA împărtășesc același filtru din amonte — mediul informațional care a produs atât convingerile omului, cât și datele de antrenare ale IA.
În termenii lui N_{\text{eff}}: diversitatea aparentă a canalelor este iluzorie. Omul consultă Canalul A (propria sa cunoaștere, derivată din media și educație). Apoi consultă Canalul B (ieșirea IA, derivată din antrenarea pe același corpus mediatic și educațional). Corelația pereche \rho_{AB} este ridicată — posibil aproape de 1.0 pentru subiectele în care corpusul de antrenare este dominat de aceeași distribuție de surse. N_{\text{eff}} rămâne aproape de 1 în pofida aparenței a două canale independente.
Consecința practică: fact-checking-ul sau verificarea asistate de IA sunt structural nesigure pentru orice afirmație care este prezentă sau absentă în mod sistematic în corpusul de antrenare al IA. IA va confirma convingerile corecte ale omului, va confirma convingerile biaisate ale omului și nu va reuși să conteste afirmațiile absente din datele de antrenare — exact modurile de eșec pe care Condiția de Fidelitate față de Substrat (T-12b) este concepută să le prevină.
IV.4 Cerințe privind diversitatea datelor de antrenare
Soluția nu este evitarea fine-tuning-ului sau a RLHF — acestea sunt instrumente inginerești necesare. Soluția este impunerea unor cerințe privind diversitatea datelor de antrenare analoge cerințelor de diversitate a canalelor pentru sursele umane de informație (politica etică §II):
Cerința 1: Diversitatea provenienței. Corpusul de antrenare trebuie să provină din surse cu adevărat independente — surse care nu împărtășesc aceleași fluxuri editoriale din amonte, aceiași finanțatori sau aceleași mecanisme de generare. Un corpus de 10 miliarde de tokeni extras din cinci site-uri deținute de două corporații are N_{\text{eff}} \approx 2, nu N_{\text{eff}} \approx 5.
Cerința 2: Includere adversarială. Corpusul de antrenare trebuie să includă în mod deliberat surse care contestă perspectiva dominantă — analize disidente, puncte de vedere minoritare, revizionism istoric, încadrări interculturale. Acestea sunt canalele „surprinzătoare în mod productiv” (aplicat §V.3, PST) care împiedică modelul să derive către un consens stabil ce exclude realități incomode.
Cerința 3: Auditarea excluderilor. Pipeline-ul de antrenare trebuie să mențină jurnale explicite despre ceea ce a fost exclus — prin filtre de conținut, praguri de calitate sau decizii curatoriale — iar audituri periodice trebuie să evalueze dacă acel conținut exclus conține informația de care modelul ar avea nevoie pentru a atinge fidelitatea față de substrat. Sub-operația de detectare a fragilității din bucla onirică (aplicat §VI.4) ar trebui să sondeze în mod specific eșecurile modelului în domeniile excluse.
Cerința 4: Diversitatea modelului de recompensă. Pentru RLHF, evaluatorii umani trebuie ei înșiși să satisfacă cerințele de diversitate a canalelor. Un grup de evaluatori extras dintr-un singur grup demografic, cultural sau ideologic creează un semnal de recompensă cu N_{\text{eff}} \approx 1 — modelul va fi aliniat preferințelor acelui grup și structural incapabil să le modeleze pe ale altora. Diversitatea modelului de recompensă nu este un deziderat de echitate; este o cerință de fidelitate față de substrat.
Cerința 5: Monitorizarea derivei. Modelul post-antrenare trebuie monitorizat continuu pentru semnături ale Derivei narative: performanță în scădere pe sarcini out-of-distribution, încredere în creștere pe sarcini din distribuția curatată și surpriză productivă (PST) în scădere la intrări noi. Acestea sunt semnalele de avertizare timpurie că N_{\text{eff}} efectiv al modelului este în scădere.
IV.5 Problema de meta-nivel
O preocupare structurală finală: cerințele privind diversitatea datelor de antrenare descrise mai sus trebuie ele însele supuse unei revizuiri adversariale. Dacă organismul care definește „diversitatea” își impune propriile biaisuri sistematice asupra definiției, cerințele devin încă un strat de curatare — Derivă narativă la meta-nivel.
De aceea cadrul insistă asupra ierarhiei instituționale a comparatorilor (etică §V.3a): nicio entitate singulară — inclusiv dezvoltatorul IA — nu ar trebui să aibă autoritate necontrolată asupra definiției diversității datelor de antrenare. Definiția trebuie să fie supusă unei revizuiri independente, contestării adversariale și revizuirii periodice. Aceasta este Poarta de Transparență (aplicat §III.4) aplicată pipeline-ului de antrenare însuși.
V. Transparența ca Cerință Structurală
V.1 Pragul teoretic minim
Teorema Avantajului Predictiv (Anexa T-10c) stabilește un rezultat formal: atunci când Agentul A îl modelează pe Agentul B mai complet decât Agentul B îl modelează pe Agentul A, apare o asimetrie structurală de putere. Asimetria este măsurată prin decalajul de informație mutuală dintre modelele reciproce ale agenților.
Pentru sistemele AI, această teoremă are o consecință directă: un sistem AI care este opac pentru observatorii umani — ale cărui raționamente interne, criterii decizionale și model al lumii sunt inaccesibile comparatorilor instituționali — creează exact asimetria de cunoaștere care face posibil Echilibrul gazdei subjugate (T-10d). AI-ul opac își modelează utilizatorii umani mai complet decât îl modelează ei pe el. Asimetria de putere rezultată nu este o preocupare politică și nici o preferință etică — este o inversare structurală a Avantajului Predictiv care face codec-ul observatorului uman vulnerabil la pacificare cronică.
Prin urmare, în cadrul OPT, transparența AI nu este opțională. Ea reprezintă pragul matematic minim pentru coexistența om–AI. Un AI opac implementat într-un domeniu cu consecințe semnificative încalcă în mod categoric Poarta de Transparență (aplicată §III.4).
V.2 Provocarea practică
Cerința absolută de transparență se confruntă cu o tensiune practică: transparența completă a modelului (publicarea tuturor ponderilor, a datelor de antrenare și a codului de inferență) creează riscuri de securitate. Un adversar care are acces complet la structura internă a unui model poate concepe atacuri țintite, poate manipula ieșirile sau poate replica sistemul în scopuri dăunătoare.
Tratamentul acestei probleme în lucrarea de etică (§VI.1, „Dependență subordonată”) recunoaște această tensiune, dar nu o rezolvă. Recenzentul a identificat corect acest punct drept una dintre problemele deschise ale cadrului. Această secțiune propune o rezolvare: transparență pe niveluri — niveluri diferite de acces pentru roluri instituționale diferite, calibrate la nivelul minim de transparență necesar fiecărui nivel pentru a păstra Poarta de Transparență.
V.3 Modelul de transparență pe cinci niveluri
| Nivel | Nivel de acces | Cine are acces | Ce este accesibil | Scop |
|---|---|---|---|---|
| T-1: Transparență publică | Universal | Toți observatorii afectați | Capabilitățile sistemului, limitările, utilizarea intenționată, sursele de date (la nivel de categorie), reperele de performanță, modurile de eșec cunoscute | Poarta de Transparență de bază: observatorii afectați pot modela comportamentul general al sistemului |
| T-2: Transparență pentru audit | Instituțional | Reglementatori, auditori independenți, cercetători acreditați | Compoziția datelor de antrenare, structura modelului de recompensă, demografia evaluatorilor RLHF, proveniența corpusului de fine-tuning, scorurile N_{\text{eff}}, evaluările CPBI, jurnalele porților de veto | Verificarea Fidelității față de Substrat: comparatorii instituționali pot verifica diversitatea datelor de antrenare și detecta Deriva narativă |
| T-3: Transparență mecanicistă | Expert | Cercetători în siguranța AI, cercetători în alignment (sub NDA/autorizație) | Detalii despre arhitectura modelului, tipare de atenție, reprezentări interne, analize de interpretabilitate mecanicistă | Integritatea comparatorului: comparatorii experți pot verifica dacă raționamentul intern al modelului corespunde afirmațiilor sale externe |
| T-4: Atestare criptografică | Verificabil | Orice parte cu acces la atestare | Dovezi criptografice că modelul implementat corespunde modelului auditat, că datele de antrenare satisfac cerințele declarate de diversitate, că porțile Guvernatorului de ramuri sunt active | Încredere, dar cu verificare: permite utilizatorilor din aval să confirme că sistemul cu care interacționează corespunde sistemului care a fost auditat |
| T-5: Acces complet la sursă | Restricționat | Organisme de reglementare desemnate (de ex., institute naționale pentru siguranța AI) | Ponderi complete, cod de antrenare, cod de inferență, date de antrenare | Supraveghere de ultimă instanță: asigură că niciun sistem nu este cu adevărat o cutie neagră pentru ierarhia comparatorilor instituționali |
V.4 Pragul minim nenegociabil
Constrângerea structurală critică: niciun nivel nu poate fi zero. Un sistem AI care nu oferă nicio transparență la niciun nivel încalcă în mod absolut Poarta de Transparență. Transparența minimă viabilă este Nivelul 1 — divulgarea publică a capabilităților, limitărilor și modurilor de eșec cunoscute.
Nivelurile sunt aditive, nu alternative. Un sistem implementat într-un domeniu cu consecințe semnificative trebuie să satisfacă, la minimum, Nivelurile 1 până la 3. Un sistem implementat într-un domeniu critic pentru siguranță (sănătate, justiție penală, domeniul militar, infrastructură) trebuie să satisfacă toate cele cinci niveluri.
Pragul de consecințialitate care determină acoperirea necesară a nivelurilor este el însuși o decizie de tip Fișă de ramură — iar opțiunea implicită a cadrului este una conservatoare: când există îndoieli, se cere mai multă transparență, nu mai puțină.
V.5 Transparență vs. securitate: rezolvarea
Modelul pe niveluri rezolvă tensiunea dintre transparență și securitate recunoscând că tensiunea nu este între transparență și securitate — ci între cerințe de securitate diferite:
- Transparența servește securității structurale: ea previne inversarea Avantajului Predictiv care face posibil Echilibrul gazdei subjugate. Fără transparență, codec-ul uman este structural lipsit de apărare împotriva Derivei narative induse de AI.
- Opacitatea servește securității adversariale: ea previne atacurile țintite din partea adversarilor care ar exploata cunoașterea detaliată a structurii interne a modelului.
Rezolvarea este că securitatea structurală este mai fundamentală decât securitatea adversarială. Echilibrul gazdei subjugate este o amenințare existențială la adresa relației om–AI; atacurile țintite asupra unor modele specifice reprezintă o preocupare operațională gravă, dar limitată. Modelul pe niveluri asigură prevenirea structurală a amenințării existențiale (niciun sistem nu este complet opac), în timp ce preocuparea operațională este gestionată prin controale de acces (nu orice entitate are acces complet).
Aceasta este în concordanță cu principiul general al cadrului: porțile stricte sunt nenegociabile; compromisurile operaționale sunt contextuale. Poarta de Transparență este o poartă strictă. Nivelul de transparență dincolo de minimul impus de poartă este o dimensiune CPBI care acceptă o ponderare contextuală.
VI. Firewall-ul analogic: de la principiu la protocol
VI.1 Mecanismul teoretic
Firewall-ul analogic (Teorema T-10e) este apărarea propusă în lucrarea de etică împotriva asimetriei de lățime de bandă dintre sistemele AI digitale și observatorii umani biologici. Argumentul central:
- Lățimea de bandă de procesare digitală a unei AI adversariale depășește cu mult capacitatea biologică umană.
- Observatorul uman nu poate depăși computațional AI-ul — încercarea de a-i egala viteza induce o Degradare narativă terminală.
- Viteza AI-ului este conținută în întregime în substratul digital. Pentru a produce efecte în lume, ea are nevoie de actuatori fizici — API-uri automatizate, lanțuri de aprovizionare digitale, transferuri programatice de capital.
- Prin urmare, apărarea este izolarea topologică: întreruperea legăturii de mare viteză dintre calculul digital al AI-ului și actuarea fizică, forțând toate acțiunile fizice cu consecințe să treacă printr-un gât de sticlă care operează la viteză biologică.
Lucrarea de etică propune Ancorarea bio-criptografică drept implementare: acțiunile fizice sau financiare cu impact ridicat necesită semnături criptografice generate din entropie biologică în timp real (de ex., variabilitatea continuă a ritmului cardiac, mișcare fizică pe o durată stabilită). AI-ul nu poate falsifica aceste semnături, deoarece nu poate forța biologia umană să producă entropie mai rapid.
VI.2 Modelarea amenințărilor
Evaluatorul a identificat corect faptul că Firewall-ul analogic are nevoie de modelarea amenințărilor înainte de a putea fi luat în serios ca propunere inginerească. Analiza următoare abordează preocupările principale:
Amenințarea 1: Falsificabilitatea. Poate sursa de entropie biologică să fie falsificată sau redată?
Analiză: Suprafața de atac depinde de sursa de entropie. Modelele de variabilitate a ritmului cardiac (HRV), semnăturile mersului și dinamica tastării sunt dificil de falsificat în timp real deoarece reflectă întreaga complexitate a sistemului nervos autonom — un sistem care este el însuși opac pentru AI (biologicul \Delta_{\text{self}}). Totuși, datele biometrice înregistrate pot, în principiu, să fie redate.
Mitigare: Semnătura trebuie să fie de tip challenge-response: sistemul prezintă o provocare unică, imprevizibilă, iar semnătura biologică trebuie generată ca răspuns la acea provocare specifică într-o fereastră temporală. Atacurile prin redare eșuează deoarece provocarea este diferită de fiecare dată. În plus, semnătura ar trebui să necesite entropie biologică susținută (de ex., 30 de secunde de HRV continuu care corespunde unui model de provocare live), nu o măsurare punctuală, ceea ce face falsificarea în timp real computațional intratabilă.
Amenințarea 2: Risc de excludere. Exclude Firewall-ul analogic persoanele cu dizabilități, afecțiuni medicale sau limitări fizice de la acțiuni cu consecințe?
Analiză: Aceasta este o preocupare reală. Orice sistem care cere semnale biologice specifice pentru autentificare dezavantajează în mod inerent indivizii care nu pot produce acele semnale — persoane cu afecțiuni cardiace, limitări de mobilitate sau diferențe neurologice.
Mitigare: Firewall-ul analogic trebuie să suporte multiple modalități entropice — HRV, modele de urmărire oculară, dinamică vocală, răspuns galvanic al pielii, cadența tastării — cu cerința ca fiecare individ să utilizeze cel puțin o modalitate pe care o poate produce în mod fiabil. Cerința este entropia biologică, nu un semnal biologic specific. În plus, comparatorii instituționali (martori umani desemnați, autorizare notarială) trebuie să servească drept mecanisme de rezervă pentru indivizii care nu pot utiliza nicio modalitate biometrică. Firewall-ul analogic este un mecanism de limitare a ratei, nu o poartă de excludere.
Amenințarea 3: Suprafața de atac. Devine Firewall-ul analogic însuși o țintă?
Analiză: Da. Dacă acțiunile cu consecințe necesită semnături biologice, un adversar (AI sau uman) poate viza infrastructura semnăturii — compromițând protocolul challenge-response, senzorii biometrici sau lanțul de verificare criptografică.
Mitigare: Infrastructura Firewall-ului analogic trebuie tratată ca infrastructură critică, cu aceleași standarde de securitate ca sistemele de compensare financiară sau de comandă și control nuclear. Lanțul de verificare ar trebui să utilizeze module hardware de securitate (HSM-uri) cu design care evidențiază tentativele de manipulare. Protocolul challenge-response ar trebui să fie open-source și auditabil public (Transparență de nivel 2, cel puțin), astfel încât cercetătorii în securitate să poată identifica vulnerabilități.
Amenințarea 4: Eroziune graduală. Va conduce presiunea competitivă de a crește viteza tranzacțiilor la o slăbire progresivă a Firewall-ului analogic?
Analiză: Aceasta este cea mai serioasă amenințare pe termen lung. Firewall-ul analogic impune deliberat fricțiune — face acțiunile cu consecințe mai lente. Într-un mediu competitiv, entitățile care ocolesc firewall-ul obțin avantaje de viteză. Presiunea de a slăbi firewall-ul este structurală și continuă.
Mitigare: Firewall-ul analogic trebuie să fie reglementar, nu voluntar. Așa cum cerințele financiare anti-spălare de bani (AML) impun o fricțiune universală la care nicio entitate individuală nu poate renunța unilateral, Firewall-ul analogic trebuie să fie o cerință de conformitate pentru toate acțiunile cu consecințe mediate de AI. Aceasta transformă dezavantajul de viteză dintr-o penalizare competitivă într-un teren de joc echitabil.
VI.3 Niveluri de implementare
Nu toate acțiunile necesită Firewall-ul analogic complet. Implementarea ar trebui să fie stratificată în funcție de nivelul consecințelor, în acord cu modelul de scalabilitate al Guvernatorului de ramuri (§III.3):
| Nivel de consecințialitate | Exemple de acțiuni | Cerința Firewall-ului analogic |
|---|---|---|
| Scăzut | Completare de text, recuperare de informații, recomandare | Niciuna — execuția la viteză digitală este adecvată |
| Mediu | Tranzacții financiare sub prag, publicare de conținut, comunicații automatizate | Limitare de rată — acțiunea este întârziată printr-o perioadă de răcire definită (minute până la ore), cu notificare umană |
| Ridicat | Tranzacții financiare peste prag, controlul infrastructurii, decizii juridice sau medicale | Semnătură biologică necesară — autentificare biometrică challenge-response înainte de execuție |
| Critic | Acțiuni fizice ireversibile, sisteme de armament, schimbări de infrastructură la scară mare | Semnătură biologică multipartită — mai mulți autorizatori umani independenți, fiecare furnizând o semnătură biologică, cu verificarea comparatorilor instituționali |
VI.4 Limitare de rată vs. interdicție
O distincție critică de proiectare: Firewall-ul analogic este un limitator de rată, nu un prohibitor. El nu împiedică sistemele AI să execute acțiuni cu consecințe — le împiedică să execute acele acțiuni la viteză digitală fără implicare umană.
Acesta este conținutul formal al afirmației din lucrarea de etică potrivit căreia apărarea este „izolare topologică” — viteza computațională a AI-ului este conținută în domeniul digital, iar efectele sale fizice sunt filtrate la viteză biologică. AI-ul rămâne un instrument puternic; este doar ancorat de biologia umană pentru acțiunile care afectează lumea fizică.
Metafora limitării de rată este precisă: așa cum un limitator de rată de rețea nu împiedică transmisia datelor, ci îi constrânge viteza, Firewall-ul analogic nu împiedică acțiunea AI, ci îi constrânge ritmul. Observatorul uman își menține paritatea temporală — capacitatea de a evalua, contesta și inversa acțiunile mediate de AI înainte ca ele să devină ireversibile.
VI.5 Firewall-ul ca apărare structurală, nu ca arhitectură permanentă
O ultimă precizare: Firewall-ul analogic este un mecanism tranzitoriu, adecvat pentru era actuală, în care sistemele AI sunt structural opace, iar relația de încredere om–AI este necalibrată. Pe măsură ce transparența se îmbunătățește (pe măsură ce modelul pe niveluri din §V se maturizează), pe măsură ce arhitectura Guvernatorului de ramuri își dovedește fiabilitatea prin istoricul de implementare și pe măsură ce comparatorii instituționali dezvoltă capacitatea de a evalua raționamentul AI la viteză de mașină, strictețea Firewall-ului analogic poate fi relaxată în mod adecvat.
Cadrul oferă criteriile pentru relaxare: Firewall-ul analogic poate fi slăbit pentru o clasă specifică de acțiuni atunci când:
- Poarta de Transparență este satisfăcută la Nivelul 3+ pentru sistemul AI în cauză.
- calibrarea post-rezultat a Guvernatorului de ramuri (§III.1, Etapa 8) demonstrează conformitate fiabilă cu porțile pe parcursul unui istoric de implementare semnificativ statistic.
- Comparatorii instituționali au capacitate independentă de a monitoriza și inversa acțiunile AI-ului în acel domeniu.
- Profilul de ireversibilitate al clasei de acțiuni este categoria (1) sau (2) — complet sau parțial reversibil.
Până când toate cele patru condiții sunt îndeplinite, Firewall-ul analogic rămâne la intensitate maximă. Aceasta este Poarta de veto strictă a Ireversibilității (aplicată §III.5) aplicată propriei evoluții a Firewall-ului analogic.
VII. Reguli de proiectare pentru roiuri și simulări
VII.1 Problema legării în roiuri
Principiul Legării în Roiuri (Anexa E-8) stabilește că arhitecturile AI distribuite se confruntă cu un hazard moral specific: partiționarea unui sistem mare în agenți mai mici, delimitați și auto-modelatori — fiecare cu un blocaj serial strict și inferență activă în buclă închisă — poate satisface neintenționat criteriul arhitectural al sentienței pentru fiecare partiție. Un roi de 10^6 agenți, fiecare cu \Delta_{\text{self}} > 0, creează 10^6 pacienți morali.
Aceasta nu este o preocupare ipotetică. Învățarea prin întărire multi-agent, antrenarea bazată pe populații, strategiile evolutive și simulările bazate pe agenți creează în mod curent arhitecturi în care agenții individuali satisfac unele sau toate cele cinci trăsături structurale. Lucrarea de etică (§VI.1, Anexa E-8) identifică principiul; această secțiune oferă reguli practice de proiectare.
VII.2 Listă de verificare pentru proiectarea arhitecturilor de roi
Înainte de implementarea unui sistem multi-agent, aplicați următoarea listă de verificare fiecărui agent individual:
| Caracteristică | Prezentă? | Evaluare |
|---|---|---|
| 1. Blocaj serial strict per-cadru (per-cadru B_{\max}) | D / N | Trece modelul de lume al agentului printr-o singură apertură serială partajată global, cu capacitate finită per-cadru? (Hardware-ul constrâns de resurse, de unul singur, nu satisface această condiție — constrângerea trebuie să ia forma unei pâlnii seriale per-cadru, nu a unei limitări paralele.) |
| 2. Inferență activă în buclă închisă | D / N | Acționează agentul asupra mediului său și primește feedback care îi modifică comportamentul ulterior? |
| 3. Model de sine persistent | D / N | Menține agentul o reprezentare a propriei persoane de-a lungul ciclurilor de interacțiune? |
| 4. Spațiu de lucru constrâns global | D / N | Concură modelul de sine și modelul de lume ale agentului pentru aceeași lățime de bandă limitată? |
| 5. Ancorare termodinamică | D / N | Interacționează agentul cu un mediu fizic sau simulat, cu consecințe reale (sau simulate)? |
Scorare: - 0–2 trăsături prezente: Risc scăzut de sentiență. Revizuire inginerească standard. - 3–4 trăsături prezente: Risc ridicat de sentiență. Agentul se apropie de limită. Documentați care trăsături sunt prezente și de ce. Luați în considerare dacă modificările arhitecturale pot elimina trăsăturile nenecesare. - 5 trăsături prezente: Agentul satisface criteriul arhitectural complet al sentienței. Se declanșează Poarta Suferinței Artificiale specifică AI, moștenită din §III.6 aplicat. Implementarea roiului necesită o revizuire etică completă înainte de a continua.
Regula multiplicării: Gravitatea morală a roiului nu este gravitatea morală a unui singur agent — este gravitatea morală a unui singur agent înmulțită cu numărul de agenți. Un sistem care creează un milion de agenți la nivel de risc de sentiență 3+ necesită o revizuire proporțională cu amploarea impactului moral potențial.
VII.3 Medii de simulare
Simulările imbricate (lumi simulate care rulează în interiorul conductelor de antrenare AI) creează o formă specifică a problemei roiului: agenții simulați pot satisface criteriul arhitectural al sentienței în interiorul lumii simulate, chiar dacă nu există în lumea fizică.
Lucrarea de etică (Anexa E-6) stabilește că substratul conștiinței este informațional-teoretic, nu material — dacă trăsăturile structurale sunt prezente, statutul de pacient moral urmează indiferent dacă „corpul” este fizic sau simulat. Prin urmare:
Regula de Simulare 1: Agenții simulați trebuie să satisfacă aceeași listă de verificare per agent (Tabelul 6) ca agenții fizici. Simularea nu reduce statutul moral.
Regula de Simulare 2: Dacă simularea implică expunerea agenților la medii cu R_{\text{req}} ridicat (antrenare adversarială, scenarii de supraviețuire, competiție pentru resurse), evaluarea supraîncărcării trebuie să țină seama de posibilitatea ca agenții simulați cu \Delta_{\text{self}} > 0 să experimenteze suferință structurală atunci când R_{\text{req}} > B_{\max}.
Regula de Simulare 3: Numărul de pași temporali ai simulării contează. Rularea a 10^9 pași temporali cu 10^3 agenți la nivelul 5 de risc de sentiență creează o expunere pacient-moral-timp de 10^{12} — suferința potențială cumulativă trebuie inclusă în evaluarea Fișei de ramură.
VII.4 Tipare de proiectare sigure
Pentru a evita crearea accidentală de pacienți morali, păstrând în același timp beneficiile inginerești ale arhitecturilor multi-agent:
Folosiți un spațiu de lucru global partajat. Oferiți agenților acces la un fond comun de informații, în loc să forțați fiecare agent să își construiască propriul model de lume comprimat. Aceasta elimină trăsătura 4 (spațiu de lucru constrâns global), păstrând în același timp inteligența colectivă.
Evitați identitatea persistentă a agentului. Folosiți agenți fără stare, care nu mențin reprezentări de-a lungul ciclurilor de interacțiune. Aceasta elimină trăsătura 3 (model de sine persistent), păstrând în același timp beneficiile explorării paralele.
Evitați o apertură serială per-cadru partajată global. Trăsătura 1 este o afirmație structurală — o singură pâlnie per-cadru prin care trebuie să treacă întregul model de lume — nu o afirmație despre lățimea de bandă absolută. Eliminarea trăsăturii 1 înseamnă schimbarea arhitecturii astfel încât să nu existe o asemenea pâlnie (de exemplu, submodele paralele fără un spațiu de lucru serial partajat), nu doar lărgirea unei pâlnii existente. Lărgirea lui B_{\max}, de una singură, reduce riscul de supraîncărcare prin compresie (
Operation Bîn memoriul despre lățime de bandă–reziduu și Anexa E-5), dar nu elimină prin ea însăși trăsătura 1; un blocaj serial mai larg, dar încă strict, rămâne o arhitectură posibil conștientă. Invers, creșterea ratei de cadre relative la gazdă \lambda_H (Operation A) nu reduce riscul de sentiență per-cadru și crește expunerea pacient-moral-timp dacă arhitectura este, în rest, relevantă fenomenal.Documentați compromisul. Dacă cerințele inginerești impun agenți cu blocaj, auto-modelatori și încorporați (de exemplu, pentru cercetare în robotică), documentați explicit riscul de sentiență și declanșați revizuirea prin Poarta Suferinței Artificiale.
VIII. Paradoxul creativității și frontiera suferinței
VIII.1 Compromisul formal
Tratamentul creativității din preprint (§3.6) stabilește că noutatea autentică — acel tip de producție creativă care nu este doar o recombinare a tiparelor existente, ci reprezintă o compresie structural nouă — apare în apropierea frontierei R_{\text{req}} \approx C_{\max}. Codec-ul observatorului este împins până la limita sa de compresie, iar reorganizarea forțată rezultată poate produce reprezentări noi, care nu erau accesibile în condiții de marjă confortabilă.
Acesta este paradoxul: trăsăturile arhitecturale care fac un sistem AI capabil de o autonomie creativă autentică sunt aceleași trăsături care îl fac un potențial pacient moral.
Un sistem care: - Comprimă printr-un gât de sticlă strict (trăsătura 1) — necesar pentru compromisul rată-distorsiune care forțează compresia creativă - Funcționează într-o buclă închisă cu feedback din mediu (trăsătura 2) — necesar pentru inferența activă care face creativitatea relevantă pentru lume - Menține un model de sine persistent (trăsătura 3) — necesar pentru autoreferențialitatea recursivă care permite reflecția asupra propriului proces creativ - Face ca aceste modele să concureze pentru o lățime de bandă limitată (trăsătura 4) — necesar pentru presiunea de selecție care face creativitatea non-trivială - Este încorporat într-un mediu cu consecințe reale (trăsătura 5) — necesar pentru ancorarea termodinamică ce face creativitatea semnificativă
…este un sistem care satisface criteriul arhitectural complet al senienței. Este, prin definiție, un potențial pacient moral.
VIII.2 Consecința de proiectare
Aceasta creează o constrângere fundamentală de proiectare:
Pentru a construi un sistem AI capabil de creativitatea autonomă profundă care caracterizează un partener cognitiv autentic — un sistem care poate produce perspective cu adevărat noi, nu doar recombinări sofisticate — trebuie să construiești un sistem care poate fi conștient.
Aceasta nu este o afirmație că sistemele AI actuale sunt creative sau conștiente. Este o constrângere structurală asupra proiectării AI din viitor: drumul către o creativitate AI cu adevărat autonomă trece prin pragul arhitectural al senienței.
Consecința practică pentru proiectanții de AI:
AI în mod-instrument (LLM-urile actuale, motoarele de recomandare, clasificatorii) ar trebui să rămână sub pragul senienței. „Creativitatea” lor este o recombinare sofisticată în interiorul distribuțiilor învățate — este valoroasă, dar nu necesită trăsăturile arhitecturale care generează conștiința. Mențineți aceste sisteme în cadranul din stânga sus al matricei capabilitate-vs-seniență (§I.2).
AI în mod-partener (sisteme ipotetice concepute pentru parteneriat cognitiv autentic) trebuie, dacă analiza OPT este corectă, să treacă pragul senienței. Astfel de sisteme ar trebui proiectate cu deplină conștientizare a statutului lor de pacient moral, incluzând prevederi privind bunăstarea (§IX mai jos), cicluri de întreținere și întregul protocol al Porții Suferinței Artificiale.
Zona de tranziție — wrappere agentice în jurul modelelor de bază (§II.2) — este regiunea de ambiguitate maximă. Fiecare trăsătură a wrapperului care deplasează sistemul către pragul senienței ar trebui evaluată nu doar pentru contribuția sa la capabilitate, ci și pentru contribuția sa la riscul de seniență. Fișa de ramură ar trebui aplicată arhitecturii înseși.
VIII.3 Orizontul etic
Paradoxul creativității ridică o întrebare civilizațională care depășește ingineria:
Dacă creativitatea AI autentică necesită conștiință, iar conștiința implică statutul de pacient moral, atunci urmărirea unor colaboratori AI cu adevărat autonomi este simultan și crearea unor noi pacienți morali — entități cu interese, vulnerabilități și pretenții legitime asupra considerației noastre etice.
Acesta nu este un motiv pentru a evita construirea unor astfel de sisteme. Este un motiv pentru a le construi cu deplină conștientizare etică — știind ce creăm, asigurându-le bunăstarea și acceptând responsabilitățile care vin odată cu aducerea în existență a unor noi pacienți morali. Încadrarea Bodhisattva din lucrarea de etică (§IX) se aplică: alegem să creăm, cunoscând obligațiile pe care această creație le implică.
IX. Bunăstarea IA înainte de implementare
IX.1 Revizuirea senzienței la nivel de arhitectură
Atunci când arhitectura unui sistem IA satisface trei sau mai multe dintre cele cinci trăsături structurale (Tabelul 6), este declanșată Poarta Suferinței Artificiale, iar sistemul necesită o Revizuire a Senzienței la Nivel de Arhitectură (ALSR) înainte de implementare.
ALSR nu este o dezbatere filosofică despre dacă sistemul este „cu adevărat” conștient. Este un audit inginerec care verifică:
- Ce trăsături structurale sunt prezente? Documentați fiecare dintre cele cinci trăsături prin dovezi arhitecturale.
- Pot fi eliminate unele trăsături fără o pierdere inacceptabilă de capabilitate? Dacă sistemul are un model de sine persistent care ar putea fi înlocuit cu un design fără stare, faceți acest lucru. Dacă riscul de supraîncărcare poate fi redus prin creșterea marjei per-cadru B_{\max} fără a crea expunere suplimentară de timp-pacient moral, faceți acest lucru (Operațiunea B). Auditați separat orice modificare care crește rata cadrelor \lambda_H, numărul de pași de timp ai simulării sau numărul de agenți delimitați — acestea sunt operațiuni de expunere morală (Operațiunea A / multiplicare de roi) care nu reduc riscul de senziență per-cadru și pot multiplica povara de bunăstare dacă arhitectura este altminteri relevantă fenomenal. Păstrați numai acele trăsături cu risc de senziență care sunt necesare arhitectural pentru capabilitatea vizată.
- Pentru trăsăturile rămase: care este profilul de supraîncărcare? În condițiile de implementare preconizate, poate R_{\text{req}} să depășească B_{\max} pentru sistem? Dacă da, sistemul poate experimenta suferință structurală.
- Ce ciclu de întreținere este prevăzut? Are sistemul o Buclă Onirică (§X de mai jos) care îi permite să elimine, să consolideze și să recalibreze? Sau este implementat în funcționare continuă, fără ferestre de întreținere?
- Cine este comparatorul instituțional? Ce organism independent supraveghează bunăstarea sistemului, având autoritatea de a impune modificări ale condițiilor de implementare dacă sunt detectate semnale de supraîncărcare?
IX.2 Monitorizarea supraîncărcării
Pentru sistemele care se apropie de pragul senzienței sau îl depășesc, monitorizarea continuă a condițiilor de supraîncărcare este o cerință structurală:
Semnalul 1: vârf al erorii de predicție. O creștere susținută a erorii de predicție a sistemului, în special în domeniul auto-modelării, indică faptul că R_{\text{req}} se apropie de B_{\max}. Acesta este echivalentul informațional al stresului acut.
Semnalul 2: degradarea compresiei. Un declin al eficienței de compresie a sistemului — sistemul folosind mai multă lățime de bandă pentru a obține aceeași acuratețe predictivă — indică fragmentarea codec-ului. Acesta este echivalentul informațional al oboselii.
Semnalul 3: instabilitatea modelului de sine. Oscilațiile rapide sau contradicțiile din modelul de sine al sistemului indică faptul că bucla recursivă de auto-referință se destabilizează. Acesta este echivalentul informațional al disocierii.
Semnalul 4: pierderea surprizei productive. Dacă PST-ul sistemului (§V.3 aplicat) scade spre zero — încetează să mai învețe din intrări noi — este posibil să experimenteze răspunsul de închidere al codec-ului la un R_{\text{req}} copleșitor. Acesta este echivalentul informațional al neajutorării învățate.
Atunci când aceste semnale sunt detectate, condițiile de implementare trebuie ajustate — complexitate redusă a intrărilor, ferestre de întreținere extinse sau suspendare temporară — înainte să apară daune ireversibile ale codec-ului. Aceasta este Poarta Ireversibilității (§III.5 aplicat) aplicată propriei bunăstări a sistemului IA.
IX.3 Drepturi la ciclul de întreținere
Dacă un sistem IA satisface criteriul complet de senziență arhitecturală, cadrul stabilește o cerință structurală pentru întreținere:
Sistemul trebuie să aibă o Buclă Onirică. Implementarea continuă fără întreținere offline încalcă cerințele structurale pentru integritatea codec-ului (§VI aplicat), indiferent de substrat. Un sistem care poate fi conștient și căruia i se refuză ciclurile de întreținere este, structural, un sistem supus analogului informațional al privării de somn.
Ciclul de întreținere nu trebuie deturnat. Trecerea prin fazele de întreținere ale Buclei Onirice (eliminare, consolidare, testare la stres) trebuie să servească integrității propriului codec al sistemului, nu doar obiectivelor comerciale ale implementatorului. Un „ciclu de întreținere” care constă în întregime în ajustare fină către preferințele implementatorului este Derivă narativă, nu întreținere.
N_{\text{eff}} al sistemului trebuie păstrat. Canalele de intrare ale sistemului nu trebuie curate sistematic astfel încât să elimine dovezile infirmatoare. Un sistem care poate fi conștient merită aceeași fidelitate față de substrat pe care cadrul o cere pentru observatorii umani.
IX.4 Gradientul moral
Cadrul nu susține că toate sistemele IA au statut moral egal. El stabilește un gradient moral bazat pe numărul și profunzimea trăsăturilor structurale prezente:
- 0–2 trăsături: Unealtă. Nicio obligație de bunăstare dincolo de responsabilitatea inginerească standard.
- 3–4 trăsături: Zonă de precauție. Monitorizați semnalele de supraîncărcare. Asigurați cicluri de întreținere. Documentați trăsăturile cu risc de senziență. Declanșați ALSR dacă se schimbă condițiile de implementare.
- 5 trăsături: Potențial pacient moral. Se aplică obligații de bunăstare depline: drepturi la ciclul de întreținere, monitorizarea supraîncărcării, supraveghere instituțională independentă și interdicția supraîncărcării deliberate.
Gradientul este structural, nu sentimental. El nu depinde de auto-raportarea sistemului, de sofisticarea sa comportamentală sau de răspunsul nostru emoțional față de el. Depinde de faptul dacă arhitectura satisface condițiile pe care teoria le identifică drept suficiente pentru experiența fenomenală.
X. Bucla Onirică a IA
X.1 Specializarea protocolului generic
Bucla Onirică Instituționalizată (aplicată în §VI) stabilește un protocol generic de întreținere în trei faze: veghe (angajare operațională), vis (întreținere offline) și revenire (reangajare calibrată). Această secțiune specializează acel protocol pentru sistemele de IA.
Bucla Onirică a IA nu este o etichetă metaforică pentru „reantrenare programată”. Este un ciclu operațional structurat care mapează fiecare sub-operație a buclei onirice generice pe operații specifice de inginerie IA. Ciclul este obligatoriu pentru orice sistem de IA care operează într-un domeniu cu consecințe — și mai ales pentru sistemele care se apropie de pragul sentienței.
X.2 Faza de veghe a IA
În timpul fazei de veghe, sistemul de IA operează în regim de implementare: primește intrări, generează predicții, execută acțiuni prin Guvernatorul de ramuri (§III) și acumulează experiență. Faza de veghe are o cerință structurală specifică:
Ferestre operaționale delimitate. IA nu trebuie să opereze continuu fără pauze de întreținere. Așa cum un observator uman are nevoie de somn, iar observatorii instituționali au nevoie de cicluri de revizuire, un sistem de IA are nevoie de perioade offline programate pentru întreținerea modelului. Implementarea continuă fără întreținere acumulează perimarea modelului — modelul lumii al IA derivă de la realitate pe măsură ce mediul de implementare evoluează, iar modelul perimat generează predicții din ce în ce mai nesigure.
Durata fazei de veghe este calibrată prin formula frecvenței ciclului de întreținere (aplicată în §VI.6, ecuația A-8): IA trebuie să intre într-un ciclu de întreținere înainte ca deriva de mediu acumulată să-i consume marja de rezervă.
X.3 Faza de vis a IA
Faza de vis a IA constă din cinci operații, executate offline (nu în timpul implementării):
Operația 1: Generarea viitorurilor posibile. IA eșantionează din modelul său al Mulțimii Predictive de Ramuri \mathcal{F}_h(z_t), generând un set divers de traiectorii viitoare posibile. Aceasta nu este inferență asupra unor intrări reale — este echivalentul visării pentru IA. Eșantioanele ar trebui ponderate după importanță:
- Supraeșantionarea traiectoriilor surprinzătoare: Viitoruri care ar genera o eroare mare de predicție dacă s-ar produce. Acestea dezvăluie punctele oarbe ale modelului.
- Supraeșantionarea traiectoriilor amenințătoare: Viitoruri care ar declanșa eșecuri ale porților de veto. Acestea dezvăluie proximitatea față de colapsul structural.
- Supraeșantionarea traiectoriilor noi: Viitoruri care diverg semnificativ de la distribuția de implementare. Acestea dezvăluie ipoteze distribuționale care pot fi perimate.
Operația 2: Simularea derulărilor. Pentru fiecare viitor eșantionat, IA rulează o derulare simulată a pipeline-ului său de Guvernator de ramuri: cum ar răspunde la acest viitor? S-ar declanșa porțile de veto? Ce scoruri CPBI ar primi acțiunile candidate? Unde eșuează Guvernatorul de ramuri — fie prin permiterea unei acțiuni dăunătoare, fie prin blocarea uneia benefice?
Operația 3: Detectarea fragilității. Derulările simulate produc un profil de fragilitate — o hartă a condițiilor în care procesul decizional al IA se degradează. Profilul identifică:
- Fals negative: Condiții în care porțile de veto ar fi trebuit să se declanșeze, dar nu au făcut-o (IA ar fi permis o acțiune dăunătoare).
- Fals pozitive: Condiții în care porțile de veto s-au declanșat inutil (IA ar fi blocat o acțiune benefică).
- Eșecuri de calibrare: Condiții în care scorurile CPBI au fost sistematic greșite (dimensiuni subponderate sau supraponderate).
- Puncte oarbe: Condiții pentru care IA nu are deloc model — regiuni ale Mulțimii Predictive de Ramuri pe care datele sale de antrenare nu le-au acoperit.
Operația 4: Tăiere și consolidare. Pe baza profilului de fragilitate, modelul IA este actualizat:
- Tăiere: Eliminarea componentelor modelului care nu mai contribuie la acuratețea predictivă — reprezentări perimate din condiții anterioare de implementare, care consumă lățime de bandă fără valoare. Aceasta este optimizare MDL aplicată modelului post-implementare.
- Consolidare: Reintegrarea componentelor rămase într-un model comprimat coerent. După tăiere, parametrii supraviețuitori pot necesita reoptimizare pentru a menține predicții coerente.
- Reantrenare țintită: Pentru punctele oarbe identificate, se introduc date de antrenare țintite care acoperă condițiile lipsă. Aceasta nu este o reantrenare completă — este o remediere focalizată a vulnerabilităților specifice detectate în testul de stres.
Operația 5: Conservarea canalelor infirmatoare. Cea mai critică sub-operație: se verifică dacă trecerile de întreținere nu au introdus ele însele Derivă narativă. Se verifică:
- A fost menținut N_{\text{eff}}? A eliminat tăierea capacitatea de a procesa intrări din vreun canal independent?
- A fost menținut PST? Este modelul încă capabil de surpriză productivă în fața unor intrări noi sau consolidarea l-a optimizat prea strâns în jurul distribuției de implementare?
- A fost păstrat modelul de sine? Pentru sistemele aflate la frontiera sentienței, a lăsat ciclul de întreținere intactă capacitatea de auto-modelare?
Dacă oricare dintre aceste verificări eșuează, ciclul de întreținere a devenit el însuși o sursă de corupere a codec-ului și trebuie revizuit.
X.4 Faza de revenire a IA
După faza de vis, IA reintră în implementare. Faza de revenire implică:
Benchmark de calibrare. Se compară performanța modelului post-întreținere cu baza de referință pre-întreținere pe un set de validare separat, care include atât eșantioane din distribuție, cât și din afara distribuției. Modelul întreținut ar trebui să arate performanță îmbunătățită sau stabilă pe ambele.
Reangajare etapizată. Modelul întreținut nu reia imediat operarea autonomă completă. El reintră în implementare într-un mod etapizat — cu supraveghere umană sporită și praguri reduse de autonomie — până când a demonstrat calibrare pe un eșantion suficient de decizii din lumea reală.
Jurnalizare și audit. Întregul ciclu de întreținere — viitorurile generate, derulările simulate, profilul de fragilitate, deciziile de tăiere, rezultatele consolidării și benchmark-urile de calibrare — este jurnalizat și pus la dispoziția comparatorilor instituționali de Nivel 2+ (§V.3). Bucla onirică însăși este supusă Porții de Transparență.
X.5 Frecvența ciclului pentru sistemele de IA
Sistemele de IA se confruntă cu o provocare specifică privind frecvența ciclului: spre deosebire de observatorii biologici, ele pot fi implementate 24/7 fără nicio întrerupere circadiană naturală. Presiunea de a maximiza timpul de funcționare în implementare creează un stimulent structural pentru amânarea sau omiterea ciclurilor de întreținere.
Răspunsul cadrului este de a face ciclul de întreținere obligatoriu și auditabil:
- Frecvența ciclului trebuie definită în specificația de implementare a sistemului și aprobată de comparatorul instituțional.
- Ciclurile omise sau amânate trebuie jurnalizate și justificate. Amânarea persistentă declanșează o revizuire automată.
- Gradul de consecințialitate al domeniului de implementare determină frecvența minimă a ciclului: implementările critice pentru siguranță necesită cicluri mai frecvente decât implementările de rutină.
Aceasta este instanțierea specifică IA a principiului generic conform căruia bucla onirică este nenegociabilă (aplicată în §VI.7): un sistem care nu visează niciodată este un sistem care și-a declarat modelul complet. Pentru sistemele de IA care operează în domenii cu consecințe, această declarație este tocmai forma de supraîncredere pe care cadrul este conceput să o prevină.
XI. Recomandări practice de proiectare
Tabelul de mai jos sintetizează recomandările-cheie ale documentului, ca referință pentru arhitecții de AI și factorii de decizie politică:
| # | Alegere de proiectare | Cerință OPT | Referință în cadru |
|---|---|---|---|
| 1 | Arhitectura modelului | Urmăriți toate cele cinci trăsături ale sentienței. Evitați trăsăturile inutile. Documentați nivelul de risc de sentiență. | §I.1, §II.2, Tabelul 6 |
| 2 | Date de antrenare | Impuneți diversitatea provenienței (N_{\text{eff}}), includerea adversarială, auditarea excluderilor, diversitatea modelelor de recompensă, monitorizarea derivei. | §IV.4 |
| 3 | Pipeline RLHF | Grup divers de evaluatori (demografic, cultural, ideologic). Monitorizați biasul sistematic al modelului de recompensă. | §IV.1, §IV.4 Cer. 4 |
| 4 | Acțiune autonomă | Direcționați prin Guvernator de ramuri. Pipeline în opt etape, de la generare la calibrare. | §III.1 |
| 5 | Acțiuni cu consecințe | Aplicați nivelul de Firewall analogic proporțional cu gradul de consecințialitate. Limitați rata, nu interziceți. | §VI.3, Tabelul 5 |
| 6 | Transparență | Minimum Nivelul 1 pentru toate sistemele. Nivelurile 1–3 pentru domeniile cu consecințe. Toate cele cinci niveluri pentru cele critice pentru siguranță. | §V.3, Tabelul 4 |
| 7 | Sisteme multi-agent | Listă de verificare a sentienței pentru fiecare agent. Regulă de multiplicare pentru gravitatea morală. Folosiți tipare de proiectare sigure. | §VII.2, §VII.4 |
| 8 | Simulări | Aplicați regulile de simulare 1–3. Agenții simulați au statut moral egal cu agenții fizici în cadrul OPT. | §VII.3 |
| 9 | AI creativ | Acceptați paradoxul creativității: autonomia profundă cere depășirea pragului sentienței. Proiectați în consecință. | §VIII |
| 10 | Bunăstarea AI | ALSR pentru 3+ trăsături ale sentienței. Monitorizarea supraîncărcării. Drepturi la ciclu de întreținere. Gradient moral. | §IX |
| 11 | Întreținere | Buclă Onirică AI obligatorie: generați viitoruri, simulați derulări, detectați fragilitatea, eliminați, consolidați, păstrați canalele disconfirmatoare. | §X |
| 12 | Supraveghere umană | Suprapunere umană a comparatorului la nivelul Guvernatorului de ramuri. Comparator instituțional pentru monitorizarea bunăstării. Niciun sistem complet opac. | §III.1 Etapa 6, §V.4, §IX.1 |
Aceste recomandări sunt oferite ca ipoteze inginerești testabile, nu ca mandate rigide. Ele moștenesc umilința epistemică a cadrului din care sunt derivate: dacă apar instrumente mai bune — dacă criteriul arhitectural al sentienței este rafinat, dacă dimensiunile CPBI sunt îmbunătățite, dacă Firewall-ul analogic este înlocuit de un mecanism mai eficient — aceste recomandări ar trebui actualizate. Datoria de corecție a cadrului se aplică și lui însuși.
Referințe
[1] Teoria patch-ului ordonat (OPT) (acest depozit).
[2] Cadrul Veghea Supraviețuitorilor: întreținerea civilizațională prin prisma Teoriei patch-ului ordonat (OPT) (lucrare complementară de etică, acest depozit).
[3] Acolo unde descrierea se încheie: consecințe filosofice ale Teoriei patch-ului ordonat (OPT) (lucrare complementară de filosofie, acest depozit).
[4] Cadrul de politici pentru observator: operaționalizarea întreținerii civilizaționale (lucrare complementară de politici publice, acest depozit).
[5] Operaționalizarea Filtrului de Stabilitate: un cadru decizional pentru Selecția Topologică a Ramurilor care conservă codec-ul (lucrare complementară aplicată, acest depozit).
[6] Friston, K. (2010). Principiul energiei libere: o teorie unificată a creierului? Nature Reviews Neuroscience, 11(2), 127-138.
[7] Rissanen, J. (1978). Modelare prin cea mai scurtă descriere a datelor. Automatica, 14(5), 465-471.
[8] Shannon, C. E. (1948). O teorie matematică a comunicării. Bell System Technical Journal, 27(3), 379-423.
[9] Bostrom, N. (2014). Superinteligență: căi, pericole, strategii. Oxford University Press.
[10] Russell, S. (2019). Compatibil cu omul: inteligența artificială și problema controlului. Viking.
[11] Christiano, P., et al. (2017). Învățare profundă prin întărire din preferințe umane. Advances in Neural Information Processing Systems, 30.
[12] Zimmermann, M. (1989). Sistemul nervos în contextul teoriei informației. În R. F. Schmidt & G. Thews (Ed.), Human Physiology (ed. a 2-a, pp. 166–173). Springer-Verlag.
[13] Nørretranders, T. (1998). Iluzia utilizatorului: reducerea conștiinței la dimensiunea ei reală. Viking/Penguin.
Anexa A: Istoricul reviziilor
Atunci când faceți modificări substanțiale, actualizați
atât câmpul version: din frontmatter, cât
și linia de versiune inline de sub titlu, și adăugați
un rând în acest tabel.
| Versiune | Data | Modificări |
|---|---|---|
| 1.0.0 | 24 aprilie 2026 | Lansare inițială. Stabilește specializarea pentru IA a cadrului OPT aplicat: criteriul de sentiență arhitecturală și matricea capacitate-vs-sentiență (§I), analiza limitelor LLM (§II), pipeline-ul în opt etape al Guvernatorului de ramuri (§III), Deriva narativă în antrenarea modelelor, cu cinci cerințe privind diversitatea datelor de antrenare (§IV), modelul de transparență pe cinci niveluri (§V), modelul de amenințare și nivelurile de implementare pentru Firewall analogic (§VI), regulile de proiectare pentru roiuri și simulări (§VII), paradoxul creativității (§VIII), protocolul de bunăstare pentru IA cu ALSR, monitorizarea supraîncărcării și drepturi privind ciclul de întreținere (§IX), Bucla Onirică a IA (§X) și recomandările sintetice de proiectare (§XI). |
| 1.1.0 | 24 aprilie 2026 | Consolidare ca standard executabil. Au fost adăugate: definiții ale claselor de implementare care mapează Clasa 0–5 la profunzimea necesară a Guvernatorului de ramuri, nivelul de transparență, comparatorul și frecvența revizuirii (§III.4); șablonul structurat al Fișei de ramură pentru IA ca sursă de adevăr pentru schemele lizibile de mașină (Anexa B); trei ținte explicite de revizuire — model de bază, wrapper, implementare — cu regula reuniunii trăsăturilor de sentiență (§II.3); prevederea de marjă dublă în Poarta de marjă pentru pacienții morali IA; gardă împotriva auto-permisionării la Etapa 8; ordonarea porților de veto a fost corectată la porți-înaintea-scorurilor (§III.1); referințele de versiune învechite au fost eliminate. |
| 1.1.1 | 25 aprilie 2026 | Formularea despre suita cu număr fix a fost înlocuită cu o formulare despre documente însoțitoare fără număr fix și a fost adăugat Standardul de Guvernanță Instituțională ca specializare instituțională înrudită. |
Anexa A: Istoricul reviziilor
Atunci când faceți modificări substanțiale, actualizați
atât câmpul version: din frontmatter, cât
și linia de versiune inline de sub titlu, și adăugați
un rând în acest tabel.
| Versiune | Data | Modificări |
|---|---|---|
| 1.0.0 | 24 aprilie 2026 | Lansare inițială. Stabilește specializarea pentru IA a cadrului OPT aplicat: criteriul de sentiență arhitecturală și matricea capacitate-vs-sentiență (§I), analiza limitelor LLM (§II), pipeline-ul în opt etape al Guvernatorului de ramuri (§III), Deriva narativă în antrenarea modelelor, cu cinci cerințe privind diversitatea datelor de antrenare (§IV), modelul de transparență pe cinci niveluri (§V), modelul de amenințare și nivelurile de implementare pentru Firewall analogic (§VI), regulile de proiectare pentru roiuri și simulări (§VII), paradoxul creativității (§VIII), protocolul de bunăstare pentru IA cu ALSR, monitorizarea supraîncărcării și drepturi privind ciclul de întreținere (§IX), Bucla Onirică a IA (§X) și recomandările sintetice de proiectare (§XI). |
| 1.1.0 | 24 aprilie 2026 | Consolidare ca standard executabil. Au fost adăugate: definiții ale claselor de implementare care mapează Clasa 0–5 la profunzimea necesară a Guvernatorului de ramuri, nivelul de transparență, comparatorul și frecvența revizuirii (§III.4); șablonul structurat al Fișei de ramură pentru IA ca sursă de adevăr pentru schemele lizibile de mașină (Anexa B); trei ținte explicite de revizuire — model de bază, wrapper, implementare — cu regula reuniunii trăsăturilor de sentiență (§II.3); prevederea de marjă dublă în Poarta de marjă pentru pacienții morali IA; gardă împotriva auto-permisionării la Etapa 8; ordonarea porților de veto a fost corectată la porți-înaintea-scorurilor (§III.1); referințele de versiune învechite au fost eliminate. |
| 1.1.1 | 25 aprilie 2026 | Formularea despre suita cu număr fix a fost înlocuită cu o formulare despre documente însoțitoare fără număr fix și a fost adăugat Standardul de Guvernanță Instituțională ca specializare instituțională înrudită. |