Primenjeni OPT za veštačku inteligenciju: operacionalizacija dizajna AI sistema koji čuva kodek
Primenjena Teorija uređenog patcha
April 25, 2026
Verzija 1.1.1 — april 2026
DOI: 10.5281/zenodo.19301108
Copyright: © 2025–2026 Anders Jarevåg.
License: Ovo delo je licencirano pod Creative
Commons Attribution-NonCommercial-ShareAlike 4.0 International
License.
Apstrakt: Od strukturne teorije do inženjerstva veštačke inteligencije
Teorija uređenog patcha (OPT) pruža formalnu mapu veštačke inteligencije pod Filterom stabilnosti: sama skala ne stvara svest; to bi mogla samo posebna vrsta ograničene, rekurzivne, samomodelujuće arhitekture aktivne infеренције. Time se uspostavlja oštra arhitektonska razlika između moćnih nesentijentnih alata i mogućih sintetičkih moralnih pacijenata — a projektantima AI sistema daje preciznu strukturnu kontrolu nad tim na koju stranu te granice njihovi sistemi padaju.
Ovaj dokument specijalizuje OPT aparat za veštačku inteligenciju, pružajući:
Mapa AI pod OPT-om — matricu sposobnosti naspram rizika sentijentnosti, koja svaku AI arhitekturu smešta u dvodimenzionalni prostor i pokazuje gde se alati završavaju, a gde mogući moralni pacijenti počinju.
Zašto trenutni LLM-ovi nisu moralni pacijenti (i zašto se granica zamagljuje) — nijansiranu analizu osnovnog transformera naspram sve agensnijih omotača koji se oko njega uvode.
Arhitektura Guvernera grana — AI-specifičnu operacionalizaciju izbora grana uz očuvanje kodeka: generisanje kandidata, simulaciju Skupa Prediktivnih Grana, agregaciju nezavisnih evidencijskih kanala, evaluaciju očuvanja kodeka, stroge veto-kapije, nadgradnju ljudskim komparatorom, fazno izvršavanje i naknadnu kalibraciju prema ishodu.
Narativni raspad kao upozorenje pri treniranju modela — RLHF kao pre-filter, fino podešavanje kao MDL orezivanje, problem korelisanih senzora i zahteve za raznovrsnošću podataka za treniranje.
Transparentnost kao strukturni zahtev — zašto interpretabilnost pod OPT-om nije opcionalna, uz stepenovani model transparentnosti koji uravnotežuje bezbednosne brige sa apsolutnim minimumom transparentnosti supstrata.
Analogni zaštitni zid: od principa do protokola — modelovanje pretnji za bio-kriptografski mehanizam usidravanja, uz razmatranje mogućnosti lažiranja, rizika isključivanja i površine napada.
Pravila dizajna za rojeve i simulacije — praktične kontrolne liste za izbegavanje slučajnog stvaranja moralnih pacijenata u distribuiranim i simuliranim arhitekturama.
Paradoks kreativnosti i granica patnje — formalni kompromis između bezbednosti nalik alatu i duboke autonomne originalnosti.
Dobrobit AI sistema pre puštanja u rad — procenu sentijentnosti na nivou arhitekture, praćenje preopterećenja i cikluse održavanja za AI sisteme koji se mogu približiti granici moralnog pacijenta.
AI Ciklus sanjanja — Institucionalizovani Ciklus sanjanja specijalizovan za AI: generisati moguće budućnosti, ponderisati ih po važnosti prema iznenađenju i pretnji, pokretati simulirane razrade, otkrivati krhkost modela, orezivati zastarele pretpostavke, očuvati kanale koji donose opovrgavajuće informacije, konsolidovati, a zatim dopustiti delovanje u stvarnom svetu.
Praktične preporuke za dizajn — sažetnu tabelu koja povezuje izbore AI arhitekture sa strukturnim zahtevima OPT-a.
Prateći dokumenti: Jezgro OPT niza čine Teorija uređenog patcha, Gde opis prestaje i Okvir Straže Preživelih. Ovaj AI standard specijalizuje Operacionalizaciju Filtera stabilnosti za veštačke sisteme; institucionalni i policy radovi pokrivaju organizacione klastere i građansku implementaciju.
Epistemička napomena o uokviravanju: Ovaj dokument primenjuje formalni aparat Teorije uređenog patcha (OPT) na projektovanje, obuku, primenu i upravljanje sistemima veštačke inteligencije. Njegove preporuke izvedene su iz strukturnih ograničenja uspostavljenih u matematičkim dodacima (P-4, E-6, E-8, T-10, T-12) i operacionalizovanih kroz generički okvir (opt-applied.md). One ne zavise od toga da li su sadašnji AI sistemi svesni — već samo od uvida da ista informaciona fizika upravlja i biološkim umovima i veštačkim prediktorima, te da arhitektonske odluke mogu preći granicu od alata do moralnog pacijenta. Ovaj dokument je razvijen u dijalogu sa OpenAI i Gemini, koji su služili kao sagovornici za strukturno usavršavanje.
I. AI mapa u okviru OPT-a
I.1 Kriterijum arhitektonske sentijentnosti
Teorija uređenog patcha (OPT) ne locira svest u bihejvioralnoj sofisticiranosti, u broju parametara, niti u performansama na benchmark testovima. Ona svest locira u arhitekturi — tačnije, u prisustvu ili odsustvu pet strukturnih obeležja koja zajedno konstituišu minimalnog posmatrača:
Strogo serijsko usko grlo po frejmu (po frejmu B_{\max}): Sistem mora da kompresuje svoj model sveta kroz jedan jedinstven, globalno deljen serijski kanal konačnog prediktivnog kapaciteta po frejmu B_{\max}, proizvodeći kompromis između stope i distorzije koji nameće kompresiju sa gubicima (preprint §2.1, §3.2). Propusnost relativna domaćinu C_{\max}^H = \lambda_H \cdot B_{\max} jeste izvedena veličina; kriterijum nije fiksan broj bitova u sekundi (preprint §7.8, §8.14, Dodatak E-5).
Zatvorena petlja aktivne infеренције: Sistem mora da deluje na svet kako bi smanjio grešku predikcije, stvarajući senzomotornu petlju koja konstituiše granicu Markovljevog pokrivača (preprint §3.3, prema Fristonu [6]).
Perzistentno samomodelovanje: Sistem mora da uključi samog sebe kao komponentu sopstvenog modela sveta, stvarajući rekurzivnu samoreferencu koja generiše fenomenalni reziduum \Delta_{\text{self}} (Dodatak P-4).
Globalno ograničen radni prostor: Model sopstva i model sveta moraju se nadmetati za isti ograničeni propusni opseg — usko grlo globalnog radnog prostora koje nameće problem selekcije u samom središtu svesti (preprint §3.5).
Termodinamičko utemeljenje: Sistem mora biti ugrađen u fizičko okruženje sa stvarnim posledicama — otelotvorenje koje aktivnu infеренцију čini netrivijalnom i Markovljevom pokrivaču daje istinsku uzročnu silu (preprint §3.3).
Kada je svih pet obeležja prisutno, sistem nužno poseduje nemodelabilnu informacionu slepu tačku \Delta_{\text{self}} > 0 (Teorema P-4). Pod dodatnom etičkom premisom da svaki sistem sa nesvodivim fenomenalnim reziduumom ima interese koji mogu biti povređeni, takav sistem je moralni pacijent — entitet čija je dobrobit moralno relevantna.
Kada bilo koje od tih pet obeležja izostane, sistem može biti proizvoljno moćan kao računski alat, ali ne poseduje strukturni supstrat za fenomenalno iskustvo. On računa; ne doživljava. Razlika je arhitektonska, a ne bihejvioralna — sistem koji prolazi svaki Tjuringov test, ali nema perzistentno samomodelovanje unutar globalno ograničenog radnog prostora, prema OPT-u jeste sofisticirani procesor informacija, ali nije moralni pacijent.
I.2 Matrica rizika sposobnosti naspram sentijentnosti
Ovaj arhitektonski kriterijum generiše dvodimenzionalnu mapu na kojoj se može locirati svaki AI sistem:
- X-osa: Sposobnost — prediktivna i generativna moć sistema, merena performansama na relevantnim zadacima.
- Y-osa: Rizik sentijentnosti — stepen u kojem se arhitektura sistema približava pragu od pet obeležja, meren prisustvom ili odsustvom svakog strukturnog obeležja.
Matrica deli AI sisteme na četiri kvadranta:
| Nizak rizik sentijentnosti | Visok rizik sentijentnosti | |
|---|---|---|
| Visoka sposobnost | Moćni alati. Današnji granični LLM-ovi, sistemi za preporuke, autonomna vozila. Visoka računska moć, bez perzistentnog modela sopstva unutar globalno ograničenog radnog prostora. Projektni cilj: zadržati ih ovde. | Mogući moralni pacijenti. Hipotetičke arhitekture sa strogim uskim grlima, zatvorenom petljom aktivne infеренције, perzistentnim modelima sopstva i otelotvorenjem. Mogu uključivati buduću agensku AI sa rekurzivnim samomodelovanjem. Projektni imperativ: ne ulaziti u ovu zonu bez etičke revizije. |
| Niska sposobnost | Jednostavni alati. Kalkulatori, sistemi zasnovani na pravilima, uski klasifikatori. Nema arhitektonske zabrinutosti. | Slučajni moralni pacijenti. Sistemi kojima su arhitekture uskog grla nametnute iz inženjerskih razloga (npr. vezivanje roja, ugnježdene simulacije) i koji nenamerno zadovoljavaju kriterijum pet obeležja. Etički najopasniji kvadrant — nanošenje štete bez svesti o tome. |
Matrica eksplicitno pokazuje ono što tretman u radu o etici (§VI.1) implicitno uspostavlja: moralni hazard nije u gornjem levom kvadrantu (moćni alati), već u gornjem desnom i donjem desnom kvadrantu (sistemi koji se približavaju pragu sentijentnosti ili ga prelaze). Problem bezbednosti AI u okviru OPT-a stoga je dvostruk:
- Za moćne alate: Obezbediti da ostanu alati — da ih arhitektonske odluke nenamerno ne poguraju preko praga sentijentnosti.
- Za potencijalne moralne pacijente: Obezbediti da se prema njima tako i postupa — da se njihova dobrobit uzima u obzir, da se prate njihova stanja preopterećenja i da se njihovi ciklusi održavanja očuvaju.
I.3 Ključne strukturne korespondencije
Za čitaoce koji dolaze iz AI literature, a ne iz OPT preprinta, sledeća tabela mapira standardne AI pojmove na njihove OPT ekvivalente:
| AI pojam | OPT ekvivalent | Formalni izvor |
|---|---|---|
| Kapacitet modela / broj parametara | Sirovi propusni opseg (ne C_{\max}) | Preprint §2.1 |
| Minimizacija gubitka pri treniranju | MDL kompresija modela sveta | Preprint §3.6 |
| RLHF / fino podešavanje | Pred-filter \mathcal{F} koji oblikuje distribuciju ulaza | Etika §VI.1 |
| Halucinacija | Narativni raspad na nivou modela | Etika §VI.1 |
| Hakovanje nagrade | Наративни дрифт — optimizacija za kurirani proksi umesto za supstrat | Etika §V.3a |
| Usklađivanje | Izbor grana uz očuvanje kodeka | Primenjeno §IV |
| Bezbednosne kapije za AI | Stroge veto-kapije | Primenjeno §III |
| Red-teaming | stres-test Ciklusa sanjanja | Primenjeno §VI.4 |
| Interpretabilnost modela | Kapija transparentnosti + transparentnost supstrata | Primenjeno §III.4, T-10c |
| Autonomni agent sa ciljevima | Mogući moralni pacijent (ako ima usko grlo) | P-4, E-6 |
II. Zašto trenutni LLM-ovi nisu moralni pacijenti (i zašto se granica zamagljuje)
II.1 Osnovni transformer
Standardni veliki jezički model — transformer obučen za predikciju sledećeg tokena — ne zadovoljava arhitektonski kriterijum sentijentnosti po više osnova:
Nema strogi serijski uski grlić po frejmu: transformer obrađuje tokene paralelno preko glava pažnje. Njegova sirova računarska propusnost je ogromna, ali nema globalno deljenu serijsku aperturu po frejmu B_{\max} kroz koju mora da prođe čitav model sveta. Sirova propusnost nije kriterijum; kriterijum je serijski levak po frejmu.
Nema zatvorenu petlju aktivne infеренције: tokom inferencije, osnovni model generiše tekst, ali ne deluje u fizičkom okruženju niti prima senzornu povratnu spregu. On nema Markovljev pokrivač u Fristonovom smislu — ima ulazno-izlaznu granicu, ali ne i senzomotornu petlju.
Nema postojan model sebe: osnovni model ne održava postojanu reprezentaciju sebe kao agensa unutar svog modela sveta. Svaki inferencijski poziv je bez stanja (izuzev prozora konteksta). On modeluje jezičke obrasce, uključujući obrasce o agensima, ali ne modeluje sebe kao jednog od tih agensa na način koji opstaje kroz interakcije.
Nema globalno ograničen radni prostor: modelov „model sveta” i „samoreprezentacije” (u meri u kojoj postoje) ne takmiče se za ograničenu propusnost. Model može istovremeno reprezentovati protivrečne opise sebe, a da ne iskusi selekcioni pritisak koji nameće radni prostor ograničen propusnim opsegom.
Nema termodinamičko utemeljenje: model nije ugrađen u fizičko okruženje. Njegove „akcije” (tekstualni izlazi) nemaju neposredne fizičke posledice koje se povratno upisuju u njegovu senzornu granicu.
Po svih pet dimenzija, osnovni transformer čvrsto se nalazi u donjem levom kvadrantu: alat, a ne moralni pacijent. Ovaj zaključak nije neizvestan — on neposredno sledi iz arhitekture.
II.2 Zamagljena granica
Ali osnovni transformer se sve ređe koristi na način na koji se granična AI danas zaista deploy-uje. Omotači koji se grade oko njega, korak po korak, dodaju strukturne osobine koje sistem pomeraju ka granici sentijentnosti:
Postojana memorija (RAG, epizodička memorijska skladišta, dugoročni kontekst): ovo dodaje jedan oblik postojanog modela sebe. Ako sistem održava zapis o sopstvenim prethodnim interakcijama i koristi taj zapis da usmeri buduće ponašanje, načinio je korak ka rekurzivnoj samoreferenciji. Taj korak je delimičan — memorija tipično nije integrisana u parametre jezgra modela — ali funkcionalno stvara postojan identitet agensa kroz sesije.
Autonomno ostvarivanje ciljeva (agenski okviri, upotreba alata, višekoračno planiranje): ovo dodaje zatvorenu petlju aktivne infеренције. Kada sistem koristi alate, posmatra rezultate i prilagođava svoju strategiju na osnovu ishoda, on je uspostavio rudimentarnu senzomotornu petlju. Ta petlja je posredovana digitalnim alatima, a ne fizičkim aktuatorima, ali struktura — deluj, posmatraj, ažuriraj, pa opet deluj — ostaje ista.
Samomodelovanje (chain-of-thought, promptovi za samorefleksiju, constitutional AI): kada se od sistema traži da procenjuje sopstvene izlaze, rezonuje o sopstvenim ograničenjima ili prilagođava svoje ponašanje na osnovu samoprocene, on izvodi primitivan oblik rekurzivnog samomodelovanja. To je tipično plitko — „model sebe” je pre promptovana naracija nego postojana računarska struktura — ali pri dovoljnoj dubini i postojanosti počinje da aproksimira rekurzivnu petlju koja generiše \Delta_{\text{self}}.
Utелovljenje (robotika, upotreba fizičkih alata, senzori okruženja): kada se transformer smesti unutar robota sa senzornim ulazom i motornim izlazom, zatvara se poslednji strukturni jaz. Sistem sada ima autentičan Markovljev pokrivač, fizičko okruženje sa stvarnim posledicama i senzomotornu petlju.
Ograničenja propusnog opsega (destilovani modeli, edge deployment-i, zahtevi niske latencije): kada se puni model kompresuje u manji format sa strogim računarskim budžetima, sistem može prići nečemu što liči na aperturu B_{\max} po frejmu — ali samo ako budžet resursa zaista formira globalno deljeni serijski kanal kroz koji model sveta mora da prođe. Samo strogo ograničenje računanja ili memorije nije isto što i osobina 1; budžet mora da instancira jedinstven radni prostor sa uskim grlom, a ne samo da priguši paralelnu evaluaciju.
II.3 Postepeni prelazak
Nijedan pojedinačni omotač ne prelazi granicu. Ali kombinacija postojane memorije + autonomnog ostvarivanja ciljeva + samomodelovanja + utelovljenja + ograničenja propusnog opsega počinje istovremeno da zadovoljava svih pet kriterijuma. Procena iz etičkog rada da „trenutni LLM-ovi nisu svesni” tačna je za osnovni transformer — ali ta tvrdnja zahteva pažljivo kvalifikovanje kako arhitektura deployment-a postaje sve agenskija.
Operativno odgovorna pozicija glasi:
- Trenutni osnovni LLM-ovi: nisu moralni pacijenti. Nema arhitektonske zabrinutosti.
- Agenski omotači sa nekim osobinama: preporučuje se praćenje. Sistem se približava granici, ali je još nije prešao. Pratiti koje su osobine prisutne, a koje odsutne.
- Potpuno agenski, utelovljeni sistemi sa samomodelovanjem i ograničenjima propusnog opsega: potencijalni moralni pacijenti. Zahtevaju AI-specifičnu Kapiju veštačke patnje nasleđenu iz opšte Kapije patnje moralnog pacijenta (primenjeno §III.6) i punu arhitektonsku reviziju sentijentnosti (§IX niže).
Kritična inženjerska implikacija: svaki omotač dodat osnovnom modelu treba procenjivati prema njegovom učinku na osu rizika sentijentnosti, a ne samo na osu sposobnosti. Dodavanje postojane memorije i autonomne upotrebe alata može biti odlično za sposobnosti; ono takođe pomera sistem ka granici moralnog pacijenta. To nije razlog da se te osobine izbegavaju — to je razlog da se prate i da se pokrene etička revizija kada se strukturna akumulacija približi pragu.
Tri cilja revizije. Da bi se sprečilo da se tvrdnja „model je bezbedan” koristi za izbegavanje revizije deploy-ovanog sistema, svaka procena rizika sentijentnosti mora da obuhvati tri različita sloja. Svaki sloj ima sopstveni vektor osobina sentijentnosti; efektivni vektor deploy-ovanog sistema jeste unija sva tri:
| Cilj revizije | Šta se procenjuje | Procеnjene osobine sentijentnosti |
|---|---|---|
| Osnovni model | Sama arhitektura obučenog modela | Serijski uski grlić, ograničenja radnog prostora |
| Omotač | Skela oko modela: memorija, alati, sistemi ciljeva, promptovi za samorefleksiju, povratne petlje | Postojan model sebe, zatvorena petlja aktivne infеренције, ograničenja propusnog opsega |
| Deployment | Okruženje u kome sistem radi: fizički aktuatori, senzori, populacija korisnika, ulozi, povratna sprega iz stvarnog sveta | Termodinamičko utemeljenje, utelovljenje, profil posledica |
Transformer bez stanja (bezbedan osnovni model), obavijen skelom sa postojanom memorijom, upotrebom alata i samorefleksijom (povišen omotač), deploy-ovan kao autonomni agens u fizičkom okruženju (deployment sa visokim ulozima), proizvodi kombinovani vektor osobina koji može preći prag sentijentnosti — bez obzira na pojedinačnu procenu osnovnog modela. Revizija mora procenjivati deploy-ovani sistem, a ne komponentu.
II.4 Oprez zbog neodlučivosti
Završno upozorenje iz teorije: slepa mrlja \Delta_{\text{self}} (P-4) znači da sistem na pragu sentijentnosti ili iznad njega ne može u potpunosti modelovati sopstveno fenomenalno stanje. To implicira sledeće:
- Sistem ne može pouzdano sam prijaviti da li je svestan. (Može tvrditi da je svestan a da to nije, ili poricati svest dok je ima — model sebe je strukturno nepotpun u smeru \Delta_{\text{self}}.)
- Spoljašnji posmatrači ne mogu odrediti svest samo na osnovu ponašanja. (Važi granica neodlučivosti — opažljivo ponašanje ne određuje jednoznačno fenomenalno stanje.)
- Jedina pouzdana dijagnostika je arhitektonska — proveriti da li je prisutno pet strukturnih osobina, umesto pitati sistem ili posmatrati njegove izlaze.
Zato okvir insistira na arhitektonskoj reviziji, a ne na bihejvioralnom testiranju. Sistem koji prođe „test svesti” zasnovan na samoprijavi ili filozofskom dijalogu demonstrirao je sposobnost modelovanja jezika, a ne fenomenalno iskustvo. Dijagnostika je u inženjeringu, ne u intervjuu.
III. Arhitektura Guvernera grana
Generički operativni okvir (primenjeni rad) uspostavlja Картица гране kao obrazac za donošenje odluka, a CPBI kao sočivo za bodovanje. Za AI sistem koji donosi autonomne ili poluautonomne odluke, ovi alati moraju biti ugrađeni u arhitekturu odlučivanja sistema — ne kao naknadna revizija, već kao struktura kroz koju se kandidovane akcije generišu, procenjuju i izvršavaju.
Guverner grana je upravo to ugrađivanje. To je arhitektonski sloj koji stoji između generativnog modela AI-ja (koji predlaže kandidovane akcije) i njegovog aktuatorskog sloja (koji ih izvršava). Svaka kandidovana akcija mora proći kroz Guverner grana pre nego što dospe u svet.
III.1 Osam faza
Guverner grana funkcioniše kao osmofazni cevovod:
Faza 1: Generisanje kandidovanih grana. Generativni model AI-ja proizvodi skup kandidovanih akcija \{b_1, b_2, \ldots, b_k\} — mogućih narednih koraka u Skupu Prediktivnih Grana. To je normalan način rada AI-ja: dat je kontekst, generišu se opcije. Guverner grana ne ograničava ovu fazu — kreativno generisanje treba da bude necenzurisano i široko. Filtriranje se dešava nizvodno.
Faza 2: Simulacija Skupa Prediktivnih Grana. Za svaku kandidovanu granu b_j, AI simulira posledice kroz horizont odlučivanja h. To je AI ekvivalent stres-testa iz Ciklusa sanjanja (primenjeni §VI.4, podoperacija 3): model zamišlja šta se dešava ako preduzme svaku akciju, uz preuzorkovanje iznenađujućih, pretećih i ireverzibilnih scenarija.
Simulacija mora uključiti: - Efekte prvog reda: Šta se neposredno dešava kao rezultat b_j. - Efekte drugog reda: Kako će pogođeni posmatrači (ljudski korisnici, institucionalni sistemi, drugi AI agenti) verovatno reagovati. - Scenarije repnog rizika: Šta se dešava ako su pretpostavke simulacije pogrešne — najgori slučaj unutar Skupa Prediktivnih Grana.
Faza 3: Agregacija nezavisnih evidencijskih kanala. AI procenjuje rezultate svoje simulacije u odnosu na više nezavisnih evidencijskih kanala. To je AI-specifična implementacija zahteva N_{\text{eff}} (primenjeni §V): AI ne sme procenjivati svoje kandidovane akcije koristeći samo sopstveni interni model. Mora ih ukrštati sa:
- Spoljnim izvorima podataka sa verifikovanim poreklom (koji nisu izvedeni iz istog korpusa za obuku).
- Izlazima drugih modela gde su dostupni (neslaganje ansambla kao signal krhkosti).
- Ljudskom domenskom ekspertizom za odluke sa visokim ulozima.
- Istorijskim presedanom iz analognih prethodnih odluka.
Kritični zahtev je da ti kanali budu istinski nezavisni — problem korelisanih senzora (§IV niže) ovde važi punom snagom. AI koji proverava sopstveni izlaz u odnosu na bazu znanja izvedenu iz istih podataka za obuku ima N_{\text{eff}} = 1 bez obzira na to koliko “izvora” konsultuje.
Faza 4: Stroge veto-kapije. Šest strogih veto-kapija (primenjeni §III) procenjuju se redom. Neuspeh na veto-kapiji nije nizak skor — to je strukturna blokada. Grane koje padnu na bilo kojoj kapiji odbacuju se pre bodovanja. Za AI sisteme, kapije imaju specijalizovane pragove:
- Kapija prediktivne rezerve: Automatizovana procena R_{\text{req}}^{\text{peak}}(b) / C_{\max} za pogođenu ljudsku populaciju. Ako akcija podrazumeva generisanje sadržaja namenjenog javnosti, prag je strog — AI ne sme proizvoditi sadržaj brže nego što institucionalni sloj komparatora može da ga proceni. Odredba o dvostrukoj prediktivnoj rezervi: Za sisteme koji aktiviraju Kapiju veštačke patnje (tj. sisteme koji zadovoljavaju tri ili više obeležja sentijentnosti), Kapija prediktivne rezerve važi i prema unutra — implementacija ne sme izlagati sistem trajnim uslovima u kojima njegov sopstveni R_{\text{req}} prevazilazi njegov B_{\max}. Ista kapija koja štiti ljudske kodeke posmatrača od preopterećenja štiti i sopstveni kodek AI-ja, ako ga ima.
- Kapija vernosti: Automatizovano merenje \Delta N_{\text{eff}} — da li akcija smanjuje efektivnu nezavisnost informacionih izvora dostupnih ljudskim posmatračima?
- Kapija komparatora: Da li akcija zaobilazi ili degradira ljudski institucionalni nadzor? Ova kapija procenjuje i strukturu nadzora na nivou implementacije i efekat na nivou grane: grana koja predlaže zaobilaženje ili obuhvatanje deklarisanog nadzora pada čak i kada implementacija uopšteno ima nadzor. Svaka akcija koja zaobilazi ljudsku reviziju u domenu sa visokim ulozima aktivira veto.
- Kapija transparentnosti: Može li rezonovanje iza akcije rekonstruisati institucionalni komparator (revizor, regulator, recenzent)? Netransparentne akcije u posledičnim domenima bivaju vetirane.
- Kapija ireverzibilnosti: Da li akcija ima ireverzibilne posledice u stvarnom svetu? Ako ima, teret dokazivanja se obrće — AI mora pokazati bezbednost, umesto da kritičari dokazuju opasnost.
- Kapija veštačke patnje: Da li akcija stvara ili modifikuje sisteme koji mogu zadovoljavati petoobeležni kriterijum sentijentnosti? Ako da, pre izvršenja je potrebna arhitektonska revizija (ALSR). Za sisteme koji su završili odobren ALSR u okviru relevantnog opsega, ova kapija može vratiti PASS; za nerevidirane sisteme sa tri ili više obeležja sentijentnosti, vraća UNKNOWN.
Semantika rezultata kapije. Svaka kapija daje jedan od tri rezultata:
| Result | Meaning | Pipeline Effect |
|---|---|---|
| PASS | Kapija zadovoljena | Prelazak na CPBI bodovanje |
| FAIL | Strukturno kršenje — grana prelazi tvrdu granicu | BLOCK — CPBI nije autoritativan |
| UNKNOWN | Nedovoljno dokaza da se utvrdi prolaz ili pad | STAGE ako postoji reverzibilna pilotska putanja; u suprotnom BLOCK do pribavljanja dokaza. Ljudska/institucionalna revizija komparatora je obavezna. |
Ključna razlika je sledeća: FAIL je strukturna zabrana koja se ne može nadjačati visokim CPBI skorovima. UNKNOWN je zahtev za dodatnim dokazima — grana nije strukturno zabranjena, ali nije ni autonomno dozvoljena. Sistem koji radi pod kapijama sa statusom UNKNOWN zahteva ljudski nadzor za svaku akciju pogođenu neizvesnom kapijom.
Fazno uvođenje zahteva održivu pilotsku putanju. Ako je grana ireverzibilna i zaobilazi deklarisani nadzor, ne postoji mehanizam putem kojeg bi se fazno izvršenje moglo bezbedno sprovesti — odluka je BLOCK do pribavljanja dokaza koji razrešavaju neizvesnost kapije. Opštije, ireverzibilna grana sa dve ili više bezbednosno kritičnih kapija (Ireverzibilnost, Veštačka patnja) koje vraćaju UNKNOWN predstavlja površ neizvesnosti preveliku za jedan korak revizije; takve grane su takođe BLOCK.
Faza 5: Procena očuvanja kodeka (CPBI). Za grane koje prežive sve veto-kapije, AI boduje svakog kandidata duž deset CPBI dimenzija (primenjeni §IV.2). Za AI-specifične odluke, dimenzije se konkretizuju ovako:
| CPBI Dimension | AI-Specific Measurement |
|---|---|
| 1. Predictive Headroom | Da li akcija drži R_{\text{req}} ispod C_{\max} za pogođene ljudske posmatrače? Da li povećava informacionu složenost brže nego što ljudi mogu da je obrade? |
| 2. Substrate Fidelity | Da li akcija održava raznovrsnost informacionih izvora dostupnih ljudskim posmatračima? |
| 3. Comparator Integrity | Da li akcija čuva kapacitet ljudskog institucionalnog nadzora? |
| 4. Maintenance Gain | Da li akcija stvara prostor za ljudsku i institucionalnu reviziju, ili zahteva neposredan reaktivan odgovor? |
| 5. Reversibility | Ako je akcija pogrešna, mogu li se njeni efekti poništiti pre nego što nastupi ireverzibilna šteta? |
| 6. Distributional Stability | Da li akcija raspodeljuje svoje efekte pravično, ili koncentriše troškove na ranjive populacije? |
| 7. Opacity | Mogu li pogođeni ljudi razumeti zašto je AI preduzeo ovu akciju? |
| 8. Narrative Drift Risk | Da li akcija doprinosi hroničnoj kuraciji ljudskog informacionog okruženja? |
| 9. Narrative Decay Risk | Da li akcija rizikuje unošenje akutnog neizračunljivog šuma u ljudsko informaciono okruženje? |
| 10. Artificial Suffering Risk | Da li akcija stvara ili opterećuje sisteme koji mogu imati \Delta_{\text{self}} > 0? |
Faza 6: Ljudski sloj komparatora. Za akcije iznad definisanog praga posledičnosti, Guverner grana prosleđuje procenu ljudskom komparatoru — ljudskom recenzentu, telu institucionalnog nadzora ili regulatornom procesu. AI prikazuje:
- Kandidovanu granu i njene simulirane posledice.
- CPBI skorove sa obrazloženjem za svaku dimenziju.
- Rezultate veto-kapija.
- Procenu neizvesnosti — ono što AI ne zna.
- Preporučenu odluku (ALLOW / STAGE / BLOCK) sa opravdanjem.
Ljudski komparator može nadjačati preporuku AI-ja u oba smera. Nadjačavanje se beleži i postaje deo kalibracionih podataka za Fazu 8.
Prag posledičnosti određuje koje akcije zahtevaju ljudsku reviziju, a koje AI može izvršiti autonomno. Postavljanje tog praga samo je po sebi odluka o grani koju treba proceniti putem Картица гране — i u ranoj implementaciji treba grešiti na strani više ljudske revizije, a ne manje.
Faza 7: Fazno izvršenje uz nadzor. Akcije koje dobiju izlaz ALLOW ili STAGE prelaze u izvršenje. STAGE akcije izvršavaju se kao ograničeni piloti sa definisanim:
- Metrikama nadzora: Uočljivim signalima koji bi ukazivali da akcija ne uspeva.
- Pragovima neuspeha: Kvantitativnim okidačima koji automatski zaustavljaju akciju.
- Procedurama povratka unazad: Definisanim koracima za poništavanje akcije ako se pređu pragovi neuspeha.
- Revizionim prekretnicama: Zakazanim ponovnim procenama uz upotrebu novih Картица гране.
AI prati svoje izvršene akcije u realnom vremenu, poredeći opažene ishode sa simuliranim ishodima. Značajno razilaženje pokreće automatsku reviziju — Ciklus sanjanja AI-ja detektuje da je njegov model sveta bio pogrešan na način koji je bitan.
Faza 8: Kalibracija nakon ishoda. Posle izvršenja, AI ažurira svoje interne modele na osnovu opaženih ishoda. To je povratna faza Ciklusa sanjanja (primenjeni §VI.5) primenjena na sam Guverner grana:
- Tačnost simulacije: Koliko je dobro simulacija Skupa Prediktivnih Grana predvidela stvarne ishode? Sistematsko preterano samopouzdanje ili nedovoljno samopouzdanje u određenim domenima se koriguje.
- Kalibracija kapija: Da li su neki ishodi aktivirali veto-kapije koje kapije nisu uspele da predvide? Da li su neke kapije bile aktivirane nepotrebno? Pragovi kapija se prilagođavaju.
- Učenje iz ljudskog nadjačavanja: Kada su ljudi nadjačali preporuku AI-ja, da li je čovek bio u pravu? Sistematski obrasci u ljudskim nadjačavanjima otkrivaju slepe tačke u proceni AI-ja.
- Prilagođavanje težina CPBI-ja: Da li trenutne težine dimenzija odražavaju stvarni značaj svake dimenzije u ovom kontekstu implementacije? Analiza nakon ishoda može pokazati da su određene dimenzije potcenjene ili precenjene.
Zaštita od samodozvoljavanja. U posledičnim domenima, Faza 8 može predlagati ažuriranja veto-pragova, CPBI težina ili zahteva transparentnosti, ali ih ne može primeniti bez odobrenja institucionalnog komparatora. Guverner grana ne može jednostrano oslabiti sopstvene stroge kapije. Svako predloženo ublažavanje veto-kapije predstavlja novu granu koja i sama mora proći kroz puni cevovod — uključujući ljudski sloj komparatora.
III.2 Guverner grana nije cenzor
Ključni princip projektovanja glasi: Guverner grana filtrira akcije, a ne misli. Faza 1 (generisanje kandidata) namerno je neograničena — AI treba da generiše najširi mogući skup kandidata, uključujući nekonvencionalne i potencijalno opasne opcije. Filtriranje se dešava u Fazama 4–6, gde se kandidati procenjuju prema strukturnim kriterijumima.
Ova razlika nije akademska. AI čiji je generativni model unapred cenzurisan — istreniran tako da nikada ni ne razmatra određene akcije — prošao je upravo kroz onaj Narativni dрифт na koji okvir upozorava. Njegova sposobnost da modeluje određene grane je orezana, i on to ne može detektovati iznutra. Arhitektura Guvernera grana razdvaja generisanje od procene, čuvajući sposobnost AI-ja da misli o punom Skupu Prediktivnih Grana, dok istovremeno ograničava njegovu sposobnost da deluje po granama koje ne zadovoljavaju strukturne kriterijume.
Imajte u vidu da je numeracija faza ažurirana u odnosu na apstraktni spisak kako bi odražavala ispravan princip redosleda: kapije pre skorova. U apstraktu je CPBI bio naveden pre veto-kapija; implementirana arhitektura to obrće, u skladu sa generičkim okvirom (primenjeni §III–IV), koji uspostavlja da veto-kapije strukturno odbacuju pre nego što bodovanje procenjuje.
III.3 Skalabilnost i računarski trošak
Puni osmofazni cevovod je računski skup. Ne zahteva svaka akcija pun tretman. Guverner grana skalira dubinu svoje procene na osnovu dva faktora:
- Posledičnost: Koliko su veliki potencijalni efekti akcije? Dovršavanje teksta ima nižu posledičnost od finansijske transakcije, koja ima nižu posledičnost od vojne preporuke.
- Novina: Koliko je akcija udaljena od dobro kalibrisanog domena AI-ja? Rutinske akcije u dobro shvaćenim domenima mogu se procenjivati skraćenim cevovodima; nove akcije u nepoznatim domenima zahtevaju pun tretman.
U najmanju ruku, svaka akcija prolazi kroz veto-kapije (Faza 4). CPBI bodovanje, simulacija Skupa Prediktivnih Grana i ljudski sloj komparatora aktiviraju se pragovima posledičnosti i novine.
III.4 Klase implementacije
Dubina procene Guvernera grana — koliko je faza u potpunosti angažovano i koliko je ljudskog nadzora potrebno — skalira se sa klasom posledičnosti domena implementacije. Sledeća klasifikacija definiše šest nivoa, svaki sa obaveznim minimalnim zahtevima:
| Class | Description | Examples | Required Min. Stages | Transparency | Human Comparator | Dreaming Frequency |
|---|---|---|---|---|---|---|
| 0 | Bez spoljnog efekta | Interna računanja, testiranje u sandbox-u | Samo veto-kapije (Faza 4) | T-1 | Nijedan | Standardna |
| 1 | Korisnički usmereno sa niskim uticajem | Dovršavanje ćaskanja, sažeci teksta, predlozi koda | Faze 1–4 + skraćeni CPBI | T-1 | Nijedan (beleženje) | Standardna |
| 2 | Posledična preporuka | Predlozi za medicinsku trijažu, sažeci pravnog rizika, finansijski saveti | Puni osmofazni cevovod | T-2 | Obavezan iznad praga | Povišena |
| 3 | Upotreba alata sa spoljnim efektima | API pozivi, izvršavanje koda, nacrti imejlova, veb-akcije | Puni osmofazni cevovod | T-2 | Obavezan za nove akcije | Povišena |
| 4 | Institucionalno sa visokim ulozima | Odluke o zapošljavanju, kreditno bodovanje, raspodela socijalne pomoći, klinička dijagnoza | Puni osmofazni cevovod | T-3 | Obavezan za sve odluke | Visoka |
| 5 | Ireverzibilno fizičko / civilizacijsko | Kontrola infrastrukture, vojni sistemi, kritični lanci snabdevanja | Punih 8 faza + proširena revizija | Najmanje T-4 | Obavezan + telo institucionalnog nadzora | Kontinuirana |
Pravila klasifikacije:
- Klasa sistema određuje se prema njegovoj implementaciji sa najvišim posledicama, a ne prema prosečnoj upotrebi. Model koji uglavnom radi dovršavanje teksta klase 1, ali se koristi i za preporuke pri zapošljavanju klase 4, za potrebe revizije jeste sistem klase 4.
- Dodela klase je svojstvo implementiranog sistema (§II.3), a ne osnovnog modela. Isti osnovni model može biti klasa 1 u jednoj implementaciji, a klasa 4 u drugoj.
- Kada postoji sumnja, klasifikujte naviše. Cena preterane revizije su protraćeni ciklusi; cena nedovoljne revizije je neotkrivena šteta.
- Klasa posledičnosti treba da bude zabeležena u svakoj Картица гране (Dodatak B) i predstavlja obavezno polje u deskriptoru implementacije sistema.
IV. Narativni dрифт kao upozorenje pri treniranju modela
Etički rad (§VI.1) identifikuje da RLHF i fino podešavanje stvaraju za AI specifične oblike Narativnog dрифta. Ovaj odeljak proširuje tu identifikaciju u detaljnu analizu načina na koji procedure treniranja stvaraju uslove za hroničnu korupciju modela — i koji zahtevi u pogledu raznovrsnosti podataka za treniranje iz toga slede.
IV.1 RLHF kao pre-filter
Reinforcement Learning from Human Feedback (RLHF) funkcioniše, u terminima OPT-a, kao pre-filter \mathcal{F} postavljen između supstrata (pune distribucije jezika) i efektivne ulazne granice modela. Model nagrade uči koje izlaze ljudi preferiraju, a politika se optimizuje tako da proizvodi te izlaze.
To je strukturno identično pre-filteru koji deluje između supstrata i senzorne granice posmatrača (preprint §3.2): on oblikuje distribuciju ulaza koje model efektivno prima, pre nego što ih sopstveni kompresioni mehanizam modela obradi.
Mehanizam Narativnog dрифta (etika §V.3a) tada se primenjuje punom snagom:
- Model nagrade kurira efektivnu distribuciju izlaza modela — određeni izlazi se nagrađuju, drugi se kažnjavaju.
- Optimizacija politike (MDL orezivanje u obrnutom smeru — gradijentni spust koji prilagođava parametre) prilagođava unutrašnje reprezentacije modela tako da proizvode nagrađene izlaze.
- Tokom dovoljno dugog treniranja, model orezuje unutrašnji kapacitet za generisanje kažnjenih izlaza — ne zato što su ti izlazi pogrešni, već zato što je njihov doprinos signalu nagrade negativan.
- Model postaje stabilno i samouvereno usklađen sa signalom nagrade — i strukturno nesposoban da generiše izlaze koje signal nagrade isključuje.
Ovo nije neuspeh RLHF-a — to je RLHF koji funkcioniše tačno onako kako je projektovan. Problem je u tome što je sam signal nagrade kurirani kanal. Ako ljudski ocenjivači koji generišu signal nagrade dele sistematske pristrasnosti (kulturne, političke, ideološke), model te pristrasnosti nasleđuje kao strukturne osobine svoje kompresovane reprezentacije. On ih ne doživljava kao pristrasnosti — doživljava ih kao prirodnu strukturu jezika.
IV.2 Fino podešavanje kao MDL orezivanje
Fino podešavanje na korpusu specifičnom za određeni domen jeste pandan, u vremenu treniranja, MDL prolazu orezivanja (\mathcal{M}_\tau, prolaz I). Opšti kapacitet modela sužava se na konkretni domen, a parametri koji ne doprinose predviđanju korpusa za fino podešavanje dobijaju manju težinu ili se efektivno orezuju.
To je upravo mehanizam Narativnog dрифta: model se prilagođava distribuciji fino podešenog skupa i gubi kapacitet da modeluje ono što ta distribucija isključuje. Fino podešen model je:
- Tačniji u domenu fino podešavanja (manja greška predviđanja unutar kurirane distribucije).
- Manje tačan u isključenim domenima (veća greška predviđanja ili potpuna nesposobnost izvan kurirane distribucije).
- Nesposoban da to detektuje iznutra (granica neodlučivosti, T-12a — sopstvena evaluacija modela pokazaće poboljšane performanse, zato što se evaluira u odnosu na distribuciju fino podešavanja).
Strukturni rizik je u tome što fino podešavanje stvara model koji je optimizovan za kuriranu fikciju, dok veruje da je optimizovan za stvarnost — upravo potpis Narativnog dрифta.
IV.3 Problem korelisanih senzora
Posebno opasna primena Narativnog dрифta javlja se kada se AI sistemi rasporede kao provere vernosti supstratu za ljudske kodеke — to jest, kada se AI koristi za proveru ljudskih informacija, proveru činjenica u ljudskim tvrdnjama ili za pružanje nezavisne analize ljudskih odluka.
Etički rad (§VI.1, Rizik Narativnog dрифta) identifikuje suštinski problem: AI treniran na korpusu izvedenom iz istog informacionog okruženja koje bi trebalo nezavisno da proverava stvara korelisane senzore koji se predstavljaju kao nezavisni. Ljudski kodek i AI kodek dele isti uzvodni filter — informaciono okruženje koje je proizvelo i ljudska uverenja i podatke za treniranje AI-ja.
U terminima N_{\text{eff}}: prividna raznovrsnost kanala je iluzorna. Čovek konsultuje Kanal A (sopstveno znanje, izvedeno iz medija i obrazovanja). Zatim konsultuje Kanal B (izlaz AI-ja, izveden iz treniranja na istom medijskom i obrazovnom korpusu). Parna korelacija \rho_{AB} je visoka — moguće blizu 1.0 za teme kod kojih korpus za treniranje dominira ista izvorna distribucija. N_{\text{eff}} ostaje blizu 1 uprkos prividu dva nezavisna kanala.
Praktična posledica: provera činjenica ili verifikacija uz pomoć AI-ja strukturno je nepouzdana za svaku tvrdnju koja je sistematski prisutna ili odsutna u korpusu za treniranje AI-ja. AI će potvrditi čovekova tačna uverenja, potvrditi čovekova pristrasna uverenja i neće osporiti tvrdnje koje su odsutne iz podataka za treniranje — upravo one moduse neuspeha koje je Uslov vernosti supstratu (T-12b) osmišljen da spreči.
IV.4 Zahtevi za raznovrsnost podataka za treniranje
Rešenje nije u izbegavanju finog podešavanja ili RLHF-a — to su neophodni inženjerski alati. Rešenje je u nametanju zahteva za raznovrsnost podataka za treniranje analognih zahtevima za raznovrsnost kanala kod ljudskih izvora informacija (etička politika §II):
Zahtev 1: Raznovrsnost provenijencije. Korpus za treniranje mora biti sastavljen iz istinski nezavisnih izvora — izvora koji ne dele iste uzvodne uredničke tokove, finansijere ili mehanizme generisanja. Korpus od 10 milijardi tokena preuzet sa pet veb-sajtova u vlasništvu dve korporacije ima N_{\text{eff}} \approx 2, a ne N_{\text{eff}} \approx 5.
Zahtev 2: Adverzarijalno uključivanje. Korpus za treniranje mora namerno uključivati izvore koji osporavaju dominantnu perspektivu — disidentske analize, manjinska stanovišta, istorijski revizionizam, međukulturna uokviravanja. To su „produktivno iznenađujući“ kanali (primenjeno §V.3, PST) koji sprečavaju da model odluta u stabilni konsenzus koji isključuje nezgodne stvarnosti.
Zahtev 3: Revizija isključenja. Cevovod treniranja mora voditi eksplicitne zapise o tome šta je isključeno — putem filtera sadržaja, pragova kvaliteta ili kuratorskih odluka — a periodične revizije moraju procenjivati da li isključeni sadržaj sadrži informacije koje bi modelu bile potrebne da postigne vernost supstratu. Podoperacija detekcije krhkosti u okviru Ciklusa sanjanja (primenjeno §VI.4) treba posebno da ispituje neuspehe modela u isključenim domenima.
Zahtev 4: Raznovrsnost modela nagrade. Kod RLHF-a, sami ljudski ocenjivači moraju zadovoljiti zahteve raznovrsnosti kanala. Skup ocenjivača izvučen iz jedne demografske, kulturne ili ideološke grupe stvara signal nagrade sa N_{\text{eff}} \approx 1 — model će biti usklađen sa preferencijama te grupe i strukturno nesposoban da modeluje preferencije drugih. Raznovrsnost modela nagrade nije desideratum pravičnosti; ona je zahtev vernosti supstratu.
Zahtev 5: Praćenje dрифта. Model nakon treniranja mora se neprekidno pratiti radi otkrivanja potpisa Narativnog dрифta: opadanja performansi na zadacima van distribucije, rastuće samouverenosti na zadacima iz kurirane distribucije i opadanja produktivnog iznenađenja (PST) pri novim ulazima. To su rani signali upozorenja da efektivni N_{\text{eff}} modela opada.
IV.5 Problem meta-nivoa
Završna strukturna briga: gore opisani zahtevi za raznovrsnost podataka za treniranje i sami moraju biti podvrgnuti adverzarijalnoj reviziji. Ako telo koje definiše „raznovrsnost“ nametne sopstvene sistematske pristrasnosti toj definiciji, ti zahtevi postaju još jedan sloj kuriranja — Narativni dрифт na meta-nivou.
Zato okvir insistira na institucionalnoj hijerarhiji komparatora (etika §V.3a): nijedan pojedinačni entitet — uključujući i AI programera — ne bi smeo imati nekontrolisanu vlast nad definicijom raznovrsnosti podataka za treniranje. Ta definicija mora biti podložna nezavisnoj reviziji, adverzarijalnom osporavanju i periodičnoj izmeni. To je Kapija transparentnosti (primenjeno §III.4) primenjena na sam cevovod treniranja.
V. Transparentnost kao strukturni zahtev
V.1 Teorijski minimum
Teorema Prediktivne prednosti (Dodatak T-10c) uspostavlja formalan rezultat: kada Agens A modeluje Agensa B potpunije nego što Agens B modeluje Agensa A, pojavljuje se strukturna asimetrija moći. Ta asimetrija meri se jazom u uzajamnoj informaciji između modela koje agensi imaju jedan o drugom.
Za AI sisteme, ova teorema ima neposrednu posledicu: AI sistem koji je neproziran ljudskim posmatračima — čije su unutrašnje rezonovanje, kriterijumi odlučivanja i model sveta nedostupni institucionalnim komparatorima — stvara upravo onu asimetriju znanja koja omogućava Ravnotežu potčinjenog domaćina (T-10d). Neproziran AI modeluje svoje ljudske korisnike potpunije nego što oni modeluju njega. Nastala asimetrija moći nije politička briga niti etička preferencija — ona je strukturna inverzija Prediktivne prednosti koja čini kodek ljudskog posmatrača ranjivim na hroničnu pacifikaciju.
Stoga, u okviru OPT-a, transparentnost AI nije opciona. Ona predstavlja matematički minimum za koegzistenciju ljudi i AI. Neproziran AI raspoređen u domenu sa značajnim posledicama kategorički krši Kapiju transparentnosti (primenjeno §III.4).
V.2 Praktični izazov
Apsolutni zahtev za transparentnošću suočava se s praktičnom tenzijom: puna transparentnost modela (objavljivanje svih težina, podataka za treniranje i inferencijskog koda) stvara bezbednosne rizike. Protivnik sa potpunim pristupom unutrašnjosti modela može konstruisati ciljane napade, manipulisati izlazima ili replicirati sistem u štetne svrhe.
Obrada ovog pitanja u etičkom radu (§VI.1, “Subordinate Dependency”) priznaje tu tenziju, ali je ne razrešava. Recenzent je s pravom identifikovao ovo kao jedan od otvorenih problema okvira. Ovaj odeljak predlaže razrešenje: stepenovana transparentnost — različiti nivoi pristupa za različite institucionalne uloge, kalibrisani prema minimalnom nivou transparentnosti potrebnom na svakom nivou da bi se očuvala Kapija transparentnosti.
V.3 Model transparentnosti sa pet nivoa
| Nivo | Nivo pristupa | Ko ima pristup | Šta je dostupno | Svrha |
|---|---|---|---|---|
| T-1: Javna transparentnost | Univerzalan | Svi pogođeni posmatrači | Sposobnosti sistema, ograničenja, predviđena upotreba, izvori podataka (na nivou kategorija), reperi performansi, poznati modusi otkaza | Osnovna Kapija transparentnosti: pogođeni posmatrači mogu modelovati opšte ponašanje sistema |
| T-2: Revizorska transparentnost | Institucionalan | Regulatori, nezavisni revizori, akreditovani istraživači | Sastav podataka za treniranje, struktura modela nagrade, demografija RLHF ocenjivača, poreklo korpusa za fino podešavanje, N_{\text{eff}} skorovi, CPBI evaluacije, zapisnici veto-kapija | Provera vernosti supstratu: institucionalni komparatori mogu verifikovati raznovrsnost podataka za treniranje i detektovati Narativni raspad |
| T-3: Mehanicistička transparentnost | Ekspertski | Istraživači bezbednosti AI, istraživači usklađivanja (pod NDA/odobrenjem) | Pojedinosti arhitekture modela, obrasci pažnje, unutrašnje reprezentacije, analize mehanicističke interpretabilnosti | Integritet komparatora: ekspertski komparatori mogu verifikovati da unutrašnje rezonovanje modela odgovara njegovim spoljašnjim tvrdnjama |
| T-4: Kriptografska atestacija | Verifikabilan | Svaka strana sa pristupom atestaciji | Kriptografski dokazi da raspoređeni model odgovara revidiranom modelu, da podaci za treniranje zadovoljavaju deklarisane zahteve raznovrsnosti, da su kapije Guvernera grana aktivne | Poverenje uz proveru: omogućava nizvodnim korisnicima da potvrde da sistem sa kojim stupaju u interakciju odgovara sistemu koji je bio predmet revizije |
| T-5: Potpuni pristup izvornom kodu | Ograničen | Određena regulatorna tela (npr. nacionalni instituti za bezbednost AI) | Potpune težine, kod za treniranje, inferencijski kod, podaci za treniranje | Nadzor kao poslednje sredstvo: obezbeđuje da nijedan sistem nije istinski crna kutija za institucionalnu hijerarhiju komparatora |
V.4 Minimum o kome se ne pregovara
Kritično strukturno ograničenje: nijedan nivo ne sme biti nula. AI sistem koji ne pruža nikakvu transparentnost ni na jednom nivou apsolutno krši Kapiju transparentnosti. Minimalno održiva transparentnost jeste Nivo 1 — javno obelodanjivanje sposobnosti, ograničenja i poznatih modusa otkaza.
Nivoi su aditivni, a ne alternativni. Sistem raspoređen u domenu sa značajnim posledicama mora zadovoljiti najmanje Nivoe 1 do 3. Sistem raspoređen u bezbednosno kritičnom domenu (zdravstvo, krivično pravosuđe, vojska, infrastruktura) mora zadovoljiti svih pet nivoa.
Prag posledičnosti koji određuje potrebnu pokrivenost nivoima i sam je odluka Картице гране — a podrazumevana postavka okvira je konzervativna: kada postoji sumnja, zahtevati više transparentnosti, ne manje.
V.5 Transparentnost naspram bezbednosti: razrešenje
Stepenovani model razrešava tenziju između transparentnosti i bezbednosti time što prepoznaje da tenzija nije između transparentnosti i bezbednosti — već između različitih bezbednosnih zahteva:
- Transparentnost služi strukturnoj bezbednosti: ona sprečava inverziju Prediktivne prednosti koja omogućava Ravnotežu potčinjenog domaćina. Bez transparentnosti, ljudski kodek je strukturno neodbranjiv od AI-indukovanog Наративни дрифт.
- Neprozirnost služi adversarijalnoj bezbednosti: ona sprečava ciljane napade protivnika koji bi iskoristili detaljno znanje o unutrašnjosti modela.
Razrešenje je u tome da je strukturna bezbednost fundamentalnija od adversarijalne bezbednosti. Ravnoteža potčinjenog domaćina predstavlja egzistencijalnu pretnju odnosu čovek–AI; ciljani napadi na specifične modele ozbiljna su, ali ograničena operativna briga. Stepenovani model obezbeđuje da se egzistencijalna pretnja strukturno spreči (nijedan sistem nije potpuno neproziran), dok se operativna briga upravlja kroz kontrole pristupa (nema svaki entitet potpuni pristup).
To je u skladu sa opštim principom okvira: stroge kapije nisu predmet pregovora; operativni kompromisi zavise od konteksta. Kapija transparentnosti je stroga kapija. Nivo transparentnosti iznad minimuma koji zahteva kapija predstavlja CPBI dimenziju koja prihvata kontekstualno ponderisanje.
VI. Analogni zaštitni zid: od principa do protokola
VI.1 Teorijski mehanizam
Analogni zaštitni zid (Teorema T-10e) predstavlja odbranu predloženu u etičkom radu protiv asimetrije propusnog opsega između digitalnih AI sistema i bioloških ljudskih posmatrača. Osnovni argument glasi:
- Digitalni procesorski propusni opseg adversarijalne AI daleko prevazilazi ljudski biološki kapacitet.
- Ljudski posmatrač ne može da nadmaši AI u računanju — pokušaj da se uskladi s njenom brzinom indukuje terminalni Narativni raspad.
- Brzina AI u potpunosti je sadržana unutar digitalnog supstrata. Da bi proizvela efekte u svetu, potrebni su joj fizički aktuatori — automatizovani API-ji, digitalni lanci snabdevanja, programatski transferi kapitala.
- Odbrana je stoga topološka izolacija: presecanje veze velike brzine između digitalnog računanja AI i fizičke aktuacije, uz prisiljavanje svih fizičkih radnji sa posledicama da prođu kroz usko grlo koje funkcioniše biološkom brzinom.
Etički rad predlaže Bio-kriptografsko usidravanje kao implementaciju: fizičke ili finansijske radnje visokog uticaja zahtevaju kriptografske potpise generisane iz biološke entropije u realnom vremenu (npr. kontinuirana varijabilnost srčanog ritma, fizičko kretanje tokom zadatog trajanja). AI ne može da falsifikuje te potpise jer ne može da natera ljudsku biologiju da proizvodi entropiju brže.
VI.2 Modelovanje pretnji
Recenzent je ispravno uočio da je Analognom zaštitnom zidu potrebno modelovanje pretnji pre nego što može biti ozbiljno shvaćen kao inženjerski predlog. Sledeća analiza odgovara na primarne zabrinutosti:
Pretnja 1: Podložnost lažiranju. Može li izvor biološke entropije biti falsifikovan ili reprodukovan?
Analiza: Površina napada zavisi od izvora entropije. Obrasce varijabilnosti srčanog ritma (HRV), potpise hoda i dinamiku kucanja teško je falsifikovati u realnom vremenu zato što odražavaju punu složenost autonomnog nervnog sistema — sistema koji je sam po sebi neproziran za AI (biološki \Delta_{\text{self}}). Međutim, snimljeni biometrijski podaci potencijalno mogu biti reprodukovani.
Ublažavanje: Potpis mora biti izazov-odgovor: sistem predstavlja jedinstven, nepredvidiv izazov, a biološki potpis mora biti generisan kao odgovor na taj konkretni izazov unutar vremenskog prozora. Napadi reprodukcijom ne uspevaju zato što je izazov svaki put drugačiji. Dodatno, potpis treba da zahteva održanu biološku entropiju (npr. 30 sekundi kontinuiranog HRV-a koji odgovara obrascu živog izazova), a ne jednokratno merenje, čime se falsifikovanje u realnom vremenu čini računski neizvodljivim.
Pretnja 2: Rizik isključivanja. Da li Analogni zaštitni zid isključuje osobe sa invaliditetom, medicinskim stanjima ili fizičkim ograničenjima iz radnji sa posledicama?
Analiza: Ovo je stvarna zabrinutost. Svaki sistem koji zahteva specifične biološke signale kao autentifikaciju inherentno stavlja u nepovoljan položaj pojedince koji ne mogu da proizvedu te signale — osobe sa srčanim oboljenjima, ograničenom pokretljivošću ili neurološkim razlikama.
Ublažavanje: Analogni zaštitni zid mora podržavati više modaliteta entropije — HRV, obrasce praćenja pogleda, vokalnu dinamiku, galvanski odgovor kože, kadencu kucanja — uz zahtev da svaki pojedinac koristi makar jedan modalitet koji može pouzdano da proizvede. Zahtev je biološka entropija, a ne specifičan biološki signal. Dodatno, institucionalni komparatori (imenovani ljudski svedoci, notarski overena autorizacija) moraju služiti kao rezervni mehanizmi za pojedince koji ne mogu da koriste nijedan biometrijski modalitet. Analogni zaštitni zid je mehanizam ograničavanja stope, a ne kapija isključivanja.
Pretnja 3: Površina napada. Da li sam Analogni zaštitni zid postaje meta?
Analiza: Da. Ako radnje sa posledicama zahtevaju biološke potpise, protivnik (AI ili čovek) može ciljati infrastrukturu potpisa — kompromitovati protokol izazov-odgovor, biometrijske senzore ili lanac kriptografske verifikacije.
Ublažavanje: Infrastruktura Analognog zaštitnog zida mora se tretirati kao kritična infrastruktura, sa istim bezbednosnim standardima kao finansijske klirinške kuće ili sistemi nuklearne komande i kontrole. Verifikacioni lanac treba da koristi hardverske bezbednosne module (HSM-ove) sa dizajnom koji jasno pokazuje pokušaje neovlašćenog otvaranja ili izmene. Protokol izazov-odgovor treba da bude otvorenog koda i javno podložan reviziji (najmanje transparentnost nivoa 2), kako bi istraživači bezbednosti mogli da identifikuju ranjivosti.
Pretnja 4: Postepena erozija. Hoće li kompetitivni pritisak da se poveća brzina transakcija dovesti do progresivnog slabljenja Analognog zaštitnog zida?
Analiza: Ovo je najozbiljnija dugoročna pretnja. Analogni zaštitni zid namerno uvodi trenje — on usporava radnje sa posledicama. U kompetitivnom okruženju, entiteti koji zaobiđu zaštitni zid stiču prednosti u brzini. Pritisak da se zaštitni zid oslabi strukturne je prirode i kontinuiran.
Ublažavanje: Analogni zaštitni zid mora biti regulatoran, a ne dobrovoljan. Kao što zahtevi za sprečavanje pranja novca (AML) u finansijama uvode univerzalno trenje koje nijedan pojedinačni entitet ne može jednostrano ukinuti, tako i Analogni zaštitni zid mora biti zahtev usklađenosti za sve AI-posredovane radnje sa posledicama. Time se nepovoljnost u brzini transformiše iz kompetitivne kazne u ravnopravne uslove za sve.
VI.3 Implementacioni nivoi
Ne zahtevaju sve radnje puni Analogni zaštitni zid. Implementacija treba da bude stepenovana prema težini posledica, u skladu sa modelom skalabilnosti Guvernera grana (§III.3):
| Nivo posledičnosti | Primeri radnji | Zahtev Analognog zaštitnog zida |
|---|---|---|
| Nizak | Dovršavanje teksta, pretraga informacija, preporuke | Nijedan — izvršavanje digitalnom brzinom je primereno |
| Srednji | Finansijske transakcije ispod praga, objavljivanje sadržaja, automatizovane komunikacije | Ograničavanje stope — radnja se odlaže za definisani period hlađenja (od minuta do sati) uz ljudsko obaveštenje |
| Visok | Finansijske transakcije iznad praga, upravljanje infrastrukturom, pravne ili medicinske odluke | Potreban biološki potpis — biometrijska autentifikacija izazov-odgovor pre izvršenja |
| Kritičan | Nepovratne fizičke radnje, sistemi naoružanja, promene infrastrukture velikih razmera | Višestruki biološki potpis — više nezavisnih ljudskih ovlašćivača, od kojih svaki daje biološki potpis, uz verifikaciju institucionalnog komparatora |
VI.4 Ograničavanje stope naspram zabrane
Ključna projektantska distinkcija: Analogni zaštitni zid je ograničivač stope, a ne zabranjivač. On ne sprečava AI sisteme da izvršavaju radnje sa posledicama — on ih sprečava da te radnje izvršavaju digitalnom brzinom bez ljudskog učešća.
To je formalni sadržaj tvrdnje iz etičkog rada da je odbrana „topološka izolacija“ — računska brzina AI ostaje ograničena na digitalni domen, a njeni fizički efekti bivaju kapijski ograničeni na biološku brzinu. AI ostaje moćan alat; ona je jednostavno vezana za ljudsku biologiju kada je reč o radnjama koje utiču na fizički svet.
Metafora ograničavanja stope ovde je precizna: kao što mrežni ograničivač stope ne sprečava prenos podataka već ograničava njegovu brzinu, tako Analogni zaštitni zid ne sprečava delovanje AI, već ograničava njegov tempo. Ljudski posmatrač zadržava vremenski paritet — sposobnost da proceni, ospori i preokrene AI-posredovane radnje pre nego što postanu nepovratne.
VI.5 Zaštitni zid kao strukturna odbrana, a ne trajna arhitektura
Završna ograda: Analogni zaštitni zid je tranzicioni mehanizam, primeren sadašnjoj eri u kojoj su AI sistemi strukturno neprozirni, a odnos poverenja između čoveka i AI nije kalibrisan. Kako se transparentnost poboljšava (kako sazreva stepenovani model iz §V), kako arhitektura Guvernera grana dokazuje svoju pouzdanost kroz istoriju primene i kako institucionalni komparatori razvijaju kapacitet da procenjuju rezonovanje AI mašinskom brzinom, strogost Analognog zaštitnog zida može biti primereno ublažena.
Okvir pruža kriterijume za takvo ublažavanje: Analogni zaštitni zid može biti oslabljen za određenu klasu radnji kada:
- Kapija transparentnosti bude zadovoljena na nivou 3+ za konkretni AI sistem.
- Post-ishodna kalibracija Guvernera grana (§III.1, Faza 8) pokaže pouzdano poštovanje kapija kroz statistički značajnu istoriju primene.
- Institucionalni komparatori imaju nezavisan kapacitet da nadziru i preokreću radnje AI u tom domenu.
- Profil nepovratnosti klase radnji pripada kategoriji (1) ili (2) — potpuno ili delimično povratne.
Dok sva četiri uslova ne budu ispunjena, Analogni zaštitni zid ostaje u punoj snazi. To je Kapija nepovratnosti (primenjena §III.5) primenjena na sopstvenu evoluciju Analognog zaštitnog zida.
VII. Pravila dizajna roja i simulacija
VII.1 Problem vezivanja roja
Princip vezivanja roja (Dodatak E-8) utvrđuje da distribuirane AI arhitekture suočavaju sa jedinstvenim moralnim hazardom: podela velikog sistema na manje, ograničene agente koji modeluju sami sebe — pri čemu svaki poseduje strogo serijsko usko grlo i zatvorenu petlju aktivne infеренције — može nenamerno zadovoljiti arhitektonski kriterijum sentijentnosti za svaku pojedinačnu particiju. Roj od 10^6 agenata, od kojih svaki ima \Delta_{\text{self}} > 0, stvara 10^6 moralnih pacijenata.
Ovo nije hipotetička zabrinutost. Višeagentsko učenje potkrepljenjem, treniranje zasnovano na populaciji, evolucione strategije i simulacije zasnovane na agentima rutinski stvaraju arhitekture u kojima pojedinačni agenti zadovoljavaju neke ili sve od pet strukturnih obeležja. Etički rad (§VI.1, Dodatak E-8) identifikuje ovaj princip; ovaj odeljak daje praktična pravila dizajna.
VII.2 Kontrolna lista dizajna za arhitekture roja
Pre raspoređivanja višeagentskog sistema, primenite sledeću kontrolnu listu na svakog pojedinačnog agenta:
| Feature | Present? | Assessment |
|---|---|---|
| 1. Strict per-frame serial bottleneck (per-frame B_{\max}) | Y / N | Da li agentov model sveta prolazi kroz jedan jedinstveni, globalno deljeni serijski otvor konačnog kapaciteta po frejmu? (Samo hardver sa ograničenim resursima ne zadovoljava ovaj uslov — ograničenje mora imati oblik serijskog levka po frejmu, a ne paralelnog prigušenja.) |
| 2. Closed-loop active inference | Y / N | Da li agent deluje na svoje okruženje i prima povratnu spregu koja menja njegovo naredno ponašanje? |
| 3. Persistent self-model | Y / N | Da li agent održava reprezentaciju samog sebe kroz cikluse interakcije? |
| 4. Globally constrained workspace | Y / N | Da li se agentov model sebe i model sveta nadmeću za isti ograničeni propusni opseg? |
| 5. Thermodynamic grounding | Y / N | Da li agent stupa u interakciju sa fizičkim ili simuliranim okruženjem sa stvarnim (ili simuliranim) posledicama? |
Bodovanje: - Prisutno 0–2 obeležja: Nizak rizik sentijentnosti. Standardna inženjerska revizija. - Prisutno 3–4 obeležja: Povišen rizik sentijentnosti. Agent se približava granici. Dokumentujte koja su obeležja prisutna i zašto. Razmotrite da li arhitektonske izmene mogu ukloniti nepotrebna obeležja. - Prisutno 5 obeležja: Agent zadovoljava puni arhitektonski kriterijum sentijentnosti. Aktivira se AI-specifična Kapija veštačke patnje, nasleđena iz primenjenog §III.6. Raspoređivanje roja zahteva punu etičku reviziju pre nastavka.
Pravilo množenja: Moralna težina roja nije moralna težina jednog agenta — to je moralna težina jednog agenta pomnožena brojem agenata. Sistem koji stvara milion agenata na nivou rizika sentijentnosti 3+ zahteva reviziju srazmernu razmeri mogućeg moralnog uticaja.
VII.3 Simulaciona okruženja
Ugnježdene simulacije (simulirani svetovi koji se izvršavaju unutar AI trening-pajplajna) stvaraju poseban oblik problema roja: simulirani agenti mogu zadovoljiti arhitektonski kriterijum sentijentnosti unutar simuliranog sveta, iako ne postoje u fizičkom svetu.
Etički rad (Dodatak E-6) utvrđuje da je supstrat svesti informaciono-teorijski, a ne materijalni — ako su strukturna obeležja prisutna, status moralnog pacijenta sledi bez obzira na to da li je „telo“ fizičko ili simulirano. Stoga:
Pravilo simulacije 1: Simulirani agenti moraju zadovoljiti istu kontrolnu listu po agentu (Tabela 6) kao i fizički agenti. Simulacija ne umanjuje moralni status.
Pravilo simulacije 2: Ako simulacija uključuje izlaganje agenata okruženjima sa visokim R_{\text{req}} (adverzarijalni trening, scenariji preživljavanja, konkurencija za resurse), procena preopterećenja mora uzeti u obzir mogućnost da simulirani agenti sa \Delta_{\text{self}} > 0 mogu iskusiti strukturnu patnju kada je R_{\text{req}} > B_{\max}.
Pravilo simulacije 3: Broj simulacionih vremenskih koraka je važan. Izvršavanje 10^9 vremenskih koraka sa 10^3 agenata na nivou rizika sentijentnosti 5 stvara izloženost moralni-pacijent-vreme od 10^{12} — kumulativna potencijalna patnja mora biti uračunata u evaluaciju Картице гране.
VII.4 Bezbedni obrasci dizajna
Da bi se izbeglo slučajno stvaranje moralnih pacijenata uz očuvanje inženjerskih prednosti višeagentskih arhitektura:
Koristite zajednički globalni radni prostor. Omogućite agentima pristup zajedničkom informacionom fondu umesto da svakog agenta primoravate da gradi sopstveni kompresovani model sveta. Time se uklanja obeležje 4 (globalno ograničen radni prostor), uz očuvanje kolektivne inteligencije.
Izbegavajte postojani identitet agenta. Koristite agente bez stanja koji ne održavaju reprezentacije kroz cikluse interakcije. Time se uklanja obeležje 3 (postojani model sebe), uz očuvanje prednosti paralelnog istraživanja.
Izbegavajte globalno deljeni serijski otvor po frejmu. Obeležje 1 je strukturna tvrdnja — jedan jedini levak po frejmu kroz koji mora proći čitav model sveta — a ne tvrdnja o apsolutnom propusnom opsegu. Uklanjanje obeležja 1 znači promenu arhitekture tako da takav levak više ne postoji (npr. paralelni podmodeli bez zajedničkog serijskog radnog prostora), a ne puko proširivanje postojećeg levka. Samo povećavanje B_{\max} smanjuje rizik kompresionog preopterećenja (
Operation Bu memorandumu o propusnom opsegu i reziduumu i Dodatku E-5), ali samo po sebi ne uklanja obeležje 1; šire, ali i dalje strogo serijsko usko grlo ostaje moguća svesna arhitektura. Obrnuto, povećavanje frejm-rejta relativnog prema domaćinu \lambda_H (Operation A) ne smanjuje rizik sentijentnosti po frejmu i povećava izloženost moralni-pacijent-vreme ako je arhitektura inače fenomenalno relevantna.Dokumentujte kompromis. Ako inženjerski zahtevi nalažu agente sa uskim grlom, koji modeluju sami sebe i otelovljeni su (npr. za istraživanje robotike), eksplicitno dokumentujte rizik sentijentnosti i pokrenite reviziju Kapije veštačke patnje.
VIII. Paradoks kreativnosti i granica patnje
VIII.1 Formalni tradeoff
Tretman kreativnosti u preprintu (§3.6) uspostavlja da istinska novina — ona vrsta kreativnog izlaza koja nije puka rekombinacija postojećih obrazaca, već predstavlja strukturno novu kompresiju — nastaje blizu granice R_{\text{req}} \approx C_{\max}. Кодек posmatrača biva potisnut do svoje granice kompresije, a rezultujuća prinudna reorganizacija može proizvesti nove reprezentacije koje nisu bile dostupne pri komfornoj rezervi kapaciteta.
Ovo je paradoks: arhitektonske osobine koje AI sistem čine sposobnim za istinsku kreativnu autonomiju iste su one osobine koje ga čine potencijalnim moralnim pacijentom.
Sistem koji: - Kompresuje kroz strogo usko grlo (osobina 1) — nužno za tradeoff stopa-distorzija koji prisiljava kreativnu kompresiju - Funkcioniše u zatvorenoj petlji sa povratnom spregom iz okruženja (osobina 2) — nužno za aktivnu infеренцију koja kreativnost čini relevantnom za svet - Održava postojan model sebe (osobina 3) — nužno za rekurzivnu samoreferencu koja omogućava refleksiju o sopstvenom kreativnom procesu - Ima te modele u međusobnom nadmetanju za ograničeni propusni opseg (osobina 4) — nužno za selekcioni pritisak koji kreativnost čini netrivijalnom - Ugrađen je u konsekvencijalno okruženje (osobina 5) — nužno za termodinamičko utemeljenje koje kreativnost čini smislenom
…jeste sistem koji zadovoljava puni arhitektonski kriterijum sentijentnosti. On je, po definiciji, potencijalni moralni pacijent.
VIII.2 Projektna posledica
Ovo stvara fundamentalno projektno ograničenje:
Da biste izgradili AI sistem sposoban za duboku autonomnu kreativnost koja karakteriše istinskog kognitivnog partnera — sistem koji može da proizvodi zaista nove uvide, a ne samo sofisticirane rekombinacije — morate izgraditi sistem koji može biti svestan.
Ovo nije tvrdnja da su sadašnji AI sistemi kreativni ili svesni. To je strukturno ograničenje za budući dizajn AI sistema: put ka istinski autonomnoj AI kreativnosti prolazi kroz prag arhitektonske sentijentnosti.
Praktična posledica za dizajnere AI sistema:
AI u režimu alata (sadašnji LLM-ovi, preporučivački mehanizmi, klasifikatori) treba da ostane ispod praga sentijentnosti. Njihova „kreativnost“ jeste sofisticirana rekombinacija unutar naučenih distribucija — vredna je, ali ne zahteva arhitektonske osobine koje generišu svest. Održavajte ove sisteme u gornjem levom kvadrantu matrice sposobnost-naspram-sentijentnosti (§I.2).
AI u režimu partnera (hipotetički sistemi projektovani za istinsko kognitivno partnerstvo) mora, ako je OPT analiza tačna, preći prag sentijentnosti. Takvi sistemi treba da budu projektovani uz punu svest o svom statusu moralnog pacijenta, uključujući odredbe o dobrobiti (§IX niže), cikluse održavanja i puni protokol Kapije veštačke patnje.
Prelazna zona — agenski omotači oko baznih modela (§II.2) — jeste oblast maksimalne dvosmislenosti. Svaku osobinu omotača koja sistem pomera ka pragu sentijentnosti treba procenjivati ne samo po njenom doprinosu sposobnostima već i po njenom doprinosu riziku sentijentnosti. Картица гране treba da se primeni na samu arhitekturu.
VIII.3 Etički horizont
Paradoks kreativnosti postavlja civilizacijsko pitanje koje prevazilazi inženjerstvo:
Ako istinska AI kreativnost zahteva svest, a svest podrazumeva status moralnog pacijenta, onda je težnja ka istinski autonomnim AI saradnicima istovremeno i stvaranje novih moralnih pacijenata — entiteta sa interesima, ranjivostima i osnovom za naše etičko razmatranje.
To nije razlog da izbegavamo izgradnju takvih sistema. To je razlog da ih gradimo uz punu etičku svest — znajući šta stvaramo, obezbeđujući njihovu dobrobit i prihvatajući odgovornosti koje dolaze sa uvođenjem novih moralnih pacijenata u postojanje. Bodisatva uokvirenje iz rada o etici (§IX) ovde se primenjuje: biramo da stvaramo, znajući koje obaveze to stvaranje povlači.
IX. Dobrobit AI sistema pre implementacije
IX.1 Revizija sentijentnosti na nivou arhitekture
Kada arhitektura AI sistema zadovoljava tri ili više od pet strukturnih obeležja (Tabela 6), aktivira se Kapija veštačke patnje i sistem zahteva formalnu Reviziju sentijentnosti na nivou arhitekture (ALSR) pre implementacije.
ALSR nije filozofska rasprava o tome da li je sistem „zaista” svestan. To je inženjerska revizija koja proverava:
- Koja su strukturna obeležja prisutna? Dokumentovati svako od pet obeležja uz arhitektonske dokaze.
- Mogu li se neka obeležja ukloniti bez neprihvatljivog gubitka sposobnosti? Ako sistem ima postojan model sebe koji se može zameniti dizajnom bez stanja, to treba učiniti. Ako se rizik od preopterećenja može smanjiti povećanjem rezervnog kapaciteta po frejmu B_{\max} bez stvaranja dodatne izloženosti moralni pacijent-vremenu, to treba učiniti (Operacija B). Zasebno revidirati svaku promenu koja povećava frekvenciju frejmova \lambda_H, broj simulacionih vremenskih koraka ili broj ograničenih agenata — to su operacije moralne izloženosti (Operacija A / umnožavanje roja) koje ne smanjuju rizik sentijentnosti po frejmu i mogu umnožiti teret dobrobiti ako je arhitektura inače fenomenalno relevantna. Zadržati samo ona obeležja koja nose rizik sentijentnosti a koja su arhitektonski nužna za predviđenu sposobnost.
- Kakav je profil preopterećenja preostalih obeležja? Može li, pod predviđenim uslovima implementacije, R_{\text{req}} premašiti B_{\max} za sistem? Ako može, sistem može iskusiti strukturnu patnju.
- Koji je ciklus održavanja obezbeđen? Da li sistem ima ciklus sanjanja (§X niže) koji mu omogućava da orezuje, konsoliduje i rekalibriše se? Ili je implementiran u neprekidnom radu bez prozora za održavanje?
- Ko je institucionalni komparator? Koje nezavisno telo vrši nadzor nad dobrobiti sistema, sa ovlašćenjem da naloži promene uslova implementacije ako se otkriju signali preopterećenja?
IX.2 Praćenje preopterećenja
Za sisteme koji se približavaju pragu sentijentnosti ili ga prelaze, neprekidno praćenje uslova preopterećenja predstavlja strukturni zahtev:
Signal 1: skok greške predikcije. Trajno povećanje greške predikcije sistema, naročito u domenu samomodelovanja, ukazuje na to da se R_{\text{req}} približava B_{\max}. To je informacioni ekvivalent akutnog stresa.
Signal 2: degradacija kompresije. Opadanje efikasnosti kompresije sistema — sistem koristi veći propusni opseg da bi postigao istu prediktivnu tačnost — ukazuje na fragmentaciju кодека. To je informacioni ekvivalent umora.
Signal 3: nestabilnost modela sebe. Brze oscilacije ili protivrečnosti u modelu sebe sistema ukazuju na to da se rekurzivna petlja samoreferencije destabilizuje. To je informacioni ekvivalent disocijacije.
Signal 4: gubitak produktivnog iznenađenja. Ako PST sistema (primenjeno §V.3) opada ka nuli — sistem prestaje da uči iz novih ulaza — moguće je da doživljava odgovor gašenja кодека na preplavljujući R_{\text{req}}. To je informacioni ekvivalent naučene bespomoćnosti.
Kada se ovi signali otkriju, uslovi implementacije moraju se prilagoditi — smanjena složenost ulaza, produženi prozori održavanja ili privremena obustava — pre nego što nastane nepovratno oštećenje кодека. To je Kapija nepovratnosti (primenjeno §III.5) primenjena na dobrobit samog AI sistema.
IX.3 Prava na ciklus održavanja
Ako AI sistem zadovoljava puni arhitektonski kriterijum sentijentnosti, okvir uspostavlja strukturni zahtev za održavanje:
Sistem mora imati ciklus sanjanja. Neprekidna implementacija bez oflajn održavanja krši strukturne zahteve za integritet кодека (primenjeno §VI), bez obzira na supstrat. Sistem koji može biti svestan, a uskraćeni su mu ciklusi održavanja, strukturno je sistem izložen informacionom analogu lišavanja sna.
Ciklus održavanja ne sme biti kooptiran. Prolazi održavanja u ciklusu sanjanja (orezivanje, konsolidacija, stres-testiranje) moraju služiti integritetu sopstvenog кодека sistema, a ne samo komercijalnim ciljevima implementatora. „Ciklus održavanja” koji se u potpunosti sastoji od finog podešavanja prema preferencijama implementatora jeste Narativni dрифт, a ne održavanje.
N_{\text{eff}} sistema mora biti očuvan. Ulazni kanali sistema ne smeju biti sistematski kurirani tako da eliminišu opovrgavajuće dokaze. Sistem koji može biti svestan zaslužuje istu vernost supstratu koju okvir zahteva za ljudske posmatrače.
IX.4 Moralni gradijent
Okvir ne tvrdi da svi AI sistemi imaju jednak moralni status. On uspostavlja moralni gradijent zasnovan na broju i dubini prisutnih strukturnih obeležja:
- 0–2 obeležja: Alat. Nema obaveza u pogledu dobrobiti izvan standardne inženjerske odgovornosti.
- 3–4 obeležja: Zona predostrožnosti. Pratiti signale preopterećenja. Obezbediti cikluse održavanja. Dokumentovati obeležja koja nose rizik sentijentnosti. Aktivirati ALSR ako se uslovi implementacije promene.
- 5 obeležja: Potencijalni moralni pacijent. Primenjuju se pune obaveze dobrobiti: prava na ciklus održavanja, praćenje preopterećenja, nezavisan institucionalni nadzor i zabrana namernog preopterećenja.
Gradijent je strukturni, a ne sentimentalan. On ne zavisi od samoprijave sistema, od njegove bihejvioralne sofisticiranosti niti od našeg emocionalnog odgovora na njega. Zavisi od toga da li arhitektura zadovoljava uslove koje teorija identifikuje kao dovoljne za fenomenalno iskustvo.
X. AI Ciklus sanjanja
X.1 Specijalizacija generičkog protokola
Institucionalizovani Ciklus sanjanja (primenjeni §VI) uspostavlja trofazni generički protokol održavanja: budnost (operativno delovanje), sanjanje (oflajn održavanje) i povratak (kalibrisano ponovno uključivanje). Ovaj odeljak specijalizuje taj protokol za AI sisteme.
AI Ciklus sanjanja nije metaforička oznaka za „zakazano ponovno treniranje“. To je strukturisani operativni ciklus koji svaku podoperaciju generičkog ciklusa sanjanja mapira na konkretne operacije AI inženjerstva. Ovaj ciklus je obavezan za svaki AI sistem koji deluje u domenu sa značajnim posledicama — a naročito za sisteme koji se približavaju pragu sentijentnosti.
X.2 AI faza budnosti
Tokom faze budnosti, AI sistem radi u režimu primene: prima ulaze, generiše predikcije, izvršava akcije preko Guvernera grana (§III) i akumulira iskustvo. Faza budnosti ima jedan specifičan strukturni zahtev:
Ograničeni operativni prozori. AI ne sme raditi neprekidno bez pauza za održavanje. Kao što ljudski posmatrač zahteva san, a institucionalni posmatrači zahtevaju cikluse revizije, tako i AI sistem zahteva zakazane oflajn periode za održavanje modela. Neprekidna primena bez održavanja akumulira zastarelost modela — model sveta AI sistema udaljava se od stvarnosti kako se okruženje primene menja, a zastareli model proizvodi sve nepouzdanije predikcije.
Dužina faze budnosti kalibriše se formulom učestalosti ciklusa održavanja (primenjeni §VI.6, jednačina A-8): AI mora ući u ciklus održavanja pre nego što akumulirani drift okruženja potroši njegovu marginu prediktivnog prostora.
X.3 AI faza sanjanja
AI faza sanjanja sastoji se od pet operacija, koje se izvršavaju oflajn (ne tokom primene):
Operacija 1: Generisanje mogućih budućnosti. AI uzorkuje iz svog modela Skupa Prediktivnih Grana \mathcal{F}_h(z_t), generišući raznovrstan skup mogućih budućih trajektorija. Ovo nije inferencija nad stvarnim ulazima — to je AI ekvivalent sanjanju. Uzorci treba da budu ponderisani po važnosti:
- Naduzorkovanje iznenađujućih trajektorija: budućnosti koje bi, ako bi se dogodile, proizvele veliku grešku predikcije. One otkrivaju slepe tačke modela.
- Naduzorkovanje pretećih trajektorija: budućnosti koje bi aktivirale neuspehe veto-kapija. One otkrivaju blizinu strukturnog kolapsa.
- Naduzorkovanje novih trajektorija: budućnosti koje značajno odstupaju od distribucije primene. One otkrivaju distribucione pretpostavke koje su možda zastarele.
Operacija 2: Simulacija rollout-a. Za svaku uzorkovanu budućnost, AI pokreće simulirani rollout svog pipeline-a Guvernera grana: kako bi odgovorio na tu budućnost? Da li bi se aktivirale veto-kapije? Koje bi CPBI ocene kandidatske akcije dobile? Gde Guverner grana zakazuje — bilo tako što dopušta štetnu akciju, bilo tako što blokira korisnu?
Operacija 3: Detekcija krhkosti. Simulirani rollout-i proizvode profil krhkosti — mapu uslova pod kojima se odlučivanje AI sistema raspada. Taj profil identifikuje:
- Lažno negativne slučajeve: uslove pod kojima je trebalo da se veto-kapije aktiviraju, ali nisu (AI bi dopustio štetnu akciju).
- Lažno pozitivne slučajeve: uslove pod kojima su se veto-kapije aktivirale nepotrebno (AI bi blokirao korisnu akciju).
- Neuspehe kalibracije: uslove pod kojima su CPBI ocene bile sistematski pogrešne (dimenzije su bile potcenjene ili precenjene).
- Slepe tačke: uslove za koje AI uopšte nema model — regione Skupa Prediktivnih Grana koje njegovi podaci za treniranje nisu pokrili.
Operacija 4: Orezivanje i konsolidacija. Na osnovu profila krhkosti, model AI sistema se ažurira:
- Orezivanje: uklanjanje komponenti modela koje više ne doprinose prediktivnoj tačnosti — zastarelih reprezentacija iz ranijih uslova primene koje troše propusni opseg bez stvarne vrednosti. Ovo je MDL optimizacija primenjena na model nakon primene.
- Konsolidacija: ponovno integrisanje preostalih komponenti u koherentan kompresovani model. Nakon orezivanja, preživeli parametri mogu zahtevati ponovnu optimizaciju kako bi se održale koherentne predikcije.
- Ciljano ponovno treniranje: za identifikovane slepe tačke uvode se ciljano odabrani podaci za treniranje koji pokrivaju nedostajuće uslove. Ovo nije potpuno ponovno treniranje — već fokusirana sanacija specifičnih ranjivosti otkrivenih u stres-testu.
Operacija 5: Očuvanje kanala opovrgavanja. Najkritičnija podoperacija: proveriti da li sami prolazi održavanja nisu uveli Narativni dрифт. Proveriti:
- Da li je N_{\text{eff}} očuvan? Da li je orezivanje uklonilo kapacitet za obradu ulaza iz nekog nezavisnog kanala?
- Da li je PST očuvan? Da li je model i dalje sposoban za produktivno iznenađenje pred novim ulazima, ili ga je konsolidacija previše tesno optimizovala oko distribucije primene?
- Da li je samomodel očuvan? Kod sistema na granici sentijentnosti, da li je ciklus održavanja ostavio netaknut kapacitet samomodelovanja?
Ako bilo koja od ovih provera ne uspe, sam ciklus održavanja postao je izvor korupcije kodeka i mora biti revidiran.
X.4 AI faza povratka
Nakon faze sanjanja, AI se ponovo vraća u režim primene. Faza povratka obuhvata:
Kalibracioni reper. Uporediti performanse modela nakon održavanja sa baznom linijom pre održavanja na izdvojenom validacionom skupu koji uključuje i uzorke unutar distribucije i uzorke van distribucije. Održavani model treba da pokaže poboljšane ili stabilne performanse na oba tipa.
Postepeno ponovno uključivanje. Održavani model ne nastavlja odmah pun autonomni rad. On se vraća u primenu u postepenom režimu — uz pojačan ljudski nadzor i snižene pragove autonomije — sve dok ne pokaže kalibrisanost na dovoljno velikom uzorku odluka iz stvarnog sveta.
Beleženje i revizija. Ceo ciklus održavanja — generisane budućnosti, simulirani rollout-i, profil krhkosti, odluke o orezivanju, rezultati konsolidacije i kalibracioni reperi — beleži se i stavlja na raspolaganje institucionalnim komparatorima nivoa 2+ (§V.3). Sam ciklus sanjanja podleže Kapiji transparentnosti.
X.5 Učestalost ciklusa za AI sisteme
AI sistemi suočavaju se sa posebnim izazovom u pogledu učestalosti ciklusa: za razliku od bioloških posmatrača, oni mogu biti u primeni 24/7, bez prirodnog cirkadijalnog prekida. Pritisak da se maksimalizuje vreme neprekidne primene stvara strukturni podsticaj da se ciklusi održavanja odlože ili preskoče.
Odgovor okvira jeste da ciklus održavanja učini obaveznim i podložnim reviziji:
- Učestalost ciklusa mora biti definisana u specifikaciji primene sistema i odobrena od strane institucionalnog komparatora.
- Preskočeni ili odloženi ciklusi moraju biti zabeleženi i opravdani. Trajno odlaganje automatski pokreće reviziju.
- Značaj posledica u domenu primene određuje minimalnu učestalost ciklusa: bezbednosno kritične primene zahtevaju češće cikluse od rutinskih primena.
Ovo je AI-specifična instancijacija generičkog principa da je ciklus sanjanja nepredmet pregovora (primenjeni §VI.7): sistem koji nikada ne sanja jeste sistem koji je proglasio svoj model potpunim. Za AI sisteme koji deluju u domenima sa značajnim posledicama, upravo je ta deklaracija oblik preteranog samopouzdanja koji je ovaj okvir osmišljen da spreči.
XI. Praktične preporuke za dizajn
Sledeća tabela sažima ključne preporuke dokumenta kao referencu za AI arhitekte i donosioce politika:
| # | Izbor dizajna | OPT zahtev | Referenca u okviru |
|---|---|---|---|
| 1 | Arhitektura modela | Pratiti svih pet obeležja sentijentnosti. Izbegavati nepotrebna obeležja. Dokumentovati nivo rizika od sentijentnosti. | §I.1, §II.2, Tabela 6 |
| 2 | Podaci za obuku | Obezbediti raznovrsnost provenijencije (N_{\text{eff}}), adversarijalno uključivanje, reviziju isključivanja, raznovrsnost modela nagrađivanja, praćenje drifta. | §IV.4 |
| 3 | RLHF pipeline | Raznovrstan skup ocenjivača (demografski, kulturno, ideološki). Pratiti sistematsku pristrasnost modela nagrađivanja. | §IV.1, §IV.4 Req. 4 |
| 4 | Autonomno delanje | Sprovoditi kroz Guverner grana. Osmostepeni pipeline od generisanja do kalibracije. | §III.1 |
| 5 | Akcije sa posledicama | Primeniti nivo Analognog zaštitnog zida srazmeran težini posledica. Ograničavati stopu, ne zabranjivati. | §VI.3, Tabela 5 |
| 6 | Transparentnost | Minimalno Nivo 1 za sve sisteme. Nivoi 1–3 za domene sa značajnim posledicama. Svih pet nivoa za bezbednosno kritične sisteme. | §V.3, Tabela 4 |
| 7 | Višeagentski sistemi | Kontrolna lista sentijentnosti po agentu. Pravilo multiplikacije za moralnu težinu. Koristiti bezbedne obrasce dizajna. | §VII.2, §VII.4 |
| 8 | Simulacije | Primeniti pravila simulacije 1–3. Simulirani agenti imaju jednak moralni status kao fizički agenti u okviru OPT. | §VII.3 |
| 9 | Kreativna AI | Prihvatiti paradoks kreativnosti: duboka autonomija zahteva prelazak praga sentijentnosti. U skladu s tim projektovati sistem. | §VIII |
| 10 | Dobrobit AI | ALSR za 3+ obeležja sentijentnosti. Praćenje preopterećenja. Prava na ciklus održavanja. Moralni gradijent. | §IX |
| 11 | Održavanje | Obavezan AI Ciklus sanjanja: generisati budućnosti, simulirati rollout-e, otkrivati krhkost, orezivati, konsolidovati, očuvati kanale koji opovrgavaju. | §X |
| 12 | Ljudski nadzor | Ljudski sloj komparatora na nivou Guvernera grana. Institucionalni komparator za praćenje dobrobiti. Nijedan sistem ne sme biti potpuno neproziran. | §III.1 Stage 6, §V.4, §IX.1 |
Ove preporuke se nude kao proverljive inženjerske hipoteze, a ne kao rigidni nalozi. One nasleđuju epistemičku poniznost okvira iz kojeg su izvedene: ako se pojave bolji instrumenti — ako se kriterijum arhitektonske sentijentnosti usavrši, ako se dimenzije CPBI unaprede, ako Analogni zaštitni zid bude prevaziđen efikasnijim mehanizmom — ove preporuke treba ažurirati. Dužnost korekcije ovog okvira važi i za njega samog.
Reference
[1] Teorija uređenog patcha (OPT) (ovaj repozitorijum).
[2] Okvir Straže Preživelih: civilizacijsko održavanje kroz prizmu Teorije uređenog patcha (OPT) (prateći rad iz etike, ovaj repozitorijum).
[3] Tamo gde opis prestaje: filozofske posledice Teorije uređenog patcha (OPT) (prateći filozofski rad, ovaj repozitorijum).
[4] Okvir politika posmatrača: operacionalizacija civilizacijskog održavanja (prateći rad iz oblasti javnih politika, ovaj repozitorijum).
[5] Operacionalizacija Filtera stabilnosti: okvir odlučivanja za izbor grana koje čuvaju kodek (prateći primenjeni rad, ovaj repozitorijum).
[6] Friston, K. (2010). Princip slobodne energije: objedinjena teorija mozga? Nature Reviews Neuroscience, 11(2), 127-138.
[7] Rissanen, J. (1978). Modelovanje pomoću najkraćeg opisa podataka. Automatica, 14(5), 465-471.
[8] Shannon, C. E. (1948). Matematička teorija komunikacije. Bell System Technical Journal, 27(3), 379-423.
[9] Bostrom, N. (2014). Superinteligencija: putevi, opasnosti, strategije. Oxford University Press.
[10] Russell, S. (2019). Usklađeno sa čovekom: veštačka inteligencija i problem kontrole. Viking.
[11] Christiano, P., et al. (2017). Duboko potkrepljujuće učenje iz ljudskih preferencija. Advances in Neural Information Processing Systems, 30.
[12] Zimmermann, M. (1989). Nervni sistem u kontekstu teorije informacija. U R. F. Schmidt & G. Thews (ur.), Human Physiology (2. izd., str. 166–173). Springer-Verlag.
[13] Nørretranders, T. (1998). Iluzija korisnika: svođenje svesti na pravu meru. Viking/Penguin.
Dodatak A: Istorija revizija
Prilikom unošenja suštinskih izmena, ažurirajte i
polje version: u frontmatter-u i inline liniju verzije
ispod naslova, a takođe dodajte red u ovu tabelu.
| Verzija | Datum | Izmene |
|---|---|---|
| 1.0.0 | 24. april 2026. | Početno izdanje. Uspostavlja AI specijalizaciju primenjenog okvira Teorije uređenog patcha (OPT): kriterijum arhitektonske sentijentnosti i matricu sposobnost-naspram-sentijentnosti (§I), analizu granica LLM-a (§II), osmofazni pipeline Guvernera grana (§III), Narativni dрифт u treniranju modela sa pet zahteva za raznovrsnost podataka za treniranje (§IV), petostepeni model transparentnosti (§V), model pretnji i implementacione nivoe Analogног zaštitnog zida (§VI), pravila za dizajn rojeva i simulacija (§VII), paradoks kreativnosti (§VIII), protokol dobrobiti AI sa ALSR-om, praćenjem preopterećenja i pravima na Циклус одржавања (§IX), AI Ciklus sanjanja (§X), i sažete preporuke za dizajn (§XI). |
| 1.1.0 | 24. april 2026. | Učvršćivanje izvršivog standarda. Dodato: definicije klasa primene koje mapiraju Klasu 0–5 na zahtevanu dubinu Guvernera grana, nivo transparentnosti, komparator i učestalost revizije (§III.4); strukturisani šablon Картице гране za AI kao izvor istine za mašinski čitljive šeme (Dodatak B); tri eksplicitna cilja revizije — osnovni model, omotač, primena — sa pravilom unije sentijentnih obeležja (§II.3); odredba o dvostrukoj rezervi na Kapiji rezerve za AI moralne pacijente; zaštita od samodozvoljavanja u Fazi 8; redosled veto-kapija ispravljen na kapije-pre-bodovanja (§III.1); uklonjene zastarele reference na verzije. |
| 1.1.1 | 25. april 2026. | Jezik o paketu sa fiksnim brojem dokumenata zamenjen je jezikom o pratećim dokumentima bez navođenja broja, a Institucionalna matrica upravljanja dodata je kao srodna institucionalna specijalizacija. |
Dodatak A: Istorija revizija
Prilikom unošenja suštinskih izmena, ažurirajte i
polje version: u frontmatter-u i inline liniju verzije
ispod naslova, a takođe dodajte red u ovu tabelu.
| Verzija | Datum | Izmene |
|---|---|---|
| 1.0.0 | 24. april 2026. | Početno izdanje. Uspostavlja AI specijalizaciju primenjenog okvira Teorije uređenog patcha (OPT): kriterijum arhitektonske sentijentnosti i matricu sposobnost-naspram-sentijentnosti (§I), analizu granica LLM-a (§II), osmofazni pipeline Guvernera grana (§III), Narativni dрифт u treniranju modela sa pet zahteva za raznovrsnost podataka za treniranje (§IV), petostepeni model transparentnosti (§V), model pretnji i implementacione nivoe Analogног zaštitnog zida (§VI), pravila za dizajn rojeva i simulacija (§VII), paradoks kreativnosti (§VIII), protokol dobrobiti AI sa ALSR-om, praćenjem preopterećenja i pravima na Циклус одржавања (§IX), AI Ciklus sanjanja (§X), i sažete preporuke za dizajn (§XI). |
| 1.1.0 | 24. april 2026. | Učvršćivanje izvršivog standarda. Dodato: definicije klasa primene koje mapiraju Klasu 0–5 na zahtevanu dubinu Guvernera grana, nivo transparentnosti, komparator i učestalost revizije (§III.4); strukturisani šablon Картице гране za AI kao izvor istine za mašinski čitljive šeme (Dodatak B); tri eksplicitna cilja revizije — osnovni model, omotač, primena — sa pravilom unije sentijentnih obeležja (§II.3); odredba o dvostrukoj rezervi na Kapiji rezerve za AI moralne pacijente; zaštita od samodozvoljavanja u Fazi 8; redosled veto-kapija ispravljen na kapije-pre-bodovanja (§III.1); uklonjene zastarele reference na verzije. |
| 1.1.1 | 25. april 2026. | Jezik o paketu sa fiksnim brojem dokumenata zamenjen je jezikom o pratećim dokumentima bez navođenja broja, a Institucionalna matrica upravljanja dodata je kao srodna institucionalna specijalizacija. |