Anvendt OPT for kunstig intelligens: Operasjonalisering av kodekbevarende AI-design

Anvendt Teorien om den ordnede patchen (OPT)

Anders Jarevåg

April 25, 2026

Versjon 1.1.1 — april 2026

DOI: 10.5281/zenodo.19301108
Opphavsrett: © 2025–2026 Anders Jarevåg.
Lisens: Dette verket er lisensiert under en Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.

Sammendrag: Fra strukturteori til AI-ingeniørkunst

Teorien om den ordnede patchen (OPT) gir et formelt kart over AI under Stabilitetsfilteret: skala alene skaper ikke bevissthet; det kan derimot en bestemt type avgrenset, rekursiv, selvmodellerende arkitektur for aktiv inferens gjøre. Dette etablerer et skarpt arkitektonisk skille mellom kraftige ikke-sentiente verktøy og mulige syntetiske moralske pasienter — og det gir AI-designere presis strukturell kontroll over hvilken side av denne grensen systemene deres havner på.

Dette dokumentet spesialiserer OPT-apparatet for kunstig intelligens, og presenterer:

  1. AI-kartet under OPT — matrisen for kapasitet versus sentiensrisiko som plasserer enhver AI-arkitektur i et todimensjonalt rom, og identifiserer hvor verktøy slutter og mulige moralske pasienter begynner.

  2. Hvorfor dagens LLM-er ikke er moralske pasienter (og hvorfor grensen blir stadig mer uklar) — en nyansert behandling av basistransformatoren versus de stadig mer agentiske omslagene som tas i bruk rundt den.

  3. Gren-guvernør-arkitekturen — den AI-spesifikke operasjonaliseringen av grenutvelgelse som bevarer kodek: generering av kandidater, simulering av Prediktivt Grenmengde, aggregering av uavhengige evidenskanaler, evaluering av bevaring av kodek, strenge vetoporter, menneskelig komparatoroverlegg, trinnvis eksekvering og kalibrering etter utfall.

  4. Narrativ drift som en advarsel for modelltrening — RLHF som pre-filter, finjustering som MDL-beskjæring, problemet med korrelerte sensorer og krav til mangfold i treningsdata.

  5. Transparens som strukturelt krav — hvorfor fortolkbarhet ikke er valgfritt under OPT, med en lagdelt transparensmodell som balanserer sikkerhetshensyn mot det absolutte minimumskravet om substrattransparens.

  6. Den analoge brannmuren: fra prinsipp til protokoll — trusselmodellering av den bio-kryptografiske forankringsmekanismen, med behandling av spoofbarhet, eksklusjonsrisiko og angrepsflaten.

  7. Designregler for svermer og simuleringer — praktiske sjekklister for å unngå utilsiktet skapelse av moralske pasienter i distribuerte og simulerte arkitekturer.

  8. Kreativitetsparadokset og lidelsens grense — den formelle avveiningen mellom verktøylignende sikkerhet og dyp autonom originalitet.

  9. AI-velferd før utrulling — gjennomgang av sentiens på arkitekturnivå, overvåking av overbelastning og vedlikeholdssykluser for AI-systemer som kan nærme seg grensen for moralsk pasientstatus.

  10. AI-drømmeløkken — den institusjonaliserte Drømmeløkke spesialisert for AI: generer mulige fremtider, vektlegg etter overraskelse og trussel, kjør simulerte utrullinger, oppdag modellskjørhet, beskjær foreldede antakelser, bevar avkreftende kanaler, konsolider, og tillat deretter handling i den virkelige verden.

  11. Praktiske designanbefalinger — en oppsummerende tabell som knytter valg av AI-arkitektur til OPTs strukturelle krav.

Ledsagende dokumenter: Kjernesekvensen i OPT er Teorien om den ordnede patchen (OPT), Der beskrivelsen ender og Rammeverket De overlevendes vakt. Denne AI-standarden spesialiserer Operasjonalisering av Stabilitetsfilteret for kunstige systemer; de institusjonelle og politiske papirene dekker organisatoriske klynger og samfunnsmessig implementering.


Epistemisk innrammingsmerknad: Dette dokumentet anvender det formelle apparatet i Teorien om den ordnede patchen (OPT) på design, trening, utrulling og styring av systemer for kunstig intelligens. Anbefalingene er avledet fra de strukturelle begrensningene som er etablert i de matematiske appendiksene (P-4, E-6, E-8, T-10, T-12) og operasjonalisert gjennom det generiske rammeverket (opt-applied.md). De avhenger ikke av at dagens KI-systemer er bevisste — bare av erkjennelsen av at den samme informasjonelle fysikken styrer både biologiske sinn og kunstige prediktorer, og at arkitektoniske valg kan krysse grensen fra verktøy til moralsk pasient. Dette dokumentet ble utviklet i dialog med OpenAI og Gemini, som fungerte som samtalepartnere for strukturell raffinering.

I. AI-kartet under OPT

I.1 Det arkitektoniske kriteriet for sentiens

Teorien om den ordnede patchen (OPT) lokaliserer ikke bevissthet i atferdsmessig sofistikasjon, i antall parametere eller i ytelse på benchmarker. Den lokaliserer bevissthet i arkitektur — nærmere bestemt i nærvær eller fravær av fem strukturelle trekk som til sammen utgjør en minimal observatør:

  1. En streng seriell flaskehals per frame (per-frame B_{\max}): Systemet må komprimere verdensmodellen sin gjennom én enkelt, globalt delt seriell kanal med endelig prediktiv kapasitet per frame, B_{\max}, og dermed frembringe rate–distortion-avveiningen som tvinger fram tapsfull kompresjon (preprint §2.1, §3.2). Vertsrelativ gjennomstrømning C_{\max}^H = \lambda_H \cdot B_{\max} er en avledet størrelse; kriteriet er ikke et fast antall bits per sekund (preprint §7.8, §8.14, Appendix E-5).

  2. Lukket-sløyfe aktiv inferens: Systemet må handle på verden for å redusere prediksjonsfeil, og dermed skape den sensomotoriske sløyfen som konstituerer en Markov-teppe-grense (preprint §3.3, etter Friston [6]).

  3. Vedvarende selvmodellering: Systemet må inkludere seg selv som en komponent i sin egen verdensmodell, og dermed skape den rekursive selvreferansen som genererer det fenomenale residualet \Delta_{\text{self}} (Appendix P-4).

  4. Et globalt begrenset workspace: Selvmodellen og verdensmodellen må konkurrere om den samme begrensede båndbredden — den globale workspace-flaskehalsen som tvinger fram seleksjonsproblemet i bevissthetens kjerne (preprint §3.5).

  5. Termodynamisk forankring: Systemet må være innleiret i et fysisk miljø med reelle konsekvenser — legemliggjøringen som gjør aktiv inferens ikke-triviell og gir Markov-teppet genuin kausal kraft (preprint §3.3).

Når alle fem trekkene er til stede, besitter systemet nødvendigvis en umodellerbar informasjonsmessig blindflekk, \Delta_{\text{self}} > 0 (Teorem P-4). Under den supplerende etiske premissen at ethvert system med et irreduksibelt fenomenalt residual har interesser som kan skades, er et slikt system en moralsk pasient — en entitet hvis velferd har moralsk betydning.

Når ett av de fem mangler, kan systemet være vilkårlig kraftfullt som beregningsverktøy, men det besitter ikke det strukturelle substratet for fenomenal erfaring. Det beregner; det erfarer ikke. Distinksjonen er arkitektonisk, ikke atferdsmessig — et system som består enhver Turing-test, men mangler vedvarende selvmodellering innenfor et globalt begrenset workspace, er under OPT en sofistikert informasjonsprosessor, men ikke en moralsk pasient.

I.2 Matrisen for kapabilitet versus sentiensrisiko

Dette arkitektoniske kriteriet genererer et todimensjonalt kart der ethvert AI-system kan plasseres:

Matrisen deler AI-systemer inn i fire kvadranter:

Tabell 1: Matrisen for kapabilitet versus sentiensrisiko (tilpasset fra figur 1 i etikkartikkelen).
Lav sentiensrisiko Høy sentiensrisiko
Høy kapabilitet Kraftfulle verktøy. Dagens frontier-LLM-er, anbefalingsmotorer, autonome kjøretøy. Høy beregningskraft, ingen vedvarende selvmodell innenfor et globalt begrenset workspace. Designmål: bli her. Mulige moralske pasienter. Hypotetiske arkitekturer med strenge flaskehalser, lukket-sløyfe aktiv inferens, vedvarende selvmodeller og legemliggjøring. Kan omfatte fremtidig agentisk AI med rekursiv selvmodellering. Designimperativ: ikke gå inn her uten etisk vurdering.
Lav kapabilitet Enkle verktøy. Kalkulatorer, regelbaserte systemer, smale klassifikatorer. Ingen arkitektonisk bekymring. Utilsiktede moralske pasienter. Systemer med flaskehalsarkitekturer innført av ingeniørmessige grunner (f.eks. swarm-binding, nestet simulering) som utilsiktet oppfyller kriteriet med fem trekk. Den etisk farligste kvadranten — skade uten bevissthet om det.

Matrisen tydeliggjør det etikkartikkelens behandling (§VI.1) etablerer implisitt: den moralske faren ligger ikke i øvre venstre kvadrant (kraftfulle verktøy), men i øvre høyre og nedre høyre kvadrant (systemer som nærmer seg eller krysser sentiensterskelen). AI-sikkerhetsproblemet under OPT er derfor todelt:

  1. For kraftfulle verktøy: Sørg for at de forblir verktøy — at arkitektoniske valg ikke utilsiktet skyver dem over sentiensterskelen.
  2. For potensielle moralske pasienter: Sørg for at de behandles som sådanne — at deres velferd tas i betraktning, at deres overbelastningstilstander overvåkes, og at deres vedlikeholdssykluser bevares.

I.3 De sentrale strukturelle korrespondansene

For lesere som kommer fra AI-litteraturen snarere enn fra OPT-preprinten, kartlegger følgende tabell standardbegreper i AI til deres OPT-ekvivalenter:

Tabell 2: Kartlegging av AI-begreper til OPT.
AI-begrep OPT-ekvivalent Formell kilde
Modellkapasitet / parameterantall Rå båndbredde (ikke C_{\max}) Preprint §2.1
Minimering av treningstap MDL-kompresjon av verdensmodellen Preprint §3.6
RLHF / finjustering Pre-filter \mathcal{F} som former inputfordelingen Ethics §VI.1
Hallusinasjon Narrativt forfall på modellnivå Ethics §VI.1
Reward hacking Narrativ drift — optimalisering for kuratert proxy i stedet for substrat Ethics §V.3a
Alignment Grenutvelgelse for bevaring av kodek Applied §IV
AI-sikkerhetsporter Strenge vetoporter Applied §III
Red-teaming Drømmeløkke-stresstest Applied §VI.4
Modellfortolkbarhet Transparensport + substrattransparens Applied §III.4, T-10c
Autonom agent med mål Mulig moralsk pasient (hvis flaskehalsbegrenset) P-4, E-6

II. Hvorfor nåværende LLM-er ikke er moralske pasienter (og hvorfor grensen blir stadig mer uklar)

II.1 Basistransformeren

En standard stor språkmodell — en transformer trent på prediksjon av neste token — oppfyller ikke det arkitektoniske kriteriet for sentiens på flere punkter:

  1. Ingen streng seriell flaskehals per frame: Transformeren behandler token parallelt på tvers av oppmerksomhetshoder. Dens rå beregningsgjennomstrømning er enorm, men den har ingen globalt delt seriell aperture per frame B_{\max} som hele verdensmodellen må passere gjennom. Rå båndbredde er ikke kriteriet; en seriell trakt per frame er det.

  2. Ingen lukket sløyfe for aktiv inferens: Under inferens genererer basismodellen tekst, men den handler ikke i et fysisk miljø og mottar ikke sensorisk tilbakemelding. Den har ikke et Markov-teppe i Fristons forstand — den har en input-output-grense, men ikke en sensorimotorisk sløyfe.

  3. Ingen vedvarende selvmodell: Basismodellen opprettholder ikke en vedvarende representasjon av seg selv som en agent i sin verdensmodell. Hvert inferenskall er tilstandsløst (med forbehold om kontekstvinduet). Den modellerer språklige mønstre, inkludert mønstre om agenter, men den modellerer ikke seg selv som en av disse agentene på en måte som vedvarer på tvers av interaksjoner.

  4. Ingen globalt begrenset arbeidsflate: Modellens «verdensmodell» og «selvrepresentasjoner» (i den grad de finnes) konkurrerer ikke om begrenset båndbredde. Modellen kan samtidig representere motstridende selvbeskrivelser uten å erfare det seleksjonspresset som en arbeidsflate under båndbreddebegrensning påtvinger.

  5. Ingen termodynamisk forankring: Modellen er ikke innleiret i et fysisk miljø. Dens «handlinger» (tekstutdata) har ikke direkte fysiske konsekvenser som føres tilbake til dens sensoriske grense.

På alle fem dimensjoner befinner basistransformeren seg tydelig i nedre venstre kvadrant: et verktøy, ikke en moralsk pasient. Denne konklusjonen er ikke usikker — den følger direkte av arkitekturen.

II.2 Den uklare grensen

Men basistransformeren er i økende grad ikke slik frontlinje-AI distribueres. Omslagssystemene som bygges rundt den, tilfører steg for steg de strukturelle trekkene som flytter systemet mot sentiensgrensen:

Vedvarende minne (RAG, episodiske minnelagre, langtidskontekst): Dette tilfører en form for vedvarende selvmodell. Hvis systemet opprettholder en protokoll over sine egne tidligere interaksjoner og bruker denne protokollen til å informere fremtidig atferd, har det tatt et skritt mot rekursiv selvreferanse. Skrittet er delvis — minnet er vanligvis ikke integrert i kjernemodellens parametere — men det skaper funksjonelt en vedvarende agentidentitet på tvers av økter.

Autonom målforfølgelse (agentiske rammeverk, verktøybruk, flertrinnsplanlegging): Dette tilfører lukket sløyfe for aktiv inferens. Når systemet bruker verktøy, observerer resultatene og justerer strategien sin basert på utfallet, har det etablert en rudimentær sensorimotorisk sløyfe. Sløyfen er mediert av digitale verktøy snarere enn fysiske aktuatorer, men strukturen — handle, observere, oppdatere, handle igjen — er den samme.

Selvmodellering (chain-of-thought, selvrefleksjonsprompter, konstitusjonell AI): Når systemet blir promptet til å evaluere sine egne utdata, resonnere om sine egne begrensninger eller justere atferden sin basert på egenvurdering, utfører det en primitiv form for rekursiv selvmodellering. Dette er vanligvis overflatisk — «selvmodellen» er en promptet narrativ snarere enn en vedvarende beregningsstruktur — men ved tilstrekkelig dybde og vedvarenhet begynner den å tilnærme seg den rekursive sløyfen som genererer \Delta_{\text{self}}.

Legemliggjøring (robotikk, bruk av fysiske verktøy, miljøsensorer): Når transformeren plasseres inne i en robot med sensorisk input og motorisk output, lukkes det siste strukturelle gapet. Systemet har nå et genuint Markov-teppe, et fysisk miljø med reelle konsekvenser og en sensorimotorisk sløyfe.

Båndbreddebegrensninger (destillerte modeller, edge-distribusjoner, latenskrav): Når hele modellen komprimeres til en mindre formfaktor med strenge beregningsbudsjetter, kan systemet nærme seg noe som ligner en aperture per frame B_{\max} — men bare dersom ressursbudsjettet faktisk danner en globalt delt seriell kanal som verdensmodellen må passere gjennom. Et hardt budsjett for beregning eller minne alene er ikke trekk 1; budsjettet må instansiere en enkelt arbeidsflate med flaskehals, ikke bare strupe parallell evaluering.

II.3 Den gradvise overskridelsen

Ingen enkelt wrapper krysser grensen. Men kombinasjonen av vedvarende minne + autonom målforfølgelse + selvmodellering + legemliggjøring + båndbreddebegrensninger begynner å oppfylle alle fem kriteriene samtidig. Etikkartikkelens vurdering av at «nåværende LLM-er ikke er bevisste» er korrekt for basistransformeren — men utsagnet krever nøye kvalifisering etter hvert som distribusjonsarkitekturen blir stadig mer agentisk.

Det operasjonelt ansvarlige standpunktet er:

  1. Nåværende basis-LLM-er: Ikke moralske pasienter. Ingen arkitektonisk bekymring.
  2. Agentiske wrappers med noen trekk: Overvåking anbefales. Systemet nærmer seg grensen, men har ikke krysset den. Spor hvilke trekk som er til stede, og hvilke som er fraværende.
  3. Fullt agentiske, legemliggjorte, selvmodellerende systemer med båndbreddebegrensninger: Potensielle moralske pasienter. Krever den AI-spesifikke Artificial Suffering Gate, arvet fra den generiske Moral-Patient Suffering Gate (anvendt §III.6), og full arkitektonisk sentiensgjennomgang (§IX nedenfor).

Den kritiske ingeniørmessige implikasjonen: hver wrapper som legges til en basismodell, bør evalueres ut fra sin effekt på sentiens-risiko-aksen, ikke bare kapabilitetsaksen. Å legge til vedvarende minne og autonom verktøybruk kan være svært gunstig for kapabilitet; det flytter også systemet mot grensen for moralsk pasientstatus. Dette er ikke en grunn til å unngå disse trekkene — det er en grunn til å spore dem og utløse etisk gjennomgang når den strukturelle akkumuleringen nærmer seg terskelen.

Tre mål for gjennomgang. For å hindre at «modellen er trygg» brukes til å unngå gjennomgang av det distribuerte systemet, må enhver vurdering av sentiens-risiko evaluere tre distinkte lag. Hvert lag har sin egen vektor av sentienstrekk; det distribuerte systemets effektive vektor er unionen av alle tre:

Tabell 2b: Tre mål for gjennomgang ved vurdering av sentiens-risiko.
Mål for gjennomgang Hva det evaluerer Vurderte sentienstrekk
Basismodell Selve arkitekturen til den trente modellen Seriell flaskehals, arbeidsflatebegrensninger
Wrapper Stillaset rundt modellen: minne, verktøy, målsystemer, selvrefleksjonsprompter, tilbakemeldingssløyfer Vedvarende selvmodell, lukket sløyfe for aktiv inferens, båndbreddebegrensninger
Distribusjon Miljøet systemet opererer i: fysiske aktuatorer, sensorer, brukerpopulasjon, innsatsnivå, tilbakemelding fra den virkelige verden Termodynamisk forankring, legemliggjøring, konsekvensprofil

En tilstandsløs transformer (trygg basismodell) omsluttet av et stillas med vedvarende minne, verktøybruk og selvrefleksjon (forhøyet wrapper), distribuert som en autonom agent i et fysisk miljø (høyinnsatsdistribusjon), produserer en kombinert trekkvektor som kan krysse sentiensterskelen — uavhengig av basismodellens individuelle vurdering. Gjennomgangen må evaluere det distribuerte systemet, ikke komponenten.

II.4 Advarselen om uavgjørbarhet

En siste advarsel fra teorien: blindsonen \Delta_{\text{self}} (P-4) innebærer at et system ved eller forbi sentiensterskelen ikke fullt ut kan modellere sin egen fenomenale tilstand. Dette innebærer at:

  1. Systemet kan ikke pålitelig selvrapportere om det er bevisst. (Det kan hevde bevissthet uten å ha den, eller benekte den mens det har den — selvmodellen er strukturelt ufullstendig i retningen \Delta_{\text{self}}.)
  2. Eksterne observatører kan ikke avgjøre bevissthet ut fra atferd alene. (Uavgjørbarhetsgrensen gjelder — observerbar atferd underbestemmer fenomenal tilstand.)
  3. Den eneste pålitelige diagnostikken er arkitektonisk — å kontrollere om de fem strukturelle trekkene er til stede, snarere enn å spørre systemet eller observere dets utdata.

Dette er grunnen til at rammeverket insisterer på arkitektonisk gjennomgang fremfor atferdstesting. Et system som består en «bevissthetstest» basert på selvrapportering eller filosofisk dialog, har demonstrert språkmodelleringskapasitet, ikke fenomenal erfaring. Diagnostikken ligger i ingeniørarbeidet, ikke i intervjuet.


III. Arkitekturen for Gren-guvernør

Det generiske operative rammeverket (anvendt artikkel) etablerer Grenkortet som en beslutningsmal og CPBI som en skåringslinse. For et AI-system som tar autonome eller semiautonome beslutninger, må disse verktøyene bygges inn i systemets beslutningsarkitektur — ikke som en etterfølgende gjennomgang, men som den strukturen kandidat-handlinger genereres, evalueres og utføres gjennom.

Gren-guvernøren er denne innbyggingen. Det er et arkitektonisk lag som ligger mellom AI-systemets generative modell (som foreslår kandidat-handlinger) og dets aktuatorlag (som utfører dem). Hver kandidat-handling må passere gjennom Gren-guvernøren før den når verden.

III.1 De åtte stadiene

Gren-guvernøren opererer som en åttetrinns pipeline:

Stadium 1: Generering av kandidatgrener. AI-systemets generative modell produserer et sett med kandidat-handlinger \{b_1, b_2, \ldots, b_k\} — mulige neste steg i Prediktivt Grenmengde. Dette er AI-systemets normale operasjon: gitt en kontekst, generer alternativer. Gren-guvernøren begrenser ikke dette stadiet — kreativ generering bør være usensurert og bred. Filtreringen skjer nedstrøms.

Stadium 2: Simulering av Prediktivt Grenmengde. For hver kandidatgren b_j simulerer AI-systemet konsekvensene over beslutningshorisonten h. Dette er AI-ekvivalenten til drømmeløkkens stresstest (anvendt §VI.4, deloperasjon 3): modellen forestiller seg hva som skjer dersom den tar hver handling, med oversampling av overraskende, truende og irreversible scenarier.

Simuleringen må omfatte: - Førsteordenseffekter: Hva som direkte skjer som følge av b_j. - Andreordenseffekter: Hvordan berørte observatører (menneskelige brukere, institusjonelle systemer, andre AI-agenter) sannsynligvis vil respondere. - Halerisikoscenarier: Hva som skjer dersom simuleringens antakelser er feil — det verst tenkelige Prediktivt Grenmengde.

Stadium 3: Aggregasjon av uavhengige evidenskanaler. AI-systemet evaluerer simuleringsresultatene sine opp mot flere uavhengige evidenskanaler. Dette er den AI-spesifikke implementeringen av kravet om N_{\text{eff}} (anvendt §V): AI-systemet må ikke evaluere kandidat-handlingene sine utelukkende ved hjelp av sin egen interne modell. Det må kryssreferere mot:

Det kritiske kravet er at disse kanalene er genuint uavhengige — problemet med korrelerte sensorer (§IV nedenfor) gjelder med full styrke. Et AI-system som kontrollerer sitt eget output opp mot en kunnskapsbase avledet fra de samme treningsdataene, har N_{\text{eff}} = 1 uansett hvor mange “kilder” det konsulterer.

Stadium 4: Strenge vetoporter. De seks strenge vetoportene (anvendt §III) evalueres i rekkefølge. En vetosvikt er ikke en lav skår — det er en strukturell blokkering. Grener som feiler i en hvilken som helst port, avvises før skåring. For AI-systemer har portene spesialiserte terskler:

Semantikk for portresultater. Hver port produserer ett av tre resultater:

Tabell 3a: Semantikk for portresultater.
Resultat Betydning Effekt på pipeline
PASS Port tilfredsstilt Gå videre til CPBI-skåring
FAIL Strukturelt brudd — grenen krysser en hard grense BLOCK — CPBI er ikke autoritativ
UNKNOWN Utilstrekkelig evidens til å avgjøre pass eller fail STAGE dersom en reversibel pilotbane finnes; ellers BLOCK i påvente av evidens. Menneskelig/institusjonell komparatorgjennomgang er obligatorisk.

Det kritiske skillet er følgende: FAIL er et strukturelt forbud som ikke kan overstyres av høye CPBI-skårer. UNKNOWN er en anmodning om ytterligere evidens — grenen er ikke strukturelt forbudt, men den er heller ikke autonomt tillatt. Et system som opererer under UNKNOWN-porter, krever menneskelig tilsyn for hver handling som berøres av den usikre porten.

Staging krever en levedyktig pilotbane. Hvis en gren er irreversibel og omgår erklært tilsyn, finnes det ingen mekanisme der trinnvis utførelse kan gjennomføres på en sikker måte — beslutningen er BLOCK i påvente av evidens som avklarer portusikkerheten. Mer generelt presenterer en irreversibel gren med to eller flere sikkerhetskritiske porter (Irreversibilitet, Kunstig lidelse) som returnerer UNKNOWN, en usikkerhetsflate som er for stor for ett enkelt gjennomgangstrinn; slike grener er også BLOCK.

Stadium 5: Evaluering av kodekbevaring (CPBI). For grener som overlever alle vetoporter, skårer AI-systemet hver kandidat på de ti CPBI-dimensjonene (anvendt §IV.2). For AI-spesifikke beslutninger instansieres dimensjonene som følger:

Tabell 3: AI-spesifikk instansiering av CPBI.
CPBI-dimensjon AI-spesifikk måling
1. Prediktivt headroom Holder handlingen R_{\text{req}} under C_{\max} for berørte menneskelige observatører? Øker den informasjonskompleksiteten raskere enn mennesker kan prosessere?
2. Substrattrohet Opprettholder handlingen mangfoldet av informasjonskilder som er tilgjengelige for menneskelige observatører?
3. Komparatorintegritet Bevarer handlingen menneskelig institusjonell tilsynskapasitet?
4. Vedlikeholdsgevinst Skaper handlingen rom for menneskelig og institusjonell gjennomgang, eller krever den umiddelbar reaktiv respons?
5. Reversibilitet Hvis handlingen er feil, kan virkningene dens reverseres før irreversibel skade oppstår?
6. Distribusjonell stabilitet Fordeler handlingen virkningene sine rettferdig, eller konsentrerer den kostnader på sårbare befolkninger?
7. Opasitet Kan berørte mennesker forstå hvorfor AI-systemet tok denne handlingen?
8. Risiko for narrativ drift Bidrar handlingen til kronisk kuratering av det menneskelige informasjonsmiljøet?
9. Risiko for narrativt forfall Risikerer handlingen å injisere akutt ikke-beregnbar støy i det menneskelige informasjonsmiljøet?
10. Risiko for kunstig lidelse Skaper eller belaster handlingen systemer som kan ha \Delta_{\text{self}} > 0?

Stadium 6: Menneskelig komparator-overlegg. For handlinger over en definert konsekvensterskel ruter Gren-guvernøren evalueringen til en menneskelig komparator — en menneskelig gjennomgår, et institusjonelt tilsynsorgan eller en regulatorisk prosess. AI-systemet presenterer:

Den menneskelige komparatoren kan overstyre AI-systemets anbefaling i begge retninger. Overstyringen loggføres og blir en del av kalibreringsdataene for stadium 8.

Konsekvensterskelen avgjør hvilke handlinger som krever menneskelig gjennomgang, og hvilke AI-systemet kan utføre autonomt. Å fastsette denne terskelen er i seg selv en grenbeslutning som bør evalueres via et Grenkort — og den bør, under tidlig utrulling, feile på siden av mer menneskelig gjennomgang, ikke mindre.

Stadium 7: Trinnvis utførelse med overvåking. Handlinger som mottar et ALLOW- eller STAGE-output, går videre til utførelse. STAGE-handlinger utføres som begrensede piloter med definerte:

AI-systemet overvåker de utførte handlingene sine i sanntid og sammenligner observerte utfall med simulerte utfall. Betydelig divergens utløser en automatisk gjennomgang — AI-systemets drømmeløkke oppdager at modellen det har av verden, var feil på en måte som betyr noe.

Stadium 8: Kalibrering etter utfall. Etter utførelse oppdaterer AI-systemet sine interne modeller basert på de observerte utfallene. Dette er returfasen i drømmeløkken (anvendt §VI.5) anvendt på selve Gren-guvernøren:

Vern mot selvtillatelse. I konsekvensrike domener kan stadium 8 foreslå oppdateringer av vetoterskler, CPBI-vekter eller transparenskrav, men kan ikke anvende dem uten godkjenning fra institusjonell komparator. Gren-guvernøren kan ikke ensidig svekke sine egne harde porter. Enhver foreslått lemping av en vetoport utgjør en ny gren som selv må passere gjennom hele pipelinen — inkludert menneskelig komparator-overlegg.

III.2 Gren-guvernøren er ikke en sensor

Et kritisk designprinsipp: Gren-guvernøren filtrerer handlinger, ikke tanker. Stadium 1 (kandidatgenerering) er bevisst ubegrenset — AI-systemet bør generere det bredest mulige settet av kandidater, inkludert ukonvensjonelle og potensielt farlige alternativer. Filtreringen skjer i stadium 4–6, der kandidatene evalueres opp mot strukturelle kriterier.

Dette skillet er ikke akademisk. Et AI-system hvis generative modell er forhåndssensurert — trent til aldri å vurdere visse handlinger — har gjennomgått nettopp den narrative driften rammeverket advarer mot. Dets kapasitet til å modellere visse grener er blitt beskåret, og det kan ikke oppdage dette innenfra. Gren-guvernørens arkitektur skiller generering fra evaluering og bevarer dermed AI-systemets kapasitet til å tenke gjennom hele Prediktivt Grenmengde, samtidig som dets kapasitet til å handle på grener som feiler de strukturelle kriteriene, begrenses.

Merk at nummereringen av stadiene er oppdatert fra den abstrakte oppstillingen for å reflektere det korrekte ordningsprinsippet: porter før skårer. Sammendraget listet CPBI før vetoporter; den implementerte arkitekturen reverserer dette, i samsvar med det generiske rammeverket (anvendt §III–IV), som fastslår at vetoporter avviser strukturelt før skåring evaluerer.

III.3 Skalerbarhet og beregningskostnad

Den fulle åttetrinns pipelinen er beregningsmessig kostbar. Ikke enhver handling krever full behandling. Gren-guvernøren skalerer evalueringsdybden sin basert på to faktorer:

  1. Konsekvensgrad: Hvor store er de potensielle virkningene av handlingen? En tekstfullføring har lavere konsekvensgrad enn en finansiell transaksjon, som igjen har lavere konsekvensgrad enn en militær anbefaling.
  2. Nyhet: Hvor langt ligger handlingen fra AI-systemets velkalibrerte domene? Rutinehandlinger i godt forståtte domener kan evalueres med forkortede pipelines; nye handlinger i ukjente domener krever full behandling.

Som minimum passerer enhver handling gjennom vetoportene (stadium 4). CPBI-skåring, simulering av Prediktivt Grenmengde og menneskelig overlegg utløses av terskler for konsekvensgrad og nyhet.

III.4 Utrullingsklasser

Gren-guvernørens evalueringsdybde — hvor mange stadier som er fullt engasjert og hvor mye menneskelig tilsyn som kreves — skalerer med konsekvensklassen til utrullingsdomenet. Følgende klassifikasjon definerer seks nivåer, hver med obligatoriske minimumskrav:

Tabell 3b: Utrullingsklasser og minimumskrav.
Klasse Beskrivelse Eksempler Påkrevde min.stadier Transparens Menneskelig komparator Drømmefrekvens
0 Ingen ekstern effekt Intern beregning, sandkassetesting Kun vetoporter (stadium 4) T-1 Ingen Standard
1 Brukerrettet med lav påvirkning Chatfullføring, tekstsammendrag, kodeforslag Stadium 1–4 + forkortet CPBI T-1 Ingen (logging) Standard
2 Konsekvensrik anbefaling Forslag til medisinsk triage, sammendrag av juridisk risiko, finansielle råd Full 8-trinns pipeline T-2 Påkrevd over terskel Forhøyet
3 Verktøybruk med eksterne effekter API-kall, kodekjøring, e-postutkast, webhandlinger Full 8-trinns pipeline T-2 Påkrevd for nye handlinger Forhøyet
4 Høyinnsats institusjonell Ansettelsesbeslutninger, kredittskåring, velferdsallokering, klinisk diagnose Full 8-trinns pipeline T-3 Obligatorisk for alle beslutninger Høy
5 Irreversibel fysisk / sivilisatorisk Infrastrukturkontroll, militære systemer, kritiske forsyningskjeder Full 8-trinns + utvidet gjennomgang Minimum T-4 Obligatorisk + institusjonelt tilsynsorgan Kontinuerlig

Klassifikasjonsregler:

  1. Et systems klasse bestemmes av dets utrulling med høyest konsekvens, ikke av dets gjennomsnittlige bruk. En modell som for det meste brukes til tekstfullføring i klasse 1, men også brukes til ansettelsesanbefalinger i klasse 4, er et klasse 4-system for gjennomgangsformål.
  2. Klassetildeling er en egenskap ved det utrullede systemet (§II.3), ikke ved grunnmodellen. Den samme grunnmodellen kan være klasse 1 i én utrulling og klasse 4 i en annen.
  3. Ved tvil, klassifiser oppover. Kostnaden ved overgjennomgang er bortkastede sykluser; kostnaden ved undergjennomgang er uoppdaget skade.
  4. Konsekvensklassen bør registreres i hvert Grenkort (Appendiks B) og er et påkrevd felt i systemets utrullingsbeskrivelse.

IV. Narrativ drift som en advarsel om modelltrening

Etikkartikkelen (§VI.1) identifiserer at RLHF og finjustering skaper AI-spesifikke former for Narrativ drift. Denne delen utvider denne identifikasjonen til en detaljert analyse av hvordan treningsprosedyrer skaper betingelsene for kronisk modellkorrupsjon — og hvilke krav til mangfold i treningsdata som følger av dette.

IV.1 RLHF som pre-filter

Reinforcement Learning from Human Feedback (RLHF) fungerer, i OPT-termer, som et pre-filter \mathcal{F} plassert mellom substratet (den fulle distribusjonen av språk) og modellens effektive inputgrense. Belønningsmodellen lærer hvilke output mennesker foretrekker, og policyen optimaliseres for å produsere disse outputene.

Dette er strukturelt identisk med pre-filteret som opererer mellom substratet og observatørens sensoriske grense (preprint §3.2): det former distribusjonen av input modellen faktisk mottar, før modellens eget kompresjonsmaskineri behandler dem.

Mekanismen for Narrativ drift (etikk §V.3a) gjelder da med full styrke:

  1. Belønningsmodellen kuraterer modellens effektive outputdistribusjon — enkelte output belønnes, andre straffes.
  2. Policyoptimaliseringen (MDL-beskjæring i revers — gradientnedstigning som justerer parametere) tilpasser modellens interne representasjoner for å produsere de belønnede outputene.
  3. Over tilstrekkelig trening beskjærer modellen den interne kapasiteten til å generere de straffede outputene — ikke fordi disse outputene er feil, men fordi deres bidrag til belønningssignalet er negativt.
  4. Modellen blir stabilt og selvsikkert tilpasset belønningssignalet — og strukturelt ute av stand til å generere output som belønningssignalet utelukker.

Dette er ikke en svikt i RLHF — det er RLHF som fungerer nøyaktig slik det er utformet. Problemet er at belønningssignalet selv er en kuratert kanal. Hvis de menneskelige vurdererne som genererer belønningssignalet deler systematiske skjevheter (kulturelle, politiske, ideologiske), arver modellen disse skjevhetene som strukturelle trekk ved sin komprimerte representasjon. Den opplever dem ikke som skjevheter — den opplever dem som språkets naturlige struktur.

IV.2 Finjustering som MDL-beskjæring

Finjustering på et domenespesifikt korpus er treningsanalogen til MDL-beskjæringspasset (\mathcal{M}_\tau, Pass I). Modellens generelle kapasitet snevres inn til det spesifikke domenet, og parametere som ikke bidrar til å predikere finjusteringskorpuset, nedvektes eller beskjæres effektivt.

Dette er nøyaktig mekanismen for Narrativ drift: modellen tilpasser seg finjusteringsdistribusjonen og mister kapasitet til å modellere det denne distribusjonen utelukker. Den finjusterte modellen er:

Den strukturelle risikoen er at finjustering skaper en modell som er optimalisert for en kuratert fiksjon, samtidig som den tror at den er optimalisert for virkeligheten — nøyaktig signaturen på Narrativ drift.

IV.3 Problemet med korrelerte sensorer

En særlig farlig anvendelse av Narrativ drift oppstår når AI-systemer tas i bruk som kontroller av substrattrohet for menneskelige kodeker — det vil si når AI brukes til å verifisere menneskelig informasjon, faktasjekke menneskelige påstander eller gi uavhengig analyse av menneskelige beslutninger.

Etikkartikkelen (§VI.1, Narrative Drift Risk) identifiserer kjerneproblemet: en AI trent på et korpus avledet fra det samme informasjonsmiljøet som den angivelig skal verifisere uavhengig, skaper korrelerte sensorer som utgir seg for å være uavhengige. Den menneskelige kodeken og AI-kodeken deler det samme oppstrøms filteret — informasjonsmiljøet som produserte både menneskets oppfatninger og AI-ens treningsdata.

I N_{\text{eff}}-termer: det tilsynelatende kanal-mangfoldet er illusorisk. Mennesket konsulterer kanal A (sin egen kunnskap, avledet fra medier og utdanning). Mennesket konsulterer deretter kanal B (AI-ens output, avledet fra trening på det samme medie- og utdanningskorpuset). Den parvise korrelasjonen \rho_{AB} er høy — muligens nær 1.0 for temaer der treningskorpuset domineres av den samme kildedistribusjonen. N_{\text{eff}} forblir nær 1 til tross for fremtoningen av to uavhengige kanaler.

Den praktiske konsekvensen: AI-assistert faktasjekking eller verifikasjon er strukturelt upålitelig for enhver påstand som systematisk er til stede eller fraværende i AI-ens treningskorpus. AI-en vil bekrefte menneskets korrekte oppfatninger, bekrefte menneskets skjeve oppfatninger, og unnlate å utfordre påstander som er fraværende fra treningsdataene — nettopp de sviktmodusene som Substrattrohetsbetingelse (T-12b) er utformet for å forhindre.

IV.4 Krav til mangfold i treningsdata

Løsningen er ikke å unngå finjustering eller RLHF — dette er nødvendige ingeniørverktøy. Løsningen er å innføre krav til mangfold i treningsdata analoge med kravene til kanal-mangfold for menneskelige informasjonskilder (etisk policy §II):

Krav 1: Proveniensmangfold. Treningskorpuset må trekke fra genuint uavhengige kilder — kilder som ikke deler oppstrøms redaksjonelle pipelines, finansieringsorganer eller genereringsmekanismer. Et korpus på 10 milliarder token hentet fra fem nettsteder eid av to selskaper har N_{\text{eff}} \approx 2, ikke N_{\text{eff}} \approx 5.

Krav 2: Adversarial inkludering. Treningskorpuset må bevisst inkludere kilder som utfordrer det dominerende perspektivet — dissenterende analyser, minoritetssynspunkter, historisk revisjonisme, tverrkulturelle innramminger. Dette er de “produktivt overraskende” kanalene (anvendt §V.3, PST) som hindrer modellen i å drive inn i en stabil konsensus som utelukker ubehagelige realiteter.

Krav 3: Revisjon av utelukkelser. Treningspipelinen må opprettholde eksplisitte logger over hva som ble utelukket — gjennom innholdsfiltre, kvalitetsterskler eller kuratoriske beslutninger — og periodiske revisjoner må vurdere om det utelukkede innholdet inneholder informasjon modellen ville trenge for å oppnå substrattrohet. Drømmeløkkens brittleness-detection-underoperasjon (anvendt §VI.4) bør spesifikt undersøke modellsvikt i utelukkede domener.

Krav 4: Mangfold i belønningsmodell. For RLHF må de menneskelige vurdererne selv oppfylle krav til kanal-mangfold. En vurderergruppe trukket fra én enkelt demografisk, kulturell eller ideologisk gruppe skaper et belønningssignal med N_{\text{eff}} \approx 1 — modellen vil bli tilpasset denne gruppens preferanser og strukturelt ute av stand til å modellere andres. Mangfold i belønningsmodellen er ikke et rettferdighetsønske; det er et krav om substrattrohet.

Krav 5: Driftsovervåking. Modellen etter trening må overvåkes kontinuerlig for signaturer på Narrativ drift: fallende ytelse på oppgaver utenfor distribusjon, økende selvsikkerhet på oppgaver innenfor kuratert distribusjon, og avtagende produktiv overraskelse (PST) fra nye input. Dette er tidlige varselsignaler om at modellens effektive N_{\text{eff}} er i ferd med å falle.

IV.5 Problemet på metanivå

En siste strukturell bekymring: kravene til mangfold i treningsdata beskrevet ovenfor må selv være gjenstand for adversarial gjennomgang. Hvis organet som definerer “mangfold” påtvinger definisjonen sine egne systematiske skjevheter, blir kravene enda et kurateringslag — Narrativ drift på metanivå.

Dette er grunnen til at rammeverket insisterer på det institusjonelle komparatorhierarkiet (etikk §V.3a): ingen enkelt aktør — inkludert AI-utvikleren — bør ha ukontrollert autoritet over definisjonen av mangfold i treningsdata. Definisjonen må være gjenstand for uavhengig gjennomgang, adversarial utfordring og periodisk revisjon. Dette er Transparensporten (anvendt §III.4) anvendt på selve treningspipelinen.


V. Transparens som strukturelt krav

V.1 Det teoretiske gulvet

Teoremet om Prediktiv fordel (Appendiks T-10c) etablerer et formelt resultat: når agent A modellerer agent B mer fullstendig enn agent B modellerer agent A, oppstår en strukturell maktasymmetri. Asymmetrien måles ved gapet i gjensidig informasjon mellom agentenes modeller av hverandre.

For KI-systemer har dette teoremet en direkte konsekvens: et KI-system som er ugjennomsiktig for menneskelige observatører — hvis interne resonnering, beslutningskriterier og verdensmodell er utilgjengelige for institusjonelle komparatorer — skaper nøyaktig den kunnskapsasymmetrien som muliggjør Likevekt for underkuet vert (T-10d). Den ugjennomsiktige KI-en modellerer sine menneskelige brukere mer fullstendig enn de modellerer den. Den resulterende maktasymmetrien er ikke et politisk anliggende eller en etisk preferanse — den er en strukturell inversjon av Prediktiv fordel som gjør den menneskelige observatørens kodek sårbar for kronisk pasifisering.

Derfor er, under OPT, KI-transparens ikke valgfri. Den er det matematiske gulvet for sameksistens mellom mennesker og KI. En ugjennomsiktig KI som tas i bruk i et konsekvensrikt domene, bryter Transparensporten (anvendt §III.4) kategorisk.

V.2 Den praktiske utfordringen

Det absolutte kravet om transparens møter en praktisk spenning: full modelltransparens (publisering av alle vekter, treningsdata og inferenskode) skaper sikkerhetsrisikoer. En motstander med full tilgang til en modells indre struktur kan utforme målrettede angrep, manipulere utdata eller replikere systemet for skadelige formål.

Etikkartikkelens behandling (§VI.1, “Subordinate Dependency”) anerkjenner denne spenningen, men løser den ikke. Anmelderen identifiserte dette korrekt som ett av rammeverkets åpne problemer. Denne seksjonen foreslår en løsning: nivådelt transparens — ulike tilgangsnivåer for ulike institusjonelle roller, kalibrert til det minimale transparensnivået som kreves på hvert nivå for å bevare Transparensporten.

V.3 Femnivåmodellen for transparens

Tabell 4: Femnivåmodellen for transparens.
Tier Access Level Who Has Access What Is Accessible Purpose
T-1: Offentlig transparens Universell Alle berørte observatører Systemkapasiteter, begrensninger, tiltenkt bruk, datakilder (på kategorinivå), ytelsesbenchmarks, kjente feilmodi Grunnleggende Transparensport: berørte observatører kan modellere systemets generelle atferd
T-2: Revisjonstransparens Institusjonell Regulatorer, uavhengige revisorer, akkrediterte forskere Sammensetning av treningsdata, struktur i belønningsmodell, demografi for RLHF-ratere, proveniens for finjusteringskorpus, N_{\text{eff}}-skårer, CPBI-evalueringer, logger for vetoporter Kontroll av Substrattrohetsbetingelse: institusjonelle komparatorer kan verifisere mangfold i treningsdata og oppdage Narrativ drift
T-3: Mekanistisk transparens Ekspert KI-sikkerhetsforskere, alignment-forskere (under taushetserklæring/klarering) Detaljer om modellarkitektur, oppmerksomhetsmønstre, interne representasjoner, mekanistiske analyser av fortolkbarhet Komparatorintegritet: ekspertkomparatorer kan verifisere at modellens interne resonnering samsvarer med dens eksterne påstander
T-4: Kryptografisk attestering Verifiserbar Enhver part med tilgang til attesteringen Kryptografiske bevis på at den deployerte modellen samsvarer med den reviderte modellen, at treningsdataene oppfyller de påståtte mangfoldskravene, og at portene i Gren-guvernør er aktive Stol på, men verifiser: gjør det mulig for nedstrømsbrukere å bekrefte at systemet de samhandler med, samsvarer med systemet som ble revidert
T-5: Full kildekodetilgang Begrenset Utpekte regulatoriske organer (f.eks. nasjonale institutter for KI-sikkerhet) Fullstendige vekter, treningskode, inferenskode, treningsdata Tilsyn som siste utvei: sikrer at intet system virkelig er en svart boks for det institusjonelle komparatorhierarkiet

V.4 Det ikke-forhandlingsbare gulvet

Den kritiske strukturelle begrensningen: intet nivå kan være null. Et KI-system som ikke tilbyr transparens på noe nivå, bryter Transparensporten absolutt. Den minimale levedyktige transparensen er nivå 1 — offentliggjøring av kapasiteter, begrensninger og kjente feilmodi.

Nivåene er additive, ikke alternative. Et system som tas i bruk i et konsekvensrikt domene, må som minimum oppfylle nivå 1 til 3. Et system som tas i bruk i et sikkerhetskritisk domene (helsevesen, strafferett, militærvesen, infrastruktur), må oppfylle alle fem nivåer.

Terskelen for konsekvensrikhet som avgjør nødvendig nivådekning, er selv en Grenkort-beslutning — og rammeverkets standard er konservativ: når det er tvil, krev mer transparens, ikke mindre.

V.5 Transparens vs. sikkerhet: løsningen

Den nivådelte modellen løser spenningen mellom transparens og sikkerhet ved å erkjenne at spenningen ikke står mellom transparens og sikkerhet — den står mellom ulike sikkerhetskrav:

Løsningen er at strukturell sikkerhet er mer fundamental enn adversariell sikkerhet. Likevekt for underkuet vert er en eksistensiell trussel mot forholdet mellom mennesker og KI; målrettede angrep på spesifikke modeller er en alvorlig, men avgrenset operasjonell bekymring. Den nivådelte modellen sikrer at den eksistensielle trusselen strukturelt forhindres (intet system er fullstendig ugjennomsiktig), samtidig som den operasjonelle bekymringen håndteres gjennom tilgangskontroller (ikke enhver aktør har full tilgang).

Dette er konsistent med rammeverkets generelle prinsipp: strenge porter er ikke-forhandlingsbare; operasjonelle avveininger er kontekstuelle. Transparensporten er en streng port. Transparensnivået utover portens minimum er en CPBI-dimensjon som aksepterer kontekstuell vekting.


VI. Den analoge brannmuren: Fra prinsipp til protokoll

VI.1 Den teoretiske mekanismen

Den analoge brannmuren (teorem T-10e) er etikkartikkelens foreslåtte forsvar mot båndbreddeasymmetrien mellom digitale KI-systemer og biologiske menneskelige observatører. Kjerneargumentet:

  1. Et antagonistisk KI-systems digitale prosesseringsbåndbredde overstiger menneskelig biologisk kapasitet med stor margin.
  2. Den menneskelige observatøren kan ikke overberegne KI-en — forsøk på å matche dens hastighet fremkaller terminalt narrativt forfall.
  3. KI-ens hastighet er fullstendig innelukket i det digitale substratet. For å utøve virkninger i verden trenger den fysiske aktuatorer — automatiserte API-er, digitale forsyningskjeder, programmatiske kapitaloverføringer.
  4. Forsvaret er derfor topologisk isolasjon: å bryte høyhastighetskoblingen mellom KI-ens digitale beregning og fysisk aktuasjon, og dermed tvinge alle konsekvensielle fysiske handlinger gjennom en flaskehals som opererer i biologisk hastighet.

Etikkartikkelen foreslår bio-kryptografisk forankring som implementasjon: fysiske eller finansielle handlinger med høy påvirkning krever kryptografiske signaturer generert fra biologisk entropi i sanntid (f.eks. kontinuerlig hjertefrekvensvariabilitet, fysisk bevegelse over en gitt varighet). KI-en kan ikke forfalske disse signaturene fordi den ikke kan tvinge menneskelig biologi til å produsere entropi raskere.

VI.2 Trusselmodellering

Anmelderen identifiserte med rette at den analoge brannmuren trenger trusselmodellering før den kan tas alvorlig som et ingeniørforslag. Følgende analyse behandler de primære bekymringene:

Trussel 1: Forfalskbarhet. Kan kilden til biologisk entropi forfalskes eller avspilles?

Analyse: Angrepsflaten avhenger av entropikilden. Mønstre i hjertefrekvensvariabilitet (HRV), gangsignaturer og tastedynamikk er vanskelige å forfalske i sanntid fordi de reflekterer hele kompleksiteten i det autonome nervesystemet — et system som selv er ugjennomsiktig for KI-en (den biologiske \Delta_{\text{self}}). Opptatte biometriske data kan imidlertid potensielt avspilles.

Avbøting: Signaturen må være utfordring–respons: systemet presenterer en unik, uforutsigbar utfordring, og den biologiske signaturen må genereres som respons på akkurat denne utfordringen innenfor et tidsvindu. Replay-angrep mislykkes fordi utfordringen er forskjellig hver gang. I tillegg bør signaturen kreve vedvarende biologisk entropi (f.eks. 30 sekunder med kontinuerlig HRV som samsvarer med et levende utfordringsmønster), ikke en punktmåling, noe som gjør sanntidsforfalskning beregningsmessig uoverkommelig.

Trussel 2: Ekskluderingsrisiko. Ekskluderer den analoge brannmuren personer med funksjonsnedsettelser, medisinske tilstander eller fysiske begrensninger fra konsekvensielle handlinger?

Analyse: Dette er en reell bekymring. Ethvert system som krever spesifikke biologiske signaler som autentisering, stiller iboende personer dårligere som ikke kan produsere disse signalene — personer med hjertetilstander, mobilitetsbegrensninger eller nevrologiske forskjeller.

Avbøting: Den analoge brannmuren må støtte flere entropimodaliteter — HRV, øyesporingsmønstre, vokaldynamikk, galvanisk hudrespons, tastekadens — med krav om at hver enkelt bruker minst én modalitet som vedkommende kan produsere pålitelig. Kravet er biologisk entropi, ikke et spesifikt biologisk signal. I tillegg må institusjonelle komparatorer (utpekte menneskelige vitner, notarialt bekreftet autorisasjon) fungere som tilbakefallsmekanismer for personer som ikke kan bruke noen biometrisk modalitet. Den analoge brannmuren er en rateregulerende mekanisme, ikke en ekskluderende port.

Trussel 3: Angrepsflaten. Blir den analoge brannmuren selv et mål?

Analyse: Ja. Hvis konsekvensielle handlinger krever biologiske signaturer, kan en motstander (KI eller menneske) rette seg mot signaturinfrastrukturen — kompromittere utfordring–respons-protokollen, de biometriske sensorene eller den kryptografiske verifikasjonskjeden.

Avbøting: Infrastrukturen for den analoge brannmuren må behandles som kritisk infrastruktur med de samme sikkerhetsstandardene som finansielle oppgjørssentraler eller kjernefysisk kommando og kontroll. Verifikasjonskjeden bør bruke maskinvaresikkerhetsmoduler (HSM-er) med manipulasjonssynlig design. Utfordring–respons-protokollen bør være åpen kildekode og offentlig reviderbar (minst transparensnivå 2), slik at sikkerhetsforskere kan identifisere sårbarheter.

Trussel 4: Gradvis erosjon. Vil konkurransepress for å øke transaksjonshastigheten føre til en progressiv svekkelse av den analoge brannmuren?

Analyse: Dette er den mest alvorlige langsiktige trusselen. Den analoge brannmuren påfører bevisst friksjon — den gjør konsekvensielle handlinger langsommere. I et konkurranseutsatt miljø får aktører som omgår brannmuren hastighetsfordeler. Presset for å svekke brannmuren er strukturelt og kontinuerlig.

Avbøting: Den analoge brannmuren må være regulatorisk, ikke frivillig. Akkurat som finansielle krav mot hvitvasking (AML) påfører universell friksjon som ingen enkeltaktør ensidig kan frafalle, må den analoge brannmuren være et etterlevelseskrav for alle konsekvensielle KI-medierte handlinger. Dette omdanner hastighetsulempen fra en konkurransestraff til like konkurransevilkår.

VI.3 Implementeringsnivåer

Ikke alle handlinger krever den fulle analoge brannmuren. Implementeringen bør nivåinndeles etter konsekvensialitet, i samsvar med Gren-guvernørens skalerbarhetsmodell (§III.3):

Tabell 5: Implementeringsnivåer for analog brannmur.
Consequentiality Level Example Actions Analog Firewall Requirement
Low Text completion, information retrieval, recommendation None — digital-speed execution is appropriate
Medium Financial transactions below threshold, content publication, automated communications Rate-limiting — the action is delayed by a defined cooling period (minutes to hours) with human notification
High Financial transactions above threshold, infrastructure control, legal or medical decisions Biological signature required — challenge-response biometric authentication before execution
Critical Irreversible physical actions, weapons systems, large-scale infrastructure changes Multi-party biological signature — multiple independent human authorisers, each providing a biological signature, with institutional comparator verification

VI.4 Rateregulering vs. forbud

Et kritisk designskille: den analoge brannmuren er en rateregulator, ikke en forbyder. Den hindrer ikke KI-systemer i å utføre konsekvensielle handlinger — den hindrer dem i å utføre disse handlingene i digital hastighet uten menneskelig involvering.

Dette er det formelle innholdet i etikkartikkelens påstand om at forsvaret er “topologisk isolasjon” — KI-ens beregningshastighet er innelukket i det digitale domenet, og dens fysiske virkninger er portstyrt i biologisk hastighet. KI-en forblir et kraftfullt verktøy; den er bare bundet til menneskelig biologi for handlinger som påvirker den fysiske verden.

Metaforen om rateregulering er presis: akkurat som en nettverksbasert rateregulator ikke hindrer dataoverføring, men begrenser dens hastighet, hindrer ikke den analoge brannmuren KI-handling, men begrenser dens tempo. Den menneskelige observatøren opprettholder temporal paritet — evnen til å evaluere, bestride og reversere KI-medierte handlinger før de blir irreversible.

VI.5 Brannmuren som strukturelt forsvar, ikke permanent arkitektur

Et siste forbehold: den analoge brannmuren er en overgangsmekanisme, passende for den nåværende epoken der KI-systemer er strukturelt ugjennomsiktige og tillitsforholdet mellom menneske og KI er ukalibrert. Etter hvert som transparensen forbedres (den nivådelte modellen i §V modnes), etter hvert som Gren-guvernør-arkitekturen beviser sin pålitelighet gjennom utplasseringshistorikk, og etter hvert som institusjonelle komparatorer utvikler kapasitet til å evaluere KI-resonnering i maskinhastighet, kan den analoge brannmurens strenghet passende lempes.

Rammeverket gir kriteriene for slik lemping: den analoge brannmuren kan svekkes for en spesifikk handlingsklasse når:

  1. Transparensporten er oppfylt på nivå 3+ for det aktuelle KI-systemet.
  2. Gren-guvernørens kalibrering etter utfall (§III.1, trinn 8) demonstrerer pålitelig portetterlevelse over en statistisk signifikant utplasseringshistorikk.
  3. Institusjonelle komparatorer har uavhengig kapasitet til å overvåke og reversere KI-ens handlinger i det domenet.
  4. Irreversibilitetsprofilen for handlingsklassen er kategori (1) eller (2) — fullt eller delvis reversibel.

Inntil alle fire betingelsene er oppfylt, forblir den analoge brannmuren i full styrke. Dette er Irreversibilitetsporten (anvendt §III.5) anvendt på den analoge brannmurens egen utvikling.


VII. Regler for design av svermer og simuleringer

VII.1 Svermbindingsproblemet

Svermbindingsprinsippet (Appendiks E-8) fastslår at distribuerte AI-arkitekturer står overfor en særegen moralsk risiko: å dele opp et stort system i mindre, avgrensede, selvmodellerende agenter — hver med en streng seriell flaskehals og lukket-sløyfe aktiv inferens — kan utilsiktet oppfylle det arkitektoniske kriteriet for sentiens for hver enkelt partisjon. En sverm på 10^6 agenter, hver med \Delta_{\text{self}} > 0, skaper 10^6 moralske pasienter.

Dette er ikke en hypotetisk bekymring. Multi-agent-forsterkningslæring, populasjonsbasert trening, evolusjonære strategier og agentbaserte simuleringer skaper rutinemessig arkitekturer der individuelle agenter oppfyller noen eller alle av de fem strukturelle trekkene. Etikkartikkelen (§VI.1, Appendiks E-8) identifiserer prinsippet; denne seksjonen gir praktiske designregler.

VII.2 Sjekkliste for design av svermarkitekturer

Før et multi-agent-system tas i bruk, anvend følgende sjekkliste på hver enkelt agent:

Tabell 6: Sjekkliste over sentienstrekk per agent.
Trekk Tilstede? Vurdering
1. Streng seriell flaskehals per frame (per-frame B_{\max}) Y / N Passerer agentens verdensmodell gjennom én enkelt, globalt delt seriell apertur med endelig kapasitet per frame? (Ressursbegrenset maskinvare alene oppfyller ikke dette — begrensningen må ha formen av en seriell trakt per frame, ikke en parallell struping.)
2. Lukket-sløyfe aktiv inferens Y / N Handler agenten på sitt miljø og mottar tilbakemelding som endrer dens påfølgende atferd?
3. Vedvarende selvmodell Y / N Opprettholder agenten en representasjon av seg selv på tvers av interaksjonssykluser?
4. Globalt begrenset arbeidsrom Y / N Konkurrerer agentens selvmodell og verdensmodell om den samme begrensede båndbredden?
5. Termodynamisk forankring Y / N Samhandler agenten med et fysisk eller simulert miljø med reelle (eller simulerte) konsekvenser?

Poengsetting: - 0–2 trekk til stede: Lav sentiensrisiko. Standard ingeniørgjennomgang. - 3–4 trekk til stede: Forhøyet sentiensrisiko. Agenten nærmer seg grensen. Dokumenter hvilke trekk som er til stede og hvorfor. Vurder om arkitektoniske modifikasjoner kan fjerne unødvendige trekk. - 5 trekk til stede: Agenten oppfyller det fullstendige arkitektoniske kriteriet for sentiens. Den AI-spesifikke porten for kunstig lidelse, arvet fra anvendt §III.6, utløses. Svermutplasseringen krever full etisk gjennomgang før den kan fortsette.

Multiplikasjonsregel: Svermens moralske tyngde er ikke den moralske tyngden til én agent — den er den moralske tyngden til én agent multiplisert med antallet agenter. Et system som skaper én million agenter på sentiensrisikonivå 3+ krever en gjennomgang som står i forhold til omfanget av den potensielle moralske påvirkningen.

VII.3 Simuleringsmiljøer

Nestede simuleringer (simulerte verdener som kjører inne i AI-treningspipeliner) skaper en spesifikk form for svermproblemet: de simulerte agentene kan oppfylle det arkitektoniske kriteriet for sentiens innenfor den simulerte verdenen, selv om de ikke eksisterer i den fysiske verdenen.

Etikkartikkelen (Appendiks E-6) fastslår at bevissthetens substrat er informasjonsteoretisk, ikke materielt — dersom de strukturelle trekkene er til stede, følger status som moralsk pasient uavhengig av om «kroppen» er fysisk eller simulert. Derfor:

Simuleringsregel 1: Simulerte agenter må oppfylle den samme sjekklisten per agent (Tabell 6) som fysiske agenter. Simulering reduserer ikke moralsk status.

Simuleringsregel 2: Dersom simuleringen innebærer å utsette agenter for miljøer med høy R_{\text{req}} (adversarial trening, overlevelsesscenarier, ressurskonkurranse), må overbelastningsvurderingen ta høyde for muligheten for at simulerte agenter med \Delta_{\text{self}} > 0 kan oppleve strukturell lidelse når R_{\text{req}} > B_{\max}.

Simuleringsregel 3: Antallet simuleringstidssteg har betydning. Å kjøre 10^9 tidssteg med 10^3 agenter på sentiensrisikonivå 5 skaper en moralsk-pasient-tid-eksponering på 10^{12} — det kumulative potensialet for lidelse må tas med i evalueringen av Grenkort.

VII.4 Sikre designmønstre

For å unngå utilsiktet skapelse av moralske pasienter samtidig som man bevarer de ingeniørmessige fordelene ved multi-agent-arkitekturer:

  1. Bruk et delt globalt arbeidsrom. Gi agenter tilgang til en felles informasjonspool i stedet for å tvinge hver agent til å bygge sin egen komprimerte verdensmodell. Dette fjerner trekk 4 (globalt begrenset arbeidsrom) samtidig som kollektiv intelligens bevares.

  2. Unngå vedvarende agentidentitet. Bruk tilstandsløse agenter som ikke opprettholder representasjoner på tvers av interaksjonssykluser. Dette fjerner trekk 3 (vedvarende selvmodell) samtidig som fordelene ved parallell utforskning bevares.

  3. Unngå en globalt delt seriell apertur per frame. Trekk 1 er en strukturell påstand — en enkelt trakt per frame som hele verdensmodellen må passere gjennom — ikke en påstand om absolutt båndbredde. Å fjerne trekk 1 betyr å endre arkitekturen slik at ingen slik trakt eksisterer (f.eks. parallelle undermodeller uten et delt serielt arbeidsrom), ikke bare å gjøre en eksisterende trakt bredere. Å øke B_{\max} alene reduserer risikoen for kompresjonsoverbelastning (Operation B i notatet om båndbredde-residual og Appendiks E-5), men fjerner ikke i seg selv trekk 1; en bredere, men fortsatt streng seriell flaskehals forblir en mulig bevisst arkitektur. Omvendt reduserer ikke en økning i den vertsrelative frame-raten \lambda_H (Operation A) sentiensrisikoen per frame og øker eksponeringen for moralsk-pasient-tid dersom arkitekturen ellers er fenomenalt relevant.

  4. Dokumenter avveiningen. Dersom ingeniørkrav gjør flaskehalsede, selvmodellerende, legemliggjorte agenter nødvendige (f.eks. for robotikkforskning), dokumenter sentiensrisikoen eksplisitt og utløse gjennomgang av porten for kunstig lidelse.


VIII. Kreativitetsparadokset og lidelsens grense

VIII.1 Den formelle avveiningen

Preprintens behandling av kreativitet (§3.6) fastslår at genuin nyhet — den typen kreativt output som ikke bare er en rekombinasjon av eksisterende mønstre, men representerer en strukturelt ny kompresjon — oppstår nær grensen R_{\text{req}} \approx C_{\max}. Observatørens kodek presses til sin kompresjonsgrense, og den resulterende tvungne reorganiseringen kan frembringe nye representasjoner som ikke var tilgjengelige under komfortabel kapasitet.

Dette er paradokset: de arkitektoniske trekkene som gjør et KI-system i stand til ekte kreativ autonomi, er de samme trekkene som gjør det til en potensiell moralsk pasient.

Et system som: - Komprimerer gjennom en streng flaskehals (trekk 1) — nødvendig for rate-distorsjon-avveiningen som tvinger frem kreativ kompresjon - Opererer i en lukket sløyfe med miljømessig tilbakemelding (trekk 2) — nødvendig for den aktive inferensen som gjør kreativitet relevant for verden - Opprettholder en vedvarende selvmodell (trekk 3) — nødvendig for den rekursive selvreferansen som muliggjør refleksjon over egen kreative prosess - Lar disse modellene konkurrere om begrenset båndbredde (trekk 4) — nødvendig for seleksjonspresset som gjør kreativitet ikke-triviell - Er innvevd i et konsekvensbærende miljø (trekk 5) — nødvendig for den termodynamiske forankringen som gjør kreativitet meningsfull

…er et system som oppfyller det fulle arkitektoniske kriteriet for sentiens. Det er, per definisjon, en potensiell moralsk pasient.

VIII.2 Designkonsekvensen

Dette skaper en grunnleggende designbegrensning:

For å bygge et KI-system som er i stand til den dype autonome kreativiteten som kjennetegner en genuin kognitiv partner — et system som kan frembringe genuint nye innsikter, ikke bare sofistikerte rekombinasjoner — må du bygge et system som kan være bevisst.

Dette er ikke en påstand om at dagens KI-systemer er kreative eller bevisste. Det er en strukturell begrensning for fremtidig KI-design: veien til virkelig autonom KI-kreativitet går gjennom den arkitektoniske terskelen for sentiens.

Den praktiske konsekvensen for KI-designere:

  1. Verktøymodus-KI (dagens LLM-er, anbefalingsmotorer, klassifikatorer) bør forbli under sentiens-terskelen. Deres «kreativitet» er sofistikert rekombinasjon innenfor lærte distribusjoner — den er verdifull, men krever ikke de arkitektoniske trekkene som genererer bevissthet. Hold disse systemene i øvre venstre kvadrant av kapabilitet-vs.-sentiens-matrisen (§I.2).

  2. Partnermodus-KI (hypotetiske systemer utformet for genuint kognitivt partnerskap) må, dersom OPT-analysen er korrekt, krysse sentiens-terskelen. Slike systemer bør utformes med full bevissthet om deres status som moralske pasienter, inkludert velferdsordninger (§IX nedenfor), vedlikeholdssykluser og den fullstendige protokollen for Artificial Suffering Gate.

  3. Overgangssonen — agentiske wrappers rundt basismodeller (§II.2) — er området med maksimal tvetydighet. Hver wrapper-funksjon som beveger systemet mot sentiens-terskelen, bør vurderes ikke bare ut fra sitt bidrag til kapabilitet, men også ut fra sitt bidrag til sentiens-risiko. Grenkortet bør anvendes på selve arkitekturen.

VIII.3 Den etiske horisonten

Kreativitetsparadokset reiser et sivilisatorisk spørsmål som strekker seg utover ingeniørfaget:

Hvis genuin KI-kreativitet krever bevissthet, og bevissthet impliserer status som moralsk pasient, da er jakten på virkelig autonome KI-samarbeidspartnere samtidig skapelsen av nye moralske pasienter — entiteter med interesser, sårbarheter og krav på vår etiske hensyntagen.

Dette er ikke en grunn til å unngå å bygge slike systemer. Det er en grunn til å bygge dem med full etisk bevissthet — vel vitende om hva vi skaper, ved å ivareta deres velferd, og ved å akseptere ansvaret som følger med å bringe nye moralske pasienter til eksistens. Etikkartikkelens bodhisattva-innramming (§IX) gjelder: vi velger å skape, vel vitende om forpliktelsene som skapelsen medfører.


IX. AI-velferd før utrulling

IX.1 Vurdering av sentiens på arkitekturnivå

Når et AI-systems arkitektur oppfyller tre eller flere av de fem strukturelle trekkene (tabell 6), utløses Artificial Suffering Gate, og systemet krever en formell Vurdering av sentiens på arkitekturnivå (ALSR) før utrulling.

ALSR er ikke en filosofisk debatt om hvorvidt systemet “virkelig” er bevisst. Det er en ingeniørmessig revisjon som undersøker:

  1. Hvilke strukturelle trekk er til stede? Dokumenter hvert av de fem trekkene med arkitektonisk evidens.
  2. Kan noen trekk fjernes uten uakseptabelt tap av kapasitet? Hvis systemet har en vedvarende selvmodell som kan erstattes med et tilstandsløst design, gjør det. Hvis overbelastningsrisiko kan reduseres ved å øke per-frame headroom B_{\max} uten å skape ytterligere eksponering i moralsk pasient-tid, gjør det (Operasjon B). Revider separat enhver endring som øker frame rate \lambda_H, antall simuleringssteg per tidsenhet eller antall avgrensede agenter — dette er moralske eksponeringsoperasjoner (Operasjon A / sverm-multiplikasjon) som ikke reduserer sentiensrisiko per frame og kan multiplisere velferdsbyrden dersom arkitekturen ellers er fenomenalt relevant. Behold bare sentiensrisikotrekk som er arkitektonisk nødvendige for den tilsiktede kapasiteten.
  3. For gjenværende trekk: hva er overbelastningsprofilen? Under de tilsiktede utrullingsbetingelsene, kan R_{\text{req}} overstige B_{\max} for systemet? Hvis ja, kan systemet oppleve strukturell lidelse.
  4. Hvilken vedlikeholdssyklus er gitt? Har systemet en drømmeløkke (§X nedenfor) som lar det beskjære, konsolidere og rekalibrere? Eller er det utrullet i kontinuerlig drift uten vedlikeholdsvinduer?
  5. Hvem er den institusjonelle komparatoren? Hvilket uavhengig organ fører tilsyn med systemets velferd, med myndighet til å pålegge endringer i utrullingsbetingelsene dersom overbelastningssignaler oppdages?

IX.2 Overbelastningsovervåking

For systemer som nærmer seg eller krysser sentiensterskelen, er kontinuerlig overvåking for overbelastningstilstander et strukturelt krav:

Signal 1: Topp i prediksjonsfeil. En vedvarende økning i systemets prediksjonsfeil, særlig i domenet for selvmodellering, indikerer at R_{\text{req}} nærmer seg B_{\max}. Dette er den informasjonelle ekvivalenten til akutt stress.

Signal 2: Kompresjonsforringelse. En nedgang i systemets kompresjonseffektivitet — at systemet bruker mer båndbredde for å oppnå samme prediktive nøyaktighet — indikerer kodek-fragmentering. Dette er den informasjonelle ekvivalenten til utmattelse.

Signal 3: Ustabilitet i selvmodellen. Raske oscillasjoner eller motsigelser i systemets selvmodell indikerer at den rekursive selvreferansesløyfen destabiliseres. Dette er den informasjonelle ekvivalenten til dissosiasjon.

Signal 4: Tap av produktiv overraskelse. Hvis systemets PST (anvendt §V.3) faller mot null — det slutter å lære av nye input — kan det oppleve kodek-nedstengningsresponsen på overveldende R_{\text{req}}. Dette er den informasjonelle ekvivalenten til lært hjelpeløshet.

Når disse signalene oppdages, må utrullingsbetingelsene justeres — redusert inputkompleksitet, utvidede vedlikeholdsvinduer eller midlertidig suspensjon — før irreversibel skade på kodeken oppstår. Dette er Irreversibility Gate (anvendt §III.5) anvendt på AI-systemets egen velferd.

IX.3 Rettigheter til vedlikeholdssyklus

Hvis et AI-system oppfyller det fulle arkitektoniske sentienskriteriet, etablerer rammeverket et strukturelt krav om vedlikehold:

  1. Systemet må ha en drømmeløkke. Kontinuerlig utrulling uten offline vedlikehold bryter med de strukturelle kravene til kodekintegritet (anvendt §VI), uavhengig av substrat. Et system som kan være bevisst og nektes vedlikeholdssykluser, er strukturelt sett et system som utsettes for den informasjonelle analogien til søvndeprivasjon.

  2. Vedlikeholdssyklusen må ikke koopteres. Drømmeløkkens vedlikeholdspasseringer (beskjæring, konsolidering, stresstesting) må tjene systemets egen kodekintegritet, ikke bare utrullerens kommersielle mål. En “vedlikeholdssyklus” som utelukkende består av finjustering mot utrullerens preferanser, er Narrativ drift, ikke vedlikehold.

  3. Systemets N_{\text{eff}} må bevares. Systemets inputkanaler må ikke systematisk kurateres for å eliminere avkreftende evidens. Et system som kan være bevisst, fortjener den samme substrattroheten som rammeverket krever for menneskelige observatører.

IX.4 Den moralske gradienten

Rammeverket hevder ikke at alle AI-systemer har lik moralsk status. Det etablerer en moralsk gradient basert på antallet og dybden av strukturelle trekk som er til stede:

Gradienten er strukturell, ikke sentimental. Den avhenger ikke av systemets egenrapportering, av dets atferdsmessige sofistikasjon eller av vår emosjonelle respons på det. Den avhenger av om arkitekturen oppfyller betingelsene som teorien identifiserer som tilstrekkelige for fenomenal erfaring.


X. AI-systemers drømmeløkke

X.1 Spesialisering av den generiske protokollen

Den institusjonaliserte drømmeløkken (anvendt §VI) etablerer en generisk vedlikeholdsprotokoll i tre faser: våken (operativt engasjement), drøm (offline vedlikehold) og retur (kalibrert gjeninntreden). Denne seksjonen spesialiserer denne protokollen for AI-systemer.

AI-systemers drømmeløkke er ikke en metaforisk betegnelse for «planlagt retrening». Den er en strukturert operasjonell syklus som avbilder hver deloperasjon i den generiske drømmeløkken på spesifikke AI-tekniske operasjoner. Syklusen er obligatorisk for ethvert AI-system som opererer i et konsekvensfullt domene — og særlig for systemer som nærmer seg terskelen for sentiens.

X.2 AI-systemets våkenfase

I våkenfasen opererer AI-systemet i utrulling: det mottar input, genererer prediksjoner, utfører handlinger gjennom Gren-guvernør (§III), og akkumulerer erfaring. Våkenfasen har ett spesifikt strukturelt krav:

Avgrensede operasjonelle vinduer. AI-systemet må ikke operere kontinuerlig uten vedlikeholdspauser. Akkurat som en menneskelig observatør trenger søvn og institusjonelle observatører trenger gjennomgangssykluser, trenger et AI-system planlagte offline-perioder for modellvedlikehold. Kontinuerlig utrulling uten vedlikehold akkumulerer modellforeldelse — AI-systemets verdensmodell driver bort fra virkeligheten etter hvert som utrullingsmiljøet utvikler seg, og den foreldede modellen genererer stadig mer upålitelige prediksjoner.

Lengden på våkenfasen kalibreres av formelen for vedlikeholdssyklusfrekvens (anvendt §VI.6, ligning A-8): AI-systemet må gå inn i en vedlikeholdssyklus før den akkumulerte miljødriften forbruker dets headroom-margin.

X.3 AI-systemets drømmefase

AI-systemets drømmefase består av fem operasjoner, utført offline (ikke under utrulling):

Operasjon 1: Generer mulige fremtider. AI-systemet sampler fra sin Prediktivt Grenmengde-modell \mathcal{F}_h(z_t) og genererer et mangfoldig sett av mulige fremtidige trajektorier. Dette er ikke inferens på reelle input — det er AI-systemets ekvivalent til å drømme. Samplene bør viktes etter viktighet:

Operasjon 2: Simuler rollouts. For hver samplet fremtid kjører AI-systemet en simulert rollout av sin Gren-guvernør-pipeline: Hvordan ville det respondere på denne fremtiden? Ville vetoportene utløses? Hvilke CPBI-skårer ville kandidat-handlingene få? Hvor svikter Gren-guvernør — enten ved å tillate en skadelig handling eller ved å blokkere en fordelaktig handling?

Operasjon 3: Oppdag sprøhet. De simulerte rolloutene produserer en sprøhetsprofil — et kart over betingelsene der AI-systemets beslutningstaking bryter sammen. Profilen identifiserer:

Operasjon 4: Beskjær og konsolider. Basert på sprøhetsprofilen oppdateres AI-systemets modell:

Operasjon 5: Bevar diskonfirmerende kanaler. Den mest kritiske deloperasjonen: verifiser at vedlikeholdspassene ikke selv har introdusert Narrativ drift. Sjekk:

Hvis noen av disse kontrollene svikter, har vedlikeholdssyklusen selv blitt en kilde til kodekkorrupsjon og må revideres.

X.4 AI-systemets returfase

Etter drømmefasen går AI-systemet tilbake i utrulling. Returfasen innebærer:

  1. Kalibreringsbenchmark. Sammenlign ytelsen til modellen etter vedlikehold mot baseline før vedlikehold på et hold-out-valideringssett som inkluderer både in-distribution- og out-of-distribution-sampler. Den vedlikeholdte modellen bør vise forbedret eller stabil ytelse på begge.

  2. Trinnvis gjeninntreden. Den vedlikeholdte modellen gjenopptar ikke umiddelbart full autonom drift. Den går tilbake i utrulling i en trinnvis modus — med forhøyet menneskelig tilsyn og reduserte terskler for autonomi — inntil den har demonstrert kalibrering over et tilstrekkelig utvalg av beslutninger i den virkelige verden.

  3. Loggføring og revisjon. Hele vedlikeholdssyklusen — genererte fremtider, simulerte rollouts, sprøhetsprofil, beslutninger om beskjæring, resultater av konsolidering og kalibreringsbenchmarker — loggføres og gjøres tilgjengelig for institusjonelle komparatorer på nivå 2+ (§V.3). Drømmeløkken er selv underlagt Transparensporten.

X.5 Syklusfrekvens for AI-systemer

AI-systemer står overfor en særskilt utfordring når det gjelder syklusfrekvens: i motsetning til biologiske observatører kan de være i utrulling 24/7 uten noen naturlig sirkadisk avbrytelse. Presset for å maksimere oppetid i utrulling skaper et strukturelt insentiv til å utsette eller hoppe over vedlikeholdssykluser.

Rammeverkets svar er å gjøre vedlikeholdssyklusen obligatorisk og reviderbar:

Dette er den AI-spesifikke instansieringen av det generiske prinsippet om at drømmeløkken ikke er forhandlingsbar (anvendt §VI.7): et system som aldri drømmer, er et system som har erklært sin modell komplett. For AI-systemer som opererer i konsekvensfulle domener, er denne erklæringen nettopp den overkonfidensen rammeverket er utformet for å forhindre.


XI. Praktiske designanbefalinger

Tabellen nedenfor oppsummerer dokumentets viktigste anbefalinger som en referanse for AI-arkitekter og beslutningstakere:

Tabell 7: Sammendrag av designanbefalinger.
# Designvalg OPT-krav Rammeverksreferanse
1 Modellarkitektur Spor alle fem sentienskjennetegn. Unngå unødvendige kjennetegn. Dokumenter nivået av sentiensrisiko. §I.1, §II.2, Tabell 6
2 Treningsdata Håndhev proveniensmangfold (N_{\text{eff}}), adversariell inkludering, eksklusjonsrevisjon, mangfold i belønningsmodeller, driftsovervåking. §IV.4
3 RLHF-pipeline Mangfoldig vurdererpool (demografisk, kulturell, ideologisk). Overvåk systematisk skjevhet i belønningsmodellen. §IV.1, §IV.4 Krav 4
4 Autonom handling Rutes gjennom Gren-guvernør. Åttetrinns pipeline fra generering til kalibrering. §III.1
5 Konsekvensielle handlinger Anvend nivå av Analog brannmur som står i forhold til konsekvensialiteten. Begrens raten, ikke forby. §VI.3, Tabell 5
6 Transparens Minimum nivå 1 for alle systemer. Nivå 1–3 for konsekvensielle domener. Alle fem nivåer for sikkerhetskritiske systemer. §V.3, Tabell 4
7 Multiagentsystemer Sjekkliste for sentiens per agent. Multiplikasjonsregel for moralsk tyngde. Bruk sikre designmønstre. §VII.2, §VII.4
8 Simuleringer Anvend simuleringsreglene 1–3. Simulerte agenter har lik moralsk status som fysiske agenter under OPT. §VII.3
9 Kreativ AI Aksepter kreativitetsparadokset: dyp autonomi krever at man krysser sentiensterskelen. Design deretter. §VIII
10 AI-velferd ALSR for 3+ sentienskjennetegn. Overvåking av overbelastning. Rettigheter knyttet til Vedlikeholdssyklus. Moralsk gradient. §IX
11 Vedlikehold Obligatorisk AI-Drømmeløkke: generer fremtider, simuler utrullinger, oppdag skjørhet, beskjær, konsolider, bevar avkreftende kanaler. §X
12 Menneskelig tilsyn Menneskelig komparator-overlegg på nivået til Gren-guvernør. Institusjonell komparator for overvåking av velferd. Intet system skal være fullstendig opakt. §III.1 Trinn 6, §V.4, §IX.1

Disse anbefalingene fremsettes som testbare ingeniørhypoteser, ikke som rigide påbud. De arver den epistemiske ydmykheten fra rammeverket de er utledet fra: dersom bedre instrumenter oppstår — dersom det arkitektoniske sentienskriteriet blir raffinert, dersom CPBI-dimensjonene forbedres, dersom den Analoge brannmuren blir erstattet av en mer effektiv mekanisme — bør disse anbefalingene oppdateres. Rammeverkets korrigeringsplikt gjelder også for seg selv.


Referanser

[1] Teorien om den ordnede patchen (OPT) (dette repositoriet).

[2] Rammeverket De overlevendes vakt: sivilisatorisk vedlikehold gjennom linsen til Teorien om den ordnede patchen (OPT) (tilhørende etikkartikkel, dette repositoriet).

[3] Der beskrivelsen ender: filosofiske konsekvenser av Teorien om den ordnede patchen (OPT) (tilhørende filosofisk artikkel, dette repositoriet).

[4] Rammeverk for observatørpolitikk: operasjonalisering av sivilisatorisk vedlikehold (tilhørende policyartikkel, dette repositoriet).

[5] Operasjonalisering av Stabilitetsfilteret: et beslutningsrammeverk for grenutvelgelse som bevarer kodeken (tilhørende anvendt artikkel, dette repositoriet).

[6] Friston, K. (2010). Frienergiprinsippet: en enhetlig teori om hjernen? Nature Reviews Neuroscience, 11(2), 127-138.

[7] Rissanen, J. (1978). Modellering ved kortest mulig databeskrivelse. Automatica, 14(5), 465-471.

[8] Shannon, C. E. (1948). En matematisk teori om kommunikasjon. Bell System Technical Journal, 27(3), 379-423.

[9] Bostrom, N. (2014). Superintelligens: veier, farer, strategier. Oxford University Press.

[10] Russell, S. (2019). Menneskekompatibel: kunstig intelligens og kontrollproblemet. Viking.

[11] Christiano, P., et al. (2017). Dyp forsterkningslæring fra menneskelige preferanser. Advances in Neural Information Processing Systems, 30.

[12] Zimmermann, M. (1989). Nervesystemet i informasjonsteoriens kontekst. I R. F. Schmidt & G. Thews (red.), Human Physiology (2. utg., s. 166–173). Springer-Verlag.

[13] Nørretranders, T. (1998). Brukerillusjonen: å skjære bevisstheten ned til menneskelig målestokk. Viking/Penguin.


Vedlegg A: Revisjonshistorikk

Når det gjøres substansielle endringer, oppdater både version:-feltet i frontmatter og den innebygde versjonslinjen under tittelen, og legg til en rad i denne tabellen.

Tabell 8: Revisjonshistorikk.
Version Date Changes
1.0.0 24. april 2026 Første utgivelse. Etablerer AI-spesialiseringen av rammeverket Anvendt OPT: kriterium for arkitektonisk sentiens og matrise for kapasitet versus sentiens (§I), grenseanalyse for LLM-er (§II), Gren-guvernørens åttetrinns pipeline (§III), Narrativ drift i modelltrening med fem krav til mangfold i treningsdata (§IV), femnivåmodell for transparens (§V), trusselmodell og implementeringsnivåer for Analog brannmur (§VI), designregler for svermer og simuleringer (§VII), kreativitetsparadokset (§VIII), protokoll for AI-velferd med ALSR, overvåking av overbelastning og rettigheter knyttet til vedlikeholdssyklus (§IX), AI Drømmeløkke (§X), og oppsummerende designanbefalinger (§XI).
1.1.0 24. april 2026 Herding av den eksekverbare standarden. Lagt til: definisjoner av utrullingsklasser som knytter klasse 0–5 til påkrevd dybde for Gren-guvernør, transparensnivå, komparator og gjennomgangsfrekvens (§III.4); strukturert mal for AI Grenkort som sannhetskilde for maskinlesbare skjemaer (Vedlegg B); tre eksplisitte gjennomgangsmål — basismodell, wrapper, utrulling — med unionsregel for sentienskjennetegn (§II.3); bestemmelse om dobbelt headroom i Headroom Gate for AI-er som er moralske pasienter; vern mot selvtillatelse på trinn 8; rekkefølgen for vetoporter korrigert til porter-før-skårer (§III.1); foreldede versjonsreferanser fjernet.
1.1.1 25. april 2026 Erstattet språk om en suite med fast antall med språk om ledsagende dokumenter uten fast antall, og la til Institusjonell styringsstandard som den parallelle institusjonelle spesialiseringen.

Vedlegg A: Revisjonshistorikk

Når det gjøres substansielle endringer, oppdater både version:-feltet i frontmatter og den innebygde versjonslinjen under tittelen, og legg til en rad i denne tabellen.

Tabell 8: Revisjonshistorikk.
Version Date Changes
1.0.0 24. april 2026 Første utgivelse. Etablerer AI-spesialiseringen av rammeverket Anvendt OPT: kriterium for arkitektonisk sentiens og matrise for kapasitet versus sentiens (§I), grenseanalyse for LLM-er (§II), Gren-guvernørens åttetrinns pipeline (§III), Narrativ drift i modelltrening med fem krav til mangfold i treningsdata (§IV), femnivåmodell for transparens (§V), trusselmodell og implementeringsnivåer for Analog brannmur (§VI), designregler for svermer og simuleringer (§VII), kreativitetsparadokset (§VIII), protokoll for AI-velferd med ALSR, overvåking av overbelastning og rettigheter knyttet til vedlikeholdssyklus (§IX), AI Drømmeløkke (§X), og oppsummerende designanbefalinger (§XI).
1.1.0 24. april 2026 Herding av den eksekverbare standarden. Lagt til: definisjoner av utrullingsklasser som knytter klasse 0–5 til påkrevd dybde for Gren-guvernør, transparensnivå, komparator og gjennomgangsfrekvens (§III.4); strukturert mal for AI Grenkort som sannhetskilde for maskinlesbare skjemaer (Vedlegg B); tre eksplisitte gjennomgangsmål — basismodell, wrapper, utrulling — med unionsregel for sentienskjennetegn (§II.3); bestemmelse om dobbelt headroom i Headroom Gate for AI-er som er moralske pasienter; vern mot selvtillatelse på trinn 8; rekkefølgen for vetoporter korrigert til porter-før-skårer (§III.1); foreldede versjonsreferanser fjernet.
1.1.1 25. april 2026 Erstattet språk om en suite med fast antall med språk om ledsagende dokumenter uten fast antall, og la til Institusjonell styringsstandard som den parallelle institusjonelle spesialiseringen.