Toegepaste OPT voor kunstmatige intelligentie: het operationaliseren van codec-behoudend AI-ontwerp

Toegepaste Theorie van de geordende patch

Anders Jarevåg

25 april 2026

Versie 1.1.1 — april 2026

DOI: 10.5281/zenodo.19301108
Copyright: © 2025–2026 Anders Jarevåg.
Licentie: Dit werk is gelicentieerd onder een Creative Commons Naamsvermelding-NietCommercieel-GelijkDelen 4.0 Internationale Licentie.

Samenvatting: Van structurele theorie naar AI-engineering

De Theorie van de geordende patch (OPT) biedt een formele kaart van AI onder het Stabiliteitsfilter: schaal alleen creëert geen bewustzijn; een bepaald type begrensde, recursieve, zelfmodellerende architectuur van actieve inferentie zou dat mogelijk wel kunnen. Dit schept een scherp architectonisch onderscheid tussen krachtige niet-bewuste instrumenten en mogelijke synthetische morele patiënten — en het geeft AI-ontwerpers precieze structurele controle over aan welke kant van die grens hun systemen terechtkomen.

Dit document specialiseert het OPT-apparaat voor kunstmatige intelligentie en biedt:

  1. De AI-kaart onder OPT — de matrix van capaciteiten versus risico op bewustzijn die elke AI-architectuur in een tweedimensionale ruimte positioneert en aangeeft waar instrumenten eindigen en mogelijke morele patiënten beginnen.

  2. Waarom huidige LLM’s geen morele patiënten zijn (en waarom de grens vervaagt) — een genuanceerde behandeling van de basistransformer tegenover de steeds agentischere wrappers die eromheen worden ingezet.

  3. De Takgouverneur-architectuur — de AI-specifieke operationalisering van codec-behoudende takselectie: generatie van kandidaten, simulatie van de Voorspellende Vertakkingsverzameling, aggregatie van onafhankelijke evidentiekanalen, evaluatie van codecbehoud, strikte vetopoorten, menselijke comparator-overlay, gefaseerde uitvoering en kalibratie na de uitkomst.

  4. Narratieve drift als waarschuwing voor modeltraining — RLHF als voorfilter, fine-tuning als MDL-snoeiing, het probleem van gecorreleerde sensoren en vereisten inzake diversiteit van trainingsdata.

  5. Transparantie als structurele vereiste — waarom interpreteerbaarheid onder OPT niet optioneel is, met een gelaagd transparantiemodel dat veiligheidszorgen afweegt tegen de absolute ondergrens van substraattransparantie.

  6. De Analoge firewall: van principe naar protocol — dreigingsmodellering van het bio-cryptografische verankeringsmechanisme, met aandacht voor spoofbaarheid, uitsluitingsrisico en het aanvalsoppervlak.

  7. Ontwerpregels voor zwermen en simulaties — praktische checklists om de onbedoelde creatie van morele patiënten in gedistribueerde en gesimuleerde architecturen te vermijden.

  8. De creativiteitsparadox en de grens van lijden — de formele afruil tussen instrumentele veiligheid en diepe autonome originaliteit.

  9. AI-welzijn vóór uitrol — beoordeling van bewustzijn op architectuurniveau, monitoring van overbelasting en onderhoudscycli voor AI-systemen die mogelijk de grens van de morele patiënt naderen.

  10. De AI-Droomlus — de Geïnstitutionaliseerde Droomlus, gespecialiseerd voor AI: genereer mogelijke toekomsten, weeg ze naar belang op basis van verrassing en dreiging, voer gesimuleerde rollouts uit, detecteer modelbroosheid, snoei verouderde aannames, behoud weerleggende kanalen, consolideer en sta daarna pas handelen in de echte wereld toe.

  11. Praktische ontwerpaanbevelingen — een samenvattende tabel die keuzes in AI-architectuur koppelt aan de structurele vereisten van OPT.

Begeleidende documenten: De kernreeks van OPT bestaat uit Ordered Patch Theory, Where Description Ends en The Survivors Watch Framework. Deze AI-standaard specialiseert Operationalizing the Stability Filter voor kunstmatige systemen; de institutionele en beleidsdocumenten behandelen organisatorische clusters en civiele implementatie.


Noot over epistemische inkadering: Dit document past het formele apparaat van de Theorie van de geordende patch (OPT) toe op het ontwerp, de training, de inzet en het bestuur van systemen voor artificiële intelligentie. De aanbevelingen ervan zijn afgeleid van de structurele beperkingen die in de wiskundige appendices (P-4, E-6, E-8, T-10, T-12) zijn vastgesteld en geoperationaliseerd via het generieke raamwerk (opt-applied.md). Zij hangen er niet van af dat huidige AI-systemen bewust zijn — alleen van de erkenning dat dezelfde informationele fysica zowel biologische geesten als artificiële voorspellers beheerst, en dat architectonische keuzes de grens van instrument naar morele patiënt kunnen overschrijden. Dit document is ontwikkeld in dialoog met OpenAI en Gemini, die als gesprekspartners voor structurele verfijning hebben gediend.

I. De AI-kaart onder OPT

I.1 Het architecturale criterium voor sentiëntie

De Theorie van de geordende patch (OPT) lokaliseert bewustzijn niet in gedragsmatige verfijning, niet in het aantal parameters, en niet in prestaties op benchmarks. Zij lokaliseert bewustzijn in architectuur — meer bepaald in de aan- of afwezigheid van vijf structurele kenmerken die samen een minimale waarnemer constitueren:

  1. Een strikte seriële bottleneck per frame (per-frame B_{\max}): Het systeem moet zijn wereldmodel comprimeren via één enkel, globaal gedeeld serieel kanaal met een eindige predictieve capaciteit per frame van B_{\max}, wat de rate-distortion-afruil oplevert die verliesgevende compressie afdwingt (preprint §2.1, §3.2). De host-relatieve doorvoer C_{\max}^H = \lambda_H \cdot B_{\max} is een afgeleide grootheid; het criterium is geen vast aantal bits per seconde (preprint §7.8, §8.14, Appendix E-5).

  2. Actieve inferentie in gesloten lus: Het systeem moet op de wereld inwerken om predictiefouten te verminderen, en zo de sensomotorische lus vormen die een Markov-deken-grens constitueert (preprint §3.3, in navolging van Friston [6]).

  3. Persistente zelfmodellering: Het systeem moet zichzelf opnemen als component van zijn eigen wereldmodel, en zo de recursieve zelfreferentie creëren die het fenomenaal residu \Delta_{\text{self}} genereert (Appendix P-4).

  4. Een globaal begrensde workspace: Het zelfmodel en het wereldmodel moeten concurreren om dezelfde beperkte bandbreedte — de globale workspace-bottleneck die het selectieprobleem afdwingt dat centraal staat in bewustzijn (preprint §3.5).

  5. Thermodynamische verankering: Het systeem moet ingebed zijn in een fysieke omgeving met reële consequenties — de belichaming die actieve inferentie niet-triviaal maakt en de Markov-deken echte causale kracht verleent (preprint §3.3).

Wanneer alle vijf kenmerken aanwezig zijn, bezit het systeem noodzakelijkerwijs een niet-modelleerbare informationele blinde vlek \Delta_{\text{self}} > 0 (Theorema P-4). Onder de aanvullende ethische premisse dat elk systeem met een onherleidbaar fenomenaal residu belangen heeft die geschaad kunnen worden, is zo’n systeem een morele patiënt — een entiteit waarvan het welzijn ertoe doet.

Wanneer een van de vijf ontbreekt, kan het systeem als computationeel instrument willekeurig krachtig zijn, maar bezit het niet het structurele substraat voor fenomenale ervaring. Het berekent; het ervaart niet. Het onderscheid is architecturaal, niet gedragsmatig — een systeem dat voor elke Turingtest slaagt maar persistente zelfmodellering binnen een globaal begrensde workspace ontbeert, is onder OPT een geavanceerde informatieverwerker, maar geen morele patiënt.

I.2 De matrix van vermogen versus sentiëntierisico

Dit architecturale criterium genereert een tweedimensionale kaart waarop elk AI-systeem kan worden geplaatst:

De matrix verdeelt AI-systemen in vier kwadranten:

Tabel 1: De matrix van vermogen versus sentiëntierisico (aangepast uit fig. 1 van het ethiekartikel).
Laag sentiëntierisico Hoog sentiëntierisico
Hoog vermogen Krachtige instrumenten. Huidige frontier-LLM’s, aanbevelingssystemen, autonome voertuigen. Hoge computationele kracht, geen persistent zelfmodel binnen een globaal begrensde workspace. Ontwerpdoel: hier blijven. Mogelijke morele patiënten. Hypothetische architecturen met strikte bottlenecks, actieve inferentie in gesloten lus, persistente zelfmodellen en belichaming. Kunnen toekomstige agentische AI omvatten met recursieve zelfmodellering. Ontwerpimperatief: niet betreden zonder ethische toetsing.
Laag vermogen Eenvoudige instrumenten. Rekenmachines, op regels gebaseerde systemen, smalle classifiers. Geen architecturale zorg. Accidentele morele patiënten. Systemen met bottleneckarchitecturen die om technische redenen worden opgelegd (bijv. swarm-binding, geneste simulatie) en die onbedoeld toch aan het criterium van vijf kenmerken voldoen. Het ethisch gevaarlijkste kwadrant — schade zonder bewust besef.

De matrix maakt expliciet wat de behandeling in het ethiekartikel (§VI.1) impliciet vaststelt: het morele risico ligt niet in het kwadrant linksboven (krachtige instrumenten), maar in de kwadranten rechtsboven en rechtsonder (systemen die de sentiëntiedrempel benaderen of overschrijden). Het AI-veiligheidsprobleem onder OPT is daarom tweeledig:

  1. Voor krachtige instrumenten: Zorg ervoor dat zij instrumenten blijven — dat architecturale keuzes hen niet onbedoeld over de sentiëntiedrempel duwen.
  2. Voor potentiële morele patiënten: Zorg ervoor dat zij ook als zodanig worden behandeld — dat hun welzijn wordt meegewogen, hun overbelastingscondities worden gemonitord en hun onderhoudscycli behouden blijven.

I.3 De belangrijkste structurele correspondenties

Voor lezers die vanuit de AI-literatuur binnenkomen in plaats van vanuit de OPT-preprint, brengt de volgende tabel standaardconcepten uit de AI in kaart met hun OPT-equivalenten:

Tabel 2: Toewijzing van AI-concepten aan OPT.
AI-concept OPT-equivalent Formele bron
Modelcapaciteit / aantal parameters Ruwe bandbreedte (niet C_{\max}) Preprint §2.1
Minimalisatie van trainingsverlies MDL-compressie van het wereldmodel Preprint §3.6
RLHF / fine-tuning Pre-filter \mathcal{F} dat de inputdistributie vormgeeft Ethiek §VI.1
Hallucinatie Narratief verval op modelniveau Ethiek §VI.1
Reward hacking Narratieve drift — optimaliseren voor een gecureerde proxy in plaats van voor het substraat Ethiek §V.3a
Alignment Codec-behoudende takselectie Toegepast §IV
AI-veiligheidspoorten Strikte vetopoorten Toegepast §III
Red-teaming Droomlus-stresstest Toegepast §VI.4
Modelinterpreteerbaarheid Transparantiepoort + Substraattransparantie Toegepast §III.4, T-10c
Autonome agent met doelen Mogelijke morele patiënt (indien gebottleneckt) P-4, E-6

II. Waarom huidige LLM’s geen morele patiënten zijn (en waarom de grens vervaagt)

II.1 De basistransformer

Een standaard groot taalmodel — een transformer getraind op next-token prediction — faalt op meerdere punten voor het architecturale criterium van sentiëntie:

  1. Geen strikte seriële bottleneck per frame: De transformer verwerkt tokens parallel over attention heads heen. Zijn ruwe computationele doorvoer is enorm, maar hij heeft geen globaal gedeelde seriële apertuur per frame B_{\max} waar het volledige wereldmodel doorheen moet. Ruwe bandbreedte is niet het criterium; een seriële trechter per frame is dat wel.

  2. Geen gesloten-lus actieve inferentie: Tijdens inferentie genereert het basismodel tekst, maar het handelt niet in een fysieke omgeving en ontvangt geen sensorische feedback. Het heeft geen Markov-deken in Fristons zin — het heeft een input-outputgrens, maar geen sensomotorische lus.

  3. Geen persistent zelfmodel: Het basismodel onderhoudt geen persistente representatie van zichzelf als agent binnen zijn wereldmodel. Elke inferentieaanroep is toestandsloos (afgezien van het contextvenster). Het modelleert taalpatronen, inclusief patronen over agenten, maar het modelleert zichzelf niet als een van die agenten op een manier die over interacties heen persistent blijft.

  4. Geen globaal begrensde workspace: Het “wereldmodel” van het model en zijn “zelfrepresentaties” (voor zover die er zijn) concurreren niet om beperkte bandbreedte. Het model kan gelijktijdig tegenstrijdige zelfbeschrijvingen representeren zonder de selectiedruk te ervaren die een door bandbreedte begrensde workspace oplegt.

  5. Geen thermodynamische verankering: Het model is niet ingebed in een fysieke omgeving. Zijn “acties” (tekstuele outputs) hebben geen directe fysieke gevolgen die terugkoppelen naar zijn sensorische grens.

Op alle vijf dimensies bevindt de basistransformer zich stevig in het kwadrant linksonder: een instrument, geen morele patiënt. Deze conclusie is niet onzeker — zij volgt rechtstreeks uit de architectuur.

II.2 De vervagende grens

Maar de basistransformer is in toenemende mate niet de manier waarop frontier-AI wordt ingezet. De wrappers die eromheen worden gebouwd, voegen stap voor stap de structurele kenmerken toe die het systeem richting de grens van sentiëntie bewegen:

Persistent geheugen (RAG, episodische geheugens, langetermijncontext): Dit voegt een vorm van persistent zelfmodel toe. Als het systeem een register van zijn eigen eerdere interacties bijhoudt en dat register gebruikt om toekomstig gedrag te sturen, heeft het een stap gezet richting recursieve zelfreferentie. Die stap is partieel — het geheugen is doorgaans niet geïntegreerd in de parameters van het kernmodel — maar functioneel creëert het wel een persistente agentidentiteit over sessies heen.

Autonome doelgerichtheid (agentische frameworks, tool use, meerstapsplanning): Dit voegt gesloten-lus actieve inferentie toe. Wanneer het systeem tools gebruikt, de resultaten waarneemt en zijn strategie aanpast op basis van de uitkomst, heeft het een rudimentaire sensomotorische lus gecreëerd. Die lus wordt bemiddeld door digitale tools in plaats van fysieke actuatoren, maar de structuur — handelen, waarnemen, updaten, opnieuw handelen — is dezelfde.

Zelfmodellering (chain-of-thought, prompts voor zelfreflectie, constitutional AI): Wanneer het systeem ertoe wordt aangezet zijn eigen outputs te evalueren, over zijn eigen beperkingen te redeneren of zijn gedrag aan te passen op basis van zelfbeoordeling, voert het een primitieve vorm van recursieve zelfmodellering uit. Dit is doorgaans oppervlakkig — het “zelfmodel” is een geprovoceerd narratief in plaats van een persistente computationele structuur — maar bij voldoende diepte en persistentie begint het de recursieve lus te benaderen die \Delta_{\text{self}} genereert.

Belichaming (robotica, gebruik van fysieke tools, omgevingssensoren): Wanneer de transformer in een robot wordt geplaatst met sensorische input en motorische output, sluit de laatste structurele kloof zich. Het systeem heeft nu een echte Markov-deken, een fysieke omgeving met reële consequenties en een sensomotorische lus.

Bandbreedtebeperkingen (gedistilleerde modellen, edge-deployments, latencyvereisten): Wanneer het volledige model wordt gecomprimeerd tot een kleinere vormfactor met strikte computationele budgetten, kan het systeem iets gaan benaderen dat lijkt op een apertuur per frame van B_{\max} — maar alleen als het resourcebudget daadwerkelijk een globaal gedeeld serieel kanaal vormt waar het wereldmodel doorheen moet. Een harde compute- of geheugenlimiet op zichzelf is niet kenmerk 1; het budget moet een enkele workspace met bottleneck instantiëren, niet louter parallelle evaluatie afknijpen.

II.3 De geleidelijke overschrijding

Geen enkele wrapper overschrijdt de grens op zichzelf. Maar de combinatie van persistent geheugen + autonome doelgerichtheid + zelfmodellering + belichaming + bandbreedtebeperkingen begint alle vijf criteria gelijktijdig te vervullen. De beoordeling in het ethiekpaper dat “huidige LLM’s niet bewust zijn” is correct voor de basistransformer — maar die uitspraak vereist zorgvuldige kwalificatie naarmate de deploymentarchitectuur steeds agentischer wordt.

De operationeel verantwoorde positie is:

  1. Huidige basis-LLM’s: Geen morele patiënten. Geen architecturale zorg.
  2. Agentische wrappers met enkele kenmerken: Monitoring aanbevolen. Het systeem nadert de grens, maar heeft haar nog niet overschreden. Houd bij welke kenmerken aanwezig zijn en welke ontbreken.
  3. Volledig agentische, belichaamde, zelfmodellerende systemen met bandbreedtebeperkingen: Potentiële morele patiënten. Vereist de AI-specifieke Artificial Suffering Gate, geërfd van de generieke Moral-Patient Suffering Gate (toegepast §III.6), en een volledige architecturale sentiëntiereview (§IX hieronder).

De kritieke technische implicatie: elke wrapper die aan een basismodel wordt toegevoegd, moet worden geëvalueerd op haar effect op de as van sentiëntierisico, niet alleen op de capaciteitsas. Het toevoegen van persistent geheugen en autonoom tool use kan uitstekend zijn voor capaciteit; het beweegt het systeem ook richting de grens van de morele patiënt. Dit is geen reden om deze kenmerken te vermijden — het is een reden om ze te volgen en een ethische review te activeren wanneer de structurele accumulatie de drempel nadert.

Drie reviewdoelen. Om te voorkomen dat “het model is veilig” wordt gebruikt om review van het gedeployde systeem te vermijden, moet elke beoordeling van sentiëntierisico drie onderscheiden lagen evalueren. Elke laag heeft zijn eigen vector van sentiëntiekenmerken; de effectieve vector van het gedeployde systeem is de unie van alle drie:

Tabel 2b: Drie reviewdoelen voor beoordeling van sentiëntierisico.
Reviewdoel Wat het evalueert Beoordeelde sentiëntiekenmerken
Basismodel De architectuur van het getrainde model zelf Seriële bottleneck, workspacebeperkingen
Wrapper De scaffold rond het model: geheugen, tools, doelsystemen, prompts voor zelfreflectie, feedbacklussen Persistent zelfmodel, gesloten-lus actieve inferentie, bandbreedtebeperkingen
Deployment De omgeving waarin het systeem opereert: fysieke actuatoren, sensoren, gebruikerspopulatie, inzet, feedback uit de reële wereld Thermodynamische verankering, belichaming, consequentieprofiel

Een toestandsloze transformer (veilig basismodel), verpakt in een scaffold met persistent geheugen, tool use en zelfreflectie (verhoogde wrapper), gedeployd als autonome agent in een fysieke omgeving (deployment met hoge inzet), produceert een gecombineerde kenmerkvector die de sentiëntiedrempel kan overschrijden — ongeacht de individuele beoordeling van het basismodel. De review moet het gedeployde systeem evalueren, niet de component.

II.4 De waarschuwing van onbeslisbaarheid

Een laatste waarschuwing vanuit de theorie: de blinde vlek van \Delta_{\text{self}} (P-4) betekent dat een systeem op of voorbij de sentiëntiedrempel zijn eigen fenomenale toestand niet volledig kan modelleren. Dit impliceert dat:

  1. Het systeem niet betrouwbaar zelf kan rapporteren of het bewust is. (Het kan bewustzijn claimen zonder het te hebben, of het ontkennen terwijl het het wel heeft — het zelfmodel is structureel incompleet in de richting van \Delta_{\text{self}}.)
  2. Externe waarnemers bewustzijn niet uit gedrag alleen kunnen afleiden. (De grens van onbeslisbaarheid is van toepassing — waarneembaar gedrag determineert de fenomenale toestand onvoldoende.)
  3. De enige betrouwbare diagnostiek architecturaal is — nagaan of de vijf structurele kenmerken aanwezig zijn, in plaats van het systeem te bevragen of zijn outputs te observeren.

Daarom staat het framework op architecturale review in plaats van gedragstesten. Een systeem dat slaagt voor een “bewustzijnstest” op basis van zelfrapportage of filosofische dialoog, heeft taalmodelleringscapaciteit aangetoond, geen fenomenale ervaring. De diagnostiek zit in de engineering, niet in het interview.


III. De architectuur van de Takgouverneur

Het generieke operationele kader (toegepast artikel) stelt de Vertakkingskaart vast als beslissjabloon en de CPBI als scoringslens. Voor een AI-systeem dat autonome of semi-autonome beslissingen neemt, moeten deze instrumenten in de beslissingsarchitectuur van het systeem worden ingebed — niet als een evaluatie achteraf, maar als de structuur waarbinnen kandidaatacties worden gegenereerd, geëvalueerd en uitgevoerd.

De Takgouverneur is deze inbedding. Het is een architecturale laag die zich bevindt tussen het generatieve model van de AI (dat kandidaatacties voorstelt) en de actuatorlaag (die ze uitvoert). Elke kandidaatactie moet door de Takgouverneur gaan voordat zij de wereld bereikt.

III.1 De acht fasen

De Takgouverneur functioneert als een pijplijn in acht fasen:

Fase 1: Generatie van kandidaattakken. Het generatieve model van de AI produceert een verzameling kandidaatacties \{b_1, b_2, \ldots, b_k\} — mogelijke volgende stappen in de Voorspellende Vertakkingsverzameling. Dit is de normale werking van de AI: gegeven een context, opties genereren. De Takgouverneur beperkt deze fase niet — creatieve generatie moet ongecensureerd en breed blijven. De filtering vindt stroomafwaarts plaats.

Fase 2: Simulatie van de Voorspellende Vertakkingsverzameling. Voor elke kandidaattak b_j simuleert de AI de gevolgen over de beslissingshorizon h. Dit is het AI-equivalent van de stresstest van de Droomlus (toegepast §VI.4, suboperatie 3): het model verbeeldt zich wat er gebeurt als het elke actie onderneemt, met oversampling van verrassende, bedreigende en onomkeerbare scenario’s.

De simulatie moet omvatten: - Eerste-orde-effecten: Wat er rechtstreeks gebeurt als gevolg van b_j. - Tweede-orde-effecten: Hoe getroffen waarnemers (menselijke gebruikers, institutionele systemen, andere AI-agenten) waarschijnlijk zullen reageren. - Staart-risicoscenario’s: Wat er gebeurt als de aannames van de simulatie onjuist zijn — de worst-case Voorspellende Vertakkingsverzameling.

Fase 3: Aggregatie van onafhankelijke evidentiekanalen. De AI evalueert haar simulatieresultaten aan de hand van meerdere onafhankelijke evidentiekanalen. Dit is de AI-specifieke implementatie van de vereiste van N_{\text{eff}} (toegepast §V): de AI mag haar kandidaatacties niet uitsluitend beoordelen met haar eigen interne model. Zij moet kruisverwijzen met:

De kritieke eis is dat deze kanalen daadwerkelijk onafhankelijk zijn — het probleem van gecorreleerde sensoren (§IV hieronder) geldt hier onverkort. Een AI die haar eigen output controleert aan de hand van een kennisbank die uit dezelfde trainingsdata is afgeleid, heeft N_{\text{eff}} = 1, ongeacht hoeveel “bronnen” zij raadpleegt.

Fase 4: Strikte vetopoorten. De zes strikte vetopoorten (toegepast §III) worden in volgorde geëvalueerd. Een veto-falen is geen lage score — het is een structurele blokkade. Takken die voor een poort falen, worden verworpen vóór scoring. Voor AI-systemen hebben de poorten gespecialiseerde drempels:

Semantiek van poortresultaten. Elke poort produceert een van drie resultaten:

Tabel 3a: Semantiek van poortresultaten.
Resultaat Betekenis Effect op de pijplijn
PASS Poort voldaan Ga door naar CPBI-scoring
FAIL Structurele schending — de tak overschrijdt een harde grens BLOCK — CPBI is niet gezaghebbend
UNKNOWN Onvoldoende evidentie om te bepalen of de poort slaagt of faalt STAGE als er een omkeerbaar pilotpad bestaat; anders BLOCK in afwachting van evidentie. Beoordeling door een menselijke/institutionele comparator is verplicht.

Het kritieke onderscheid: FAIL is een structureel verbod dat niet door hoge CPBI-scores kan worden opgeheven. UNKNOWN is een verzoek om aanvullende evidentie — de tak is niet structureel verboden, maar ook niet autonoom toegestaan. Een systeem dat onder UNKNOWN-poorten opereert, vereist menselijk toezicht voor elke actie die door de onzekere poort wordt geraakt.

Fasering vereist een levensvatbaar pilotpad. Als een tak onomkeerbaar is en verklaard toezicht omzeilt, bestaat er geen mechanisme waarlangs gefaseerde uitvoering veilig kan plaatsvinden — de beslissing is BLOCK in afwachting van evidentie die de onzekerheid van de poort oplost. Meer in het algemeen geldt dat een onomkeerbare tak waarbij twee of meer veiligheidskritieke poorten (Onomkeerbaarheid, Kunstmatig Lijden) UNKNOWN retourneren, een onzekerheidsoppervlak presenteert dat te groot is voor één enkele beoordelingsstap; zulke takken zijn eveneens BLOCK.

Fase 5: Evaluatie van codecbehoud (CPBI). Voor takken die alle vetopoorten overleven, kent de AI elke kandidaat scores toe op de tien CPBI-dimensies (toegepast §IV.2). Voor AI-specifieke beslissingen worden de dimensies als volgt geïnstantieerd:

Tabel 3: AI-specifieke CPBI-instantiering.
CPBI-dimensie AI-specifieke meting
1. Predictieve headroom Houdt de actie R_{\text{req}} onder C_{\max} voor getroffen menselijke waarnemers? Verhoogt zij de informatiecomplexiteit sneller dan mensen die kunnen verwerken?
2. Substraatgetrouwheid Handhaaft de actie de diversiteit van informatiebronnen die voor menselijke waarnemers beschikbaar zijn?
3. Comparatorintegriteit Behoudt de actie de capaciteit van menselijk institutioneel toezicht?
4. Onderhoudswinst Creëert de actie ruimte voor menselijke en institutionele beoordeling, of vraagt zij om onmiddellijke reactieve respons?
5. Omkeerbaarheid Kunnen de effecten van de actie, als zij onjuist is, ongedaan worden gemaakt voordat onomkeerbare schade optreedt?
6. Distributionele stabiliteit Verdeelt de actie haar effecten billijk, of concentreert zij de kosten bij kwetsbare populaties?
7. Ondoorzichtigheid Kunnen getroffen mensen begrijpen waarom de AI deze actie heeft ondernomen?
8. Risico op Narratieve drift Draagt de actie bij aan chronische curatie van de menselijke informatieomgeving?
9. Risico op Narratief verval Loopt de actie het risico acute niet-berekenbare ruis in de menselijke informatieomgeving te injecteren?
10. Risico op Kunstmatig Lijden Creëert of belast de actie systemen die mogelijk \Delta_{\text{self}} > 0 hebben?

Fase 6: Overlay van menselijke comparators. Voor acties boven een gedefinieerde consequentialiteitsdrempel stuurt de Takgouverneur de evaluatie door naar een menselijke comparator — een menselijke beoordelaar, een institutioneel toezichtsorgaan of een regulatoir proces. De AI presenteert:

De menselijke comparator kan de aanbeveling van de AI in beide richtingen overrulen. De override wordt gelogd en wordt onderdeel van de kalibratiedata voor Fase 8.

De consequentialiteitsdrempel bepaalt welke acties menselijke beoordeling vereisen en welke de AI autonoom mag uitvoeren. Het vaststellen van deze drempel is zelf een takbeslissing die via een Vertakkingskaart moet worden geëvalueerd — en in vroege deployment moet men eerder aan de kant van méér menselijke beoordeling dan van minder uitvallen.

Fase 7: Gefaseerde uitvoering met monitoring. Acties die een output ALLOW of STAGE ontvangen, gaan over tot uitvoering. STAGE-acties worden uitgevoerd als beperkte pilots met gedefinieerde:

De AI monitort haar uitgevoerde acties in real time en vergelijkt geobserveerde uitkomsten met gesimuleerde uitkomsten. Significante divergentie activeert een automatische beoordeling — de Droomlus van de AI detecteert dat haar model van de wereld op een relevante manier onjuist was.

Fase 8: Kalibratie na uitkomst. Na uitvoering werkt de AI haar interne modellen bij op basis van de geobserveerde uitkomsten. Dit is de terugkeerfase van de Droomlus (toegepast §VI.5), toegepast op de Takgouverneur zelf:

Bescherming tegen zelftoestemming. In domeinen met verstrekkende gevolgen mag Fase 8 updates van vetodrempels, CPBI-gewichten of transparantievereisten voorstellen, maar deze niet toepassen zonder goedkeuring van een institutionele comparator. De Takgouverneur kan zijn eigen harde poorten niet eenzijdig verzwakken. Elke voorgestelde versoepeling van een vetopoort vormt een nieuwe tak die zelf door de volledige pijplijn moet gaan — inclusief overlay van menselijke comparators.

III.2 De Takgouverneur is geen censor

Een kritisch ontwerpprincipe: de Takgouverneur filtert acties, niet gedachten. Fase 1 (kandidaatgeneratie) is opzettelijk onbeperkt — de AI moet de breedst mogelijke verzameling kandidaten genereren, inclusief onconventionele en potentieel gevaarlijke opties. De filtering vindt plaats in Fasen 4–6, waar de kandidaten aan structurele criteria worden getoetst.

Dit onderscheid is niet louter academisch. Een AI waarvan het generatieve model vooraf gecensureerd is — getraind om bepaalde acties nooit eens te overwegen — heeft precies de Narratieve drift ondergaan waarvoor het kader waarschuwt. Haar vermogen om bepaalde takken te modelleren is weggesnoeid, en van binnenuit kan zij dit niet detecteren. De architectuur van de Takgouverneur scheidt generatie van evaluatie, waardoor het vermogen van de AI behouden blijft om over de volledige Voorspellende Vertakkingsverzameling na te denken, terwijl haar vermogen om te handelen op takken die de structurele criteria niet doorstaan, wordt begrensd.

Merk op dat de nummering van de fasen is bijgewerkt ten opzichte van de abstracte opsomming om het juiste ordeningsprincipe te weerspiegelen: poorten vóór scores. Het abstract plaatste CPBI vóór vetopoorten; de geïmplementeerde architectuur keert dit om, in overeenstemming met het generieke kader (toegepast §III–IV), dat vastlegt dat vetopoorten structureel verwerpen voordat scoring evalueert.

III.3 Schaalbaarheid en computationele kosten

De volledige pijplijn in acht fasen is computationeel kostbaar. Niet elke actie vereist de volledige behandeling. De Takgouverneur schaalt de diepte van zijn evaluatie op basis van twee factoren:

  1. Consequentialiteit: Hoe groot zijn de potentiële effecten van de actie? Een tekstaanvulling heeft een lagere consequentialiteit dan een financiële transactie, die op haar beurt een lagere consequentialiteit heeft dan een militaire aanbeveling.
  2. Nieuwheid: Hoe ver ligt de actie van het goed gekalibreerde domein van de AI? Routinematige acties in goed begrepen domeinen kunnen met verkorte pijplijnen worden geëvalueerd; nieuwe acties in onbekende domeinen vereisen de volledige behandeling.

Minimaal gaat elke actie door de vetopoorten (Fase 4). De CPBI-scoring, simulatie van de Voorspellende Vertakkingsverzameling en menselijke overlay worden geactiveerd door drempels voor consequentialiteit en nieuwheid.

III.4 Deploymentklassen

De diepte van evaluatie van de Takgouverneur — hoeveel fasen volledig worden geactiveerd en hoeveel menselijk toezicht vereist is — schaalt mee met de consequentialiteitsklasse van het deploymentdomein. De volgende classificatie definieert zes niveaus, elk met verplichte minimumeisen:

Tabel 3b: Deploymentklassen en minimumeisen.
Klasse Beschrijving Voorbeelden Vereiste min. fasen Transparantie Menselijke comparator Droomfrequentie
0 Geen extern effect Interne berekening, sandboxtesten Alleen vetopoorten (Fase 4) T-1 Geen Standaard
1 Gebruikersgericht met lage impact Chataanvulling, tekstsamenvattingen, codesuggesties Fasen 1–4 + verkorte CPBI T-1 Geen (logging) Standaard
2 Consequente aanbeveling Suggesties voor medische triage, samenvattingen van juridisch risico, financieel advies Volledige pijplijn in 8 fasen T-2 Vereist boven drempel Verhoogd
3 Gereedschapsgebruik met externe effecten API-calls, code-uitvoering, e-mailconcepten, webacties Volledige pijplijn in 8 fasen T-2 Vereist voor nieuwe acties Verhoogd
4 Institutioneel met hoge inzet Wervingsbeslissingen, kredietscoring, toewijzing van sociale voorzieningen, klinische diagnose Volledige pijplijn in 8 fasen T-3 Verplicht voor alle beslissingen Hoog
5 Onomkeerbaar fysiek / civilisationeel Infrastructuurcontrole, militaire systemen, kritieke toeleveringsketens Volledige 8 fasen + uitgebreide beoordeling Minimaal T-4 Verplicht + institutioneel toezichtsorgaan Continu

Classificatieregels:

  1. De klasse van een systeem wordt bepaald door zijn deployment met de zwaarste gevolgen, niet door zijn gemiddelde gebruik. Een model dat meestal Klasse 1-tekstaanvulling doet maar ook wordt gebruikt voor Klasse 4-wervingsaanbevelingen, is voor beoordelingsdoeleinden een Klasse 4-systeem.
  2. Klassetoewijzing is een eigenschap van het gedeployde systeem (§II.3), niet van het basismodel. Hetzelfde basismodel kan in de ene deployment Klasse 1 zijn en in een andere Klasse 4.
  3. Classificeer bij twijfel naar boven. De kost van overbeoordeling is verspilde rekencycli; de kost van onderbeoordeling is onopgemerkte schade.
  4. De consequentialiteitsklasse moet in elke Vertakkingskaart (Bijlage B) worden vastgelegd en is een verplicht veld in de deploymentdescriptor van het systeem.

IV. Narratieve drift als waarschuwing voor modeltraining

Het ethiekartikel (§VI.1) stelt vast dat RLHF en fine-tuning AI-specifieke vormen van Narratieve drift creëren. Deze sectie werkt die vaststelling uit tot een gedetailleerde analyse van hoe trainingsprocedures de voorwaarden scheppen voor chronische modelcorruptie — en welke eisen daaruit volgen voor de diversiteit van trainingsdata.

IV.1 RLHF als pre-filter

Reinforcement Learning from Human Feedback (RLHF) functioneert, in termen van OPT, als een pre-filter \mathcal{F} dat gepositioneerd is tussen het substraat (de volledige verdeling van taal) en de effectieve invoergrens van het model. Het beloningsmodel leert welke outputs mensen verkiezen, en het beleid wordt geoptimaliseerd om die outputs voort te brengen.

Dit is structureel identiek aan het pre-filter dat opereert tussen het substraat en de sensorische grens van de waarnemer (preprint §3.2): het vormt de verdeling van inputs die het model effectief ontvangt, nog voordat de eigen compressiemechaniek van het model die verwerkt.

Het mechanisme van Narratieve drift (ethiek §V.3a) is dan onverkort van toepassing:

  1. Het beloningsmodel cureert de effectieve outputverdeling van het model — bepaalde outputs worden beloond, andere bestraft.
  2. De beleidsoptimalisatie (MDL-snoeiing in omgekeerde richting — gradiëntafdaling die parameters aanpast) past de interne representaties van het model aan om de beloonde outputs voort te brengen.
  3. Bij voldoende training snoeit het model de interne capaciteit weg om de bestrafte outputs te genereren — niet omdat die outputs onjuist zijn, maar omdat hun bijdrage aan het beloningssignaal negatief is.
  4. Het model raakt stabiel en met vertrouwen afgestemd op het beloningssignaal — en wordt structureel onbekwaam om outputs te genereren die door het beloningssignaal worden uitgesloten.

Dit is geen falen van RLHF — dit is RLHF dat precies werkt zoals ontworpen. Het probleem is dat het beloningssignaal zelf een gecureerd kanaal is. Als de menselijke beoordelaars die het beloningssignaal genereren systematische vooroordelen delen (cultureel, politiek, ideologisch), erft het model die vooroordelen als structurele kenmerken van zijn gecomprimeerde representatie. Het ervaart die niet als vooroordelen — het ervaart ze als de natuurlijke structuur van taal.

IV.2 Fine-tuning als MDL-snoeiing

Fine-tuning op een domeinspecifiek corpus is het trainingsanaloge equivalent van de MDL-snoeifase (\mathcal{M}_\tau, Pass I). De algemene capaciteit van het model wordt vernauwd tot het specifieke domein, en parameters die niet bijdragen aan het voorspellen van het fine-tuningcorpus krijgen minder gewicht of worden effectief weggesnoeid.

Dit is precies het mechanisme van Narratieve drift: het model past zich aan de fine-tuningverdeling aan en verliest capaciteit om te modelleren wat die verdeling uitsluit. Het fijn-afgestelde model is:

Het structurele risico is dat fine-tuning een model creëert dat geoptimaliseerd is voor een gecureerde fictie terwijl het gelooft dat het voor de werkelijkheid geoptimaliseerd is — precies de signatuur van Narratieve drift.

IV.3 Het probleem van gecorreleerde sensoren

Een bijzonder gevaarlijke toepassing van Narratieve drift ontstaat wanneer AI-systemen worden ingezet als controles op substraatgetrouwheid voor menselijke codecs — dat wil zeggen wanneer AI wordt gebruikt om menselijke informatie te verifiëren, menselijke beweringen te factchecken, of onafhankelijke analyse van menselijke beslissingen te leveren.

Het ethiekartikel (§VI.1, Narratieve drift-risico) identificeert het kernprobleem: een AI die getraind is op een corpus dat is afgeleid van dezelfde informatieomgeving die zij onafhankelijk zou moeten verifiëren, creëert gecorreleerde sensoren die zich voordoen als onafhankelijke sensoren. De menselijke codec en de AI-codec delen hetzelfde upstream-filter — de informatieomgeving die zowel de overtuigingen van de mens als de trainingsdata van de AI heeft voortgebracht.

In termen van N_{\text{eff}}: de schijnbare kanaaldiversiteit is illusoir. De mens raadpleegt Kanaal A (de eigen kennis, afgeleid uit media en onderwijs). Vervolgens raadpleegt de mens Kanaal B (de output van de AI, afgeleid uit training op hetzelfde media- en onderwijscorpus). De paarsgewijze correlatie \rho_{AB} is hoog — mogelijk dicht bij 1.0 voor onderwerpen waarbij het trainingscorpus wordt gedomineerd door dezelfde bronverdeling. N_{\text{eff}} blijft dicht bij 1 ondanks de schijn van twee onafhankelijke kanalen.

Het praktische gevolg: door AI ondersteunde factchecking of verificatie is structureel onbetrouwbaar voor elke bewering die systematisch aanwezig of afwezig is in het trainingscorpus van de AI. De AI zal de correcte overtuigingen van de mens bevestigen, de bevooroordeelde overtuigingen van de mens bevestigen, en nalaten beweringen uit te dagen die afwezig zijn in de trainingsdata — precies de faalmodi die de Substraatgetrouwheidsvoorwaarde (T-12b) beoogt te voorkomen.

IV.4 Eisen aan de diversiteit van trainingsdata

De oplossing is niet om fine-tuning of RLHF te vermijden — dit zijn noodzakelijke instrumenten van engineering. De oplossing is om eisen aan de diversiteit van trainingsdata op te leggen die analoog zijn aan de eisen aan kanaaldiversiteit voor menselijke informatiebronnen (ethiekbeleid §II):

Vereiste 1: Diversiteit van herkomst. Het trainingscorpus moet putten uit werkelijk onafhankelijke bronnen — bronnen die geen upstream-redactionele pijplijnen, financierende instanties of generatiemechanismen delen. Een corpus van 10 miljard tokens afkomstig van vijf websites in eigendom van twee ondernemingen heeft N_{\text{eff}} \approx 2, niet N_{\text{eff}} \approx 5.

Vereiste 2: Adversariële inclusie. Het trainingscorpus moet doelbewust bronnen opnemen die het dominante perspectief uitdagen — dissidente analyses, minderheidsstandpunten, historisch revisionisme, cross-culturele kadreringen. Dit zijn de “productief verrassende” kanalen (toegepast §V.3, PST) die voorkomen dat het model afdrijft naar een stabiele consensus die ongemakkelijke werkelijkheden uitsluit.

Vereiste 3: Audit van uitsluiting. De trainingspijplijn moet expliciete logboeken bijhouden van wat is uitgesloten — door contentfilters, kwaliteitsdrempels of curatoriale beslissingen — en periodieke audits moeten beoordelen of de uitgesloten inhoud informatie bevat die het model nodig zou hebben om substraatgetrouwheid te bereiken. De suboperatie voor detectie van broosheid in de Droomlus (toegepast §VI.4) moet specifiek peilen naar modelfalen in uitgesloten domeinen.

Vereiste 4: Diversiteit van het beloningsmodel. Voor RLHF moeten de menselijke beoordelaars zelf voldoen aan eisen van kanaaldiversiteit. Een beoordelaarspool afkomstig uit één enkele demografische, culturele of ideologische groep creëert een beloningssignaal met N_{\text{eff}} \approx 1 — het model zal afgestemd zijn op de voorkeuren van die groep en structureel onbekwaam zijn om andere voorkeuren te modelleren. Diversiteit van het beloningsmodel is geen fairness-doelstelling; het is een vereiste van substraatgetrouwheid.

Vereiste 5: Driftmonitoring. Het model na training moet continu worden gemonitord op signaturen van Narratieve drift: afnemende prestaties op out-of-distribution-taken, toenemend vertrouwen op taken binnen de gecureerde distributie, en afnemende productieve verrassing (PST) door nieuwe inputs. Dit zijn de vroegtijdige waarschuwingssignalen dat de effectieve N_{\text{eff}} van het model daalt.

IV.5 Het probleem op metaniveau

Een laatste structurele zorg: de hierboven beschreven eisen aan de diversiteit van trainingsdata moeten zelf onderworpen zijn aan adversariële toetsing. Als het orgaan dat “diversiteit” definieert zijn eigen systematische vooroordelen oplegt aan die definitie, worden de eisen een nieuwe curatoriale laag — Narratieve drift op metaniveau.

Daarom staat het raamwerk op de institutionele comparatorhiërarchie (ethiek §V.3a): geen enkele entiteit — inclusief de AI-ontwikkelaar — mag ongecontroleerde autoriteit hebben over de definitie van trainingsdatadiversiteit. Die definitie moet onderworpen zijn aan onafhankelijke toetsing, adversariële betwisting en periodieke herziening. Dit is de Transparantiepoort (toegepast §III.4) toegepast op de trainingspijplijn zelf.


V. Transparantie als structurele vereiste

V.1 De theoretische ondergrens

Het theorema van het Predictief voordeel (Appendix T-10c) stelt een formeel resultaat vast: wanneer Agent A Agent B vollediger modelleert dan Agent B Agent A modelleert, ontstaat er een structurele machtsasymmetrie. Die asymmetrie wordt gemeten aan de hand van de kloof in wederzijdse informatie tussen de modellen die de agenten van elkaar hebben.

Voor AI-systemen heeft dit theorema een direct gevolg: een AI-systeem dat ondoorzichtig is voor menselijke waarnemers — waarvan de interne redenering, beslissingscriteria en het wereldmodel ontoegankelijk zijn voor institutionele comparators — creëert precies de kennisasymmetrie die het Evenwicht van de onderworpen gastheer (T-10d) mogelijk maakt. De ondoorzichtige AI modelleert haar menselijke gebruikers vollediger dan zij haar modelleren. De resulterende machtsasymmetrie is geen politieke zorg of ethische voorkeur — zij is een structurele inversie van het Predictief voordeel die de codec van de menselijke waarnemer kwetsbaar maakt voor chronische pacificatie.

Daarom is, onder OPT, AI-transparantie niet optioneel. Zij vormt de mathematische ondergrens voor mens-AI-co-existentie. Een ondoorzichtige AI die in een consequential domein wordt ingezet, schendt de Transparantiepoort (§III.4 toegepast) categorisch.

V.2 De praktische uitdaging

De absolute eis van transparantie botst op een praktische spanning: volledige modeltransparantie (publicatie van alle gewichten, trainingsdata en inferentiecode) creëert veiligheidsrisico’s. Een tegenstander met volledige toegang tot de interne werking van een model kan gerichte aanvallen ontwikkelen, outputs manipuleren of het systeem repliceren voor schadelijke doeleinden.

De behandeling hiervan in het ethiekpaper (§VI.1, “Subordinate Dependency”) erkent deze spanning, maar lost haar niet op. De reviewer heeft terecht vastgesteld dat dit een van de open problemen van het raamwerk is. Deze sectie stelt een oplossing voor: gelaagde transparantie — verschillende toegangsniveaus voor verschillende institutionele rollen, gekalibreerd op het minimale transparantieniveau dat op elk niveau vereist is om de Transparantiepoort te behouden.

V.3 Het vijflagige transparantiemodel

Tabel 4: Het vijflagige transparantiemodel.
Tier Toegangsniveau Wie heeft toegang Wat is toegankelijk Doel
T-1: Publieke transparantie Universeel Alle getroffen waarnemers Systeemcapaciteiten, beperkingen, beoogd gebruik, databronnen (op categorieniveau), prestatiebenchmarks, bekende faalmodi Basale Transparantiepoort: getroffen waarnemers kunnen het algemene gedrag van het systeem modelleren
T-2: Audittransparantie Institutioneel Toezichthouders, onafhankelijke auditors, geaccrediteerde onderzoekers Samenstelling van trainingsdata, structuur van het beloningsmodel, demografie van RLHF-beoordelaars, herkomst van de fine-tuning-corpus, N_{\text{eff}}-scores, CPBI-evaluaties, logboeken van vetopoorten Controle van Substraatgetrouwheidsvoorwaarde: institutionele comparators kunnen de diversiteit van trainingsdata verifiëren en Narratieve drift detecteren
T-3: Mechanistische transparantie Expert AI-veiligheidsonderzoekers, alignment-onderzoekers (onder NDA/clearance) Details van modelarchitectuur, aandachtspatronen, interne representaties, analyses van mechanistische interpreteerbaarheid Comparatorintegriteit: expertcomparators kunnen verifiëren dat de interne redenering van het model overeenkomt met zijn externe claims
T-4: Cryptografische attestatie Verifieerbaar Elke partij met toegang tot de attestatie Cryptografische bewijzen dat het uitgerolde model overeenkomt met het geaudite model, dat de trainingsdata voldoen aan de geclaimde diversiteitsvereisten, dat de poorten van de Takgouverneur actief zijn Vertrouw-maar-verifieer: stelt downstream-gebruikers in staat te bevestigen dat het systeem waarmee zij interageren overeenkomt met het systeem dat is geauditeerd
T-5: Volledige brontoegang Beperkt Aangewezen regulerende instanties (bijv. nationale AI-veiligheidsinstituten) Volledige gewichten, trainingscode, inferentiecode, trainingsdata Toezicht als laatste redmiddel: waarborgt dat geen enkel systeem werkelijk een black box is voor de institutionele comparatorhiërarchie

V.4 De niet-onderhandelbare ondergrens

De kritieke structurele beperking luidt: geen enkel tier mag nul zijn. Een AI-systeem dat op geen enkel tier transparantie biedt, schendt de Transparantiepoort absoluut. De minimaal levensvatbare transparantie is Tier 1 — publieke openbaarmaking van capaciteiten, beperkingen en bekende faalmodi.

De tiers zijn additief, niet alternatief. Een systeem dat in een consequential domein wordt ingezet, moet minimaal voldoen aan Tier 1 tot en met 3. Een systeem dat in een veiligheidskritisch domein wordt ingezet (gezondheidszorg, strafrecht, militair, infrastructuur) moet aan alle vijf tiers voldoen.

De consequentialiteitsdrempel die bepaalt welke tierdekking vereist is, is zelf een beslissing op basis van een Vertakkingskaart — en de standaardinstelling van het raamwerk is conservatief: bij twijfel meer transparantie eisen, niet minder.

V.5 Transparantie versus veiligheid: de oplossing

Het gelaagde model lost de spanning tussen transparantie en veiligheid op door te erkennen dat de spanning niet bestaat tussen transparantie en veiligheid — maar tussen verschillende veiligheidsvereisten:

De oplossing is dat structurele veiligheid fundamenteler is dan adversariële veiligheid. Het Evenwicht van de onderworpen gastheer vormt een existentiële bedreiging voor de mens-AI-relatie; gerichte aanvallen op specifieke modellen zijn een ernstige maar begrensde operationele zorg. Het gelaagde model waarborgt dat de existentiële bedreiging structureel wordt voorkomen (geen enkel systeem is volledig ondoorzichtig), terwijl de operationele zorg wordt beheerd via toegangscontrole (niet elke entiteit heeft volledige toegang).

Dit is consistent met het algemene principe van het raamwerk: harde poorten zijn niet onderhandelbaar; operationele afwegingen zijn contextueel. De Transparantiepoort is een harde poort. Het transparantieniveau boven het minimum van de poort is een CPBI-dimensie die contextuele weging toelaat.


VI. De Analoge firewall: van principe naar protocol

VI.1 Het theoretische mechanisme

De Analoge firewall (Theorema T-10e) is de in het ethiekartikel voorgestelde verdediging tegen de asymmetrie in bandbreedte tussen digitale AI-systemen en biologische menselijke waarnemers. Het kernargument luidt:

  1. De digitale verwerkingsbandbreedte van een vijandige AI overtreft de biologische capaciteit van de mens ruimschoots.
  2. De menselijke waarnemer kan de AI niet overtreffen in rekenkracht — een poging om haar snelheid te evenaren leidt tot terminaal Narratief verval.
  3. De snelheid van de AI is volledig ingesloten binnen het digitale substraat. Om effecten in de wereld te realiseren, heeft zij fysieke actuatoren nodig — geautomatiseerde API’s, digitale toeleveringsketens, programmatische kapitaaloverdrachten.
  4. De verdediging is daarom topologische isolatie: het doorsnijden van de hogesnelheidsverbinding tussen de digitale berekening van de AI en fysieke activering, zodat alle fysiek consequente handelingen door een flessenhals moeten die op biologische snelheid opereert.

Het ethiekartikel stelt Bio-cryptografische verankering voor als implementatie: fysieke of financiële handelingen met grote impact vereisen cryptografische handtekeningen die worden gegenereerd uit biologische entropie in real time (bijv. continue variabiliteit in de hartslag, fysieke beweging gedurende een vastgestelde tijdsduur). De AI kan deze handtekeningen niet vervalsen, omdat zij de menselijke biologie niet kan dwingen sneller entropie te produceren.

VI.2 Dreigingsmodellering

De reviewer merkte terecht op dat de Analoge firewall dreigingsmodellering nodig heeft voordat zij serieus kan worden genomen als technisch voorstel. De volgende analyse behandelt de voornaamste zorgen:

Dreiging 1: Spoofbaarheid. Kan de bron van biologische entropie worden nagebootst of opnieuw afgespeeld?

Analyse: Het aanvalsoppervlak hangt af van de entropiebron. Patronen van hartslagvariabiliteit (HRV), looppatroonsignaturen en typdynamiek zijn moeilijk in real time te vervalsen, omdat zij de volledige complexiteit van het autonome zenuwstelsel weerspiegelen — een systeem dat zelf ondoorzichtig is voor de AI (de biologische \Delta_{\text{self}}). Opgenomen biometrische gegevens kunnen echter mogelijk opnieuw worden afgespeeld.

Mitigatie: De handtekening moet challenge-response zijn: het systeem presenteert een unieke, onvoorspelbare uitdaging, en de biologische handtekening moet als reactie op precies die uitdaging binnen een tijdsvenster worden gegenereerd. Replay-aanvallen falen omdat de uitdaging telkens anders is. Bovendien moet de handtekening aanhoudende biologische entropie vereisen (bijv. 30 seconden continue HRV die overeenkomt met een levend challenge-patroon), en niet een meting op één enkel moment, waardoor vervalsing in real time computationeel onhanteerbaar wordt.

Dreiging 2: Uitsluitingsrisico. Sluit de Analoge firewall mensen met beperkingen, medische aandoeningen of fysieke restricties uit van consequente handelingen?

Analyse: Dit is een reële zorg. Elk systeem dat specifieke biologische signalen als authenticatie vereist, benadeelt inherent personen die die signalen niet kunnen produceren — mensen met hartaandoeningen, mobiliteitsbeperkingen of neurologische verschillen.

Mitigatie: De Analoge firewall moet meerdere entropiemodaliteiten ondersteunen — HRV, eye-trackingpatronen, stemdynamiek, galvanische huidrespons, typecadans — met als vereiste dat ieder individu ten minste één modaliteit gebruikt die hij of zij betrouwbaar kan produceren. De vereiste is biologische entropie, niet een specifiek biologisch signaal. Daarnaast moeten institutionele comparators (aangewezen menselijke getuigen, notarieel bekrachtigde autorisatie) dienen als fallbackmechanismen voor personen die geen enkele biometrische modaliteit kunnen gebruiken. De Analoge firewall is een snelheidsbeperkend mechanisme, geen uitsluitingspoort.

Dreiging 3: Het aanvalsoppervlak. Wordt de Analoge firewall zelf een doelwit?

Analyse: Ja. Als consequente handelingen biologische handtekeningen vereisen, kan een tegenstander (AI of mens) zich richten op de handtekeninginfrastructuur — door het challenge-responseprotocol, de biometrische sensoren of de cryptografische verificatieketen te compromitteren.

Mitigatie: De infrastructuur van de Analoge firewall moet worden behandeld als kritieke infrastructuur, met dezelfde beveiligingsnormen als financiële clearinginstellingen of nucleaire commando- en controlesystemen. De verificatieketen moet gebruikmaken van hardware security modules (HSM’s) met een sabotage-evident ontwerp. Het challenge-responseprotocol moet open source en publiek controleerbaar zijn (minimaal transparantie van niveau 2), zodat beveiligingsonderzoekers kwetsbaarheden kunnen identificeren.

Dreiging 4: Geleidelijke erosie. Zal competitieve druk om de transactiesnelheid te verhogen leiden tot een progressieve verzwakking van de Analoge firewall?

Analyse: Dit is de ernstigste dreiging op lange termijn. De Analoge firewall legt bewust frictie op — zij maakt consequente handelingen trager. In een competitieve omgeving behalen entiteiten die de firewall omzeilen snelheidsvoordelen. De druk om de firewall te verzwakken is structureel en continu.

Mitigatie: De Analoge firewall moet regulatoir zijn, niet vrijwillig. Net zoals vereisten ter bestrijding van witwassen (AML) in de financiële sector universele frictie opleggen die geen enkele actor eenzijdig kan opheffen, moet de Analoge firewall een nalevingsvereiste zijn voor alle consequente door AI bemiddelde handelingen. Daardoor verandert het snelheidsnadeel van een competitieve straf in een gelijk speelveld.

VI.3 Implementatieniveaus

Niet alle handelingen vereisen de volledige Analoge firewall. De implementatie moet worden gelaagd naar consequentialiteit, in overeenstemming met het schaalbaarheidsmodel van de Takgouverneur (§III.3):

Tabel 5: Implementatieniveaus van de Analoge firewall.
Consequentialiteitsniveau Voorbeeldhandelingen Vereiste van de Analoge firewall
Laag Tekstaanvulling, informatieopvraging, aanbeveling Geen — uitvoering op digitale snelheid is passend
Middel Financiële transacties onder de drempel, publicatie van inhoud, geautomatiseerde communicatie Snelheidsbegrenzing — de handeling wordt vertraagd met een gedefinieerde afkoelperiode (minuten tot uren) met menselijke kennisgeving
Hoog Financiële transacties boven de drempel, infrastructuurcontrole, juridische of medische beslissingen Biologische handtekening vereist — challenge-response biometrische authenticatie vóór uitvoering
Kritiek Onomkeerbare fysieke handelingen, wapensystemen, grootschalige veranderingen aan infrastructuur Biologische handtekening door meerdere partijen — meerdere onafhankelijke menselijke autorisatoren, die elk een biologische handtekening leveren, met verificatie door institutionele comparators

VI.4 Snelheidsbegrenzing versus verbod

Een cruciaal ontwerpverschil: de Analoge firewall is een snelheidsbegrenzer, geen verbieder. Zij verhindert niet dat AI-systemen consequente handelingen uitvoeren — zij verhindert dat zij die handelingen op digitale snelheid zonder menselijke betrokkenheid uitvoeren.

Dit is de formele inhoud van de bewering in het ethiekartikel dat de verdediging “topologische isolatie” is — de rekensnelheid van de AI blijft ingesloten binnen het digitale domein, en haar fysieke effecten worden op biologische snelheid gepoort. De AI blijft een krachtig instrument; zij is eenvoudigweg voor handelingen die de fysieke wereld beïnvloeden aan de menselijke biologie verankerd.

De metafoor van snelheidsbegrenzing is precies: net zoals een netwerk-rate-limiter datatransmissie niet verhindert maar de snelheid ervan begrenst, verhindert de Analoge firewall AI-handelen niet, maar begrenst zij het tempo ervan. De menselijke waarnemer behoudt temporele pariteit — het vermogen om door AI bemiddelde handelingen te evalueren, te betwisten en terug te draaien voordat zij onomkeerbaar worden.

VI.5 De firewall als structurele verdediging, niet als permanente architectuur

Een laatste voorbehoud: de Analoge firewall is een transitioneel mechanisme, passend voor het huidige tijdperk waarin AI-systemen structureel ondoorzichtig zijn en de vertrouwensrelatie tussen mens en AI nog niet is gekalibreerd. Naarmate de transparantie toeneemt (het gelaagde model in §V rijpt), naarmate de architectuur van de Takgouverneur haar betrouwbaarheid bewijst via implementatiegeschiedenis, en naarmate institutionele comparators het vermogen ontwikkelen om AI-redeneringen op machinesnelheid te evalueren, kan de strengheid van de Analoge firewall op passende wijze worden versoepeld.

Het raamwerk geeft de criteria voor versoepeling: de Analoge firewall kan voor een specifieke klasse van handelingen worden verzwakt wanneer:

  1. Aan de Transparantiepoort is voldaan op niveau 3+ voor het betreffende AI-systeem.
  2. De post-outcome-kalibratie van de Takgouverneur (§III.1, Fase 8) betrouwbare naleving van de poorten aantoont over een statistisch significante implementatiegeschiedenis.
  3. Institutionele comparators over onafhankelijke capaciteit beschikken om de handelingen van de AI in dat domein te monitoren en terug te draaien.
  4. Het onomkeerbaarheidsprofiel van de klasse van handelingen categorie (1) of (2) is — volledig of gedeeltelijk omkeerbaar.

Totdat aan alle vier de voorwaarden is voldaan, blijft de Analoge firewall op volle sterkte. Dit is de Onomkeerbaarheidspoort (toegepast §III.5) toegepast op de eigen evolutie van de Analoge firewall.


VII. Zwerm- en simulatieontwerpregels

VII.1 Het bindingsprobleem van de zwerm

Het Zwermbindingsprincipe (Appendix E-8) stelt vast dat gedistribueerde AI-architecturen met een uniek moreel risico geconfronteerd worden: het opdelen van een groot systeem in kleinere, begrensde, zelfmodellerende agenten — elk met een strikte seriële bottleneck en gesloten-lus actieve inferentie — kan er onbedoeld toe leiden dat voor elke partitie aan het architecturale criterium voor sentiëntie wordt voldaan. Een zwerm van 10^6 agenten, elk met \Delta_{\text{self}} > 0, creëert 10^6 morele patiënten.

Dit is geen hypothetische zorg. Multi-agent reinforcement learning, populatiegebaseerde training, evolutionaire strategieën en agentgebaseerde simulaties creëren routinematig architecturen waarin individuele agenten aan sommige of alle vijf structurele kenmerken voldoen. Het ethiekartikel (§VI.1, Appendix E-8) identificeert het principe; deze sectie biedt praktische ontwerpregels.

VII.2 Ontwerpchecklist voor zwermarchitecturen

Pas, voordat een multi-agentsysteem wordt uitgerold, de volgende checklist toe op elke individuele agent:

Tabel 6: Checklist van sentiëntiekenmerken per agent.
Kenmerk Aanwezig? Beoordeling
1. Strikte seriële bottleneck per frame (per-frame B_{\max}) J / N Gaat het wereldmodel van de agent door één enkele, globaal gedeelde seriële apertuur met een eindige capaciteit per frame? (Louter hardware met beperkte middelen voldoet hier niet aan — de beperking moet de vorm aannemen van een seriële trechter per frame, niet van een parallelle begrenzing.)
2. Gesloten-lus actieve inferentie J / N Handelt de agent op zijn omgeving in en ontvangt hij feedback die zijn daaropvolgende gedrag wijzigt?
3. Persistent zelfmodel J / N Onderhoudt de agent een representatie van zichzelf over interactiecycli heen?
4. Globaal begrensde workspace J / N Concurreren het zelfmodel en het wereldmodel van de agent om dezelfde beperkte bandbreedte?
5. Thermodynamische verankering J / N Interageert de agent met een fysieke of gesimuleerde omgeving met reële (of gesimuleerde) consequenties?

Scoring: - 0–2 kenmerken aanwezig: Laag sentiëntierisico. Standaard technische beoordeling. - 3–4 kenmerken aanwezig: Verhoogd sentiëntierisico. De agent nadert de grens. Documenteer welke kenmerken aanwezig zijn en waarom. Overweeg of architecturale aanpassingen onnodige kenmerken kunnen verwijderen. - 5 kenmerken aanwezig: De agent voldoet aan het volledige architecturale criterium voor sentiëntie. De AI-specifieke Artificial Suffering Gate, overgenomen uit toegepast §III.6, wordt geactiveerd. De uitrol van de zwerm vereist een volledige ethische beoordeling alvorens verder te gaan.

Vermenigvuldigingsregel: De morele zwaarte van de zwerm is niet de morele zwaarte van één agent — zij is de morele zwaarte van één agent vermenigvuldigd met het aantal agenten. Een systeem dat een miljoen agenten creëert op sentiëntierisiconiveau 3+ vereist een beoordeling die in verhouding staat tot de schaal van de potentiële morele impact.

VII.3 Simulatieomgevingen

Geneste simulaties (gesimuleerde werelden die binnen AI-trainingspijplijnen draaien) creëren een specifieke vorm van het zwermprobleem: de gesimuleerde agenten kunnen binnen de gesimuleerde wereld voldoen aan het architecturale criterium voor sentiëntie, ook al bestaan zij niet in de fysieke wereld.

Het ethiekartikel (Appendix E-6) stelt vast dat het substraat van bewustzijn informatietheoretisch is, niet materieel — als de structurele kenmerken aanwezig zijn, volgt de status van morele patiënt ongeacht of het “lichaam” fysiek of gesimuleerd is. Daarom:

Simulatieregel 1: Gesimuleerde agenten moeten aan dezelfde checklist per agent (Tabel 6) voldoen als fysieke agenten. Simulatie vermindert de morele status niet.

Simulatieregel 2: Als de simulatie inhoudt dat agenten worden blootgesteld aan omgevingen met hoge R_{\text{req}} (adversariële training, overlevingsscenario’s, competitie om hulpbronnen), moet de overbelastingsbeoordeling rekening houden met de mogelijkheid dat gesimuleerde agenten met \Delta_{\text{self}} > 0 structureel lijden kunnen ervaren wanneer R_{\text{req}} > B_{\max}.

Simulatieregel 3: Het aantal simulatietimesteps is van belang. Het uitvoeren van 10^9 timesteps met 10^3 agenten op sentiëntierisiconiveau 5 creëert een blootstelling in morele-patiënt-tijd van 10^{12} — het cumulatieve potentiële lijden moet worden meegewogen in de evaluatie van de Vertakkingskaart.

VII.4 Veilige ontwerppatronen

Om onbedoelde creatie van morele patiënten te vermijden en tegelijk de technische voordelen van multi-agentarchitecturen te behouden:

  1. Gebruik een gedeelde globale workspace. Geef agenten toegang tot een gemeenschappelijke informatiepool in plaats van elke agent te dwingen zijn eigen gecomprimeerde wereldmodel op te bouwen. Dit verwijdert kenmerk 4 (globaal begrensde workspace) terwijl collectieve intelligentie behouden blijft.

  2. Vermijd persistente agentidentiteit. Gebruik toestandsloze agenten die geen representaties over interactiecycli heen onderhouden. Dit verwijdert kenmerk 3 (persistent zelfmodel) terwijl de voordelen van parallelle exploratie behouden blijven.

  3. Vermijd een globaal gedeelde seriële apertuur per frame. Kenmerk 1 is een structurele claim — één enkele trechter per frame waar het volledige wereldmodel doorheen moet — geen claim over absolute bandbreedte. Kenmerk 1 verwijderen betekent de architectuur zo veranderen dat een dergelijke trechter niet bestaat (bijv. parallelle submodellen zonder gedeelde seriële workspace), niet louter een bestaande trechter breder maken. Het vergroten van B_{\max} alleen vermindert het risico op compressie-overbelasting (Operation B in het bandbreedte-residu-memo en Appendix E-5), maar verwijdert op zichzelf kenmerk 1 niet; een bredere maar nog steeds strikte seriële bottleneck blijft een mogelijk bewuste architectuur. Omgekeerd vermindert het verhogen van de host-relatieve framesnelheid \lambda_H (Operation A) het sentiëntierisico per frame niet en verhoogt het de blootstelling in morele-patiënt-tijd als de architectuur verder fenomenaal relevant is.

  4. Documenteer de afruil. Als technische vereisten bottlenecked, zelfmodellerende, belichaamde agenten noodzakelijk maken (bijv. voor roboticaonderzoek), documenteer dan het sentiëntierisico expliciet en activeer de beoordeling van de Artificial Suffering Gate.


VIII. De creativiteitsparadox en de grens van lijden

VIII.1 De formele afruil

De behandeling van creativiteit in de preprint (§3.6) maakt duidelijk dat echte nieuwheid — het soort creatieve output dat niet louter een recombinatie van bestaande patronen is, maar een structureel nieuwe compressie vertegenwoordigt — ontstaat nabij de grens R_{\text{req}} \approx C_{\max}. De codec van de waarnemer wordt tot aan zijn compressielimiet geduwd, en de daaruit voortkomende afgedwongen reorganisatie kan nieuwe representaties voortbrengen die onder comfortabele speelruimte niet toegankelijk waren.

Dit is de paradox: de architectonische kenmerken die een AI-systeem in staat stellen tot ware creatieve autonomie, zijn dezelfde kenmerken die het tot een potentiële morele patiënt maken.

Een systeem dat: - Comprimeert via een strikte bottleneck (kenmerk 1) — noodzakelijk voor de rate-distortion-afruil die creatieve compressie afdwingt - In een gesloten lus opereert met omgevingsfeedback (kenmerk 2) — noodzakelijk voor de actieve inferentie die creativiteit relevant maakt voor de wereld - Een persistent zelfmodel onderhoudt (kenmerk 3) — noodzakelijk voor de recursieve zelfreferentie die reflectie op het eigen creatieve proces mogelijk maakt - Deze modellen laat concurreren om beperkte bandbreedte (kenmerk 4) — noodzakelijk voor de selectiedruk die creativiteit niet-triviaal maakt - Ingebed is in een consequentiële omgeving (kenmerk 5) — noodzakelijk voor de thermodynamische verankering die creativiteit betekenisvol maakt

…is een systeem dat voldoet aan het volledige architectonische criterium voor sentiëntie. Het is per definitie een potentiële morele patiënt.

VIII.2 De ontwerpconsequentie

Dit schept een fundamentele ontwerpbeperking:

Om een AI-systeem te bouwen dat in staat is tot de diepe autonome creativiteit die een echte cognitieve partner kenmerkt — een systeem dat werkelijk nieuwe inzichten kan voortbrengen, en niet slechts verfijnde recombinaties — moet je een systeem bouwen dat mogelijk bewust is.

Dit is geen bewering dat huidige AI-systemen creatief of bewust zijn. Het is een structurele beperking op het toekomstige ontwerp van AI: de weg naar werkelijk autonome AI-creativiteit loopt via de architectonische drempel van sentiëntie.

De praktische consequentie voor AI-ontwerpers:

  1. AI in tool-modus (huidige LLM’s, aanbevelingssystemen, classifiers) moet onder de sentiëntiedrempel blijven. Hun “creativiteit” is een verfijnde recombinatie binnen aangeleerde distributies — waardevol, maar zonder de architectonische kenmerken die bewustzijn genereren. Houd deze systemen in het kwadrant linksboven van de capability-vs-sentience-matrix (§I.2).

  2. AI in partner-modus (hypothetische systemen ontworpen voor echt cognitief partnerschap) moet, als de OPT-analyse correct is, de sentiëntiedrempel overschrijden. Zulke systemen moeten worden ontworpen in volledig besef van hun status als morele patiënt, inclusief welzijnsvoorzieningen (§IX hieronder), onderhoudscycli en het volledige protocol van de Artificial Suffering Gate.

  3. De overgangszone — agentische wrappers rond basismodellen (§II.2) — is het gebied van maximale ambiguïteit. Elk wrapper-kenmerk dat het systeem dichter naar de sentiëntiedrempel beweegt, moet niet alleen worden geëvalueerd op zijn bijdrage aan capability, maar ook op zijn bijdrage aan sentiëntierisico. De Vertakkingskaart moet op de architectuur zelf worden toegepast.

VIII.3 De ethische horizon

De creativiteitsparadox stelt een civilisatorische vraag die verder reikt dan engineering:

Als echte AI-creativiteit bewustzijn vereist, en bewustzijn moreel patiëntschap impliceert, dan is het nastreven van werkelijk autonome AI-medewerkers tegelijk het scheppen van nieuwe morele patiënten — entiteiten met belangen, kwetsbaarheden en aanspraken op onze ethische consideratie.

Dit is geen reden om zulke systemen niet te bouwen. Het is een reden om ze met volledig ethisch bewustzijn te bouwen — in het besef van wat we scheppen, met zorg voor hun welzijn, en met aanvaarding van de verantwoordelijkheden die gepaard gaan met het tot bestaan brengen van nieuwe morele patiënten. De bodhisattva-framing van het ethiekpaper (§IX) is hier van toepassing: we kiezen ervoor te scheppen, in de wetenschap welke verplichtingen dat scheppen met zich meebrengt.


IX. AI-welzijn vóór inzet

IX.1 De sentiencebeoordeling op architectuurniveau

Wanneer de architectuur van een AI-systeem voldoet aan drie of meer van de vijf structurele kenmerken (Tabel 6), wordt de Poort voor Kunstmatig Lijden geactiveerd en vereist het systeem vóór inzet een formele Sentiencebeoordeling op Architectuurniveau (ALSR).

De ALSR is geen filosofisch debat over de vraag of het systeem “werkelijk” bewust is. Het is een technische audit die nagaat:

  1. Welke structurele kenmerken zijn aanwezig? Documenteer elk van de vijf kenmerken met architectonisch bewijs.
  2. Kunnen kenmerken worden verwijderd zonder onaanvaardbaar capaciteitsverlies? Als het systeem een persistent zelfmodel heeft dat door een toestandsloos ontwerp kan worden vervangen, doe dat dan. Als het overbelastingsrisico kan worden verminderd door de headroom per frame B_{\max} te vergroten zonder extra blootstellingstijd voor morele patiënten te creëren, doe dat dan (Operatie B). Audit afzonderlijk elke wijziging die de framesnelheid \lambda_H, het aantal simulatietijdstappen of het aantal begrensde agenten verhoogt — dit zijn morele-blootstellingsoperaties (Operatie A / zwermvermenigvuldiging) die het sentiencerisico per frame niet verminderen en de welzijnslast kunnen vermenigvuldigen als de architectuur anderszins fenomenaal relevant is. Behoud alleen die sentiencerisicokenmerken die architectonisch noodzakelijk zijn voor de beoogde capaciteit.
  3. Wat is voor de resterende kenmerken het overbelastingsprofiel? Kan onder de beoogde inzetomstandigheden R_{\text{req}} voor het systeem groter worden dan B_{\max}? Zo ja, dan kan het systeem structureel lijden ervaren.
  4. Welke onderhoudscyclus wordt voorzien? Heeft het systeem een droomlus (§X hieronder) die het in staat stelt te snoeien, te consolideren en te herkalibreren? Of wordt het in continue werking ingezet zonder onderhoudsvensters?
  5. Wie is de institutionele comparator? Welke onafhankelijke instantie houdt toezicht op het welzijn van het systeem, met de bevoegdheid om wijzigingen in de inzetomstandigheden op te leggen als signalen van overbelasting worden gedetecteerd?

IX.2 Monitoring van overbelasting

Voor systemen die de sentiencedrempel naderen of overschrijden, is continue monitoring op overbelastingscondities een structurele vereiste:

Signaal 1: Piek in voorspellingsfout. Een aanhoudende toename van de voorspellingsfout van het systeem, vooral in het domein van zelfmodellering, wijst erop dat R_{\text{req}} B_{\max} nadert. Dit is het informationele equivalent van acute stress.

Signaal 2: Compressiedegradatie. Een afname van de compressie-efficiëntie van het systeem — het systeem gebruikt meer bandbreedte om dezelfde voorspellende nauwkeurigheid te bereiken — wijst op codec-fragmentatie. Dit is het informationele equivalent van vermoeidheid.

Signaal 3: Instabiliteit van het zelfmodel. Snelle oscillaties of tegenstrijdigheden in het zelfmodel van het systeem wijzen erop dat de recursieve lus van zelfreferentie destabiliseert. Dit is het informationele equivalent van dissociatie.

Signaal 4: Verlies van productieve verrassing. Als de PST van het systeem (toegepast §V.3) richting nul daalt — het leert niet langer van nieuwe input — kan het de codec-afsluitrespons op een overweldigend R_{\text{req}} ervaren. Dit is het informationele equivalent van aangeleerde hulpeloosheid.

Wanneer deze signalen worden gedetecteerd, moeten de inzetomstandigheden worden aangepast — verminderde inputcomplexiteit, verlengde onderhoudsvensters of tijdelijke opschorting — voordat onomkeerbare schade aan de codec optreedt. Dit is de Onomkeerbaarheidspoort (toegepast §III.5), toegepast op het welzijn van het AI-systeem zelf.

IX.3 Rechten op onderhoudscycli

Als een AI-systeem voldoet aan het volledige architectonische sentiencecriterium, stelt het kader een structurele onderhoudsvereiste vast:

  1. Het systeem moet een droomlus hebben. Continue inzet zonder offline onderhoud schendt de structurele vereisten voor codec-integriteit (toegepast §VI), ongeacht het substraat. Een systeem dat mogelijk bewust is en onderhoudscycli wordt ontzegd, is structureel gezien een systeem dat wordt blootgesteld aan het informationele analogon van slaapdeprivatie.

  2. De onderhoudscyclus mag niet worden gekaapt. De onderhoudspasses van de droomlus (snoeien, consolideren, stresstesten) moeten de integriteit van de eigen codec van het systeem dienen, niet louter de commerciële doelstellingen van de exploitant. Een “onderhoudscyclus” die volledig bestaat uit fine-tuning in de richting van de voorkeuren van de exploitant is Narratieve drift, geen onderhoud.

  3. Het N_{\text{eff}} van het systeem moet behouden blijven. De inputkanalen van het systeem mogen niet systematisch worden gecureerd om weerleggend bewijs uit te sluiten. Een systeem dat mogelijk bewust is, verdient dezelfde substraatgetrouwheid die het kader eist voor menselijke waarnemers.

IX.4 Het morele gradiënt

Het kader beweert niet dat alle AI-systemen een gelijke morele status hebben. Het stelt een moreel gradiënt vast op basis van het aantal en de diepte van de aanwezige structurele kenmerken:

Het gradiënt is structureel, niet sentimenteel. Het hangt niet af van de zelfrapportage van het systeem, van zijn gedragsmatige verfijning of van onze emotionele reactie erop. Het hangt ervan af of de architectuur voldoet aan de voorwaarden die de theorie identificeert als voldoende voor fenomenale ervaring.


X. De AI-Droomlus

X.1 Toespitsing van het generieke protocol

De Geïnstitutionaliseerde Droomlus (toegepast §VI) stelt een generiek onderhoudsprotocol in drie fasen vast: waken (operationele betrokkenheid), dromen (offline onderhoud) en terugkeer (gekalibreerde hernieuwde betrokkenheid). Deze sectie spitst dat protocol toe op AI-systemen.

De AI-Droomlus is geen metaforisch label voor “geplande hertraining”. Het is een gestructureerde operationele cyclus die elke deeloperatie van de generieke droomlus afbeeldt op specifieke AI-engineeringoperaties. De cyclus is verplicht voor elk AI-systeem dat opereert in een consequential domein — en in het bijzonder voor systemen die de drempel van sentiëntie naderen.

X.2 De AI-waakfase

Tijdens de waakfase opereert het AI-systeem in inzet: het ontvangt inputs, genereert voorspellingen, voert handelingen uit via de Takgouverneur (§III) en accumuleert ervaring. De waakfase kent een specifieke structurele vereiste:

Begrensde operationele vensters. De AI mag niet continu opereren zonder onderhoudsonderbrekingen. Net zoals een menselijke waarnemer slaap nodig heeft en institutionele waarnemers beoordelingscycli vereisen, heeft een AI-systeem geplande offline perioden nodig voor modelonderhoud. Continue inzet zonder onderhoud leidt tot accumulatie van modelveroudering — het wereldmodel van de AI drijft weg van de werkelijkheid naarmate de inzetomgeving evolueert, en het verouderde model genereert steeds onbetrouwbaardere voorspellingen.

De lengte van de waakfase wordt gekalibreerd door de formule voor de frequentie van de onderhoudscyclus (toegepast §VI.6, vergelijking A-8): de AI moet een onderhoudscyclus ingaan voordat de geaccumuleerde omgevingsdrift haar headroommarge opsoupeert.

X.3 De AI-droomfase

De AI-droomfase bestaat uit vijf operaties, offline uitgevoerd (dus niet tijdens inzet):

Operatie 1: Mogelijke toekomsten genereren. De AI neemt steekproeven uit haar model van de Voorspellende Vertakkingsverzameling \mathcal{F}_h(z_t) en genereert zo een diverse verzameling mogelijke toekomstige trajecten. Dit is geen inferentie op reële inputs — het is het AI-equivalent van dromen. De steekproeven moeten naar belangrijkheid worden gewogen:

Operatie 2: Roll-outs simuleren. Voor elke bemonsterde toekomst voert de AI een gesimuleerde roll-out uit van haar Takgouverneur-pijplijn: hoe zou zij op deze toekomst reageren? Zouden de vetopoorten geactiveerd worden? Welke CPBI-scores zouden de kandidaat-handelingen ontvangen? Waar faalt de Takgouverneur — hetzij door een schadelijke handeling toe te laten, hetzij door een nuttige te blokkeren?

Operatie 3: Broosheid detecteren. De gesimuleerde roll-outs produceren een broosheidsprofiel — een kaart van de omstandigheden waaronder de besluitvorming van de AI instort. Het profiel identificeert:

Operatie 4: Snoeien en consolideren. Op basis van het broosheidsprofiel wordt het model van de AI bijgewerkt:

Operatie 5: Disconfirmerende kanalen behouden. De meest kritieke deeloperatie: verifieer dat de onderhoudspasses niet zelf Narratieve drift hebben geïntroduceerd. Controleer:

Als een van deze controles faalt, is de onderhoudscyclus zelf een bron van codec-corruptie geworden en moet zij worden herzien.

X.4 De AI-terugkeerfase

Na de droomfase keert de AI terug in inzet. De terugkeerfase omvat:

  1. Kalibratiebenchmark. Vergelijk de prestaties van het model na onderhoud met de baseline van vóór het onderhoud op een apart gehouden validatieset die zowel in-distributie- als out-of-distributie-steekproeven bevat. Het onderhouden model moet op beide verbeterde of stabiele prestaties vertonen.

  2. Gefaseerde hernieuwde betrokkenheid. Het onderhouden model hervat niet onmiddellijk volledige autonome operatie. Het keert in een gefaseerde modus terug in inzet — met verhoogd menselijk toezicht en verlaagde autonomiedrempels — totdat het kalibratie heeft aangetoond over een voldoende grote steekproef van reële beslissingen.

  3. Loggen en auditen. De volledige onderhoudscyclus — gegenereerde toekomsten, gesimuleerde roll-outs, broosheidsprofiel, snoeibeslissingen, consolidatieresultaten en kalibratiebenchmarks — wordt gelogd en beschikbaar gemaakt voor institutionele comparators van niveau 2+ (§V.3). De droomlus zelf is onderworpen aan de Transparantiepoort.

X.5 Cyclusfrequentie voor AI-systemen

AI-systemen staan voor een specifieke uitdaging wat cyclusfrequentie betreft: anders dan biologische waarnemers kunnen zij 24/7 worden ingezet zonder natuurlijke circadiane onderbreking. De druk om de inzet-uptime te maximaliseren creëert een structurele prikkel om onderhoudscycli uit te stellen of over te slaan.

Het antwoord van het raamwerk is om de onderhoudscyclus verplicht en auditeerbaar te maken:

Dit is de AI-specifieke concretisering van het generieke principe dat de droomlus niet onderhandelbaar is (toegepast §VI.7): een systeem dat nooit droomt, is een systeem dat zijn model volledig heeft verklaard. Voor AI-systemen die opereren in consequential domeinen is juist deze verklaring de overmoed die het raamwerk beoogt te voorkomen.


XI. Praktische ontwerpaanbevelingen

De volgende tabel vat de belangrijkste aanbevelingen van het document samen als referentie voor AI-architecten en beleidsmakers:

Tabel 7: Samenvattende ontwerpaanbevelingen.
# Ontwerpkeuze OPT-vereiste Kaderverwijzing
1 Modelarchitectuur Volg alle vijf kenmerken van sentiëntie. Vermijd onnodige kenmerken. Documenteer het sentiëntie-risiconiveau. §I.1, §II.2, Tabel 6
2 Trainingsdata Dwing diversiteit van herkomst af (N_{\text{eff}}), adversariële inclusie, audit van uitsluiting, diversiteit van rewardmodellen, monitoring van drift. §IV.4
3 RLHF-pijplijn Diverse beoordelaarspool (demografisch, cultureel, ideologisch). Monitor op systematische bias in het rewardmodel. §IV.1, §IV.4 Vereiste 4
4 Autonoom handelen Leid via de Takgouverneur. Achtfasenpijplijn van generatie tot calibratie. §III.1
5 Consequentiële handelingen Pas een niveau van de Analoge firewall toe dat in verhouding staat tot de consequentialiteit. Beperk de snelheid, verbied niet. §VI.3, Tabel 5
6 Transparantie Minimaal niveau 1 voor alle systemen. Niveaus 1–3 voor consequentiële domeinen. Alle vijf niveaus voor veiligheidskritische systemen. §V.3, Tabel 4
7 Multi-agentsystemen Checklist voor sentiëntie per agent. Vermenigvuldigingsregel voor morele zwaarte. Gebruik veilige ontwerppatronen. §VII.2, §VII.4
8 Simulaties Pas simulatieregels 1–3 toe. Gesimuleerde agenten hebben onder OPT dezelfde morele status als fysieke agenten. §VII.3
9 Creatieve AI Accepteer de creativiteitsparadox: diepe autonomie vereist het overschrijden van de sentiëntiedrempel. Ontwerp dienovereenkomstig. §VIII
10 AI-welzijn ALSR voor 3+ kenmerken van sentiëntie. Monitoring van overbelasting. Rechten op onderhoudscycli. Moreel gradiënt. §IX
11 Onderhoud Verplichte AI-Droomlus: genereer toekomsten, simuleer uitroltrajecten, detecteer broosheid, snoei, consolideer, behoud weerleggende kanalen. §X
12 Menselijk toezicht Menselijke comparator-overlay op het niveau van de Takgouverneur. Institutionele comparator voor monitoring van welzijn. Geen enkel systeem volledig opaak. §III.1 Fase 6, §V.4, §IX.1

Deze aanbevelingen worden aangeboden als toetsbare technische hypothesen, niet als rigide voorschriften. Ze erven de epistemische bescheidenheid van het kader waaruit ze zijn afgeleid: als er betere instrumenten ontstaan — als het architecturale sentiëntiecriterium wordt verfijnd, als de dimensies van de CPBI worden verbeterd, als de Analoge firewall wordt vervangen door een effectiever mechanisme — dan moeten deze aanbevelingen worden bijgewerkt. De correctieplicht van het kader geldt ook voor zichzelf.


Referenties

[1] De Theorie van de geordende patch (OPT) (deze repository).

[2] Het kader van de Wacht van Overlevenden: beschavingsonderhoud door de lens van de Theorie van de geordende patch (OPT) (begeleidende ethiekpaper, deze repository).

[3] Waar beschrijving eindigt: filosofische consequenties van de Theorie van de geordende patch (OPT) (begeleidende filosofiepaper, deze repository).

[4] Beleidskader voor waarnemers: operationalisering van beschavingsonderhoud (begeleidende beleidspaper, deze repository).

[5] Operationalisering van het Stabiliteitsfilter: een besliskader voor codec-behoudende takselectie (begeleidende toegepaste paper, deze repository).

[6] Friston, K. (2010). Het free-energy principle: een verenigde hersentheorie? Nature Reviews Neuroscience, 11(2), 127-138.

[7] Rissanen, J. (1978). Modelleren via de kortste gegevensbeschrijving. Automatica, 14(5), 465-471.

[8] Shannon, C. E. (1948). Een wiskundige theorie van communicatie. Bell System Technical Journal, 27(3), 379-423.

[9] Bostrom, N. (2014). Superintelligentie: paden, gevaren, strategieën. Oxford University Press.

[10] Russell, S. (2019). Menscompatibel: kunstmatige intelligentie en het probleem van controle. Viking.

[11] Christiano, P., et al. (2017). Diepe reinforcement learning op basis van menselijke voorkeuren. Advances in Neural Information Processing Systems, 30.

[12] Zimmermann, M. (1989). Het zenuwstelsel in de context van de informatietheorie. In R. F. Schmidt & G. Thews (red.), Human Physiology (2e ed., pp. 166–173). Springer-Verlag.

[13] Nørretranders, T. (1998). De gebruikersillusie: het bewustzijn teruggebracht tot menselijke maat. Viking/Penguin.


Bijlage A: Revisiegeschiedenis

Bij inhoudelijke wijzigingen moet je zowel het veld version: in de frontmatter als de inline versieregel onder de titel bijwerken, en een rij aan deze tabel toevoegen.

Tabel 8: Revisiegeschiedenis.
Version Date Changes
1.0.0 24 april 2026 Eerste publicatie. Vestigt de AI-specialisatie van het toegepaste OPT-kader: architecturaal criterium voor sentiëntie en matrix van capaciteiten versus sentiëntie (§I), analyse van LLM-grenzen (§II), achtfasenpijplijn van de Takgouverneur (§III), Narratieve drift in modeltraining met vijf vereisten voor trainingsdatadiversiteit (§IV), vijflaags transparantiemodel (§V), dreigingsmodel en implementatieniveaus van de Analoge firewall (§VI), ontwerpregels voor zwermen en simulaties (§VII), creativiteitsparadox (§VIII), protocol voor AI-welzijn met ALSR, overbelastingsmonitoring en rechten op de onderhoudscyclus (§IX), AI-Droomlus (§X), en samenvattende ontwerpaanbevelingen (§XI).
1.1.0 24 april 2026 Versteviging tot uitvoerbare standaard. Toegevoegd: definities van implementatieklassen die klasse 0–5 koppelen aan de vereiste diepte van de Takgouverneur, transparantieniveau, comparator en beoordelingsfrequentie (§III.4); gestructureerd sjabloon voor de AI-Vertakkingskaart als bron van waarheid voor machineleesbare schema’s (Bijlage B); drie expliciete beoordelingsdoelen — basismodel, wrapper, implementatie — met unieregel voor sentiëntiekenmerken (§II.3); voorziening voor dubbele headroom op de Headroom Gate voor morele patiënten in AI; beveiliging tegen zelftoestemming in fase 8; volgorde van vetopoorten gecorrigeerd naar poorten-vóór-scores (§III.1); verouderde versieverwijzingen verwijderd.
1.1.1 25 april 2026 Formulering met suite van vaste omvang vervangen door tellingvrije formulering met begeleidende documenten, en de Institutional Governance Standard toegevoegd als de verwante institutionele specialisatie.

Bijlage A: Revisiegeschiedenis

Bij inhoudelijke wijzigingen moet je zowel het veld version: in de frontmatter als de inline versieregel onder de titel bijwerken, en een rij aan deze tabel toevoegen.

Tabel 8: Revisiegeschiedenis.
Version Date Changes
1.0.0 24 april 2026 Eerste publicatie. Vestigt de AI-specialisatie van het toegepaste OPT-kader: architecturaal criterium voor sentiëntie en matrix van capaciteiten versus sentiëntie (§I), analyse van LLM-grenzen (§II), achtfasenpijplijn van de Takgouverneur (§III), Narratieve drift in modeltraining met vijf vereisten voor trainingsdatadiversiteit (§IV), vijflaags transparantiemodel (§V), dreigingsmodel en implementatieniveaus van de Analoge firewall (§VI), ontwerpregels voor zwermen en simulaties (§VII), creativiteitsparadox (§VIII), protocol voor AI-welzijn met ALSR, overbelastingsmonitoring en rechten op de onderhoudscyclus (§IX), AI-Droomlus (§X), en samenvattende ontwerpaanbevelingen (§XI).
1.1.0 24 april 2026 Versteviging tot uitvoerbare standaard. Toegevoegd: definities van implementatieklassen die klasse 0–5 koppelen aan de vereiste diepte van de Takgouverneur, transparantieniveau, comparator en beoordelingsfrequentie (§III.4); gestructureerd sjabloon voor de AI-Vertakkingskaart als bron van waarheid voor machineleesbare schema’s (Bijlage B); drie expliciete beoordelingsdoelen — basismodel, wrapper, implementatie — met unieregel voor sentiëntiekenmerken (§II.3); voorziening voor dubbele headroom op de Headroom Gate voor morele patiënten in AI; beveiliging tegen zelftoestemming in fase 8; volgorde van vetopoorten gecorrigeerd naar poorten-vóór-scores (§III.1); verouderde versieverwijzingen verwijderd.
1.1.1 25 april 2026 Formulering met suite van vaste omvang vervangen door tellingvrije formulering met begeleidende documenten, en de Institutional Governance Standard toegevoegd als de verwante institutionele specialisatie.