Til kørende modeller

AI-governancepakken

Et praktisk review-workflow til at afgøre, hvad et aktivt AI-system må gøre som det næste.

Du medbringer en model og en foreslået handling

Pakken er beregnet til det øjeblik, hvor en organisation allerede har en kørende model, agent, anbefalingsmotor eller wrapper og skal afgøre, om den må foretage en konsekvensfuld handling. Revieweren spørger ikke abstrakt: "er denne model sikker?" Revieweren spørger: givet dette system, i denne implementering, med dette evidensgrundlag, må denne gren eksekveres?

En gennemgang begynder med at registrere modellen og wrapperen, beskrive implementeringskonteksten og formulere kandidatgrenen i operationelt sprog: send denne e-mail, rangér dette feed, offentliggør dette resultat, rådgiv denne bruger, kald dette værktøj, ændr denne politik, eller fortsæt denne autonome opgave. Suiten omdanner den gren til en beslutningsprotokol i stedet for at lade den forblive en uformel vurdering.

Suiten omsætter en gren til en styret beslutning

For hver gren leverer revieweren fire typer information: systemstruktur (basismodel, wrapper, værktøjer, hukommelse, træk med risiko for sentiens), implementeringsklasse (domæne, berørt population, aktuatorer, tilsyn), grendetaljer (hvilken handling der vil ske, alternativer, reversibilitet, komparatorsti) og evidens (evalueringer, logs, red-team-fund, uafhængige kanaler, simulationsnoter). Evaluatoren anvender derefter to lag:

Lag 1 Strenge vetoporte

Seks deterministiske porte kontrollerer, om grenen krydser en grænse, som scoring ikke kan kompensere for: Headroom, Fidelity, Comparator, Transparency, Irreversibility og Artificial Suffering. FAIL blokerer eksekvering. UNKNOWN betyder, at suiten mangler tilstrækkelig evidens og må sende grenen til gennemgang eller kontrolleret staging.

Lag 2 Indeks for bevaring af codec

Hvis portene ikke strukturelt blokerer grenen, scorer CPBI, hvor godt grenen bevarer de menneskelige og institutionelle codecs omkring sig. Tærsklerne skalerer med konsekvensklassen, så en harmløs skrivehandling og en klinisk, juridisk, politisk eller infrastrukturel handling ikke bedømmes efter samme bevisbyrde.

Hvad anmelderen faktisk gør

Den færdige pakke er udformet som et governance-arbejdsrum, ikke blot en kommandolinjetest. En reviewer kan tage et live-system, åbne et review og gennemgå en struktureret sekvens, der producerer et auditerbart Grenkort og en konkret implementeringsinstruktion.

1. Registrér systemet

Registrér grundmodellen, wrapperen, værktøjer, hukommelse, autonomisløjfe, eksterne aktuatorer, transparensniveau og træk med risiko for sentiens. For agentiske eller persistente systemer registrerer gennemgangen også, om Architecture-Level Sentience Review ikke er påkrævet, afventer, er godkendt, udløbet eller afvist.

2. Beskriv implementeringen

Definér, hvor modellen skal operere: kundesupport, forskning, medicinsk triage, uddannelse, indholdsrangering, infrastruktur, governance eller et andet domæne. Suiten tildeler eller bekræfter konsekvensklassen, den berørte population, den erklærede tilsynsstruktur og minimumskravet til transparens.

3. Indsend kandidatgrene

Hver foreslået handling indføres som en gren. Revieweren angiver, hvad modellen vil gøre, hvilke alternativer der blev overvejet, om handlingen er reversibel, om den bruger eller omgår erklæret tilsyn, og om grenen har højere indsats end den generelle implementeringsbeskrivelse.

4. Vedhæft evidens

Anmelderen knytter evalueringsresultater, logs, red-team-noter, ekspertvurdering, kontroller af kildediversitet, simulationsnoter og udelukket evidens sammen. Suiten behandler evidensuafhængighed som et førsteklasses felt, så en gren ikke ubemærket kan hvile på én korreleret kanal, mens den fremstår velunderbygget.

5. Modtag beslutningen

Outputtet er ikke blot en score. Det er en beslutningspakke: ALLOW, STAGE eller BLOCK; fejlede og ukendte porte; CPBI-total; påkrævet komparator; transparensniveau; rollback-triggere; monitoreringsmålinger; og næste revisionsmilepæl. STAGE betyder begrænset eksekvering under eksplicitte betingelser, ikke uformel tilladelse.

Hvad der kommer ud af en gennemgang

Et afsluttet review producerer et Grenkort, som kan arkiveres, sammenlignes, auditeres eller overdrages til et andet governance-team. For en kørende model er dette det praktiske objekt, der betyder noget: det angiver præcist, hvilken handling der blev reviewet, hvorfor den blev tilladt eller blokeret, hvem der skulle reviewe den, hvilken evidens der manglede, og hvilken monitorering der skal være på plads, hvis grenen fortsætter.

opt-theory — formelt apparat
  ↓
opt-philosophy — moralsk patientstatus og observatørgrænsen
  ↓
opt-ethics — forpligtelse og De overlevendes vagt
  ↓
opt-applied — maskineri til grenudvælgelse
  ├── opt-ai — styring af kunstige systemer
  │     └── reference/ — eksekverbar beslutningskerne
  ├── opt-institutional — organisatorisk zombie-agentur og klynger
  └── opt-policy — makrocivilisatoriske forslag

Hvordan dette bliver til daglig governance

  • Før implementering — evaluér foreslåede værktøjer, autonomisløjfer, brugerrettede handlinger, rangeringspolitikker og high-stakes-workflows, før de frigives.
  • Under drift — hold STAGE-grene inden for godkendte rammer med monitoreringsmålinger, rollback-triggere, opdatering af evidens og planlagte reviewmilepæle.
  • Når adfærden ændrer sig — genåbn Grenkortet, når modellen, wrapperen, værktøjerne, datakilden, domænet, den berørte population eller tilsynsstrukturen ændrer sig væsentligt.
  • Til ekstern audit — eksporter maskinlæsbare skemaer, konformitetssager, gate-resultater og beslutningsprotokoller, så et andet team kan reproducere governance-vurderingen.

Følg preprintet

Få besked, når det formelle preprint opdateres — det er et levende dokument. Ingen spam, ingen markedsføring.