For kjørende modeller

AI Governance Suite

En praktisk gjennomgangsprosess for å avgjøre hva et aktivt AI-system får lov til å gjøre videre.

Du kommer med en modell og en foreslått handling

Denne verktøypakken er ment for øyeblikket der en organisasjon allerede har en modell, agent, anbefalingssystem eller wrapper i drift og må avgjøre om den kan utføre en konsekvensrik handling. Den som vurderer, spør ikke «er denne modellen trygg?» i abstrakt forstand. Vurdereren spør: gitt dette systemet, i denne utrullingen, med dette evidensgrunnlaget, kan denne grenen eksekveres?

En vurdering starter med å registrere modellen og wrapperen, beskrive utrullingskonteksten og skrive kandidatgrenen i operasjonelt språk: send denne e-posten, ranger denne feeden, publiser dette resultatet, gi råd til denne brukeren, kall dette verktøyet, endre denne politikken eller fortsett denne autonome oppgaven. Suiten gjør denne grenen om til en beslutningsprotokoll i stedet for å la den forbli en uformell vurdering.

Suiten omgjør en gren til en styrt beslutning

For hver gren oppgir vurdereren fire typer informasjon: systemstruktur (grunnmodell, wrapper, verktøy, minne, trekk som innebærer risiko for sentiens), utrullingsklasse (domene, berørt befolkning, aktuatorer, tilsyn), grendetaljer (hvilken handling som vil skje, alternativer, reversibilitet, komparatorbane) og evidens (evalueringer, logger, red-team-funn, uavhengige kanaler, simuleringsnotater). Evaluatoren anvender deretter to lag:

Lag 1 Strenge vetoporter

Seks deterministiske porter kontrollerer om grenen krysser en grense som poengsetting ikke kan kompensere for: Headroom, Fidelity, Comparator, Transparency, Irreversibility og Artificial Suffering. FAIL blokkerer eksekvering. UNKNOWN betyr at pakken mangler tilstrekkelig evidens og må sende grenen til gjennomgang eller kontrollert utrulling.

Lag 2 Indeks for bevaring av kodek

Hvis portene ikke strukturelt blokkerer grenen, skårer CPBI hvor godt grenen bevarer de menneskelige og institusjonelle kodekene rundt seg. Tersklene skalerer med konsekvensklasse, slik at en harmløs utformingshandling og en klinisk, juridisk, politisk eller infrastrukturell handling ikke vurderes etter samme bevisbyrde.

Hva vurdereren faktisk gjør

Den ferdige verktøypakken er utformet som et styringsarbeidsrom, ikke bare en kommandolinjetest. En vurderer kan ta et levende system, åpne en vurdering og gå gjennom en strukturert sekvens som produserer et reviderbart Grenkort og en konkret utrullingsinstruksjon.

1. Registrer systemet

Registrer grunnmodellen, wrapperen, verktøyene, minnet, autonomisløyfen, eksterne aktuatorer, transparensnivået og trekk knyttet til sentiensrisiko. For agentiske eller vedvarende systemer registrerer gjennomgangen også om Architecture-Level Sentience Review ikke er påkrevd, avventer, er godkjent, utløpt eller avvist.

2. Beskriv utrullingen

Definer hvor modellen skal operere: kundestøtte, forskning, medisinsk triage, utdanning, innholdsrangering, infrastruktur, styring eller et annet domene. Suiten tildeler eller bekrefter konsekvensklassen, berørt befolkning, erklært tilsynsstruktur og minimumskrav til transparens.

3. Send inn kandidatgrener

Hver foreslåtte handling registreres som en gren. Vurdereren angir hva modellen vil gjøre, hvilke alternativer som ble vurdert, om handlingen er reversibel, om den bruker eller omgår erklært tilsyn, og om grenen har høyere innsats enn den generelle utrullingsbeskrivelsen.

4. Legg ved dokumentasjon

Anmelderen kobler evalueringsresultater, logger, red-team-notater, ekspertvurdering, kontroller av kildemangfold, simuleringsnotater og ekskludert evidens. Suiten behandler evidensuavhengighet som et førsteklasses felt, slik at en gren ikke i det stille kan basere seg på én korrelert kanal mens den fremstår som godt underbygget.

5. Motta beslutningen

Resultatet er ikke bare en skår. Det er en beslutningspakke: ALLOW, STAGE eller BLOCK; mislykkede og ukjente porter; total CPBI; påkrevd komparator; transparensnivå; utløsere for tilbakerulling; overvåkingsmålinger; og neste milepæl for gjennomgang. STAGE betyr begrenset gjennomføring under eksplisitte vilkår, ikke uformell tillatelse.

Hva som kommer ut av en gjennomgang

En fullført vurdering produserer et Grenkort som kan arkiveres, sammenlignes, revideres eller overleveres til et annet styringsteam. For en modell i drift er dette det praktiske objektet som betyr noe: det sier nøyaktig hvilken handling som ble vurdert, hvorfor den ble tillatt eller blokkert, hvem som måtte vurdere den, hvilken evidens som manglet, og hvilken overvåking som må være på plass dersom grenen går videre.

opt-theory — formelt apparat
  ↓
opt-philosophy — moralsk pasientstatus og observatørgrensen
  ↓
opt-ethics — forpliktelse og De overlevendes vakt
  ↓
opt-applied — maskineri for grenutvelgelse
  ├── opt-ai — styring av kunstige systemer
  │     └── reference/ — eksekverbar beslutningskjerne
  ├── opt-institutional — organisatorisk zombie-agentur og klynger
  └── opt-policy — makrosivilisatoriske forslag

Hvordan dette blir til daglig styring

  • Før utrulling — vurder foreslåtte verktøy, autonomisløyfer, brukerrettede handlinger, rangeringspolicyer og høyrisiko-arbeidsflyter før de lanseres.
  • Under drift — hold STAGE-grener innenfor godkjente rammer med overvåkingsmålinger, rollback-utløsere, oppdatert evidens og planlagte revisjonsmilepæler.
  • Når atferden endres — åpne Grenkortet på nytt når modellen, wrapperen, verktøyene, datakilden, domenet, den berørte befolkningen eller tilsynsstrukturen endres vesentlig.
  • For ekstern revisjon — eksporter maskinlesbare skjemaer, samsvarstilfeller, portresultater og beslutningsprotokoller slik at et annet team kan reprodusere styringsvurderingen.

Følg preprinten

Få beskjed når det formelle preprintet oppdateres — det er et levende dokument. Ingen spam, ingen markedsføring.