För körande modeller

AI-styrningssviten

Ett praktiskt granskningsflöde för att avgöra vad ett aktivt AI-system får göra härnäst.

Du tar med en modell och en föreslagen handling

Sviten är avsedd för det läge där en organisation redan har en modell, agent, rekommendationssystem eller wrapper i drift och behöver avgöra om den får utföra en konsekvensbärande handling. Granskaren frågar inte abstrakt: "är den här modellen säker?" Granskaren frågar: givet detta system, i denna driftsättning, med denna evidens, får denna gren exekveras?

En granskning börjar med att registrera modellen och wrappern, beskriva driftskontexten och skriva kandidatgrenen i operationellt språk: skicka detta e-postmeddelande, rangordna detta flöde, publicera detta resultat, ge råd till denna användare, anropa detta verktyg, ändra denna policy eller fortsätt denna autonoma uppgift. Sviten omvandlar den grenen till ett beslutsprotokoll i stället för att lämna den som en informell bedömning.

Sviten omvandlar en gren till ett styrt beslut

För varje gren tillhandahåller granskaren fyra typer av information: systemstruktur (basmodell, wrapper, verktyg, minne, egenskaper som innebär risk för sentiens), driftsättningsklass (domän, berörd population, aktuatorer, tillsyn), grendetaljer (vilken handling som ska ske, alternativ, reversibilitet, komparatorväg) och evidens (utvärderingar, loggar, red-team-fynd, oberoende kanaler, simuleringsanteckningar). Utvärderaren tillämpar därefter två lager:

Lager 1 Strikta vetogrindar

Sex deterministiska portar kontrollerar om grenen passerar en gräns som poängsättning inte kan kompensera för: handlingsutrymme, trohet, komparator, transparens, irreversibilitet och artificiellt lidande. FAIL blockerar exekvering. UNKNOWN betyder att sviten saknar tillräcklig evidens och måste skicka grenen vidare till granskning eller kontrollerad staging.

Lager 2 Index för bevarande av kodek

Om portarna inte strukturellt blockerar grenen poängsätter CPBI hur väl grenen bevarar de mänskliga och institutionella kodekarna omkring sig. Trösklarna skalas efter konsekvensklass, så en harmlös utformningsåtgärd och en klinisk, juridisk, politisk eller infrastrukturell åtgärd bedöms inte utifrån samma bevisbörda.

Vad granskaren faktiskt gör

Den färdiga sviten är utformad som en arbetsyta för styrning, inte bara som ett kommandoradstest. En granskare kan ta ett system i drift, öppna en granskning och gå igenom en strukturerad sekvens som producerar ett granskningsbart Grenkort och en konkret driftsättningsinstruktion.

1. Registrera systemet

Registrera basmodellen, wrappern, verktygen, minnet, autonomislingan, externa aktuatorer, transparensnivån och funktioner med sentiensrisk. För agentiska eller persistenta system registrerar granskningen också om granskning av sentiens på arkitekturnivå inte krävs, är under behandling, godkänd, utgången eller avvisad.

2. Beskriv driftsättningen

Definiera var modellen ska verka: kundsupport, forskning, medicinsk triage, utbildning, innehållsrankning, infrastruktur, styrning eller ett annat område. Sviten tilldelar eller bekräftar konsekvensklass, berörd population, deklarerad tillsynsstruktur och minimikrav på transparens.

3. Skicka in kandidatgrenar

Varje föreslagen åtgärd förs in som en gren. Granskaren anger vad modellen kommer att göra, vilka alternativ som övervägdes, om åtgärden är reversibel, om den använder eller kringgår deklarerad tillsyn, och om grenen har högre insatser än den allmänna distributionsbeskrivningen.

4. Bifoga evidens

Granskaren länkar evalresultat, loggar, red-team-anteckningar, expertgranskning, kontroller av källmångfald, simuleringsanteckningar och exkluderad evidens. Sviten behandlar evidensoberoende som ett förstaklassfält, så att en gren inte i det tysta kan förlita sig på en korrelerad kanal samtidigt som den framstår som välunderbyggd.

5. Ta emot beslutet

Utdata är inte bara en poäng. Det är ett beslutspaket: ALLOW, STAGE eller BLOCK; underkända och okända grindar; CPBI-total; krävd komparator; transparensnivå; rollback-utlösare; övervakningsmått; och nästa granskningsmilstolpe. STAGE betyder begränsad exekvering under uttryckliga villkor, inte informellt tillstånd.

Vad som kommer ut ur en granskning

En slutförd granskning producerar ett Grenkort som kan arkiveras, jämföras, granskas eller överlämnas till ett annat styrningsteam. För en modell i drift är detta det praktiska objekt som spelar roll: det anger exakt vilken åtgärd som granskades, varför den tilläts eller blockerades, vem som måste granska den, vilken evidens som saknades och vilken övervakning som måste finnas på plats om grenen går vidare.

opt-theory — formell apparat
  ↓
opt-philosophy — moraliskt patientskap och observatörsgränsen
  ↓
opt-ethics — förpliktelse och De överlevandes vaka
  ↓
opt-applied — grenvalsmekanik
  ├── opt-ai — styrning av artificiella system
  │     └── reference/ — exekverbar beslutskärna
  ├── opt-institutional — organisatorisk zombieagens och kluster
  └── opt-policy — makrocivilisatoriska förslag

Hur detta blir daglig styrning

  • Före driftsättning — utvärdera föreslagna verktyg, autonomislingor, användarvända handlingar, rankningspolicyer och arbetsflöden med höga insatser innan de släpps.
  • Under drift — håll STAGE-grenar inom godkända gränser med övervakningsmått, rollback-utlösare, uppdatering av evidens och schemalagda granskningsmilstolpar.
  • När beteendet förändras — öppna Grenkortet på nytt när modellen, wrappern, verktygen, datakällan, domänen, den berörda populationen eller tillsynsstrukturen förändras väsentligt.
  • För extern revision — exportera maskinläsbara scheman, konformitetsfall, portresultat och beslutsprotokoll så att ett annat team kan reproducera styrningsbedömningen.

Följ preprintet

Få besked när det formella preprintet uppdateras — det är ett levande dokument. Ingen spam, ingen marknadsföring.