Mudelite käitamiseks

Tehisintellekti valitsemise komplekt

Praktiline ülevaatuse töövoog otsustamaks, mida töötaval tehisintellektisüsteemil on lubatud järgmisena teha.

Sa tood mudeli ja kavandatava tegevuse

See tööriistakomplekt on mõeldud olukorraks, kus organisatsioonil on juba töös mudel, agent, soovitussüsteem või ümbris ning tuleb otsustada, kas see tohib teha tagajärjerikka tegevuse. Hindaja ei küsi abstraktselt: "kas see mudel on ohutu?" Hindaja küsib: kas see haru võib selle süsteemi, selle juurutuse ja nende tõendite korral täide minna?

Ülevaatus algab mudeli ja ümbrise registreerimisest, juurutuskonteksti kirjeldamisest ning kandidaatharu sõnastamisest operatiivses keeles: saada see e-kiri, järjestada see voog, avaldada see tulemus, nõustada seda kasutajat, kutsuda see tööriist, muuta seda poliitikat või jätkata seda autonoomset ülesannet. Tööriistakomplekt muudab selle haru otsusregistriks, selle asemel et jätta see mitteametlikuks hinnanguks.

Tööriistakomplekt muudab haru juhitud otsuseks

Iga haru kohta esitab hindaja nelja liiki teavet: süsteemi struktuur (baasmudel, ümbris, tööriistad, mälu, tundevõime-riski tunnused), juurutusklass (valdkond, mõjutatud populatsioon, aktuaatorid, järelevalve), haru üksikasjad (milline tegevus toimub, alternatiivid, pööratavus, komparaatori rada) ja tõendid (evalveerimised, logid, red-team'i leiud, sõltumatud kanalid, simulatsioonimärkmed). Seejärel rakendab hindaja kahte kihti:

Kiht 1 Ranged vetoväravad

Kuus deterministlikku väravat kontrollivad, kas haru ületab piiri, mida hindamine ei suuda kompenseerida: varu, truudus, komparaator, läbipaistvus, pöördumatus ja tehislik kannatus. FAIL blokeerib täitmise. UNKNOWN tähendab, et komplektil puuduvad piisavad tõendid ning haru tuleb suunata ülevaatusele või kontrollitud etapistusse.

Kiht 2 Koodeki säilitusindeks

Kui väravad haru struktuurselt ei blokeeri, hindab CPBI, kui hästi haru säilitab seda ümbritsevaid inimlikke ja institutsionaalseid koodekeid. Läved skaleeruvad tagajärjeklassi järgi, nii et kahjutut mustanditegevust ning kliinilist, õiguslikku, poliitilist või taristulist tegevust ei hinnata sama tõendamiskoormusega.

Mida ülevaataja tegelikult teeb

Valmis tööriistakomplekt on kavandatud valitsemise tööruumina, mitte pelgalt käsurea testina. Hindaja saab võtta töötava süsteemi, avada läbivaatuse ja läbida struktureeritud järjestuse, mis annab auditeeritava Harukaardi ja konkreetse juurutusjuhise.

1. Registreeri süsteem

Dokumenteerige baasmudel, ümbris, tööriistad, mälu, autonoomiatsükkel, välised aktuaatorid, läbipaistvuse tase ja sentientsusriskiga seotud tunnused. Agentsete või püsivate süsteemide puhul märgitakse ülevaates ka see, kas arhitektuuritasandi sentientsuse ülevaatus ei ole nõutav, on ootel, heaks kiidetud, aegunud või tagasi lükatud.

2. Kirjelda juurutust

Määratle, kus mudel töötab: klienditugi, teadustöö, meditsiiniline triaaž, haridus, sisu järjestamine, taristu, valitsemine või mõni muu valdkond. Tööriistakomplekt määrab või kinnitab tagajärjelisuse klassi, mõjutatud populatsiooni, deklareeritud järelevalvestruktuuri ja minimaalse läbipaistvusnõude.

3. Esita kandidaatharud

Iga kavandatud tegevus sisestatakse haruna. Ülevaataja kirjeldab, mida mudel teeb, milliseid alternatiive kaaluti, kas tegevus on pöörduv, kas see kasutab deklareeritud järelevalvet või läheb sellest mööda ning kas haru on kõrgema panusega kui üldine juurutuskirjeldus.

4. Lisa tõendid

Ülevaataja seob hindamistulemused, logid, red-team'i märkmed, eksperdihinnangu, allikate mitmekesisuse kontrollid, simulatsioonimärkmed ja välistatud tõendid. Tööriistakomplekt käsitleb tõendite sõltumatust esmatasandi väljana, nii et haru ei saa näiliselt hea toetuse juures vaikselt toetuda ühele korreleeritud kanalile.

5. Võta otsus vastu

Väljund ei ole lihtsalt skoor. See on otsustuspakett: ALLOW, STAGE või BLOCK; läbikukkunud ja tundmatud väravad; CPBI koguskoor; nõutav komparaator; läbipaistvuse tase; tagasipööramise päästikud; seiremeetriad; ja järgmine ülevaatuse verstapost. STAGE tähendab piiratud rakendamist selgesõnaliste tingimuste all, mitte mitteametlikku luba.

Mis ülevaatusest välja tuleb

Lõpetatud ülevaatus annab tulemuseks Harukaardi, mida saab arhiveerida, võrrelda, auditeerida või anda üle teisele juhtimismeeskonnale. Töötava mudeli puhul on see praktiline objekt, mis loeb: see ütleb täpselt, milline tegevus vaadati üle, miks see lubati või blokeeriti, kes pidi selle üle vaatama, millised tõendid puudusid ja milline seire peab olema paigas, kui haru edasi läheb.

opt-theory — formaalne aparaat
  ↓
opt-philosophy — moraalne patsiendistaatus ja vaatleja piir
  ↓
opt-ethics — kohustus ja Ellujäänute Valve
  ↓
opt-applied — haruvaliku mehhanismid
  ├── opt-ai — tehislike süsteemide valitsemine
  │     └── reference/ — käivitatav otsustustuum
  ├── opt-institutional — organisatsiooniline zombiagentsus ja klastrid
  └── opt-policy — makrotsivilisatsioonilised ettepanekud

Kuidas sellest saab igapäevane valitsemine

  • Enne kasutuselevõttu — hinnake kavandatud tööriistu, autonoomiatsükleid, kasutajale suunatud tegevusi, järjestuspoliitikaid ja kõrge panusega töövooge enne nende avaldamist.
  • Töö käigus — hoia STAGE-harud heakskiidetud piirides, kasutades seiremeetodeid, tagasipööramise päästikuid, tõendite värskendamist ja ajastatud ülevaatuse verstaposte.
  • Kui käitumine muutub — ava Harukaart uuesti, kui mudel, ümbris, tööriistad, andmeallikas, valdkond, mõjutatud populatsioon või järelevalvestruktuur oluliselt muutub.
  • Väliseks auditiks — ekspordi masinloetavad skeemid, vastavusjuhtumid, väravatulemused ja otsusregistrid, et teine meeskond saaks valitsemisotsuse reprodutseerida.

Jälgi preprinti

Saage teavitus, kui formaalset eeltrükki uuendatakse — see on elav dokument. Ei mingit spämmimist ega turundust.