AI 治理套件
一套實用的審查流程,用以決定一個運行中的 AI 系統接下來被允許做什麼。
操作流程
你帶來一個模型與一項擬議行動
這套工具是為這樣的時刻而設計:當一個組織已經擁有正在運行的模型、代理體、推薦系統或封裝層,並需要決定它是否可以採取某項具後果性的行動時。審查者不會抽象地問:「這個模型安全嗎?」審查者會問:在這個系統、這個部署情境、這些證據之下,這個分支是否可以執行?
審查始於登錄模型與包裝器、描述部署情境,並以操作語言寫下候選分支:寄出這封電子郵件、排序這個資訊流、發布這項結果、向這位使用者提供建議、呼叫這個工具、變更這項政策,或繼續這項自主任務。套件會將該分支轉化為決策記錄,而不是任其停留在非正式判斷層次。
決策核心
本套件將分支轉化為受治理的決策
對於每一個分支,審查者需提供四類資訊:系統結構(基礎模型、封裝層、工具、記憶體、感知風險特徵)、部署類別(領域、受影響族群、致動器、監督)、分支細節(將發生何種行動、考慮過哪些替代方案、是否可逆、比較器路徑),以及證據(評測、日誌、紅隊發現、獨立通道、模擬註記)。接著,評估器會套用兩層機制:
第 1 層 硬性否決門
六道確定性門檻會檢查該分支是否跨越了評分無法補償的邊界:餘裕、保真度、比較器、透明性、不可逆性,以及人工受苦。若為 FAIL,則阻止執行。UNKNOWN 則表示此套件缺乏足夠證據,必須將該分支送交審查或受控分階段部署。
第 2 層 編解碼器保全指數
如果這些門檻在結構上沒有阻擋該分支,CPBI 就會評估該分支在多大程度上保全其周圍的人類與制度編解碼器。其門檻會依後果性等級而調整,因此,一項無害的草擬行動,與一項臨床、法律、政治或基礎設施行動,不會以相同的舉證負擔來判定。
實務應用
審查者實際上做什麼
完成後的套件被設計為一個治理工作空間,而不只是命令列測試工具。審查者可以接手一個正在運行的系統,開啟審查流程,並依序完成一套結構化步驟,最終產出可稽核的分支卡與具體的部署指示。
1. 登錄系統
記錄基礎模型、包裝層、工具、記憶、自主迴圈、外部致動器、透明性層級,以及感知風險特徵。對於具代理性或持續運作的系統,審查也會記錄其架構層級感知審查是否為不需要、待審、已核准、已失效或已駁回。
2. 描述部署情境
定義模型將在哪裡運作:客服支援、研究、醫療分流、教育、內容排序、基礎設施、治理,或其他領域。套件會指派或確認其後果性類別、受影響人口、已宣告的監督結構,以及最低透明性要求。
3. 提交候選分支
每一項擬議行動都會作為一個分支輸入。審查者需說明模型將執行什麼、曾考慮哪些替代方案、該行動是否可逆、它是否使用或繞過既有監督,以及該分支是否比一般部署描述具有更高風險。
4. 附上證據
審查者會連結評估結果、日誌、紅隊筆記、專家審查、來源多樣性檢查、模擬筆記,以及被排除的證據。套件將證據獨立性視為一級欄位,因此分支無法在表面上看似證據充分的同時,暗中只依賴單一相關通道。
5. 接收決策
輸出不只是一個分數,而是一個決策套件:ALLOW、STAGE 或 BLOCK;未通過與未知的門檻;CPBI 總分;所需比較器;透明性等級;回滾觸發條件;監測指標;以及下一個審查里程碑。STAGE 意味著在明確條件下有限執行,而不是非正式的許可。
決策套件
審查會產出什麼
一份完成的審查會產出一張分支卡,可供封存、比較、稽核,或移交給另一個治理團隊。對於一個正在運行的模型而言,這才是實際上重要的物件:它會精確說明審查的是哪項行動、為何被允許或阻擋、哪些人必須參與審查、缺少了哪些證據,以及若該分支繼續推進,必須部署哪些監測措施。
↓
opt-philosophy — 道德患者資格與觀察者邊界
↓
opt-ethics — 義務與倖存者守望
↓
opt-applied — 分支選擇機制
├── opt-ai — 人工系統治理
│ └── reference/ — 可執行的決策核心
├── opt-institutional — 組織性殭屍代理體與叢集
└── opt-policy — 宏觀文明層級提案
目標能力
這如何轉化為日常治理
- 部署之前 — 在工具、自主迴圈、面向使用者的行動、排序政策與高風險工作流程發布前,先評估其擬議設計。
- 運行期間——透過監測指標、回滾觸發條件、證據更新與排定的審查里程碑,將 STAGE 分支維持在核准範圍內。
- 當行為發生變化時——當模型、封裝層、工具、資料來源、領域、受影響族群或監督結構出現重大變動時,重新開啟分支卡。
- 供外部稽核——匯出機器可讀的綱要、符合性案例、門檻結果與決策紀錄,使另一個團隊也能重現該治理判斷。