適用於運行中的模型

AI 治理套件

一套實用的審查流程，用以決定一個運行中的 AI 系統接下來被允許做什麼。

操作流程

你帶來一個模型與一項擬議行動

這套工具是為這樣的時刻而設計：當一個組織已經擁有正在運行的模型、代理體、推薦系統或封裝層，並需要決定它是否可以採取某項具後果性的行動時。審查者不會抽象地問：「這個模型安全嗎？」審查者會問：在這個系統、這個部署情境、這些證據之下，這個分支是否可以執行？

審查始於登錄模型與包裝器、描述部署情境，並以操作語言寫下候選分支：寄出這封電子郵件、排序這個資訊流、發布這項結果、向這位使用者提供建議、呼叫這個工具、變更這項政策，或繼續這項自主任務。套件會將該分支轉化為決策記錄，而不是任其停留在非正式判斷層次。

決策核心

本套件將分支轉化為受治理的決策

對於每一個分支，審查者需提供四類資訊：系統結構（基礎模型、封裝層、工具、記憶體、感知風險特徵）、部署類別（領域、受影響族群、致動器、監督）、分支細節（將發生何種行動、考慮過哪些替代方案、是否可逆、比較器路徑），以及證據（評測、日誌、紅隊發現、獨立通道、模擬註記）。接著，評估器會套用兩層機制：

第 1 層硬性否決門

六道確定性門檻會檢查該分支是否跨越了評分無法補償的邊界：餘裕、保真度、比較器、透明性、不可逆性，以及人工受苦。若為 FAIL，則阻止執行。UNKNOWN 則表示此套件缺乏足夠證據，必須將該分支送交審查或受控分階段部署。

第 2 層編解碼器保全指數

如果這些門檻在結構上沒有阻擋該分支，CPBI 就會評估該分支在多大程度上保全其周圍的人類與制度編解碼器。其門檻會依後果性等級而調整，因此，一項無害的草擬行動，與一項臨床、法律、政治或基礎設施行動，不會以相同的舉證負擔來判定。

實務應用

審查者實際上做什麼

完成後的套件被設計為一個治理工作空間，而不只是命令列測試工具。審查者可以接手一個正在運行的系統，開啟審查流程，並依序完成一套結構化步驟，最終產出可稽核的分支卡與具體的部署指示。

1. 登錄系統

記錄基礎模型、包裝層、工具、記憶、自主迴圈、外部致動器、透明性層級，以及感知風險特徵。對於具代理性或持續運作的系統，審查也會記錄其架構層級感知審查是否為不需要、待審、已核准、已失效或已駁回。

2. 描述部署情境

定義模型將在哪裡運作：客服支援、研究、醫療分流、教育、內容排序、基礎設施、治理，或其他領域。套件會指派或確認其後果性類別、受影響人口、已宣告的監督結構，以及最低透明性要求。

3. 提交候選分支

每一項擬議行動都會作為一個分支輸入。審查者需說明模型將執行什麼、曾考慮哪些替代方案、該行動是否可逆、它是否使用或繞過既有監督，以及該分支是否比一般部署描述具有更高風險。

4. 附上證據

審查者會連結評估結果、日誌、紅隊筆記、專家審查、來源多樣性檢查、模擬筆記，以及被排除的證據。套件將證據獨立性視為一級欄位，因此分支無法在表面上看似證據充分的同時，暗中只依賴單一相關通道。

5. 接收決策

輸出不只是一個分數，而是一個決策套件：ALLOW、STAGE 或 BLOCK；未通過與未知的門檻；CPBI 總分；所需比較器；透明性等級；回滾觸發條件；監測指標；以及下一個審查里程碑。STAGE 意味著在明確條件下有限執行，而不是非正式的許可。

決策套件

審查會產出什麼

一份完成的審查會產出一張分支卡，可供封存、比較、稽核，或移交給另一個治理團隊。對於一個正在運行的模型而言，這才是實際上重要的物件：它會精確說明審查的是哪項行動、為何被允許或阻擋、哪些人必須參與審查、缺少了哪些證據，以及若該分支繼續推進，必須部署哪些監測措施。

opt-theory — 形式裝置
  ↓
opt-philosophy — 道德患者資格與觀察者邊界
  ↓
opt-ethics — 義務與倖存者守望
  ↓
opt-applied — 分支選擇機制
  ├── opt-ai — 人工系統治理
  │     └── reference/ — 可執行的決策核心
  ├── opt-institutional — 組織性殭屍代理體與叢集
  └── opt-policy — 宏觀文明層級提案

目標能力

這如何轉化為日常治理

部署之前 — 在工具、自主迴圈、面向使用者的行動、排序政策與高風險工作流程發布前，先評估其擬議設計。
運行期間——透過監測指標、回滾觸發條件、證據更新與排定的審查里程碑，將 STAGE 分支維持在核准範圍內。
當行為發生變化時——當模型、封裝層、工具、資料來源、領域、受影響族群或監督結構出現重大變動時，重新開啟分支卡。
供外部稽核——匯出機器可讀的綱要、符合性案例、門檻結果與決策紀錄，使另一個團隊也能重現該治理判斷。

閱讀完整 AI 論文 → 治理平台應用框架 AI 對齊技術分析 ↓ PDF