モデル運用のために

AIガバナンス・スイート

稼働中のAIシステムに次に何を許可するかを判断するための、実践的な審査ワークフロー。

モデルと提案行為を持ち込む

このスイートは、組織がすでに稼働中のモデル、エージェント、レコメンダ、またはラッパーを持っており、それが重大な行為を実行してよいかを判断する必要がある局面を想定している。レビュアーは抽象的に「このモデルは安全か」とは問わない。レビュアーが問うのは、このシステムが、この配備条件で、この証拠のもとで、この分岐を実行してよいのか?である。

レビューは、モデルとラッパーを登録し、デプロイ文脈を記述し、候補となる分岐を運用言語で書き下すことから始まる。すなわち、このメールを送る、このフィードを順位付けする、この結果を公開する、このユーザーに助言する、このツールを呼び出す、この方針を変更する、あるいはこの自律タスクを継続する、といった形である。スイートはその分岐を、非公式な判断のままにせず、意思決定記録へと変換する。

このスイートは分岐を統治された意思決定へと変換する

各分岐について、レビュアーは四種類の情報を入力する。すなわち、システム構造(ベースモデル、ラッパー、ツール、メモリ、感覚性リスクの特徴)、配備クラス(領域、影響を受ける集団、アクチュエータ、監督)、分岐の詳細(どの行為が起こるか、代替案、可逆性、コンパレータ経路)、そして証拠(評価、ログ、レッドチーム所見、独立チャネル、シミュレーション記録)である。その後、評価器は二層を適用する。

レイヤー 1 ハード・ベト・ゲート

六つの決定的ゲートが、スコアリングでは補償できない境界をその分岐が越えているかどうかを検査する:ヘッドルーム、忠実性、コンパレータ、透明性、不可逆性、人工的苦痛。FAIL は実行を遮断する。UNKNOWN は、そのスイートが十分な証拠を欠いており、その分岐をレビューまたは統制されたステージングへ回さなければならないことを意味する。

レイヤー 2 コーデック保存指数

ゲートがその分岐を構造的に遮断しない場合、CPBIはその分岐が周囲の人間的・制度的コーデックをどの程度保存するかを採点する。閾値は結果重大性クラスに応じて変化するため、無害な草案作成行為と、臨床・法務・政治・インフラに関わる行為とでは、同じ立証負担では判断されない。

レビュアーが実際に行うこと

完成したスイートは、単なるコマンドライン試験ではなく、ガバナンスのためのワークスペースとして設計されている。レビュアーは稼働中のシステムを取り上げ、レビューを開き、監査可能な分岐カードと具体的な配備指示を生み出す構造化された手順をたどることができる。

1. システムを登録する

ベースモデル、ラッパー、ツール、メモリ、自律ループ、外部アクチュエータ、透明性ティア、そして知覚性リスクの特徴を記録します。エージェント的または持続的なシステムについては、レビューにおいて、アーキテクチャ水準の知覚性審査が不要、保留中、承認済み、失効、却下のいずれであるかも記録します。

2. デプロイメントを記述する

モデルがどこで運用されるかを定義してください。顧客サポート、研究、医療トリアージ、教育、コンテンツ順位付け、インフラ、ガバナンス、またはその他の領域です。スイートは、帰結重要度クラス、影響を受ける人口、申告された監督構造、および最低限の透明性要件を割り当てるか確認します。

3. 候補分岐を提出

提案された各行動は、ひとつの分岐として入力される。レビュアーは、モデルが何を行うのか、どの代替案が検討されたのか、その行動が可逆的かどうか、宣言された監督を利用するのか回避するのか、そしてその分岐が一般的なデプロイメント記述子より高リスクかどうかを記載する。

4. 証拠を添付

レビュアーは、eval結果、ログ、レッドチームの注記、専門家レビュー、ソース多様性チェック、シミュレーション注記、除外された証拠を関連付ける。このスイートは証拠の独立性を第一級の項目として扱うため、ある分岐が十分に裏づけられているように見せかけながら、実際には相関した単一チャネルにひそかに依存することはできない。

5. 判断を受け取る

出力は単なるスコアではない。それは判断パッケージである。すなわち、ALLOW、STAGE、または BLOCK、失敗したゲートと未確定のゲート、CPBI合計、必要なコンパレータ、透明性ティア、ロールバックのトリガー、監視指標、そして次回レビューの節目を含む。STAGEは、明示的条件の下での限定的実行を意味し、非公式な許可を意味しない。

審査から何が出てくるのか

完了したレビューは、保存、比較、監査、あるいは別のガバナンス・チームへの引き継ぎが可能な分岐カードを生成する。稼働中のモデルにとって、実務上重要なのはこの成果物である。そこには、どの行為が審査されたのか、なぜ許可または遮断されたのか、誰が審査に関与する必要があったのか、どの証拠が不足していたのか、そして分岐を進める場合にどのような監視が必要かが、正確に記される。

opt-theory — 形式的装置
  ↓
opt-philosophy — 道徳的患者性と観測者境界
  ↓
opt-ethics — 義務とサバイバーズ・ウォッチ
  ↓
opt-applied — 分岐選択機構
  ├── opt-ai — 人工システムのガバナンス
  │     └── reference/ — 実行可能な意思決定コア
  ├── opt-institutional — 組織的ゾンビ・エージェンシーとクラスター
  └── opt-policy — マクロ文明的提案

これが日常的なガバナンスになるまで

  • デプロイ前 — 提案されたツール、自律ループ、ユーザー向けアクション、ランキング方針、高リスクのワークフローを、公開前に評価する。
  • 運用中――監視指標、ロールバックのトリガー、証拠の更新、予定されたレビュー節目によって、STAGE分岐を承認済みの範囲内に維持する。
  • 挙動が変化したとき — モデル、ラッパー、ツール、データソース、領域、影響を受ける集団、または監督構造に実質的な変更があった場合は、分岐カードを再開すること。
  • 外部監査のために — 機械可読なスキーマ、適合事例、ゲート結果、意思決定記録をエクスポートし、別のチームがそのガバナンス判断を再現できるようにする。

プレプリントを追う

正式プレプリントが更新された際に通知を受け取れます。これは継続的に更新される文書です。スパムやマーケティングはありません。