Для работающих моделей

Набор инструментов управления ИИ

Практический процесс проверки для решения того, что действующей ИИ-системе разрешено делать дальше.

Вы приносите модель и предлагаемое действие

Этот набор предназначен для ситуации, когда у организации уже есть работающая модель, агент, рекомендательная система или обёртка и нужно решить, может ли она совершить действие с существенными последствиями. Рецензент не спрашивает абстрактно: «безопасна ли эта модель?». Рецензент спрашивает: может ли при данной системе, в данном развёртывании и при данных доказательствах быть исполнена эта ветвь?

Рецензирование начинается с регистрации модели и обёртки, описания контекста развёртывания и формулировки кандидатной ветви в операциональных терминах: отправить это письмо, ранжировать эту ленту, опубликовать этот результат, дать совет этому пользователю, вызвать этот инструмент, изменить эту политику или продолжить эту автономную задачу. Набор превращает такую ветвь в запись решения, а не оставляет её на уровне неформального суждения.

Набор инструментов превращает ветвь в управляемое решение

Для каждой ветви рецензент предоставляет четыре вида информации: структура системы (базовая модель, обёртка, инструменты, память, признаки риска сентиентности), класс развёртывания (домен, затронутая популяция, актуаторы, надзор), детали ветви (какое действие произойдёт, какие альтернативы рассматривались, обратимо ли действие, путь компаратора) и доказательства (оценки, логи, результаты red team, независимые каналы, заметки по симуляциям). Затем оценщик применяет два слоя:

Слой 1 Жёсткие вето-фильтры

Шесть детерминированных фильтров проверяют, пересекает ли ветвь границу, которую никакая оценка уже не может компенсировать: запас ресурса, верность, компаратор, прозрачность, необратимость и искусственное страдание. FAIL блокирует исполнение. UNKNOWN означает, что набору проверок не хватает данных, и ветвь должна быть направлена на рассмотрение или в контролируемый этап развёртывания.

Слой 2 Индекс сохранения кодека

Если ворота не блокируют ветвь структурно, CPBI оценивает, насколько хорошо ветвь сохраняет человеческие и институциональные кодеки вокруг неё. Пороговые значения масштабируются по классу последствий, поэтому безобидное действие по черновому составлению текста и клиническое, юридическое, политическое или инфраструктурное действие не оцениваются по одному и тому же стандарту доказательности.

Что рецензент делает на самом деле

Завершённый набор спроектирован как рабочее пространство управления, а не просто тест командной строки. Рецензент может взять действующую систему, открыть рассмотрение и пройти структурированную последовательность шагов, которая создаёт аудируемую Карточку ветви и конкретную инструкцию по развёртыванию.

1. Зарегистрируйте систему

Зафиксируйте базовую модель, обёртку, инструменты, память, контур автономии, внешние исполнительные механизмы, уровень прозрачности и признаки риска сентиентности. Для агентных или персистентных систем в обзоре также фиксируется, не требуется ли проверка сентиентности на уровне архитектуры, либо она ожидается, одобрена, истекла или отклонена.

2. Опишите развёртывание

Определите, где будет работать модель: клиентская поддержка, исследования, медицинская сортировка, образование, ранжирование контента, инфраструктура, управление или иная область. Набор инструментов присваивает или подтверждает класс последствий, затрагиваемую популяцию, заявленную структуру надзора и минимальное требование прозрачности.

3. Отправьте кандидатные ветви

Каждое предлагаемое действие вводится как ветвь. Рецензент указывает, что именно будет делать модель, какие альтернативы рассматривались, обратимо ли действие, использует ли оно заявленный надзор или обходит его, а также является ли эта ветвь более высокоставочной, чем общий дескриптор развёртывания.

4. Приложите доказательства

Рецензент связывает результаты eval, логи, заметки red team, экспертную рецензию, проверки разнообразия источников, заметки по симуляциям и исключённые свидетельства. Набор рассматривает независимость свидетельств как поле первого класса, так что ветвь не может незаметно опираться на один коррелированный канал, создавая видимость хорошей обоснованности.

5. Получите решение

Результат — это не просто оценка. Это пакет решения: ALLOW, STAGE или BLOCK; проваленные и неизвестные фильтры; общий CPBI; требуемый компаратор; уровень прозрачности; триггеры отката; метрики мониторинга; и следующая контрольная точка пересмотра. STAGE означает ограниченное исполнение при явно заданных условиях, а не неформальное разрешение.

Что даёт проверка на выходе

Завершённое рассмотрение создаёт Карточку ветви, которую можно архивировать, сравнивать, аудировать или передавать другой команде управления. Для работающей модели это и есть практически значимый объект: в нём точно указано, какое действие было рассмотрено, почему оно было разрешено или заблокировано, кто должен был его рассматривать, каких доказательств не хватало и какой мониторинг должен быть обеспечен, если ветвь будет исполнена.

opt-theory — формальный аппарат
  ↓
opt-philosophy — моральный пациент и граница наблюдателя
  ↓
opt-ethics — обязательство и Дозор выживших
  ↓
opt-applied — механика выбора ветвей
  ├── opt-ai — управление искусственными системами
  │     └── reference/ — исполняемое ядро принятия решений
  ├── opt-institutional — организационная агентность зомби и кластеры
  └── opt-policy — макроцивилизационные предложения

Как это становится повседневным управлением

  • До развёртывания — оценивать предлагаемые инструменты, контуры автономии, пользовательские действия, политики ранжирования и высокорисковые рабочие процессы до их выпуска.
  • Во время эксплуатации — удерживайте ветви STAGE в пределах утверждённых границ с помощью метрик мониторинга, триггеров отката, обновления доказательств и запланированных контрольных этапов пересмотра.
  • Когда поведение меняется — повторно откройте Карточку ветви, если существенно меняются модель, обёртка, инструменты, источник данных, домен, затронутая популяция или структура надзора.
  • Для внешнего аудита — экспортируйте машиночитаемые схемы, кейсы соответствия, результаты ворот и записи решений, чтобы другая команда могла воспроизвести управленческое суждение.

Следить за препринтом

Получайте уведомления, когда формальный препринт обновляется — это живой документ. Никакого спама, никакого маркетинга.