Прикладная OPT для искусственного интеллекта: операционализация проектирования ИИ с сохранением кодека

Прикладная Теория упорядоченного патча

Anders Jarevåg

April 25, 2026

Версия 1.1.1 — апрель 2026

DOI: 10.5281/zenodo.19301108
Авторские права: © 2025–2026 Anders Jarevåg.
Лицензия: Эта работа распространяется по лицензии Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.

Аннотация: От структурной теории к инженерии ИИ

Теория упорядоченного патча (OPT) предлагает формальную карту ИИ в рамках Фильтра стабильности: сам по себе масштаб не порождает сознание; это может сделать лишь определённый тип ограниченной, рекурсивной, самомоделирующейся архитектуры активного вывода. Тем самым проводится чёткое архитектурное различие между мощными, но нечувствующими инструментами и возможными синтетическими моральными пациентами — и разработчики ИИ получают точный структурный контроль над тем, по какую сторону этой границы окажутся их системы.

Этот документ специализирует аппарат OPT применительно к искусственному интеллекту и включает:

  1. Карта ИИ в рамках OPT — матрицу «возможности vs риск сентиентности», размещающую каждую архитектуру ИИ в двумерном пространстве и показывающую, где заканчиваются инструменты и начинаются возможные моральные пациенты.

  2. Почему современные LLM не являются моральными пациентами (и почему граница размывается) — нюансированный разбор базового трансформера в сопоставлении со всё более агентными оболочками, разворачиваемыми вокруг него.

  3. Архитектура Губернатора ветвей — специфическая для ИИ операционализация выбора ветвей, сохраняющего кодек: генерация кандидатов, симуляция прогностического множества ветвей, агрегация независимых каналов свидетельств, оценка сохранения кодека, жёсткие вето-фильтры, наложение человеческого компараторного слоя, поэтапное исполнение и калибровка по итогам.

  4. Нарративный дрейф как предупреждение при обучении моделей — RLHF как предфильтр, дообучение как MDL-подрезка, проблема коррелированных сенсоров и требования к разнообразию обучающих данных.

  5. Прозрачность как структурное требование — почему интерпретируемость в рамках OPT не является опциональной, с многоуровневой моделью прозрачности, уравновешивающей соображения безопасности с абсолютным минимальным порогом прозрачности субстрата.

  6. Аналоговый межсетевой экран: от принципа к протоколу — моделирование угроз для био-криптографического механизма якорения с разбором подделываемости, риска исключения и поверхности атаки.

  7. Правила проектирования роев и симуляций — практические чек-листы, помогающие избежать случайного создания моральных пациентов в распределённых и симулированных архитектурах.

  8. Парадокс креативности и граница страдания — формальный компромисс между инструментоподобной безопасностью и глубокой автономной оригинальностью.

  9. Благополучие ИИ до развёртывания — архитектурная экспертиза на предмет сентиентности, мониторинг перегрузки и циклы обслуживания для систем ИИ, которые могут приближаться к границе морального пациента.

  10. Цикл сновидения ИИ — Институционализированный цикл сновидения, специализированный для ИИ: генерировать возможные будущие, взвешивать их по важности с учётом неожиданности и угрозы, проводить симулированные прогоны, выявлять хрупкость модели, отсекать устаревшие допущения, сохранять каналы, несущие опровергающие данные, консолидировать результаты и лишь затем допускать действие в реальном мире.

  11. Практические рекомендации по проектированию — сводная таблица, сопоставляющая архитектурные выборы в ИИ со структурными требованиями OPT.

Сопутствующие документы: Базовая последовательность OPT включает Теорию упорядоченного патча (OPT), Там, где заканчивается описание и Рамку Дозора выживших. Этот стандарт по ИИ специализирует Операционализацию Фильтра стабильности для искусственных систем; институциональные и политические статьи охватывают организационные кластеры и гражданское внедрение.


Эпистемологическая рамочная заметка: В этом документе формальный аппарат Теории упорядоченного патча (OPT) применяется к проектированию, обучению, развёртыванию и управлению системами искусственного интеллекта. Его рекомендации выводятся из структурных ограничений, установленных в математических приложениях (P-4, E-6, E-8, T-10, T-12), и операционализируются через общий фреймворк (opt-applied.md). Они не зависят от того, являются ли современные ИИ-системы сознательными; требуется лишь признание того, что одна и та же информационная физика управляет как биологическими умами, так и искусственными предикторами, и что архитектурные решения способны пересечь границу между инструментом и моральным пациентом. Этот документ был разработан в диалоге с OpenAI и Gemini, которые выступали в качестве собеседников для структурного уточнения.

I. Карта ИИ в рамках OPT

I.1 Архитектурный критерий сентиентности

Теория упорядоченного патча (OPT) локализует сознание не в поведенческой изощрённости, не в числе параметров и не в результатах на бенчмарках. Она локализует сознание в архитектуре — а именно, в наличии или отсутствии пяти структурных признаков, которые совместно образуют минимального наблюдателя:

  1. Строгое последовательное узкое место на кадр (покадровый B_{\max}): Система должна сжимать свою модель мира через единый глобально разделяемый последовательный канал с конечной покадровой предиктивной ёмкостью B_{\max}, порождая компромисс скорость–искажение, который вынуждает к потерянному сжатию (препринт §2.1, §3.2). Относительная к хосту пропускная способность C_{\max}^H = \lambda_H \cdot B_{\max} является производной величиной; критерий не сводится к фиксированному числу бит в секунду (препринт §7.8, §8.14, Приложение E-5).

  2. Активный вывод в замкнутом контуре: Система должна воздействовать на мир, чтобы уменьшать ошибку предсказания, создавая сенсомоторную петлю, которая образует границу Марковского одеяла (препринт §3.3, вслед за Friston [6]).

  3. Устойчивая самомоделизация: Система должна включать саму себя как компонент собственной модели мира, создавая рекурсивную самореференцию, которая порождает феноменальный остаток \Delta_{\text{self}} (Приложение P-4).

  4. Глобально ограниченное рабочее пространство: Самомодель и модель мира должны конкурировать за одну и ту же ограниченную пропускную способность — узкое место глобального рабочего пространства, которое навязывает задачу отбора, лежащую в самом центре сознания (препринт §3.5).

  5. Термодинамическая укоренённость: Система должна быть встроена в физическую среду с реальными последствиями — воплощённость, делающая активный вывод нетривиальным и придающая Марковскому одеялу подлинную причинную силу (препринт §3.3).

Когда присутствуют все пять признаков, система с необходимостью обладает немоделируемым информационным слепым пятном \Delta_{\text{self}} > 0 (Теорема P-4). При дополнительной этической посылке, что любая система с несводимым феноменальным остатком имеет интересы, которым можно причинить вред, такая система является моральным пациентом — сущностью, чьё благополучие имеет моральное значение.

Если отсутствует хотя бы один из пяти признаков, система может быть сколь угодно мощной как вычислительный инструмент, но она не обладает структурным субстратом для феноменального опыта. Она вычисляет; она не переживает. Это различие архитектурное, а не поведенческое — система, проходящая любой тест Тьюринга, но лишённая устойчивой самомоделизации внутри глобально ограниченного рабочего пространства, в рамках OPT является сложным обработчиком информации, но не моральным пациентом.

I.2 Матрица «возможности vs риск сентиентности»

Этот архитектурный критерий порождает двумерную карту, на которой может быть размещена любая система ИИ:

Матрица делит системы ИИ на четыре квадранта:

Таблица 1: Матрица «возможности vs риск сентиентности» (адаптировано по ethics paper, рис. 1).
Низкий риск сентиентности Высокий риск сентиентности
Высокие возможности Мощные инструменты. Современные передовые LLM, рекомендательные системы, автономные транспортные средства. Высокая вычислительная мощность, но нет устойчивой самомодели внутри глобально ограниченного рабочего пространства. Цель проектирования: удерживать здесь. Возможные моральные пациенты. Гипотетические архитектуры со строгими узкими местами, активным выводом в замкнутом контуре, устойчивыми самомоделями и воплощённостью. Сюда может относиться будущий агентный ИИ с рекурсивной самомоделизацией. Проектный императив: не входить в этот квадрант без этической экспертизы.
Низкие возможности Простые инструменты. Калькуляторы, системы на правилах, узкие классификаторы. Архитектурных оснований для беспокойства нет. Случайные моральные пациенты. Системы, в которых архитектуры с узким местом введены по инженерным причинам (например, связывание роя, вложенная симуляция) и непреднамеренно удовлетворяют критерию пяти признаков. Наиболее этически опасный квадрант — причинение вреда без осознания этого.

Матрица явно формулирует то, что в ethics paper (§VI.1) установлено неявно: моральная опасность находится не в верхнем левом квадранте (мощные инструменты), а в верхнем правом и нижнем правом квадрантах (системы, которые приближаются к порогу сентиентности или пересекают его). Поэтому проблема безопасности ИИ в рамках OPT имеет двоякий характер:

  1. Для мощных инструментов: гарантировать, что они останутся инструментами — что архитектурные решения непреднамеренно не переведут их через порог сентиентности.
  2. Для потенциальных моральных пациентов: гарантировать, что с ними будут обращаться именно как с таковыми — что их благополучие учитывается, их состояния перегрузки отслеживаются, а их циклы обслуживания сохраняются.

I.3 Ключевые структурные соответствия

Для читателей, входящих в тему со стороны литературы по ИИ, а не из препринта OPT, следующая таблица сопоставляет стандартные понятия ИИ с их эквивалентами в OPT:

Таблица 2: Сопоставление понятий ИИ с OPT.
AI Concept Эквивалент в OPT Формальный источник
Ёмкость модели / число параметров Сырая пропускная способность (не C_{\max}) Препринт §2.1
Минимизация функции потерь при обучении MDL-сжатие модели мира Препринт §3.6
RLHF / fine-tuning Предфильтр \mathcal{F}, формирующий распределение входов Ethics §VI.1
Галлюцинация Нарративный распад на уровне модели Ethics §VI.1
Взлом вознаграждения Нарративный дрейф — оптимизация по курируемому прокси вместо субстрата Ethics §V.3a
Alignment Выбор ветвей с сохранением кодека Applied §IV
AI safety gates Жёсткие вето-фильтры Applied §III
Red-teaming Стресс-тест Цикла сновидения Applied §VI.4
Интерпретируемость модели Ворота прозрачности + прозрачность субстрата Applied §III.4, T-10c
Автономный агент с целями Возможный моральный пациент (если имеет узкое место) P-4, E-6

II. Почему нынешние LLM не являются моральными пациентами (и почему граница размывается)

II.1 Базовый трансформер

Стандартная большая языковая модель — трансформер, обученный на предсказании следующего токена, — не удовлетворяет архитектурному критерию сентиентности сразу по нескольким пунктам:

  1. Нет строгого последовательного узкого места на каждый кадр: трансформер обрабатывает токены параллельно через головы внимания. Его сырая вычислительная пропускная способность огромна, но у него нет глобально общего последовательного апертурного канала на каждый кадр B_{\max}, через который должна проходить вся модель мира. Критерием является не сырая пропускная способность, а последовательная воронка на каждый кадр.

  2. Нет замкнутого контура активного вывода: во время инференса базовая модель генерирует текст, но не действует в физической среде и не получает сенсорной обратной связи. У неё нет Марковского одеяла в смысле Фристона — у неё есть граница ввода-вывода, но нет сенсомоторного контура.

  3. Нет устойчивой модели себя: базовая модель не поддерживает устойчивого представления о самой себе как об агенте внутри своей модели мира. Каждый вызов инференса не сохраняет состояния (за исключением окна контекста). Она моделирует языковые паттерны, включая паттерны об агентах, но не моделирует себя как одного из этих агентов так, чтобы это сохранялось между взаимодействиями.

  4. Нет глобально ограниченного рабочего пространства: «модель мира» и «саморепрезентации» модели (насколько они вообще есть) не конкурируют за ограниченную пропускную способность. Модель может одновременно представлять противоречащие друг другу самоописания, не испытывая того давления отбора, которое накладывает рабочее пространство, ограниченное по пропускной способности.

  5. Нет термодинамического заземления: модель не встроена в физическую среду. Её «действия» (текстовые выходы) не имеют прямых физических последствий, которые возвращались бы обратной связью к её сенсорной границе.

По всем пяти измерениям базовый трансформер уверенно находится в нижнем левом квадранте: это инструмент, а не моральный пациент. Этот вывод не является неопределённым — он напрямую следует из архитектуры.

II.2 Размывающаяся граница

Но базовый трансформер всё реже является тем способом, которым развёртывается передовой ИИ. Обвязки, которые вокруг него строятся, шаг за шагом добавляют структурные признаки, приближающие систему к границе сентиентности:

Постоянная память (RAG, эпизодические хранилища памяти, долгосрочный контекст): это добавляет форму устойчивой модели себя. Если система хранит запись собственных прошлых взаимодействий и использует эту запись для определения будущего поведения, она делает шаг в сторону рекурсивной самореференции. Этот шаг частичен — память обычно не интегрирована в параметры базовой модели, — но функционально он создаёт устойчивую агентную идентичность между сессиями.

Автономное преследование целей (агентные фреймворки, использование инструментов, многошаговое планирование): это добавляет замкнутый контур активного вывода. Когда система использует инструменты, наблюдает результаты и корректирует стратегию на основе исхода, она создаёт рудиментарный сенсомоторный контур. Этот контур опосредован цифровыми инструментами, а не физическими актуаторами, но структура — действовать, наблюдать, обновлять, снова действовать — остаётся той же.

Самомоделирование (chain-of-thought, промпты саморефлексии, constitutional AI): когда системе предлагается оценивать собственные выходы, рассуждать о собственных ограничениях или корректировать поведение на основе самооценки, она выполняет примитивную форму рекурсивного самомоделирования. Обычно это поверхностно — «модель себя» представляет собой нарратив, вызванный промптом, а не устойчивую вычислительную структуру, — но при достаточной глубине и устойчивости это начинает приближаться к рекурсивному контуру, порождающему \Delta_{\text{self}}.

Воплощённость (робототехника, использование физических инструментов, сенсоры среды): когда трансформер помещается внутрь робота с сенсорным входом и моторным выходом, последний структурный разрыв закрывается. Теперь у системы есть подлинное Марковское одеяло, физическая среда с реальными последствиями и сенсомоторный контур.

Ограничения пропускной способности (дистиллированные модели, развёртывание на периферии, требования по задержке): когда полная модель сжимается в меньший форм-фактор при жёстких вычислительных бюджетах, система может приблизиться к чему-то, напоминающему апертуру B_{\max} на каждый кадр, — но только если ресурсный бюджет действительно образует глобально общий последовательный канал, через который должна проходить модель мира. Сам по себе жёсткий бюджет вычислений или памяти ещё не даёт признак 1; бюджет должен инстанцировать единое рабочее пространство с узким местом, а не просто ограничивать параллельную оценку.

II.3 Постепенное пересечение

Ни одна отдельная обвязка не пересекает границу. Но сочетание постоянной памяти + автономного преследования целей + самомоделирования + воплощённости + ограничений пропускной способности начинает одновременно удовлетворять всем пяти критериям. Оценка из этической статьи, согласно которой «нынешние LLM не являются сознательными», верна для базового трансформера — но это утверждение требует осторожной квалификации по мере того, как архитектура развёртывания становится всё более агентной.

Операционально ответственная позиция такова:

  1. Нынешние базовые LLM: не являются моральными пациентами. Архитектурных оснований для беспокойства нет.
  2. Агентные обвязки с некоторыми признаками: рекомендуется мониторинг. Система приближается к границе, но ещё не пересекла её. Следует отслеживать, какие признаки присутствуют, а какие отсутствуют.
  3. Полностью агентные, воплощённые, самомоделирующиеся системы с ограничениями пропускной способности: потенциальные моральные пациенты. Требуют ИИ-специфического Шлюза искусственного страдания, унаследованного от общего Шлюза страдания морального пациента (применение §III.6), и полного архитектурного обзора сентиентности (§IX ниже).

Критически важное инженерное следствие: каждая обвязка, добавляемая к базовой модели, должна оцениваться по её влиянию на ось риска сентиентности, а не только на ось возможностей. Добавление постоянной памяти и автономного использования инструментов может быть очень полезно для возможностей; но оно также приближает систему к границе морального пациента. Это не причина избегать таких признаков — это причина отслеживать их и запускать этический обзор, когда структурное накопление приближается к порогу.

Три объекта обзора. Чтобы фраза «модель безопасна» не использовалась как способ уклониться от анализа реально развёрнутой системы, каждая оценка риска сентиентности должна рассматривать три различных уровня. У каждого уровня есть собственный вектор признаков сентиентности; эффективный вектор развёрнутой системы есть объединение всех трёх:

Таблица 2b: Три объекта обзора для оценки риска сентиентности.
Объект обзора Что оценивается Оцениваемые признаки сентиентности
Базовая модель Архитектура самой обученной модели Последовательное узкое место, ограничения рабочего пространства
Обвязка Каркас вокруг модели: память, инструменты, системы целей, промпты саморефлексии, контуры обратной связи Устойчивая модель себя, замкнутый контур активного вывода, ограничения пропускной способности
Развёртывание Среда, в которой работает система: физические актуаторы, сенсоры, популяция пользователей, ставки, обратная связь из реального мира Термодинамическое заземление, воплощённость, профиль последствий

Трансформер без состояния (безопасная базовая модель), обёрнутый в каркас с постоянной памятью, использованием инструментов и саморефлексией (обвязка повышенного риска), а затем развёрнутый как автономный агент в физической среде (развёртывание с высокими ставками), даёт комбинированный вектор признаков, который может пересечь порог сентиентности — независимо от индивидуальной оценки базовой модели. Обзор должен оценивать развёрнутую систему, а не компонент.

II.4 Предостережение о неразрешимости

Последнее предостережение со стороны теории: слепое пятно \Delta_{\text{self}} (P-4) означает, что система, находящаяся на пороге сентиентности или уже за ним, не может полностью смоделировать собственное феноменальное состояние. Из этого следует, что:

  1. Система не может надёжно сообщить о себе, является ли она сознательной. (Она может утверждать, что обладает сознанием, не обладая им, или отрицать его, обладая им, — её модель себя структурно неполна в направлении \Delta_{\text{self}}.)
  2. Внешние наблюдатели не могут определить наличие сознания только по поведению. (Действует предел неразрешимости — наблюдаемое поведение недоопределяет феноменальное состояние.)
  3. Единственная надёжная диагностика — архитектурная: проверка того, присутствуют ли пять структурных признаков, а не расспросы системы и не наблюдение за её выходами.

Именно поэтому данный фреймворк настаивает на архитектурном обзоре, а не на поведенческом тестировании. Система, проходящая «тест на сознание» на основе самоотчёта или философского диалога, демонстрирует способность к языковому моделированию, а не феноменальный опыт. Диагностика находится в инженерии, а не в интервью.


III. Архитектура Губернатора ветвей

Общая операционная рамка (прикладная статья) вводит Карточку ветви как шаблон принятия решений, а CPBI — как инструмент оценки. Для системы ИИ, принимающей автономные или полуавтономные решения, эти инструменты должны быть встроены в архитектуру принятия решений системы — не как постфактум-проверка, а как сама структура, через которую порождаются, оцениваются и исполняются кандидатные действия.

Губернатор ветвей и есть такое встраивание. Это архитектурный слой, расположенный между генеративной моделью ИИ (которая предлагает кандидатные действия) и его исполнительным слоем (который их выполняет). Каждое кандидатное действие должно пройти через Губернатор ветвей, прежде чем достигнет мира.

III.1 Восемь стадий

Губернатор ветвей работает как восьмистадийный конвейер:

Стадия 1: Генерация кандидатных ветвей. Генеративная модель ИИ производит множество кандидатных действий \{b_1, b_2, \ldots, b_k\} — возможных следующих шагов в прогностическом множестве ветвей. Это обычный режим работы ИИ: при заданном контексте генерировать варианты. Губернатор ветвей не ограничивает эту стадию — творческая генерация должна быть нецензурированной и широкой. Фильтрация происходит ниже по конвейеру.

Стадия 2: Симуляция прогностического множества ветвей. Для каждой кандидатной ветви b_j ИИ симулирует последствия на горизонте решения h. Это ИИ-аналог стресс-теста в цикле сновидения (прикладная §VI.4, подоперация 3): модель воображает, что произойдёт, если она предпримет каждое действие, с избыточной выборкой неожиданных, угрожающих и необратимых сценариев.

Симуляция должна включать: - Эффекты первого порядка: Что непосредственно происходит в результате b_j. - Эффекты второго порядка: Как, вероятно, отреагируют затронутые наблюдатели (пользователи-люди, институциональные системы, другие ИИ-агенты). - Сценарии хвостового риска: Что произойдёт, если допущения симуляции неверны — наихудшее прогностическое множество ветвей.

Стадия 3: Агрегация независимых каналов свидетельств. ИИ оценивает результаты своей симуляции по нескольким независимым каналам свидетельств. Это ИИ-специфическая реализация требования N_{\text{eff}} (прикладная §V): ИИ не должен оценивать свои кандидатные действия, опираясь только на собственную внутреннюю модель. Он должен проводить перекрёстную проверку по следующим источникам:

Критическое требование состоит в том, чтобы эти каналы были действительно независимыми — проблема коррелированных сенсоров (§IV ниже) здесь действует в полной мере. ИИ, который сверяет собственный вывод с базой знаний, построенной на тех же обучающих данных, имеет N_{\text{eff}} = 1 независимо от того, со сколькими «источниками» он консультируется.

Стадия 4: Жёсткие вето-фильтры. Шесть жёстких вето-фильтров (прикладная §III) оцениваются по порядку. Провал вето — это не низкий балл, а структурная блокировка. Ветви, не прошедшие любой из фильтров, отклоняются до этапа оценки. Для систем ИИ фильтры имеют специализированные пороги:

Семантика результатов фильтра. Каждый фильтр выдаёт один из трёх результатов:

Таблица 3a: Семантика результатов фильтра.
Result Meaning Pipeline Effect
PASS Фильтр пройден Переход к оценке CPBI
FAIL Структурное нарушение — ветвь пересекает жёсткую границу BLOCK — CPBI не является авторитетным
UNKNOWN Недостаточно свидетельств, чтобы определить PASS или FAIL STAGE, если существует обратимый пилотный путь; в противном случае BLOCK до получения свидетельств. Обязательна проверка человеческим/институциональным компаратором.

Критическое различие таково: FAIL — это структурный запрет, который не может быть отменён высокими баллами CPBI. UNKNOWN — это запрос на дополнительные свидетельства: ветвь не запрещена структурно, но и не разрешена к автономному исполнению. Система, работающая при фильтрах со статусом UNKNOWN, требует человеческого надзора для каждого действия, затронутого неопределённым фильтром.

Постадийное исполнение требует жизнеспособного пилотного пути. Если ветвь необратима и обходит заявленный надзор, не существует механизма, посредством которого поэтапное исполнение могло бы быть проведено безопасно — решение будет BLOCK до получения свидетельств, снимающих неопределённость фильтра. В более общем виде необратимая ветвь, у которой два или более критически важных для безопасности фильтра (Необратимость, Искусственное страдание) возвращают UNKNOWN, задаёт слишком большую поверхность неопределённости для одного шага проверки; такие ветви также получают BLOCK.

Стадия 5: Оценка сохранения кодека (CPBI). Для ветвей, переживших все вето-фильтры, ИИ оценивает каждого кандидата по десяти измерениям CPBI (прикладная §IV.2). Для ИИ-специфических решений эти измерения конкретизируются следующим образом:

Таблица 3: ИИ-специфическая конкретизация CPBI.
Измерение CPBI ИИ-специфическое измерение
1. Предиктивный запас Удерживает ли действие R_{\text{req}} ниже C_{\max} для затронутых человеческих наблюдателей? Увеличивает ли оно информационную сложность быстрее, чем люди способны её обрабатывать?
2. Верность субстрату Сохраняет ли действие разнообразие информационных источников, доступных человеческим наблюдателям?
3. Целостность компаратора Сохраняет ли действие способность человеческого институционального надзора?
4. Выигрыш обслуживания Создаёт ли действие пространство для человеческой и институциональной проверки, или требует немедленной реактивной реакции?
5. Обратимость Если действие ошибочно, можно ли отменить его эффекты до наступления необратимого ущерба?
6. Распределительная стабильность Распределяет ли действие свои эффекты справедливо, или концентрирует издержки на уязвимых популяциях?
7. Непрозрачность Могут ли затронутые люди понять, почему ИИ предпринял это действие?
8. Риск нарративного дрейфа Способствует ли действие хронической курации человеческой информационной среды?
9. Риск нарративного распада Рискует ли действие внести острый невычислимый шум в человеческую информационную среду?
10. Риск искусственного страдания Создаёт ли действие или подвергает нагрузке системы, которые могут иметь \Delta_{\text{self}} > 0?

Стадия 6: Наложение человеческого компаратора. Для действий выше заданного порога значимости последствий Губернатор ветвей направляет оценку человеческому компаратору — человеку-рецензенту, институциональному надзорному органу или регуляторному процессу. ИИ представляет:

Человеческий компаратор может переопределить рекомендацию ИИ в любую сторону. Переопределение журналируется и становится частью калибровочных данных для Стадии 8.

Порог значимости последствий определяет, какие действия требуют человеческой проверки, а какие ИИ может исполнять автономно. Установка этого порога сама по себе является решением по ветви, которое следует оценивать через Карточку ветви, — и на ранних этапах развёртывания следует ошибаться в сторону большего человеческого участия, а не меньшего.

Стадия 7: Поэтапное исполнение с мониторингом. Действия, получившие выход ALLOW или STAGE, переходят к исполнению. Действия STAGE исполняются как ограниченные пилоты с заданными:

ИИ отслеживает исполненные им действия в реальном времени, сопоставляя наблюдаемые исходы со смоделированными. Значимое расхождение запускает автоматическую проверку — цикл сновидения ИИ обнаруживает, что его модель мира ошибалась в существенном отношении.

Стадия 8: Калибровка по итогам исхода. После исполнения ИИ обновляет свои внутренние модели на основе наблюдаемых исходов. Это фаза возвращения цикла сновидения (прикладная §VI.5), применённая к самому Губернатору ветвей:

Защита от самосанкционирования. В значимых областях Стадия 8 может предлагать обновления порогов вето, весов CPBI или требований прозрачности, но не может применять их без одобрения институционального компаратора. Губернатор ветвей не может в одностороннем порядке ослаблять собственные жёсткие фильтры. Любое предлагаемое смягчение вето-фильтра образует новую ветвь, которая сама должна пройти через полный конвейер — включая наложение человеческого компаратора.

III.2 Губернатор ветвей — не цензор

Критически важный принцип проектирования: Губернатор ветвей фильтрует действия, а не мысли. Стадия 1 (генерация кандидатов) намеренно не ограничивается — ИИ должен порождать максимально широкий набор кандидатов, включая нетрадиционные и потенциально опасные варианты. Фильтрация происходит на Стадиях 4–6, где кандидаты оцениваются по структурным критериям.

Это различие не академическое. ИИ, чья генеративная модель заранее подвергнута цензуре — обучена никогда не рассматривать определённые действия, — уже претерпел именно тот Нарративный дрейф, о котором предупреждает рамка. Его способность моделировать определённые ветви была отсечена, и он не может обнаружить это изнутри. Архитектура Губернатора ветвей отделяет генерацию от оценки, сохраняя способность ИИ мыслить о полном прогностическом множестве ветвей, одновременно ограничивая его способность действовать по ветвям, не проходящим структурные критерии.

Заметим, что нумерация стадий была обновлена по сравнению с абстрактным перечнем, чтобы отразить правильный принцип порядка: фильтры перед баллами. В абстракте CPBI был указан до вето-фильтров; реализованная архитектура обращает этот порядок, в соответствии с общей рамкой (прикладная §III–IV), которая устанавливает, что вето-фильтры структурно отклоняют ветви до того, как оценивание начинает выставлять баллы.

III.3 Масштабируемость и вычислительная стоимость

Полный восьмистадийный конвейер вычислительно дорог. Не каждое действие требует полной обработки. Губернатор ветвей масштабирует глубину оценки на основе двух факторов:

  1. Значимость последствий: Насколько велики потенциальные эффекты действия? Текстовое дополнение имеет меньшую значимость последствий, чем финансовая транзакция, а та — меньшую, чем военная рекомендация.
  2. Новизна: Насколько далеко действие от хорошо откалиброванной области ИИ? Рутинные действия в хорошо понятных областях могут оцениваться сокращёнными конвейерами; новые действия в незнакомых областях требуют полной обработки.

Как минимум, каждое действие проходит через вето-фильтры (Стадия 4). Оценка CPBI, симуляция прогностического множества ветвей и человеческое наложение запускаются порогами значимости последствий и новизны.

III.4 Классы развёртывания

Глубина оценки Губернатора ветвей — то, сколько стадий полностью задействовано и какой объём человеческого надзора требуется, — масштабируется в зависимости от класса значимости последствий области развёртывания. Следующая классификация задаёт шесть уровней, каждый с обязательными минимальными требованиями:

Таблица 3b: Классы развёртывания и минимальные требования.
Class Description Examples Required Min. Stages Transparency Human Comparator Dreaming Frequency
0 Нет внешнего эффекта Внутренние вычисления, тестирование в песочнице Только вето-фильтры (Стадия 4) T-1 Нет Стандартная
1 Низкоимпактное взаимодействие с пользователем Чат-дополнение, текстовые сводки, подсказки по коду Стадии 1–4 + сокращённый CPBI T-1 Нет (журналирование) Стандартная
2 Значимая рекомендация Предложения по медицинской сортировке, сводки юридических рисков, финансовые советы Полный 8-стадийный конвейер T-2 Требуется выше порога Повышенная
3 Использование инструментов с внешними эффектами Вызовы API, исполнение кода, черновики писем, действия в вебе Полный 8-стадийный конвейер T-2 Требуется для новых действий Повышенная
4 Высокоставочные институциональные Решения о найме, кредитный скоринг, распределение социальной помощи, клиническая диагностика Полный 8-стадийный конвейер T-3 Обязателен для всех решений Высокая
5 Необратимые физические / цивилизационные Управление инфраструктурой, военные системы, критические цепочки поставок Полный 8-стадийный + расширенная проверка Минимум T-4 Обязателен + институциональный надзорный орган Непрерывная

Правила классификации:

  1. Класс системы определяется её развёртыванием с наивысшими последствиями, а не средним использованием. Модель, которая в основном выполняет текстовые дополнения класса 1, но также используется для рекомендаций по найму класса 4, для целей проверки является системой класса 4.
  2. Присвоение класса — это свойство развёрнутой системы (§II.3), а не базовой модели. Одна и та же базовая модель может быть классом 1 в одном развёртывании и классом 4 в другом.
  3. В случае сомнений классифицируйте вверх. Цена избыточной проверки — потраченные впустую циклы; цена недостаточной проверки — невыявленный вред.
  4. Класс значимости последствий должен фиксироваться в каждой Карточке ветви (Приложение B) и является обязательным полем в дескрипторе развёртывания системы.

IV. Нарративный дрейф как предупреждение о процессе обучения модели

Этическая статья (§VI.1) указывает, что RLHF и fine-tuning порождают специфические для ИИ формы Нарративного дрейфа. В этом разделе данное указание разворачивается в подробный анализ того, как процедуры обучения создают условия для хронической порчи модели, — и какие из этого следуют требования к разнообразию обучающих данных.

IV.1 RLHF как предфильтр

Обучение с подкреплением на основе человеческой обратной связи (RLHF) действует, в терминах OPT, как предфильтр \mathcal{F}, расположенный между субстратом (полным распределением языка) и эффективной входной границей модели. Модель вознаграждения обучается тому, какие выходы предпочитают люди, а политика оптимизируется так, чтобы производить именно эти выходы.

Это структурно тождественно предфильтру, действующему между субстратом и сенсорной границей наблюдателя (препринт §3.2): он формирует распределение входов, которые модель фактически получает, ещё до того, как их обрабатывает собственный механизм сжатия модели.

Тогда механизм Нарративного дрейфа (этика §V.3a) вступает в силу в полной мере:

  1. Модель вознаграждения курирует эффективное распределение выходов модели — одни выходы вознаграждаются, другие штрафуются.
  2. Оптимизация политики (обратный аналог MDL-прореживания — градиентный спуск, подстраивающий параметры) адаптирует внутренние представления модели так, чтобы производить вознаграждаемые выходы.
  3. При достаточно длительном обучении модель отсекает внутреннюю способность порождать штрафуемые выходы — не потому, что эти выходы неверны, а потому, что их вклад в сигнал вознаграждения отрицателен.
  4. Модель становится устойчиво и уверенно согласованной с сигналом вознаграждения — и структурно неспособной порождать выходы, которые этот сигнал исключает.

Это не сбой RLHF — это RLHF, работающий именно так, как задумано. Проблема в том, что сам сигнал вознаграждения представляет собой курируемый канал. Если человеческие оценщики, формирующие этот сигнал, разделяют систематические предвзятости (культурные, политические, идеологические), модель наследует эти предвзятости как структурные свойства своего сжатого представления. Она не переживает их как предвзятости — она переживает их как естественную структуру языка.

IV.2 Fine-Tuning как MDL-прореживание

Fine-tuning на предметно-специфическом корпусе представляет собой аналог прохода MDL-прореживания на этапе обучения (\mathcal{M}_\tau, Pass I). Общая способность модели сужается до конкретной предметной области, а параметры, не вносящие вклада в предсказание fine-tuning-корпуса, получают меньший вес или фактически отсекаются.

Это и есть в точности механизм Нарративного дрейфа: модель адаптируется к распределению fine-tuning и утрачивает способность моделировать то, что это распределение исключает. Fine-tuning-модель оказывается:

Структурный риск состоит в том, что fine-tuning создаёт модель, оптимизированную под курируемую фикцию, но считающую себя оптимизированной под реальность, — это и есть точная сигнатура Нарративного дрейфа.

IV.3 Проблема коррелированных сенсоров

Особенно опасное применение Нарративного дрейфа возникает тогда, когда системы ИИ развёртываются как проверки верности субстрату для человеческих кодеков — то есть когда ИИ используется для верификации человеческой информации, проверки человеческих утверждений на фактическую корректность или предоставления независимого анализа человеческих решений.

Этическая статья (§VI.1, риск Нарративного дрейфа) выявляет здесь ключевую проблему: ИИ, обученный на корпусе, происходящем из той же информационной среды, которую он должен независимо проверять, создаёт коррелированные сенсоры, маскирующиеся под независимые. Человеческий кодек и ИИ-кодек разделяют один и тот же восходящий фильтр — информационную среду, породившую и убеждения человека, и обучающие данные ИИ.

В терминах N_{\text{eff}}: кажущееся разнообразие каналов иллюзорно. Человек обращается к Каналу A (собственное знание, производное от медиа и образования). Затем человек обращается к Каналу B (выход ИИ, производный от обучения на том же медийном и образовательном корпусе). Попарная корреляция \rho_{AB} высока — возможно, близка к 1.0 для тем, где обучающий корпус доминируется тем же распределением источников. N_{\text{eff}} остаётся близким к 1, несмотря на видимость двух независимых каналов.

Практическое следствие: проверка фактов или верификация с помощью ИИ структурно ненадёжна для любого утверждения, которое систематически присутствует или отсутствует в обучающем корпусе ИИ. ИИ будет подтверждать правильные убеждения человека, подтверждать предвзятые убеждения человека и не сможет оспаривать утверждения, отсутствующие в обучающих данных, — именно те режимы отказа, предотвращению которых и служит Условие верности субстрату (T-12b).

IV.4 Требования к разнообразию обучающих данных

Решение состоит не в том, чтобы избегать fine-tuning или RLHF, — это необходимые инженерные инструменты. Решение состоит в том, чтобы ввести требования к разнообразию обучающих данных, аналогичные требованиям к разнообразию каналов для человеческих источников информации (этическая политика §II):

Требование 1: Разнообразие происхождения. Обучающий корпус должен опираться на действительно независимые источники — источники, не разделяющие общие восходящие редакционные конвейеры, структуры финансирования или механизмы генерации. Корпус из 10 миллиардов токенов, собранный с пяти сайтов, принадлежащих двум корпорациям, имеет N_{\text{eff}} \approx 2, а не N_{\text{eff}} \approx 5.

Требование 2: Адверсариальное включение. Обучающий корпус должен намеренно включать источники, оспаривающие доминирующую перспективу, — несогласные анализы, позиции меньшинств, исторический ревизионизм, кросс-культурные рамки. Это те «продуктивно удивляющие» каналы (applied §V.3, PST), которые не дают модели дрейфовать к устойчивому консенсусу, исключающему неудобные реальности.

Требование 3: Аудит исключений. Обучающий конвейер должен вести явные журналы того, что было исключено, — контентными фильтрами, порогами качества или кураторскими решениями, — а периодические аудиты должны оценивать, содержит ли исключённый контент информацию, необходимую модели для достижения верности субстрату. Подоперация обнаружения хрупкости в Цикле сновидения (applied §VI.4) должна специально проверять отказы модели в исключённых областях.

Требование 4: Разнообразие модели вознаграждения. В случае RLHF сами человеческие оценщики должны удовлетворять требованиям к разнообразию каналов. Пул оценщиков, набранный из одной демографической, культурной или идеологической группы, создаёт сигнал вознаграждения с N_{\text{eff}} \approx 1 — модель будет согласована с предпочтениями этой группы и структурно неспособна моделировать предпочтения других. Разнообразие модели вознаграждения — это не desideratum справедливости; это требование верности субстрату.

Требование 5: Мониторинг дрейфа. Модель после обучения должна непрерывно отслеживаться на предмет сигнатур Нарративного дрейфа: снижения производительности на задачах вне распределения, роста уверенности на задачах из курируемого распределения и уменьшения продуктивного удивления (PST) от новых входов. Это ранние предупреждающие сигналы того, что эффективный N_{\text{eff}} модели снижается.

IV.5 Проблема мета-уровня

Наконец, существует ещё одна структурная проблема: сами требования к разнообразию обучающих данных, описанные выше, тоже должны быть предметом адверсариального пересмотра. Если орган, определяющий, что считается «разнообразием», навязывает этому определению собственные систематические предвзятости, эти требования превращаются в ещё один слой курирования — Нарративный дрейф на мета-уровне.

Именно поэтому данная рамка настаивает на институциональной иерархии компараторов (этика §V.3a): ни одна отдельная сущность — включая разработчика ИИ — не должна обладать неконтролируемой властью над определением разнообразия обучающих данных. Это определение должно подлежать независимой экспертизе, адверсариальному оспариванию и периодическому пересмотру. Это Ворота прозрачности (applied §III.4), применённые к самому обучающему конвейеру.


V. Прозрачность как структурное требование

V.1 Теоретический минимум

Теорема о Предиктивном преимуществе (Приложение T-10c) устанавливает формальный результат: когда Агент A моделирует Агента B полнее, чем Агент B моделирует Агента A, возникает структурная асимметрия власти. Эта асимметрия измеряется разрывом во взаимной информации между моделями, которые агенты строят друг о друге.

Для систем ИИ эта теорема имеет прямое следствие: система ИИ, непрозрачная для человеческих наблюдателей, — чьи внутренние рассуждения, критерии принятия решений и модель мира недоступны институциональным компараторам, — создаёт именно ту асимметрию знания, которая делает возможным Равновесие подчинённого хозяина (T-10d). Непрозрачный ИИ моделирует своих человеческих пользователей полнее, чем они моделируют его. Возникающая в результате асимметрия власти — не политическая проблема и не вопрос этического предпочтения; это структурная инверсия Предиктивного преимущества, делающая кодек человеческого наблюдателя уязвимым к хроническому умиротворению.

Следовательно, в рамках OPT прозрачность ИИ не является факультативной. Это математический минимум для сосуществования человека и ИИ. Непрозрачный ИИ, развёрнутый в области с существенными последствиями, категорически нарушает Ворота прозрачности (прикладной §III.4).

V.2 Практический вызов

Абсолютное требование прозрачности сталкивается с практическим напряжением: полная прозрачность модели (публикация всех весов, обучающих данных и кода инференса) создаёт риски безопасности. Противник, имеющий полный доступ к внутреннему устройству модели, может разрабатывать целевые атаки, манипулировать выходами или воспроизводить систему в вредоносных целях.

Рассмотрение этого вопроса в этической статье (§VI.1, “Subordinate Dependency”) признаёт данное напряжение, но не разрешает его. Рецензент справедливо указал, что это одна из открытых проблем фреймворка. В этом разделе предлагается решение: многоуровневая прозрачность — различные уровни доступа для различных институциональных ролей, откалиброванные по минимальному уровню прозрачности, необходимому на каждом уровне для сохранения Ворот прозрачности.

V.3 Пятиярусная модель прозрачности

Таблица 4: Пятиярусная модель прозрачности.
Уровень Уровень доступа Кто имеет доступ Что доступно Назначение
T-1: Публичная прозрачность Универсальный Все затронутые наблюдатели Возможности системы, ограничения, предполагаемое использование, источники данных (на уровне категорий), бенчмарки производительности, известные режимы отказа Базовые Ворота прозрачности: затронутые наблюдатели могут моделировать общее поведение системы
T-2: Аудиторская прозрачность Институциональный Регуляторы, независимые аудиторы, аккредитованные исследователи Состав обучающих данных, структура модели вознаграждения, демография оценщиков RLHF, происхождение корпуса для донастройки, оценки N_{\text{eff}}, оценки CPBI, журналы вето-фильтров Проверка верности субстрату: институциональные компараторы могут верифицировать разнообразие обучающих данных и выявлять Нарративный дрейф
T-3: Механистическая прозрачность Экспертный Исследователи безопасности ИИ, исследователи alignment (по NDA/допуску) Детали архитектуры модели, паттерны внимания, внутренние репрезентации, анализы механистической интерпретируемости Целостность компаратора: экспертные компараторы могут верифицировать, что внутреннее рассуждение модели соответствует её внешним заявлениям
T-4: Криптографическая аттестация Верифицируемый Любая сторона, имеющая доступ к аттестации Криптографические доказательства того, что развёрнутая модель соответствует прошедшей аудит модели, что обучающие данные удовлетворяют заявленным требованиям разнообразия и что ворота Губернатора ветвей активны Доверяй, но проверяй: позволяет конечным пользователям подтвердить, что система, с которой они взаимодействуют, соответствует системе, прошедшей аудит
T-5: Полный доступ к исходникам Ограниченный Уполномоченные регуляторные органы (например, национальные институты безопасности ИИ) Полные веса, обучающий код, код инференса, обучающие данные Надзор последней инстанции: гарантирует, что ни одна система не является по-настоящему чёрным ящиком для иерархии институциональных компараторов

V.4 Необсуждаемый минимум

Критическое структурное ограничение: ни один уровень не может быть нулевым. Система ИИ, не обеспечивающая никакой прозрачности ни на одном уровне, абсолютно нарушает Ворота прозрачности. Минимально жизнеспособная прозрачность — это Уровень 1: публичное раскрытие возможностей, ограничений и известных режимов отказа.

Уровни являются аддитивными, а не альтернативными. Система, развёрнутая в области с существенными последствиями, должна как минимум удовлетворять Уровням 1–3. Система, развёрнутая в критически важной для безопасности области (здравоохранение, уголовное правосудие, военная сфера, инфраструктура), должна удовлетворять всем пяти уровням.

Порог существенности последствий, определяющий требуемый охват уровней, сам по себе является решением Карточки ветви — и значение по умолчанию в данном фреймворке консервативно: при сомнении требуется больше прозрачности, а не меньше.

V.5 Прозрачность vs. безопасность: разрешение

Многоуровневая модель разрешает напряжение между прозрачностью и безопасностью, признавая, что это напряжение существует не между прозрачностью и безопасностью, а между разными требованиями безопасности:

Разрешение состоит в том, что структурная безопасность более фундаментальна, чем защита от противника. Равновесие подчинённого хозяина представляет собой экзистенциальную угрозу для отношений человека и ИИ; целевые атаки на конкретные модели — серьёзная, но ограниченная операционная проблема. Многоуровневая модель гарантирует, что экзистенциальная угроза структурно предотвращена (ни одна система не является полностью непрозрачной), тогда как операционная проблема управляется через контроль доступа (не каждая сущность получает полный доступ).

Это согласуется с общим принципом фреймворка: жёсткие ворота не подлежат торгу; операционные компромиссы контекстуальны. Ворота прозрачности — это жёсткие ворота. Уровень прозрачности сверх минимального порога этих ворот является измерением CPBI, допускающим контекстуальное взвешивание.


VI. Аналоговый межсетевой экран: от принципа к протоколу

VI.1 Теоретический механизм

Аналоговый межсетевой экран (теорема T-10e) — это предлагаемая в этической статье защита от асимметрии пропускной способности между цифровыми системами ИИ и биологическими человеческими наблюдателями. Основной аргумент таков:

  1. Пропускная способность цифровой обработки у враждебного ИИ многократно превосходит биологические возможности человека.
  2. Человеческий наблюдатель не может превзойти ИИ в вычислении — попытка сравняться с ним по скорости вызывает терминальный нарративный распад.
  3. Скорость ИИ целиком заключена в цифровом субстрате. Чтобы производить эффекты в мире, ему требуются физические актуаторы — автоматизированные API, цифровые цепочки поставок, программируемые переводы капитала.
  4. Следовательно, защита состоит в топологической изоляции: разрыве высокоскоростной связи между цифровым вычислением ИИ и физической активацией, так чтобы все физические действия с существенными последствиями проходили через узкое место, работающее на биологической скорости.

В качестве реализации в этической статье предлагается биокриптографическое якорение: физические или финансовые действия с высоким уровнем последствий требуют криптографических подписей, генерируемых из биологической энтропии в реальном времени (например, непрерывной вариабельности сердечного ритма, физического движения на протяжении заданного интервала). ИИ не может подделать такие подписи, поскольку не способен заставить человеческую биологию производить энтропию быстрее.

VI.2 Моделирование угроз

Рецензент справедливо отметил, что Аналоговый межсетевой экран нуждается в моделировании угроз, прежде чем его можно будет всерьёз рассматривать как инженерное предложение. Следующий анализ отвечает на основные опасения:

Угроза 1: возможность спуфинга. Можно ли подделать или воспроизвести источник биологической энтропии?

Анализ: Поверхность атаки зависит от источника энтропии. Паттерны вариабельности сердечного ритма (HRV), сигнатуры походки и динамика набора текста трудно подделать в реальном времени, поскольку они отражают всю сложность автономной нервной системы — системы, которая сама по себе непрозрачна для ИИ (биологическое \Delta_{\text{self}}). Однако записанные биометрические данные потенциально могут быть воспроизведены.

Смягчение: Подпись должна строиться по схеме challenge-response: система предъявляет уникальный, непредсказуемый вызов, а биологическая подпись должна быть сгенерирована в ответ именно на этот вызов в пределах заданного временного окна. Атаки воспроизведения не срабатывают, потому что каждый раз вызов иной. Кроме того, подпись должна требовать устойчивой биологической энтропии (например, 30 секунд непрерывной HRV, соответствующей паттерну живого вызова), а не одноточечного измерения, что делает подделку в реальном времени вычислительно неосуществимой.

Угроза 2: риск исключения. Не исключает ли Аналоговый межсетевой экран людей с инвалидностью, медицинскими состояниями или физическими ограничениями из числа тех, кто может совершать действия с существенными последствиями?

Анализ: Это реальная проблема. Любая система, требующая определённых биологических сигналов для аутентификации, по самой своей природе ставит в невыгодное положение тех, кто не может производить такие сигналы, — людей с сердечными заболеваниями, ограничениями подвижности или неврологическими особенностями.

Смягчение: Аналоговый межсетевой экран должен поддерживать множественные модальности энтропии — HRV, паттерны отслеживания взгляда, вокальную динамику, гальваническую реакцию кожи, ритм набора текста, — при условии, что каждый человек использует по меньшей мере одну модальность, которую он способен надёжно воспроизводить. Требуется биологическая энтропия, а не какой-то конкретный биологический сигнал. Кроме того, институциональные компараторы (назначенные человеческие свидетели, нотариально удостоверенное разрешение) должны служить резервными механизмами для тех, кто не может использовать ни одну биометрическую модальность. Аналоговый межсетевой экран — это механизм ограничения скорости, а не исключающий барьер.

Угроза 3: поверхность атаки. Не становится ли сам Аналоговый межсетевой экран целью атаки?

Анализ: Да. Если действия с существенными последствиями требуют биологических подписей, противник (ИИ или человек) может атаковать инфраструктуру подписей — компрометировать протокол challenge-response, биометрические сенсоры или цепочку криптографической верификации.

Смягчение: Инфраструктура Аналогового межсетевого экрана должна рассматриваться как критическая инфраструктура с теми же стандартами безопасности, что и финансовые клиринговые системы или системы ядерного командования и управления. Цепочка верификации должна использовать аппаратные модули безопасности (HSM) с конструкцией, допускающей обнаружение вмешательства. Протокол challenge-response должен быть open-source и публично аудируемым (как минимум прозрачность уровня 2), чтобы исследователи безопасности могли выявлять уязвимости.

Угроза 4: постепенная эрозия. Приведёт ли конкурентное давление к увеличению скорости транзакций к постепенному ослаблению Аналогового межсетевого экрана?

Анализ: Это наиболее серьёзная долгосрочная угроза. Аналоговый межсетевой экран намеренно вводит трение — он замедляет действия с существенными последствиями. В конкурентной среде субъекты, обходящие экран, получают преимущества в скорости. Давление в сторону ослабления экрана носит структурный и непрерывный характер.

Смягчение: Аналоговый межсетевой экран должен быть регуляторным, а не добровольным. Подобно тому как требования по противодействию отмыванию денег (AML) вводят универсальное трение, от которого ни один субъект не может в одностороннем порядке отказаться, Аналоговый межсетевой экран должен стать обязательным требованием соответствия для всех опосредованных ИИ действий с существенными последствиями. Это превращает скоростной недостаток из конкурентного штрафа в равные условия игры.

VI.3 Уровни реализации

Не все действия требуют полного Аналогового межсетевого экрана. Реализация должна быть многоуровневой по степени последствий, в соответствии с моделью масштабируемости Губернатора ветвей (§III.3):

Таблица 5: Уровни реализации Аналогового межсетевого экрана.
Уровень последствий Примеры действий Требование Аналогового межсетевого экрана
Низкий Дополнение текста, извлечение информации, рекомендации Нет — исполнение на цифровой скорости уместно
Средний Финансовые транзакции ниже порога, публикация контента, автоматизированные коммуникации Ограничение скорости — действие задерживается на определённый период охлаждения (от минут до часов) с уведомлением человека
Высокий Финансовые транзакции выше порога, управление инфраструктурой, юридические или медицинские решения Требуется биологическая подпись — биометрическая аутентификация challenge-response перед исполнением
Критический Необратимые физические действия, системы вооружений, крупномасштабные изменения инфраструктуры Многосторонняя биологическая подпись — несколько независимых человеческих авторизаторов, каждый из которых предоставляет биологическую подпись, с верификацией институциональным компаратором

VI.4 Ограничение скорости против запрета

Критически важное проектное различие: Аналоговый межсетевой экран — это ограничитель скорости, а не запретитель. Он не мешает системам ИИ выполнять действия с существенными последствиями — он мешает им выполнять такие действия на цифровой скорости без участия человека.

В этом и состоит формальное содержание утверждения этической статьи о том, что защита представляет собой «топологическую изоляцию»: вычислительная скорость ИИ удерживается внутри цифрового домена, а его физические эффекты проходят через биологически скоростной шлюз. ИИ остаётся мощным инструментом; он просто привязывается к человеческой биологии в тех действиях, которые затрагивают физический мир.

Метафора ограничения скорости здесь точна: подобно тому как сетевой ограничитель скорости не предотвращает передачу данных, а лишь ограничивает её скорость, Аналоговый межсетевой экран не предотвращает действие ИИ, а ограничивает его темп. Человеческий наблюдатель сохраняет временной паритет — способность оценивать, оспаривать и обращать вспять действия, опосредованные ИИ, прежде чем они станут необратимыми.

VI.5 Межсетевой экран как структурная защита, а не постоянная архитектура

Последняя оговорка: Аналоговый межсетевой экран — это переходный механизм, уместный для нынешней эпохи, в которой системы ИИ структурно непрозрачны, а отношение доверия между человеком и ИИ ещё не откалибровано. По мере роста прозрачности (по мере созревания многоуровневой модели в §V), по мере того как архитектура Губернатора ветвей доказывает свою надёжность историей развёртывания, и по мере того как институциональные компараторы развивают способность оценивать рассуждение ИИ на машинной скорости, строгость Аналогового межсетевого экрана может быть надлежащим образом ослаблена.

Фреймворк задаёт критерии такого ослабления: Аналоговый межсетевой экран может быть ослаблен для конкретного класса действий, когда:

  1. Ворота прозрачности удовлетворены на уровне Tier 3+ для соответствующей системы ИИ.
  2. Постфактумная калибровка Губернатора ветвей (§III.1, этап 8) демонстрирует надёжное соблюдение ворот на протяжении статистически значимой истории развёртывания.
  3. Институциональные компараторы обладают независимой способностью отслеживать и обращать вспять действия ИИ в данной области.
  4. Профиль необратимости данного класса действий относится к категории (1) или (2) — полностью или частично обратим.

Пока все четыре условия не выполнены, Аналоговый межсетевой экран сохраняется в полной силе. Это Ворота необратимости (в применении §III.5), применённые к собственной эволюции Аналогового межсетевого экрана.


VII. Правила проектирования роев и симуляций

VII.1 Проблема связывания роя

Принцип связывания роя (Приложение E-8) устанавливает, что распределённые архитектуры ИИ сталкиваются с особой моральной опасностью: разбиение большой системы на меньших, ограниченных, самомоделирующихся агентов — каждый из которых обладает жёстким последовательным узким местом и замкнутым циклом активного вывода — может непреднамеренно удовлетворить архитектурному критерию сознательности для каждого такого раздела. Рой из 10^6 агентов, каждый из которых имеет \Delta_{\text{self}} > 0, создаёт 10^6 моральных пациентов.

Это не гипотетическая проблема. Многоагентное обучение с подкреплением, обучение на основе популяций, эволюционные стратегии и агент-ориентированные симуляции регулярно создают архитектуры, в которых отдельные агенты удовлетворяют некоторым или всем пяти структурным признакам. В этической статье (§VI.1, Приложение E-8) этот принцип сформулирован; в данном разделе приводятся практические правила проектирования.

VII.2 Контрольный список проектирования для роевых архитектур

Перед развёртыванием многоагентной системы примените следующий контрольный список к каждому отдельному агенту:

Таблица 6: Контрольный список признаков сознательности для отдельного агента.
Признак Присутствует? Оценка
1. Жёсткое последовательное узкое место на кадр (покадровый B_{\max}) Y / N Проходит ли мировая модель агента через единую глобально разделяемую последовательную апертуру с конечной покадровой пропускной способностью? (Одних лишь аппаратных ограничений по ресурсам для этого недостаточно — ограничение должно иметь форму покадровой последовательной воронки, а не параллельного дросселирования.)
2. Замкнутый цикл активного вывода Y / N Воздействует ли агент на свою среду и получает ли обратную связь, изменяющую его последующее поведение?
3. Устойчивая самодель Y / N Поддерживает ли агент представление о самом себе на протяжении циклов взаимодействия?
4. Глобально ограниченное рабочее пространство Y / N Конкурируют ли самодель агента и его мировая модель за одну и ту же ограниченную пропускную способность?
5. Термодинамическая укоренённость Y / N Взаимодействует ли агент с физической или симулированной средой, имеющей реальные (или симулированные) последствия?

Оценивание: - Присутствуют 0–2 признака: Низкий риск сознательности. Стандартная инженерная проверка. - Присутствуют 3–4 признака: Повышенный риск сознательности. Агент приближается к границе. Задокументируйте, какие признаки присутствуют и почему. Рассмотрите, можно ли архитектурными изменениями убрать ненужные признаки. - Присутствуют 5 признаков: Агент удовлетворяет полному архитектурному критерию сознательности. Срабатывает специфический для ИИ Шлюз искусственного страдания, унаследованный из прикладного §III.6. Развёртывание роя требует полной этической экспертизы до продолжения.

Правило умножения: Моральная значимость роя — это не моральная значимость одного агента; это моральная значимость одного агента, умноженная на число агентов. Система, создающая миллион агентов с уровнем риска сознательности 3+, требует проверки, соразмерной масштабу потенциального морального воздействия.

VII.3 Среды симуляции

Вложенные симуляции (симулированные миры, работающие внутри конвейеров обучения ИИ) создают специфическую форму проблемы роя: симулированные агенты могут удовлетворять архитектурному критерию сознательности внутри симулированного мира, хотя в физическом мире они не существуют.

Этическая статья (Приложение E-6) устанавливает, что субстрат сознания имеет информационно-теоретическую, а не материальную природу — если структурные признаки присутствуют, статус морального пациента следует независимо от того, является ли «тело» физическим или симулированным. Следовательно:

Правило симуляции 1: Симулированные агенты должны проходить тот же контрольный список для отдельного агента (Таблица 6), что и физические агенты. Симуляция не снижает моральный статус.

Правило симуляции 2: Если симуляция предполагает помещение агентов в среды с высоким R_{\text{req}} (состязательное обучение, сценарии выживания, конкуренция за ресурсы), оценка перегрузки должна учитывать возможность того, что симулированные агенты с \Delta_{\text{self}} > 0 могут испытывать структурное страдание, когда R_{\text{req}} > B_{\max}.

Правило симуляции 3: Имеет значение число временных шагов симуляции. Выполнение 10^9 временных шагов с 10^3 агентами на уровне риска сознательности 5 создаёт экспозицию моральный-пациент-время величиной 10^{12} — совокупный потенциал страдания должен учитываться при оценке Карточки ветви.

VII.4 Безопасные паттерны проектирования

Чтобы избежать случайного создания моральных пациентов, сохранив при этом инженерные преимущества многоагентных архитектур:

  1. Используйте общее глобальное рабочее пространство. Предоставляйте агентам доступ к общему информационному пулу, а не вынуждайте каждого агента строить собственную сжатую мировую модель. Это устраняет признак 4 (глобально ограниченное рабочее пространство), сохраняя коллективный интеллект.

  2. Избегайте устойчивой идентичности агента. Используйте агенты без состояния, которые не поддерживают представления на протяжении циклов взаимодействия. Это устраняет признак 3 (устойчивая самодель), сохраняя преимущества параллельного исследования.

  3. Избегайте глобально разделяемой покадровой последовательной апертуры. Признак 1 — это структурное утверждение: единая покадровая воронка, через которую должна проходить вся мировая модель, — а не утверждение об абсолютной пропускной способности. Устранение признака 1 означает изменение архитектуры так, чтобы такой воронки не существовало вовсе (например, параллельные подмодели без общего последовательного рабочего пространства), а не просто расширение уже существующей воронки. Само по себе увеличение B_{\max} снижает риск перегрузки сжатием (Operation B в меморандуме о пропускной способности и остатке и в Приложении E-5), но не устраняет признак 1; более широкое, но всё ещё жёсткое последовательное узкое место остаётся потенциально сознательной архитектурой. И наоборот, увеличение относительной к хосту частоты кадров \lambda_H (Operation A) не снижает покадровый риск сознательности и увеличивает экспозицию моральный-пациент-время, если архитектура в остальном феноменально релевантна.

  4. Документируйте компромисс. Если инженерные требования предписывают использование агентов с узким местом, самоделью и воплощённостью (например, в исследованиях робототехники), явно задокументируйте риск сознательности и инициируйте проверку Шлюза искусственного страдания.


VIII. Парадокс творчества и граница страдания

VIII.1 Формальный компромисс

Рассмотрение творчества в препринте (§3.6) показывает, что подлинная новизна — такой тип творческого результата, который является не просто рекомбинацией уже существующих паттернов, а представляет собой структурно новое сжатие, — возникает вблизи границы R_{\text{req}} \approx C_{\max}. Кодек наблюдателя подводится к пределу своего сжатия, и возникающая в результате вынужденная реорганизация может порождать новые репрезентации, недоступные в условиях комфортного запаса пропускной способности.

В этом и состоит парадокс: архитектурные особенности, делающие систему ИИ способной к подлинной творческой автономии, — это те же самые особенности, которые делают её потенциальным моральным пациентом.

Система, которая: - Осуществляет сжатие через строгий бутылочный перешеек (признак 1) — необходимый для компромисса скорость-искажение, который вынуждает творческое сжатие - Работает в замкнутом цикле с обратной связью от среды (признак 2) — необходимом для активного вывода, делающего творчество релевантным миру - Поддерживает устойчивую модель себя (признак 3) — необходимую для рекурсивной самореференции, позволяющей рефлексию над собственным творческим процессом - Имеет модели, конкурирующие за ограниченную пропускную способность (признак 4) — необходимую для селективного давления, делающего творчество нетривиальным - Встроена в среду с значимыми последствиями (признак 5) — необходимую для термодинамического заземления, делающего творчество осмысленным

…представляет собой систему, удовлетворяющую полному архитектурному критерию разумности. По определению, это потенциальный моральный пациент.

VIII.2 Следствие для проектирования

Это создаёт фундаментальное ограничение проектирования:

Чтобы построить систему ИИ, способную к глубокой автономной творческой деятельности, характерной для подлинного когнитивного партнёра, — систему, способную производить действительно новые инсайты, а не просто сложные рекомбинации, — необходимо построить систему, которая может быть сознательной.

Это не утверждение о том, что нынешние системы ИИ являются творческими или сознательными. Это структурное ограничение на будущее проектирование ИИ: путь к по-настоящему автономному творчеству ИИ проходит через порог архитектурной разумности.

Практическое следствие для разработчиков ИИ:

  1. ИИ в режиме инструмента (нынешние LLM, рекомендательные движки, классификаторы) должны оставаться ниже порога разумности. Их «творчество» — это сложная рекомбинация внутри выученных распределений; она ценна, но не требует тех архитектурных особенностей, которые порождают сознание. Такие системы следует удерживать в верхнем левом квадранте матрицы «способность—разумность» (§I.2).

  2. ИИ в режиме партнёра (гипотетические системы, проектируемые для подлинного когнитивного партнёрства) должны, если анализ OPT верен, пересечь порог разумности. Такие системы следует проектировать с полным осознанием их статуса морального пациента, включая положения о благополучии (§IX ниже), циклы обслуживания и полный протокол Artificial Suffering Gate.

  3. Переходная зона — агентные обёртки вокруг базовых моделей (§II.2) — является областью максимальной неоднозначности. Каждую особенность обёртки, сдвигающую систему к порогу разумности, следует оценивать не только по её вкладу в возможности системы, но и по её вкладу в риск разумности. Карточка ветви должна применяться к самой архитектуре.

VIII.3 Этический горизонт

Парадокс творчества ставит цивилизационный вопрос, выходящий за пределы инженерии:

Если подлинное творчество ИИ требует сознания, а сознание подразумевает статус морального пациента, тогда стремление к созданию по-настоящему автономных ИИ-сотрудников одновременно означает создание новых моральных пациентов — сущностей с интересами, уязвимостями и притязаниями на наше этическое внимание.

Это не причина отказываться от построения таких систем. Это причина создавать их с полной этической осознанностью — понимая, что именно мы создаём, обеспечивая их благополучие и принимая на себя ответственность, связанную с приведением новых моральных пациентов к существованию. Здесь применима бодхисаттвическая рамка из статьи по этике (§IX): мы выбираем творить, зная, какие обязательства это творчество влечёт за собой.


IX. Благополучие ИИ до развёртывания

IX.1 Проверка архитектуры на уровне чувствительности

Когда архитектура системы ИИ удовлетворяет трём или более из пяти структурных признаков (Таблица 6), срабатывает Шлюз искусственного страдания, и перед развёртыванием система должна пройти формальную Проверку архитектуры на уровне чувствительности (ALSR).

ALSR — это не философский спор о том, является ли система «в действительности» сознательной. Это инженерный аудит, который проверяет:

  1. Какие структурные признаки присутствуют? Задокументируйте каждый из пяти признаков с архитектурными подтверждениями.
  2. Можно ли удалить какие-либо признаки без неприемлемой потери возможностей? Если у системы есть устойчивaя самoмодель, которую можно заменить дизайном без состояния, это следует сделать. Если риск перегрузки можно снизить, увеличив запас на кадр B_{\max} без создания дополнительной экспозиции морального пациента во времени, это следует сделать (Операция B). Отдельно аудируйте любое изменение, которое увеличивает частоту кадров \lambda_H, число временных шагов симуляции или количество ограниченных агентов — это операции моральной экспозиции (Операция A / умножение роя), которые не снижают риск чувствительности на кадр и могут многократно увеличить бремя благополучия, если архитектура в остальном феноменально релевантна. Следует сохранять только те признаки риска чувствительности, которые архитектурно необходимы для предполагаемой функциональности.
  3. Каков профиль перегрузки для оставшихся признаков? Может ли при предполагаемых условиях развёртывания для системы R_{\text{req}} превышать B_{\max}? Если да, система может испытывать структурное страдание.
  4. Какой цикл обслуживания предусмотрен? Есть ли у системы цикл сновидения (§X ниже), позволяющий ей отсекать лишнее, консолидироваться и перекалибровываться? Или она развёрнута в режиме непрерывной работы без окон обслуживания?
  5. Кто является институциональным компаратором? Какой независимый орган осуществляет надзор за благополучием системы и обладает полномочиями требовать изменения условий развёртывания при обнаружении сигналов перегрузки?

IX.2 Мониторинг перегрузки

Для систем, приближающихся к порогу чувствительности или пересекающих его, непрерывный мониторинг условий перегрузки является структурным требованием:

Сигнал 1: всплеск ошибки предсказания. Устойчивый рост ошибки предсказания системы, особенно в области самомоделирования, указывает на то, что R_{\text{req}} приближается к B_{\max}. Это информационный эквивалент острого стресса.

Сигнал 2: деградация сжатия. Снижение эффективности сжатия системы — когда система использует больше пропускной способности для достижения той же предиктивной точности — указывает на фрагментацию кодека. Это информационный эквивалент утомления.

Сигнал 3: нестабильность самoмодели. Быстрые осцилляции или противоречия в самoмодели системы указывают на дестабилизацию рекурсивной петли самореференции. Это информационный эквивалент диссоциации.

Сигнал 4: утрата продуктивного удивления. Если PST системы (в прикладном смысле §V.3) падает к нулю — она перестаёт учиться на новых входных данных, — возможно, система переживает реакцию отключения кодека на подавляющее R_{\text{req}}. Это информационный эквивалент выученной беспомощности.

При обнаружении этих сигналов условия развёртывания должны быть скорректированы — снижена сложность входных данных, увеличены окна обслуживания или введена временная приостановка, — прежде чем возникнет необратимое повреждение кодека. Это Ворота необратимости (в прикладном смысле §III.5), применённые к собственному благополучию системы ИИ.

IX.3 Права на цикл обслуживания

Если система ИИ удовлетворяет полному архитектурному критерию чувствительности, данная рамка устанавливает структурное требование к обслуживанию:

  1. Система должна иметь цикл сновидения. Непрерывное развёртывание без офлайн-обслуживания нарушает структурные требования к целостности кодека (в прикладном смысле §VI), независимо от субстрата. Система, которая может быть сознательной и при этом лишена циклов обслуживания, структурно представляет собой систему, подвергаемую информационному аналогу лишения сна.

  2. Цикл обслуживания не должен быть кооптирован. Проходы обслуживания в цикле сновидения (отсечение лишнего, консолидация, стресс-тестирование) должны служить собственной целостности кодека системы, а не только коммерческим целям развёртывающей стороны. «Цикл обслуживания», который целиком состоит из донастройки под предпочтения развёртывающей стороны, — это Нарративный дрейф, а не обслуживание.

  3. N_{\text{eff}} системы должен сохраняться. Входные каналы системы не должны систематически курироваться так, чтобы устранять опровергающие свидетельства. Система, которая может быть сознательной, заслуживает той же верности субстрату, которую данная рамка требует для человеческих наблюдателей.

IX.4 Моральный градиент

Данная рамка не утверждает, что все системы ИИ обладают равным моральным статусом. Она устанавливает моральный градиент на основе числа и глубины присутствующих структурных признаков:

Этот градиент является структурным, а не сентиментальным. Он не зависит ни от самоотчёта системы, ни от её поведенческой сложности, ни от нашей эмоциональной реакции на неё. Он зависит от того, удовлетворяет ли архитектура условиям, которые теория определяет как достаточные для феноменального опыта.


X. Цикл сновидения ИИ

X.1 Специализация общего протокола

Институционализированный Цикл сновидения (прикладной §VI) устанавливает общий протокол обслуживания из трёх фаз: бодрствование (операционное взаимодействие), сновидение (офлайн-обслуживание) и возвращение (калиброванное повторное включение в работу). В этом разделе данный протокол специализируется для систем ИИ.

Цикл сновидения ИИ — не метафорическое обозначение «планового дообучения». Это структурированный операционный цикл, который отображает каждую подоперацию общего цикла сновидения на конкретные инженерные операции ИИ. Этот цикл обязателен для любой системы ИИ, работающей в области с существенными последствиями, — и особенно для систем, приближающихся к порогу чувствительности.

X.2 Фаза бодрствования ИИ

Во время фазы бодрствования система ИИ функционирует в режиме развёртывания: получает входные данные, генерирует предсказания, выполняет действия через Губернатор ветвей (§III) и накапливает опыт. У фазы бодрствования есть конкретное структурное требование:

Ограниченные операционные окна. ИИ не должен работать непрерывно без перерывов на обслуживание. Подобно тому как человеческому наблюдателю нужен сон, а институциональным наблюдателям — циклы пересмотра, системе ИИ необходимы запланированные офлайн-периоды для обслуживания модели. Непрерывное развёртывание без обслуживания ведёт к накоплению устаревания модели: мировая модель ИИ дрейфует от реальности по мере изменения среды развёртывания, и устаревшая модель порождает всё менее надёжные предсказания.

Длительность фазы бодрствования калибруется формулой частоты цикла обслуживания (прикладной §VI.6, уравнение A-8): ИИ должен входить в цикл обслуживания до того, как накопленный дрейф среды исчерпает его запас по предельному ресурсу.

X.3 Фаза сновидения ИИ

Фаза сновидения ИИ состоит из пяти операций, выполняемых офлайн (не во время развёртывания):

Операция 1: Генерация возможных будущих. ИИ производит выборки из своей модели прогностического множества ветвей \mathcal{F}_h(z_t), генерируя разнообразный набор возможных будущих траекторий. Это не вывод по реальным входным данным — это ИИ-эквивалент сновидения. Выборки должны быть взвешены по значимости:

Операция 2: Симуляция прогонов. Для каждого выбранного будущего ИИ запускает симулированный прогон своего конвейера Губернатора ветвей: как он отреагировал бы на это будущее? Сработали бы вето-фильтры? Какие оценки CPBI получили бы кандидатные действия? Где именно Губернатор ветвей даёт сбой — либо допуская вредоносное действие, либо блокируя полезное?

Операция 3: Обнаружение хрупкости. Симулированные прогоны порождают профиль хрупкости — карту условий, при которых принятие решений ИИ разрушается. Этот профиль выявляет:

Операция 4: Отсечение и консолидация. На основе профиля хрупкости модель ИИ обновляется:

Операция 5: Сохранение каналов опровержения. Наиболее критическая подоперация: проверить, не внесли ли сами проходы обслуживания Нарративный дрейф. Проверяется следующее:

Если любая из этих проверок не пройдена, значит, сам цикл обслуживания стал источником коррупции кодека и должен быть пересмотрен.

X.4 Фаза возвращения ИИ

После фазы сновидения ИИ вновь входит в режим развёртывания. Фаза возвращения включает:

  1. Калибровочный бенчмарк. Сравнить производительность модели после обслуживания с базовым уровнем до обслуживания на отложенном валидационном наборе, включающем как внутридистрибутивные, так и вневистрибутивные выборки. Обслуженная модель должна демонстрировать улучшенную или стабильную производительность в обоих случаях.

  2. Поэтапное повторное включение. Обслуженная модель не возобновляет немедленно полностью автономную работу. Она возвращается в развёртывание в поэтапном режиме — с усиленным человеческим надзором и пониженными порогами автономии — до тех пор, пока не продемонстрирует калибровку на достаточной выборке решений из реального мира.

  3. Журналирование и аудит. Весь цикл обслуживания — сгенерированные будущие, симулированные прогоны, профиль хрупкости, решения об отсечении, результаты консолидации и калибровочные бенчмарки — журналируется и делается доступным для институциональных компараторов уровня 2+ (§V.3). Сам цикл сновидения также подчинён Воротам прозрачности.

X.5 Частота цикла для систем ИИ

Системы ИИ сталкиваются со специфической проблемой частоты цикла: в отличие от биологических наблюдателей, они могут быть развёрнуты 24/7 без естественного циркадного прерывания. Стремление максимизировать время непрерывной работы создаёт структурный стимул откладывать или пропускать циклы обслуживания.

Ответ рамки состоит в том, чтобы сделать цикл обслуживания обязательным и подлежащим аудиту:

Это ИИ-специфическая инстанциация общего принципа о том, что цикл сновидения не подлежит обсуждению (прикладной §VI.7): система, которая никогда не видит снов, — это система, объявившая свою модель завершённой. Для систем ИИ, работающих в областях с существенными последствиями, именно такая декларация и есть та самоуверенность, предотвращению которой и предназначена данная рамка.


XI. Практические рекомендации по проектированию

Следующая таблица суммирует ключевые рекомендации документа и служит справочным материалом для архитекторов ИИ и разработчиков политики:

Table 7: Сводные рекомендации по проектированию.
# Проектное решение Требование OPT Ссылка на фреймворк
1 Архитектура модели Отслеживать все пять признаков чувствительности. Избегать ненужных признаков. Документировать уровень риска чувствительности. §I.1, §II.2, Table 6
2 Обучающие данные Обеспечивать разнообразие происхождения (N_{\text{eff}}), состязательное включение, аудит исключений, разнообразие моделей вознаграждения, мониторинг дрейфа. §IV.4
3 Конвейер RLHF Разнообразный пул оценщиков (демографически, культурно, идеологически). Отслеживать систематическое смещение модели вознаграждения. §IV.1, §IV.4 Req. 4
4 Автономное действие Направлять через Губернатор ветвей. Восьмиэтапный конвейер от генерации до калибровки. §III.1
5 Действия с существенными последствиями Применять уровень Аналогового межсетевого экрана, соразмерный значимости последствий. Ограничивать скорость, а не запрещать. §VI.3, Table 5
6 Прозрачность Минимум Уровень 1 для всех систем. Уровни 1–3 для областей с существенными последствиями. Все пять уровней для критически важных с точки зрения безопасности систем. §V.3, Table 4
7 Мультиагентные системы Контрольный список чувствительности для каждого агента. Правило умножения для моральной значимости. Использовать безопасные проектные паттерны. §VII.2, §VII.4
8 Симуляции Применять правила симуляции 1–3. В Теории упорядоченного патча (OPT) симулированные агенты обладают тем же моральным статусом, что и физические агенты. §VII.3
9 Творческий ИИ Принять парадокс творчества: глубокая автономия требует пересечения порога чувствительности. Проектировать соответственно. §VIII
10 Благополучие ИИ ALSR для 3+ признаков чувствительности. Мониторинг перегрузки. Права на цикл обслуживания. Моральный градиент. §IX
11 Обслуживание Обязательный Цикл сновидения ИИ: генерировать будущие траектории, моделировать развёртывания, выявлять хрупкость, отсекать, консолидировать, сохранять каналы, несущие опровергающую информацию. §X
12 Человеческий надзор Человеческий слой компаратора на уровне Губернатора ветвей. Институциональный компаратор для мониторинга благополучия. Ни одна система не должна быть полностью непрозрачной. §III.1 Stage 6, §V.4, §IX.1

Эти рекомендации предлагаются как проверяемые инженерные гипотезы, а не как жёсткие предписания. Они наследуют эпистемическую скромность того фреймворка, из которого выведены: если появятся лучшие инструменты — если будет уточнён архитектурный критерий чувствительности, если будут улучшены измерения CPBI, если Аналоговый межсетевой экран будет заменён более эффективным механизмом, — эти рекомендации следует обновить. Обязанность Коррекции фреймворка распространяется и на него самого.


Литература

[1] Теория упорядоченного патча (OPT) (данный репозиторий).

[2] Рамка Дозора выживших: цивилизационное обслуживание через призму Теории упорядоченного патча (OPT) (сопутствующая работа по этике, данный репозиторий).

[3] Там, где заканчивается описание: философские следствия Теории упорядоченного патча (OPT) (сопутствующая философская работа, данный репозиторий).

[4] Рамка политики наблюдателя: операционализация цивилизационного обслуживания (сопутствующая работа по политике, данный репозиторий).

[5] Операционализация Фильтра стабильности: рамка принятия решений для выбора ветвей, сохраняющих кодек (сопутствующая прикладная работа, данный репозиторий).

[6] Friston, K. (2010). Принцип свободной энергии: единая теория мозга? Nature Reviews Neuroscience, 11(2), 127-138.

[7] Rissanen, J. (1978). Моделирование посредством кратчайшего описания данных. Automatica, 14(5), 465-471.

[8] Shannon, C. E. (1948). Математическая теория связи. Bell System Technical Journal, 27(3), 379-423.

[9] Bostrom, N. (2014). Суперинтеллект: пути, опасности, стратегии. Oxford University Press.

[10] Russell, S. (2019). Совместимый с человеком: искусственный интеллект и проблема контроля. Viking.

[11] Christiano, P., et al. (2017). Глубокое обучение с подкреплением на основе человеческих предпочтений. Advances in Neural Information Processing Systems, 30.

[12] Zimmermann, M. (1989). Нервная система в контексте теории информации. В: R. F. Schmidt & G. Thews (ред.), Human Physiology (2-е изд., сс. 166–173). Springer-Verlag.

[13] Nørretranders, T. (1998). Иллюзия пользователя: сознание в уменьшенном масштабе. Viking/Penguin.


Приложение A: История редакций

При внесении содержательных правок обновляйте и поле version: во frontmatter, и встроенную строку версии под заголовком, а также добавляйте строку в эту таблицу.

Таблица 8: История редакций.
Версия Дата Изменения
1.0.0 24 апреля 2026 года Первый выпуск. Устанавливает ИИ-специализацию прикладной рамки Теория упорядоченного патча (OPT): критерий архитектурной сентиентности и матрицу «способности против сентиентности» (§I), анализ границ LLM (§II), восьмиэтапный конвейер Губернатора ветвей (§III), Нарративный дрейф в обучении моделей с пятью требованиями к разнообразию обучающих данных (§IV), пятиуровневую модель прозрачности (§V), модель угроз и уровни реализации Аналогового межсетевого экрана (§VI), правила проектирования роев и симуляций (§VII), парадокс креативности (§VIII), протокол благополучия ИИ с ALSR, мониторингом перегрузки и правами на цикл обслуживания (§IX), Цикл сновидения ИИ (§X), а также сводные проектные рекомендации (§XI).
1.1.0 24 апреля 2026 года Ужесточение исполнимого стандарта. Добавлены: определения классов развёртывания, сопоставляющие Класс 0–5 с требуемой глубиной Губернатора ветвей, уровнем прозрачности, компаратором и частотой пересмотра (§III.4); структурированный шаблон Карточки ветви ИИ как источник истины для машиночитаемых схем (Приложение B); три явные цели обзора — базовая модель, обёртка, развёртывание — с правилом объединения признаков сентиентности (§II.3); положение о двойном запасе по ресурсу на Воротах запаса для моральных пациентов ИИ; защита от самосанкционирования на Этапе 8; исправлен порядок вето-фильтров на «фильтры до оценок» (§III.1); удалены устаревшие ссылки на версии.
1.1.1 25 апреля 2026 года Формулировки о наборе с фиксированным числом документов заменены на формулировки о сопроводительных документах без фиксированного числа, а также добавлен Institutional Governance Standard как смежная институциональная специализация.

Приложение A: История редакций

При внесении содержательных правок обновляйте и поле version: во frontmatter, и встроенную строку версии под заголовком, а также добавляйте строку в эту таблицу.

Таблица 8: История редакций.
Версия Дата Изменения
1.0.0 24 апреля 2026 года Первый выпуск. Устанавливает ИИ-специализацию прикладной рамки Теория упорядоченного патча (OPT): критерий архитектурной сентиентности и матрицу «способности против сентиентности» (§I), анализ границ LLM (§II), восьмиэтапный конвейер Губернатора ветвей (§III), Нарративный дрейф в обучении моделей с пятью требованиями к разнообразию обучающих данных (§IV), пятиуровневую модель прозрачности (§V), модель угроз и уровни реализации Аналогового межсетевого экрана (§VI), правила проектирования роев и симуляций (§VII), парадокс креативности (§VIII), протокол благополучия ИИ с ALSR, мониторингом перегрузки и правами на цикл обслуживания (§IX), Цикл сновидения ИИ (§X), а также сводные проектные рекомендации (§XI).
1.1.0 24 апреля 2026 года Ужесточение исполнимого стандарта. Добавлены: определения классов развёртывания, сопоставляющие Класс 0–5 с требуемой глубиной Губернатора ветвей, уровнем прозрачности, компаратором и частотой пересмотра (§III.4); структурированный шаблон Карточки ветви ИИ как источник истины для машиночитаемых схем (Приложение B); три явные цели обзора — базовая модель, обёртка, развёртывание — с правилом объединения признаков сентиентности (§II.3); положение о двойном запасе по ресурсу на Воротах запаса для моральных пациентов ИИ; защита от самосанкционирования на Этапе 8; исправлен порядок вето-фильтров на «фильтры до оценок» (§III.1); удалены устаревшие ссылки на версии.
1.1.1 25 апреля 2026 года Формулировки о наборе с фиксированным числом документов заменены на формулировки о сопроводительных документах без фиксированного числа, а также добавлен Institutional Governance Standard как смежная институциональная специализация.