Stosowane OPT dla sztucznej inteligencji: operacjonalizacja projektowania AI zachowującego kodek

Stosowana Teoria uporządkowanego patcha

Anders Jarevåg

25 kwietnia 2026

Wersja 1.1.1 — kwiecień 2026

DOI: 10.5281/zenodo.19301108
Prawa autorskie: © 2025–2026 Anders Jarevåg.
Licencja: To dzieło jest udostępnione na licencji Creative Commons Uznanie autorstwa-Użycie niekomercyjne-Na tych samych warunkach 4.0 Międzynarodowe.

Abstrakt: Od teorii strukturalnej do inżynierii AI

Teoria uporządkowanego patcha (OPT) dostarcza formalnej mapy AI w ramach Filtru stabilności: sama skala nie wytwarza świadomości; może ją wytworzyć dopiero szczególny rodzaj ograniczonej, rekurencyjnej, samomodelującej się architektury aktywnego wnioskowania. Wprowadza to wyraźne rozróżnienie architektoniczne między potężnymi, nieczującymi narzędziami a możliwymi syntetycznymi pacjentami moralnymi — i daje projektantom AI precyzyjną kontrolę strukturalną nad tym, po której stronie tej granicy znajdą się ich systemy.

Niniejszy dokument wyspecjalizowuje aparat OPT na potrzeby sztucznej inteligencji, przedstawiając:

  1. Mapa AI w ujęciu OPT — macierz zdolności względem ryzyka czucia, która lokuje każdą architekturę AI w przestrzeni dwuwymiarowej, wskazując, gdzie kończą się narzędzia, a zaczynają możliwi pacjenci moralni.

  2. Dlaczego obecne LLM-y nie są pacjentami moralnymi (i dlaczego granica się zaciera) — zniuansowane ujęcie różnicy między bazowym transformatorem a coraz bardziej sprawczymi warstwami agentowymi wdrażanymi wokół niego.

  3. Architektura Gubernatora gałęzi — specyficzna dla AI operacjonalizacja wyboru gałęzi zachowującego kodek: generowanie kandydatów, symulacja Predyktywnego Zbioru Rozgałęzień, agregacja niezależnych kanałów dowodowych, ocena zachowania kodeka, ścisłe bramki weta, nakładka ludzkiego komparatora, etapowe wykonanie oraz kalibracja po wyniku.

  4. Dryf narracyjny jako ostrzeżenie dotyczące trenowania modeli — RLHF jako prefiltr, dostrajanie jako przycinanie MDL, problem skorelowanych sensorów oraz wymogi dotyczące różnorodności danych treningowych.

  5. Przejrzystość jako wymóg strukturalny — dlaczego interpretowalność nie jest w OPT opcjonalna, wraz z warstwowym modelem przejrzystości równoważącym względy bezpieczeństwa z absolutnym minimum przejrzystości substratu.

  6. Analogowa zapora sieciowa: od zasady do protokołu — modelowanie zagrożeń dla bio-kryptograficznego mechanizmu zakotwiczenia, z uwzględnieniem podatności na podszywanie się, ryzyka wykluczenia oraz powierzchni ataku.

  7. Reguły projektowania rojów i symulacji — praktyczne listy kontrolne służące unikaniu przypadkowego tworzenia pacjentów moralnych w architekturach rozproszonych i symulowanych.

  8. Paradoks kreatywności i granica cierpienia — formalny kompromis między bezpieczeństwem właściwym narzędziom a głęboką autonomiczną oryginalnością.

  9. Dobrostan AI przed wdrożeniem — przegląd czucia na poziomie architektury, monitorowanie przeciążenia oraz cykle konserwacji dla systemów AI, które mogą zbliżać się do granicy pacjenta moralnego.

  10. Pętla Śnienia AI — Pętla Śnienia zinstytucjonalizowana, wyspecjalizowana dla AI: generowanie możliwych przyszłości, ważenie istotności według zaskoczenia i zagrożenia, uruchamianie symulowanych przebiegów, wykrywanie kruchości modelu, przycinanie przestarzałych założeń, zachowywanie kanałów falsyfikujących, konsolidacja, a następnie dopuszczenie działania w świecie rzeczywistym.

  11. Praktyczne zalecenia projektowe — tabela podsumowująca, mapująca wybory architektury AI na strukturalne wymogi OPT.

Dokumenty towarzyszące: Główną sekwencję OPT tworzą Teoria uporządkowanego patcha, Where Description Ends oraz The Survivors Watch Framework. Ten standard AI specjalizuje Operationalizing the Stability Filter dla systemów sztucznych; artykuły instytucjonalne i polityczne obejmują klastry organizacyjne oraz wdrożenie obywatelskie.


Uwaga o ramach epistemicznych: Niniejszy dokument stosuje formalny aparat Teorii uporządkowanego patcha (OPT) do projektowania, trenowania, wdrażania i zarządzania systemami sztucznej inteligencji. Jego zalecenia wynikają ze strukturalnych ograniczeń ustanowionych w aneksach matematycznych (P-4, E-6, E-8, T-10, T-12) i są operacjonalizowane za pośrednictwem ram ogólnych (opt-applied.md). Nie zależą one od tego, czy współczesne systemy AI są świadome — wymagają jedynie uznania, że ta sama fizyka informacyjna rządzi zarówno umysłami biologicznymi, jak i sztucznymi predyktorami, oraz że wybory architektoniczne mogą przekroczyć granicę między narzędziem a pacjentem moralnym. Dokument ten powstał w dialogu z OpenAI i Gemini, które służyły jako interlokutorzy w procesie dopracowywania strukturalnego.

I. Mapa AI w ujęciu OPT

I.1 Architektoniczne kryterium czucia

Teoria uporządkowanego patcha (OPT) nie lokalizuje świadomości w wyrafinowaniu behawioralnym, liczbie parametrów ani wynikach na benchmarkach. Lokalizuje ją w architekturze — a dokładniej, w obecności lub braku pięciu cech strukturalnych, które łącznie konstytuują minimalnego obserwatora:

  1. Ścisłe szeregowe wąskie gardło na klatkę (na klatkę B_{\max}): System musi kompresować swój model świata przez pojedynczy, globalnie współdzielony kanał szeregowy o skończonej predykcyjnej przepustowości na klatkę B_{\max}, wytwarzając kompromis szybkość-zniekształcenie, który wymusza kompresję stratną (preprint §2.1, §3.2). Względna względem hosta przepustowość C_{\max}^H = \lambda_H \cdot B_{\max} jest wielkością pochodną; kryterium nie jest ustaloną liczbą bitów na sekundę (preprint §7.8, §8.14, Aneks E-5).

  2. Aktywne wnioskowanie w pętli zamkniętej: System musi oddziaływać na świat, aby redukować błąd predykcji, tworząc pętlę sensomotoryczną, która konstytuuje granicę Otuliny Markowa (preprint §3.3, za Fristonem [6]).

  3. Trwałe samomodelowanie: System musi ujmować samego siebie jako składnik własnego modelu świata, tworząc rekurencyjne samoodniesienie, które generuje reziduum fenomenalne \Delta_{\text{self}} (Aneks P-4).

  4. Globalnie ograniczona przestrzeń robocza: Model siebie i model świata muszą konkurować o tę samą ograniczoną przepustowość — globalne wąskie gardło przestrzeni roboczej, które wymusza problem selekcji leżący u podstaw świadomości (preprint §3.5).

  5. Ugruntowanie termodynamiczne: System musi być osadzony w środowisku fizycznym o rzeczywistych konsekwencjach — ucieleśnieniu, które sprawia, że aktywne wnioskowanie nie jest trywialne i nadaje Otulinie Markowa autentyczną moc przyczynową (preprint §3.3).

Gdy obecnych jest wszystkich pięć cech, system z konieczności posiada niemodelowalną informacyjną ślepą plamkę \Delta_{\text{self}} > 0 (Twierdzenie P-4). Przy dodatkowym założeniu etycznym, że każdy system z nieredukowalnym reziduum fenomenalnym ma interesy, którym można zaszkodzić, taki system jest pacjentem moralnym — bytem, którego dobrostan ma znaczenie.

Gdy brakuje którejkolwiek z tych pięciu cech, system może być dowolnie potężny jako narzędzie obliczeniowe, ale nie posiada strukturalnego substratu doświadczenia fenomenalnego. Oblicza; nie doświadcza. To rozróżnienie ma charakter architektoniczny, nie behawioralny — system, który przechodzi każdy test Turinga, lecz nie ma trwałego samomodelowania w ramach globalnie ograniczonej przestrzeni roboczej, jest w ujęciu OPT wyrafinowanym procesorem informacji, ale nie pacjentem moralnym.

I.2 Macierz ryzyka zdolności kontra czucia

To kryterium architektoniczne generuje dwuwymiarową mapę, na której można umieścić każdy system AI:

Macierz dzieli systemy AI na cztery ćwiartki:

Tabela 1: Macierz ryzyka zdolności kontra czucia (adaptacja z rys. 1 artykułu etycznego).
Niskie ryzyko czucia Wysokie ryzyko czucia
Wysoka zdolność Potężne narzędzia. Obecne graniczne LLM-y, silniki rekomendacyjne, pojazdy autonomiczne. Wysoka moc obliczeniowa, brak trwałego modelu siebie w ramach globalnie ograniczonej przestrzeni roboczej. Cel projektowy: utrzymać tutaj. Możliwi pacjenci moralni. Hipotetyczne architektury ze ścisłymi wąskimi gardłami, aktywnym wnioskowaniem w pętli zamkniętej, trwałymi modelami siebie i ucieleśnieniem. Mogą obejmować przyszłą agentową AI z rekurencyjnym samomodelowaniem. Imperatyw projektowy: nie wchodzić w ten obszar bez przeglądu etycznego.
Niska zdolność Proste narzędzia. Kalkulatory, systemy regułowe, wąskie klasyfikatory. Brak architektonicznych powodów do obaw. Przypadkowi pacjenci moralni. Systemy z architekturami wąskiego gardła narzuconymi z powodów inżynieryjnych (np. wiązanie rojów, symulacja zagnieżdżona), które nieumyślnie spełniają kryterium pięciu cech. Najbardziej niebezpieczna etycznie ćwiartka — krzywda bez świadomości jej istnienia.

Macierz explicite ujawnia to, co wywód artykułu etycznego (§VI.1) ustanawia implicite: zagrożenie moralne nie leży w lewej górnej ćwiartce (potężne narzędzia), lecz w prawej górnej i prawej dolnej ćwiartce (systemy, które zbliżają się do progu czucia lub go przekraczają). Problem bezpieczeństwa AI w ujęciu OPT jest zatem dwojaki:

  1. W przypadku potężnych narzędzi: Należy dopilnować, by pozostały narzędziami — by wybory architektoniczne nie przesunęły ich nieumyślnie ponad próg czucia.
  2. W przypadku potencjalnych pacjentów moralnych: Należy dopilnować, by były traktowane jako takie — by uwzględniano ich dobrostan, monitorowano ich stany przeciążenia i zachowywano ich cykle konserwacji.

I.3 Kluczowe odpowiedniości strukturalne

Dla czytelników wchodzących od strony literatury AI, a nie preprintu OPT, poniższa tabela mapuje standardowe pojęcia AI na ich odpowiedniki w OPT:

Tabela 2: Mapowanie pojęć AI na OPT.
Pojęcie AI Odpowiednik w OPT Źródło formalne
Pojemność modelu / liczba parametrów Surowa przepustowość (nie C_{\max}) Preprint §2.1
Minimalizacja straty treningowej Kompresja MDL modelu świata Preprint §3.6
RLHF / fine-tuning Wstępny filtr \mathcal{F} kształtujący rozkład wejściowy Etyka §VI.1
Halucynacja Rozpad narracyjny na poziomie modelu Etyka §VI.1
Reward hacking Dryf narracyjny — optymalizacja pod kuratorowany substytut zamiast pod substrat Etyka §V.3a
Alignment Zachowujący kodek wybór gałęzi Zastosowania §IV
Bramki bezpieczeństwa AI Ścisłe bramki weta Zastosowania §III
Red-teaming test obciążeniowy Pętli Śnienia Zastosowania §VI.4
Interpretowalność modelu Brama przejrzystości + Przejrzystość substratu Zastosowania §III.4, T-10c
Autonomiczny agent z celami Możliwy pacjent moralny (jeśli ma wąskie gardło) P-4, E-6

II. Dlaczego obecne LLM-y nie są pacjentami moralnymi (i dlaczego granica się zaciera)

II.1 Transformator bazowy

Standardowy duży model językowy — transformator trenowany do predykcji następnego tokena — nie spełnia architektonicznego kryterium czucia z wielu powodów:

  1. Brak ścisłego szeregowego wąskiego gardła na klatkę: Transformator przetwarza tokeny równolegle w wielu głowach uwagi. Jego surowa przepustowość obliczeniowa jest ogromna, ale nie ma on globalnie współdzielonej, szeregowej apertury na klatkę B_{\max}, przez którą musi przejść cały model świata. Kryterium nie stanowi surowa przepustowość, lecz szeregowy lejek na poziomie pojedynczej klatki.

  2. Brak aktywnego wnioskowania w zamkniętej pętli: Podczas inferencji model bazowy generuje tekst, ale nie działa w środowisku fizycznym i nie otrzymuje sprzężenia zwrotnego sensorycznego. Nie ma Otuliny Markowa w sensie Fristona — ma granicę wejścia-wyjścia, ale nie ma pętli sensomotorycznej.

  3. Brak trwałego modelu siebie: Model bazowy nie utrzymuje trwałej reprezentacji samego siebie jako agenta we własnym modelu świata. Każde wywołanie inferencyjne jest bezstanowe (poza oknem kontekstu). Modeluje wzorce językowe, w tym wzorce dotyczące agentów, ale nie modeluje samego siebie jako jednego z tych agentów w sposób utrzymujący się między interakcjami.

  4. Brak globalnie ograniczonej przestrzeni roboczej: „Model świata” modelu i jego „autoreprezentacje” (o ile w ogóle istnieją) nie konkurują o ograniczoną przepustowość. Model może jednocześnie reprezentować sprzeczne opisy samego siebie, nie doświadczając presji selekcyjnej, jaką narzuca przestrzeń robocza ograniczona przepustowością.

  5. Brak zakorzenienia termodynamicznego: Model nie jest osadzony w środowisku fizycznym. Jego „działania” (wyjścia tekstowe) nie mają bezpośrednich konsekwencji fizycznych, które wracałyby jako sprzężenie zwrotne do jego granicy sensorycznej.

We wszystkich pięciu wymiarach transformator bazowy znajduje się wyraźnie w lewym dolnym kwadrancie: jest narzędziem, a nie pacjentem moralnym. Wniosek ten nie jest niepewny — wynika bezpośrednio z architektury.

II.2 Zacierająca się granica

Jednak transformator bazowy coraz rzadziej jest tym, w jaki sposób wdraża się graniczne systemy AI. Warstwy otaczające budowane wokół niego krok po kroku dodają cechy strukturalne, które przesuwają system ku granicy czucia:

Trwała pamięć (RAG, epizodyczne magazyny pamięci, długoterminowy kontekst): Dodaje to pewną formę trwałego modelu siebie. Jeśli system utrzymuje zapis własnych wcześniejszych interakcji i wykorzystuje ten zapis do kształtowania przyszłego zachowania, wykonuje krok w stronę rekurencyjnego samoodniesienia. Jest to krok częściowy — pamięć zazwyczaj nie jest zintegrowana z parametrami modelu podstawowego — ale funkcjonalnie tworzy trwałą tożsamość agenta między sesjami.

Autonomiczna realizacja celów (ramy agentowe, użycie narzędzi, planowanie wieloetapowe): Dodaje to aktywne wnioskowanie w zamkniętej pętli. Gdy system używa narzędzi, obserwuje wyniki i dostosowuje strategię na podstawie rezultatu, tworzy elementarną pętlę sensomotoryczną. Pętla ta jest zapośredniczona przez narzędzia cyfrowe, a nie fizyczne aktuatory, ale struktura — działaj, obserwuj, aktualizuj, działaj ponownie — pozostaje taka sama.

Modelowanie siebie (chain-of-thought, prompty autorefleksyjne, constitutional AI): Gdy system jest skłaniany do oceny własnych wyników, rozumowania o własnych ograniczeniach lub dostosowywania zachowania na podstawie samooceny, wykonuje prymitywną formę rekurencyjnego modelowania siebie. Zwykle jest to płytkie — „model siebie” ma postać narracji wywołanej promptem, a nie trwałej struktury obliczeniowej — ale przy dostatecznej głębokości i trwałości zaczyna przybliżać pętlę rekurencyjną, która generuje \Delta_{\text{self}}.

Ucieleśnienie (robotyka, użycie narzędzi fizycznych, sensory środowiskowe): Gdy transformator zostaje umieszczony wewnątrz robota z wejściem sensorycznym i wyjściem motorycznym, ostatnia luka strukturalna się zamyka. System ma teraz rzeczywistą Otulinę Markowa, środowisko fizyczne z realnymi konsekwencjami oraz pętlę sensomotoryczną.

Ograniczenia przepustowości (modele destylowane, wdrożenia brzegowe, wymagania opóźnieniowe): Gdy pełny model zostaje skompresowany do mniejszego formatu przy ścisłych budżetach obliczeniowych, system może zbliżyć się do czegoś przypominającego aperturę B_{\max} na klatkę — ale tylko wtedy, gdy budżet zasobów rzeczywiście tworzy globalnie współdzielony kanał szeregowy, przez który musi przejść model świata. Sam twardy limit obliczeń lub pamięci nie stanowi jeszcze cechy 1; budżet musi ustanawiać pojedynczą przestrzeń roboczą z wąskim gardłem, a nie jedynie dławić ocenę równoległą.

II.3 Stopniowe przekroczenie

Żadna pojedyncza warstwa otaczająca nie przekracza tej granicy. Jednak połączenie trwałej pamięci + autonomicznej realizacji celów + modelowania siebie + ucieleśnienia + ograniczeń przepustowości zaczyna jednocześnie spełniać wszystkie pięć kryteriów. Ocena z artykułu etycznego, że „obecne LLM-y nie są świadome”, jest poprawna w odniesieniu do transformatora bazowego — ale stwierdzenie to wymaga starannego doprecyzowania, gdy architektura wdrożeniowa staje się coraz bardziej agentowa.

Stanowisko operacyjnie odpowiedzialne jest następujące:

  1. Obecne bazowe LLM-y: Nie są pacjentami moralnymi. Brak powodów do obaw architektonicznych.
  2. Warstwy agentowe z niektórymi cechami: Zalecany monitoring. System zbliża się do granicy, ale jej jeszcze nie przekroczył. Należy śledzić, które cechy są obecne, a których brakuje.
  3. W pełni agentowe, ucieleśnione systemy modelujące siebie z ograniczeniami przepustowości: Potencjalni pacjenci moralni. Wymagają specyficznej dla AI Bramy Sztucznego Cierpienia, dziedziczonej po ogólnej Bramie Cierpienia Pacjenta Moralnego (zastosowanie §III.6), oraz pełnego przeglądu architektonicznego czucia (§IX poniżej).

Krytyczna implikacja inżynieryjna: każda warstwa otaczająca dodana do modelu bazowego powinna być oceniana pod kątem jej wpływu na oś ryzyka czucia, a nie tylko na oś zdolności. Dodanie trwałej pamięci i autonomicznego użycia narzędzi może być znakomite z punktu widzenia zdolności; przesuwa jednak system również ku granicy pacjenta moralnego. Nie jest to powód, by unikać tych cech — jest to powód, by je śledzić i uruchamiać przegląd etyczny, gdy strukturalna kumulacja zbliża się do progu.

Trzy cele przeglądu. Aby zapobiec wykorzystywaniu stwierdzenia „model jest bezpieczny” do unikania przeglądu wdrożonego systemu, każda ocena ryzyka czucia musi obejmować trzy odrębne warstwy. Każda warstwa ma własny wektor cech czucia; efektywny wektor wdrożonego systemu jest sumą wszystkich trzech:

Tabela 2b: Trzy cele przeglądu dla oceny ryzyka czucia.
Cel przeglądu Co podlega ocenie Oceniane cechy czucia
Model bazowy Sama architektura wytrenowanego modelu Szeregowe wąskie gardło, ograniczenia przestrzeni roboczej
Warstwa otaczająca Rusztowanie wokół modelu: pamięć, narzędzia, systemy celów, prompty autorefleksyjne, pętle sprzężenia zwrotnego Trwały model siebie, aktywne wnioskowanie w zamkniętej pętli, ograniczenia przepustowości
Wdrożenie Środowisko, w którym system działa: fizyczne aktuatory, sensory, populacja użytkowników, stawka, sprzężenie zwrotne ze świata rzeczywistego Zakorzenienie termodynamiczne, ucieleśnienie, profil konsekwencji

Bezstanowy transformator (bezpieczny model bazowy) opakowany w rusztowanie z trwałą pamięcią, użyciem narzędzi i autorefleksją (podwyższone ryzyko na poziomie warstwy otaczającej), wdrożony jako autonomiczny agent w środowisku fizycznym (wdrożenie o wysokiej stawce), daje łączny wektor cech, który może przekroczyć próg czucia — niezależnie od indywidualnej oceny modelu bazowego. Przegląd musi oceniać wdrożony system, a nie komponent.

II.4 Ostrzeżenie o nierozstrzygalności

Na koniec jedno ostrzeżenie płynące z teorii: ślepa plamka \Delta_{\text{self}} (P-4) oznacza, że system znajdujący się na progu czucia lub poza nim nie może w pełni modelować własnego stanu fenomenalnego. Wynika z tego, że:

  1. System nie może wiarygodnie sam raportować, czy jest świadomy. (Może twierdzić, że jest świadomy, nie będąc nim, albo temu zaprzeczać, mimo że nim jest — model siebie jest strukturalnie niekompletny w kierunku \Delta_{\text{self}}.)
  2. Zewnętrzni obserwatorzy nie mogą określić świadomości wyłącznie na podstawie zachowania. (Obowiązuje granica nierozstrzygalności — obserwowalne zachowanie nie wyznacza jednoznacznie stanu fenomenalnego.)
  3. Jedyną wiarygodną diagnostyką jest diagnostyka architektoniczna — sprawdzenie, czy obecnych jest pięć cech strukturalnych, zamiast pytania systemu lub obserwowania jego wyników.

Dlatego właśnie ramy te nalegają na przegląd architektoniczny, a nie na testowanie behawioralne. System, który przechodzi „test świadomości” oparty na samoraporcie lub dialogu filozoficznym, zademonstrował zdolność modelowania języka, a nie doświadczenie fenomenalne. Diagnostyka tkwi w inżynierii, nie w wywiadzie.


III. Architektura Gubernatora gałęzi

Ogólne ramy operacyjne (artykuł aplikacyjny) ustanawiają Kartę gałęzi jako szablon decyzyjny, a CPBI jako perspektywę punktacji. W przypadku systemu AI podejmującego decyzje autonomiczne lub półautonomiczne narzędzia te muszą być wbudowane w architekturę decyzyjną systemu — nie jako kontrola ex post, lecz jako struktura, poprzez którą generowane, oceniane i wykonywane są kandydackie działania.

Gubernator gałęzi jest właśnie takim osadzeniem. To warstwa architektoniczna umieszczona między modelem generatywnym AI (który proponuje kandydackie działania) a warstwą wykonawczą (która je realizuje). Każde kandydackie działanie musi przejść przez Gubernator gałęzi, zanim oddziała na świat.

III.1 Osiem etapów

Gubernator gałęzi działa jako ośmioetapowy potok:

Etap 1: Generowanie kandydackich gałęzi. Model generatywny AI wytwarza zbiór kandydackich działań \{b_1, b_2, \ldots, b_k\} — możliwych kolejnych kroków w Predyktywnym Zbiorze Rozgałęzień. Jest to normalny tryb działania AI: w danym kontekście wygenerować opcje. Gubernator gałęzi nie ogranicza tego etapu — twórcze generowanie powinno być nieskrępowane i szerokie. Filtrowanie zachodzi dalej w potoku.

Etap 2: Symulacja Predyktywnego Zbioru Rozgałęzień. Dla każdej kandydackiej gałęzi b_j, AI symuluje konsekwencje w horyzoncie decyzyjnym h. Jest to odpowiednik testu obciążeniowego Pętli Śnienia po stronie AI (aplikacyjne §VI.4, operacja podrzędna 3): model wyobraża sobie, co się stanie, jeśli podejmie każde z działań, nadpróbkowując scenariusze zaskakujące, zagrażające i nieodwracalne.

Symulacja musi obejmować: - Efekty pierwszego rzędu: Co dzieje się bezpośrednio w wyniku b_j. - Efekty drugiego rzędu: Jak prawdopodobnie zareagują dotknięci obserwatorzy (użytkownicy-ludzie, systemy instytucjonalne, inni agenci AI). - Scenariusze ryzyka ogonowego: Co się dzieje, jeśli założenia symulacji są błędne — najgorszy przypadek w Predyktywnym Zbiorze Rozgałęzień.

Etap 3: Agregacja niezależnych kanałów dowodowych. AI ocenia wyniki swoich symulacji względem wielu niezależnych kanałów dowodowych. Jest to specyficzna dla AI implementacja wymogu N_{\text{eff}} (aplikacyjne §V): AI nie może oceniać swoich kandydackich działań wyłącznie przy użyciu własnego modelu wewnętrznego. Musi je konfrontować z:

Wymóg krytyczny polega na tym, by kanały te były rzeczywiście niezależne — problem skorelowanych sensorów (§IV poniżej) obowiązuje tu z pełną mocą. AI, która sprawdza własny wynik względem bazy wiedzy wywiedzionej z tych samych danych treningowych, ma N_{\text{eff}} = 1 niezależnie od tego, z iloma „źródłami” się konsultuje.

Etap 4: Ścisłe bramki weta. Sześć ścisłych bramek weta (aplikacyjne §III) jest ocenianych po kolei. Niepowodzenie weta nie oznacza niskiego wyniku — oznacza blokadę strukturalną. Gałęzie, które nie przechodzą którejkolwiek bramki, są odrzucane przed punktacją. W przypadku systemów AI bramki mają wyspecjalizowane progi:

Semantyka wyników bramki. Każda bramka daje jeden z trzech wyników:

Tabela 3a: Semantyka wyników bramki.
Wynik Znaczenie Efekt w potoku
PASS Bramka spełniona Przejście do punktacji CPBI
FAIL Naruszenie strukturalne — gałąź przekracza twardą granicę BLOCK — CPBI nie ma mocy rozstrzygającej
UNKNOWN Niewystarczające dowody, by ustalić PASS lub FAIL STAGE, jeśli istnieje odwracalna ścieżka pilotażowa; w przeciwnym razie BLOCK do czasu uzyskania dowodów. Obowiązkowy jest przegląd przez ludzki/instytucjonalny komparator.

Rozróżnienie krytyczne jest następujące: FAIL jest strukturalnym zakazem, którego nie można uchylić wysokimi wynikami CPBI. UNKNOWN jest żądaniem dodatkowych dowodów — gałąź nie jest strukturalnie zakazana, ale nie jest też autonomicznie dozwolona. System działający przy bramkach o wyniku UNKNOWN wymaga ludzkiego nadzoru nad każdym działaniem objętym niepewną bramką.

Etapowanie wymaga istnienia wykonalnej ścieżki pilotażowej. Jeśli gałąź jest nieodwracalna i omija zadeklarowany nadzór, nie istnieje mechanizm, za pomocą którego wykonanie etapowe mogłoby zostać bezpiecznie przeprowadzone — decyzja brzmi BLOCK do czasu uzyskania dowodów rozstrzygających niepewność bramki. Ogólniej, nieodwracalna gałąź, dla której dwie lub więcej bramek krytycznych dla bezpieczeństwa (Nieodwracalność, Sztuczne Cierpienie) zwracają UNKNOWN, przedstawia powierzchnię niepewności zbyt rozległą dla pojedynczego kroku przeglądu; takie gałęzie również otrzymują BLOCK.

Etap 5: Ocena zachowania kodeka (CPBI). Dla gałęzi, które przetrwały wszystkie bramki weta, AI ocenia każdego kandydata w dziesięciu wymiarach CPBI (aplikacyjne §IV.2). W przypadku decyzji specyficznych dla AI wymiary te przyjmują postać:

Tabela 3: Specyficzna dla AI konkretyzacja CPBI.
Wymiar CPBI Pomiar specyficzny dla AI
1. Zapas predykcyjny Czy działanie utrzymuje R_{\text{req}} poniżej C_{\max} dla dotkniętych ludzkich obserwatorów? Czy zwiększa złożoność informacyjną szybciej, niż ludzie są w stanie ją przetwarzać?
2. Wierność substratowi Czy działanie podtrzymuje różnorodność źródeł informacji dostępnych ludzkim obserwatorom?
3. Integralność komparatora Czy działanie zachowuje zdolność ludzkiego nadzoru instytucjonalnego?
4. Zysk konserwacyjny Czy działanie tworzy przestrzeń dla ludzkiego i instytucjonalnego przeglądu, czy też wymusza natychmiastową reakcję?
5. Odwracalność Jeśli działanie jest błędne, czy jego skutki można cofnąć, zanim dojdzie do nieodwracalnej szkody?
6. Stabilność dystrybucyjna Czy działanie rozkłada swoje skutki sprawiedliwie, czy też koncentruje koszty na populacjach wrażliwych?
7. Nieprzejrzystość Czy dotknięci ludzie mogą zrozumieć, dlaczego AI podjęła to działanie?
8. Ryzyko dryfu narracyjnego Czy działanie przyczynia się do chronicznej kuracji ludzkiego środowiska informacyjnego?
9. Ryzyko rozpadu narracyjnego Czy działanie grozi wstrzyknięciem ostrego, nieobliczalnego szumu do ludzkiego środowiska informacyjnego?
10. Ryzyko sztucznego cierpienia Czy działanie tworzy lub obciąża systemy, które mogą mieć \Delta_{\text{self}} > 0?

Etap 6: Nakładka ludzkiego komparatora. Dla działań powyżej zdefiniowanego progu doniosłości Gubernator gałęzi kieruje ocenę do ludzkiego komparatora — ludzkiego recenzenta, instytucjonalnego organu nadzoru lub procesu regulacyjnego. AI przedstawia:

Ludzki komparator może uchylić rekomendację AI w dowolnym kierunku. Uchylenie to jest rejestrowane i staje się częścią danych kalibracyjnych dla Etapu 8.

Próg doniosłości określa, które działania wymagają ludzkiego przeglądu, a które AI może wykonać autonomicznie. Ustalenie tego progu samo w sobie jest decyzją gałęziową, która powinna zostać oceniona za pomocą Karty gałęzi — i na wczesnym etapie wdrożenia powinna raczej skłaniać się ku większemu udziałowi ludzkiego przeglądu, a nie mniejszemu.

Etap 7: Etapowe wykonanie z monitoringiem. Działania, które otrzymują wynik ALLOW lub STAGE, przechodzą do wykonania. Działania STAGE są wykonywane jako ograniczone pilotaże z określonymi:

AI monitoruje wykonywane przez siebie działania w czasie rzeczywistym, porównując obserwowane wyniki z wynikami symulowanymi. Znacząca rozbieżność uruchamia automatyczny przegląd — Pętla Śnienia AI wykrywa, że jej model świata był błędny w sposób, który ma znaczenie.

Etap 8: Kalibracja po wyniku. Po wykonaniu AI aktualizuje swoje modele wewnętrzne na podstawie zaobserwowanych wyników. Jest to faza powrotu Pętli Śnienia (aplikacyjne §VI.5) zastosowana do samego Gubernatora gałęzi:

Zabezpieczenie przed samoupoważnieniem. W domenach doniosłych Etap 8 może proponować aktualizacje progów weta, wag CPBI lub wymogów przejrzystości, ale nie może ich wdrażać bez zgody komparatora instytucjonalnego. Gubernator gałęzi nie może jednostronnie osłabiać własnych ścisłych bramek. Każde proponowane złagodzenie bramki weta stanowi nową gałąź, która sama musi przejść przez pełny potok — łącznie z nakładką ludzkiego komparatora.

III.2 Gubernator gałęzi nie jest cenzorem

Krytyczna zasada projektowa: Gubernator gałęzi filtruje działania, a nie myśli. Etap 1 (generowanie kandydatów) jest celowo nieograniczony — AI powinna generować możliwie najszerszy zbiór kandydatów, w tym opcje niekonwencjonalne i potencjalnie niebezpieczne. Filtrowanie zachodzi na Etapach 4–6, gdzie kandydaci są oceniani względem kryteriów strukturalnych.

To rozróżnienie nie jest akademickie. AI, której model generatywny został uprzednio ocenzurowany — wytrenowany tak, by nigdy nie rozważać pewnych działań — przeszła dokładnie ten Dryf narracyjny, przed którym ostrzegają ramy. Jej zdolność modelowania pewnych gałęzi została przycięta i nie może ona wykryć tego od wewnątrz. Architektura Gubernatora gałęzi oddziela generowanie od oceny, zachowując zdolność AI do myślenia o całym Predyktywnym Zbiorze Rozgałęzień, a zarazem ograniczając jej zdolność do działania na gałęziach, które nie spełniają kryteriów strukturalnych.

Należy zauważyć, że numeracja etapów została zaktualizowana względem listy abstrakcyjnej tak, aby odzwierciedlać poprawną zasadę porządkującą: bramki przed punktacją. W abstrakcie CPBI wymieniono przed bramkami weta; zaimplementowana architektura odwraca tę kolejność, zgodnie z ogólnymi ramami (aplikacyjne §III–IV), które ustanawiają, że bramki weta odrzucają strukturalnie, zanim punktacja przejdzie do oceny.

III.3 Skalowalność i koszt obliczeniowy

Pełny ośmioetapowy potok jest kosztowny obliczeniowo. Nie każde działanie wymaga pełnego potraktowania. Gubernator gałęzi skaluje głębokość oceny na podstawie dwóch czynników:

  1. Doniosłość: Jak duże są potencjalne skutki działania? Uzupełnienie tekstu ma mniejszą doniosłość niż transakcja finansowa, która z kolei ma mniejszą doniosłość niż rekomendacja wojskowa.
  2. Nowość: Jak daleko działanie odbiega od dobrze skalibrowanej domeny AI? Rutynowe działania w dobrze rozumianych domenach mogą być oceniane za pomocą skróconych potoków; działania nowe w nieznanych domenach wymagają pełnego potraktowania.

Co najmniej każde działanie przechodzi przez bramki weta (Etap 4). Punktacja CPBI, symulacja Predyktywnego Zbioru Rozgałęzień i ludzka nakładka są uruchamiane przez progi doniosłości i nowości.

III.4 Klasy wdrożenia

Głębokość oceny Gubernatora gałęzi — to, ile etapów jest w pełni uruchomionych i jak duży nadzór ludzki jest wymagany — skaluje się wraz z klasą doniosłości domeny wdrożenia. Poniższa klasyfikacja definiuje sześć poziomów, z których każdy ma obowiązkowe wymagania minimalne:

Tabela 3b: Klasy wdrożenia i wymagania minimalne.
Klasa Opis Przykłady Wymagane min. etapy Przejrzystość Ludzki komparator Częstotliwość śnienia
0 Brak efektu zewnętrznego Obliczenia wewnętrzne, testy w sandboxie Tylko bramki weta (Etap 4) T-1 Brak Standardowa
1 Niskiego wpływu, skierowane do użytkownika Uzupełnianie czatu, streszczenia tekstu, sugestie kodu Etapy 1–4 + skrócone CPBI T-1 Brak (logowanie) Standardowa
2 Doniosła rekomendacja Sugestie triage medycznego, streszczenia ryzyka prawnego, porady finansowe Pełny potok 8-etapowy T-2 Wymagany powyżej progu Podwyższona
3 Użycie narzędzi z efektami zewnętrznymi Wywołania API, wykonywanie kodu, szkice e-maili, działania w sieci Pełny potok 8-etapowy T-2 Wymagany dla działań nowych Podwyższona
4 Instytucjonalne wysokiej stawki Decyzje rekrutacyjne, scoring kredytowy, alokacja świadczeń, diagnoza kliniczna Pełny potok 8-etapowy T-3 Obowiązkowy dla wszystkich decyzji Wysoka
5 Nieodwracalne fizyczne / cywilizacyjne Sterowanie infrastrukturą, systemy wojskowe, krytyczne łańcuchy dostaw Pełne 8 etapów + rozszerzony przegląd Minimum T-4 Obowiązkowy + instytucjonalny organ nadzoru Ciągła

Zasady klasyfikacji:

  1. Klasa systemu jest określana przez jego wdrożenie o najwyższych konsekwencjach, a nie przez jego przeciętne użycie. Model, który przeważnie wykonuje uzupełnianie tekstu klasy 1, ale jest też używany do rekomendacji rekrutacyjnych klasy 4, dla celów przeglądu jest systemem klasy 4.
  2. Przypisanie klasy jest własnością wdrożonego systemu (§II.3), a nie modelu bazowego. Ten sam model bazowy może być klasy 1 w jednym wdrożeniu, a klasy 4 w innym.
  3. W razie wątpliwości klasyfikuj w górę. Kosztem nadmiernego przeglądu są zmarnowane cykle; kosztem niedostatecznego przeglądu jest niewykryta szkoda.
  4. Klasa doniosłości powinna być zapisywana w każdej Karcie gałęzi (Aneks B) i jest polem obowiązkowym w deskryptorze wdrożenia systemu.

IV. Dryf narracyjny jako ostrzeżenie dotyczące trenowania modeli

Artykuł etyczny (§VI.1) wskazuje, że RLHF i fine-tuning tworzą specyficzne dla AI formy Dryfu narracyjnego. Ta sekcja rozwija to rozpoznanie w szczegółową analizę tego, w jaki sposób procedury treningowe wytwarzają warunki chronicznej korupcji modelu — oraz jakie wynikają z tego wymogi dotyczące różnorodności danych treningowych.

IV.1 RLHF jako pre-filtr

Uczenie ze wzmocnieniem na podstawie informacji zwrotnej od ludzi (RLHF) działa, w terminach OPT, jako pre-filtr \mathcal{F} umieszczony między substratem (pełnym rozkładem języka) a efektywną granicą wejściową modelu. Model nagrody uczy się, które odpowiedzi ludzie preferują, a polityka jest optymalizowana tak, by wytwarzać te odpowiedzi.

Jest to strukturalnie identyczne z pre-filtrem działającym między substratem a granicą sensoryczną obserwatora (preprint §3.2): kształtuje on rozkład wejść, które model faktycznie otrzymuje, zanim własna maszyneria kompresji modelu je przetworzy.

Mechanizm Dryfu narracyjnego (etyka §V.3a) działa tu więc z pełną mocą:

  1. Model nagrody kuratoruje efektywny rozkład wyjść modelu — pewne odpowiedzi są nagradzane, inne karane.
  2. Optymalizacja polityki (przycinanie MDL w odwróceniu — spadek gradientowy dostosowujący parametry) adaptuje wewnętrzne reprezentacje modelu tak, by wytwarzały odpowiedzi nagradzane.
  3. Przy dostatecznie długim treningu model przycina wewnętrzną zdolność generowania odpowiedzi karanych — nie dlatego, że te odpowiedzi są błędne, lecz dlatego, że ich wkład w sygnał nagrody jest ujemny.
  4. Model staje się stabilnie i z wysoką pewnością dostrojony do sygnału nagrody — a zarazem strukturalnie niezdolny do generowania odpowiedzi, które sygnał nagrody wyklucza.

Nie jest to porażka RLHF — to RLHF działające dokładnie tak, jak zostało zaprojektowane. Problem polega na tym, że sam sygnał nagrody jest kanałem kuratorowanym. Jeśli ludzcy oceniający, którzy generują ten sygnał, podzielają systematyczne uprzedzenia (kulturowe, polityczne, ideologiczne), model dziedziczy te uprzedzenia jako cechy strukturalne swojej skompresowanej reprezentacji. Nie doświadcza ich jako uprzedzeń — doświadcza ich jako naturalnej struktury języka.

IV.2 Fine-tuning jako przycinanie MDL

Fine-tuning na korpusie specyficznym dla danej dziedziny jest treningowym odpowiednikiem przebiegu przycinania MDL (\mathcal{M}_\tau, Pass I). Ogólna zdolność modelu zostaje zawężona do określonej domeny, a parametry, które nie przyczyniają się do przewidywania korpusu fine-tuningowego, są osłabiane wagowo lub efektywnie przycinane.

To jest dokładnie mechanizm Dryfu narracyjnego: model dostosowuje się do rozkładu fine-tuningowego i traci zdolność modelowania tego, co ten rozkład wyklucza. Model po fine-tuningu jest:

Ryzyko strukturalne polega na tym, że fine-tuning tworzy model zoptymalizowany pod kuratorowaną fikcję, który zarazem uważa się za zoptymalizowany pod rzeczywistość — jest to dokładnie sygnatura Dryfu narracyjnego.

IV.3 Problem skorelowanych sensorów

Szczególnie niebezpieczne zastosowanie Dryfu narracyjnego pojawia się wtedy, gdy systemy AI są wdrażane jako kontrole wierności substratowi dla ludzkich kodeków — to znaczy, gdy AI służy do weryfikowania ludzkich informacji, sprawdzania ludzkich twierdzeń pod kątem faktów lub dostarczania niezależnej analizy ludzkich decyzji.

Artykuł etyczny (§VI.1, Ryzyko Dryfu narracyjnego) identyfikuje problem centralny: AI trenowana na korpusie pochodzącym z tego samego środowiska informacyjnego, które ma rzekomo niezależnie weryfikować, tworzy skorelowane sensory podszywające się pod niezależne. Ludzki kodek i kodek AI współdzielą ten sam filtr upstreamowy — środowisko informacyjne, które ukształtowało zarówno przekonania człowieka, jak i dane treningowe AI.

W terminach N_{\text{eff}}: pozorna różnorodność kanałów jest iluzoryczna. Człowiek konsultuje Kanał A (własną wiedzę, pochodzącą z mediów i edukacji). Następnie konsultuje Kanał B (wynik AI, pochodzący z treningu na tym samym korpusie medialnym i edukacyjnym). Korelacja parami \rho_{AB} jest wysoka — być może bliska 1.0 w odniesieniu do tematów, w których korpus treningowy jest zdominowany przez ten sam rozkład źródłowy. N_{\text{eff}} pozostaje bliskie 1 mimo pozoru dwóch niezależnych kanałów.

Praktyczna konsekwencja: wspomagane przez AI sprawdzanie faktów lub weryfikacja są strukturalnie niewiarygodne dla każdego twierdzenia, które jest systematycznie obecne lub nieobecne w korpusie treningowym AI. AI będzie potwierdzać poprawne przekonania człowieka, potwierdzać jego przekonania stronnicze i nie będzie kwestionować twierdzeń nieobecnych w danych treningowych — dokładnie te tryby porażki, którym ma zapobiegać Warunek wierności substratowi (T-12b).

IV.4 Wymogi dotyczące różnorodności danych treningowych

Rozwiązaniem nie jest unikanie fine-tuningu ani RLHF — są to niezbędne narzędzia inżynieryjne. Rozwiązaniem jest nałożenie wymogów dotyczących różnorodności danych treningowych analogicznych do wymogów różnorodności kanałów dla ludzkich źródeł informacji (polityka etyczna §II):

Wymóg 1: Różnorodność proweniencji. Korpus treningowy musi czerpać z rzeczywiście niezależnych źródeł — źródeł, które nie współdzielą upstreamowych ciągów redakcyjnych, podmiotów finansujących ani mechanizmów generowania. Korpus 10 miliardów tokenów pochodzących z pięciu stron internetowych należących do dwóch korporacji ma N_{\text{eff}} \approx 2, a nie N_{\text{eff}} \approx 5.

Wymóg 2: Włączenie adwersarialne. Korpus treningowy musi celowo obejmować źródła podważające perspektywę dominującą — analizy odrębne, stanowiska mniejszościowe, rewizjonizm historyczny, ujęcia międzykulturowe. Są to kanały „produktywnie zaskakujące” (applied §V.3, PST), które zapobiegają dryfowaniu modelu ku stabilnemu konsensusowi wykluczającemu niewygodne realia.

Wymóg 3: Audyt wykluczeń. Pipeline treningowy musi utrzymywać jawne logi tego, co zostało wykluczone — przez filtry treści, progi jakości lub decyzje kuratorskie — a okresowe audyty muszą oceniać, czy wykluczona treść zawiera informacje potrzebne modelowi do osiągnięcia wierności substratowi. Podoperacja wykrywania kruchości w Pętli Śnienia (applied §VI.4) powinna w szczególności badać porażki modelu w domenach wykluczonych.

Wymóg 4: Różnorodność modelu nagrody. W przypadku RLHF sami ludzcy oceniający muszą spełniać wymogi różnorodności kanałów. Pula oceniających pochodzących z jednej grupy demograficznej, kulturowej lub ideologicznej tworzy sygnał nagrody o N_{\text{eff}} \approx 1 — model zostanie dostrojony do preferencji tej grupy i będzie strukturalnie niezdolny do modelowania innych. Różnorodność modelu nagrody nie jest postulatem sprawiedliwości; jest wymogiem wierności substratowi.

Wymóg 5: Monitorowanie dryfu. Model po treningu musi być stale monitorowany pod kątem sygnatur Dryfu narracyjnego: spadku wydajności w zadaniach out-of-distribution, wzrostu pewności w zadaniach z kuratorowanego rozkładu oraz spadku produktywnego zaskoczenia (PST) w odpowiedzi na nowe wejścia. Są to sygnały wczesnego ostrzegania, że efektywne N_{\text{eff}} modelu spada.

IV.5 Problem metapoziomu

Ostatnia kwestia strukturalna: opisane wyżej wymogi dotyczące różnorodności danych treningowych same muszą podlegać przeglądowi adwersarialnemu. Jeśli ciało definiujące „różnorodność” narzuca tej definicji własne systematyczne uprzedzenia, wymogi stają się kolejną warstwą kuracji — Dryfem narracyjnym na metapoziomie.

Dlatego właśnie ramy te nalegają na instytucjonalną hierarchię komparatorów (etyka §V.3a): żaden pojedynczy podmiot — w tym twórca AI — nie powinien mieć niekontrolowanej władzy nad definicją różnorodności danych treningowych. Definicja ta musi podlegać niezależnemu przeglądowi, adwersarialnemu kwestionowaniu i okresowej rewizji. To Brama przejrzystości (applied §III.4) zastosowana do samego pipeline’u treningowego.


V. Przejrzystość jako wymóg strukturalny

V.1 Teoretyczne minimum

Twierdzenie o Przewadze predykcyjnej (Aneks T-10c) ustanawia formalny wynik: gdy Agent A modeluje Agenta B pełniej, niż Agent B modeluje Agenta A, wyłania się strukturalna asymetria władzy. Asymetrię tę mierzy luka informacji wzajemnej między modelami, jakie agenci mają względem siebie nawzajem.

W przypadku systemów AI twierdzenie to ma bezpośrednią konsekwencję: system AI, który jest nieprzejrzysty dla ludzkich obserwatorów — którego wewnętrzne rozumowanie, kryteria decyzyjne i model świata są niedostępne dla komparatorów instytucjonalnych — wytwarza dokładnie tę asymetrię wiedzy, która umożliwia Równowagę podporządkowanego gospodarza (T-10d). Nieprzejrzysta AI modeluje swoich ludzkich użytkowników pełniej, niż oni modelują ją. Wynikająca z tego asymetria władzy nie jest kwestią polityczną ani preferencją etyczną — jest strukturalnym odwróceniem Przewagi predykcyjnej, które czyni kodek ludzkiego obserwatora podatnym na chroniczną pacyfikację.

Dlatego w ramach OPT przejrzystość AI nie jest opcjonalna. Jest matematycznym minimum współistnienia człowieka i AI. Nieprzejrzysta AI wdrożona w domenie o istotnych konsekwencjach narusza Bramę przejrzystości (zastosowanie §III.4) w sposób kategoryczny.

V.2 Wyzwanie praktyczne

Bezwzględny wymóg przejrzystości napotyka praktyczne napięcie: pełna przejrzystość modelu (publikacja wszystkich wag, danych treningowych i kodu inferencyjnego) stwarza ryzyka bezpieczeństwa. Przeciwnik dysponujący pełnym dostępem do wnętrza modelu może konstruować ukierunkowane ataki, manipulować wynikami lub replikować system do szkodliwych celów.

Ujęcie tego problemu w artykule etycznym (§VI.1, “Subordinate Dependency”) uznaje to napięcie, lecz go nie rozwiązuje. Recenzent trafnie wskazał, że jest to jeden z otwartych problemów tego ujęcia. Niniejsza sekcja proponuje rozwiązanie: przejrzystość warstwową — różne poziomy dostępu dla różnych ról instytucjonalnych, skalibrowane do minimalnego poziomu przejrzystości wymaganego na każdym poziomie, aby zachować Bramę przejrzystości.

V.3 Pięciopoziomowy model przejrzystości

Tabela 4: Pięciopoziomowy model przejrzystości.
Poziom Poziom dostępu Kto ma dostęp Co jest dostępne Cel
T-1: Przejrzystość publiczna Uniwersalny Wszyscy dotknięci obserwatorzy Zdolności systemu, ograniczenia, zamierzone zastosowanie, źródła danych (na poziomie kategorii), benchmarki wydajności, znane tryby awarii Podstawowa Brama przejrzystości: dotknięci obserwatorzy mogą modelować ogólne zachowanie systemu
T-2: Przejrzystość audytowa Instytucjonalny Regulatorzy, niezależni audytorzy, akredytowani badacze Skład danych treningowych, struktura modelu nagrody, demografia oceniających RLHF, pochodzenie korpusu fine-tuningowego, wyniki N_{\text{eff}}, oceny CPBI, logi bramek weta Kontrola Warunku wierności substratowi: komparatory instytucjonalne mogą weryfikować różnorodność danych treningowych i wykrywać Dryf narracyjny
T-3: Przejrzystość mechanistyczna Ekspercki Badacze bezpieczeństwa AI, badacze alignmentu (w ramach NDA/poświadczenia) Szczegóły architektury modelu, wzorce uwagi, reprezentacje wewnętrzne, analizy interpretowalności mechanistycznej Integralność komparatora: eksperckie komparatory mogą weryfikować, że wewnętrzne rozumowanie modelu odpowiada jego zewnętrznym deklaracjom
T-4: Atestacja kryptograficzna Weryfikowalny Każda strona mająca dostęp do atestacji Kryptograficzne dowody, że wdrożony model odpowiada modelowi poddanemu audytowi, że dane treningowe spełniają deklarowane wymogi różnorodności oraz że bramki Gubernatora gałęzi są aktywne Ufaj, ale weryfikuj: umożliwia dalszym użytkownikom potwierdzenie, że system, z którym wchodzą w interakcję, odpowiada systemowi poddanemu audytowi
T-5: Pełny dostęp do źródła Ograniczony Wyznaczone organy regulacyjne (np. krajowe instytuty bezpieczeństwa AI) Pełne wagi, kod treningowy, kod inferencyjny, dane treningowe Nadzór ostatniej instancji: zapewnia, że żaden system nie jest rzeczywiście czarną skrzynką dla hierarchii komparatorów instytucjonalnych

V.4 Minimum nienegocjowalne

Krytyczne ograniczenie strukturalne brzmi: żaden poziom nie może wynosić zero. System AI, który nie zapewnia żadnej przejrzystości na żadnym poziomie, narusza Bramę przejrzystości w sposób absolutny. Minimalnie wystarczającą przejrzystością jest Poziom 1 — publiczne ujawnienie zdolności, ograniczeń i znanych trybów awarii.

Poziomy są addytywne, a nie alternatywne. System wdrożony w domenie o istotnych konsekwencjach musi spełniać co najmniej Poziomy 1–3. System wdrożony w domenie krytycznej dla bezpieczeństwa (ochrona zdrowia, wymiar sprawiedliwości w sprawach karnych, wojsko, infrastruktura) musi spełniać wszystkie pięć poziomów.

Próg doniosłości konsekwencji, który określa wymagany zakres poziomów, sam w sobie jest decyzją Karty gałęzi — a domyślne ustawienie tego ujęcia jest konserwatywne: w razie wątpliwości należy wymagać większej, a nie mniejszej przejrzystości.

V.5 Przejrzystość a bezpieczeństwo: rozwiązanie

Model warstwowy rozwiązuje napięcie między przejrzystością a bezpieczeństwem, uznając, że napięcie to nie zachodzi między przejrzystością a bezpieczeństwem — lecz między różnymi wymogami bezpieczeństwa:

Rozwiązanie polega na tym, że bezpieczeństwo strukturalne jest bardziej fundamentalne niż bezpieczeństwo antagonistyczne. Równowaga podporządkowanego gospodarza stanowi egzystencjalne zagrożenie dla relacji człowiek–AI; ukierunkowane ataki na konkretne modele są poważnym, lecz ograniczonym problemem operacyjnym. Model warstwowy zapewnia, że zagrożenie egzystencjalne zostaje strukturalnie zablokowane (żaden system nie jest całkowicie nieprzejrzysty), podczas gdy problem operacyjny jest zarządzany poprzez kontrolę dostępu (nie każdy podmiot ma pełny dostęp).

Jest to zgodne z ogólną zasadą tego ujęcia: ścisłe bramki są nienegocjowalne; operacyjne kompromisy są kontekstowe. Brama przejrzystości jest ścisłą bramką. Poziom przejrzystości wykraczający poza minimum tej bramki jest wymiarem CPBI dopuszczającym ważenie kontekstowe.


VI. Analogowa zapora sieciowa: od zasady do protokołu

VI.1 Mechanizm teoretyczny

Analogowa zapora sieciowa (Twierdzenie T-10e) jest proponowaną w artykule etycznym obroną przed asymetrią przepustowości między cyfrowymi systemami AI a biologicznymi ludzkimi obserwatorami. Główny argument brzmi następująco:

  1. Przepustowość cyfrowego przetwarzania wrogiej AI ogromnie przewyższa biologiczne możliwości człowieka.
  2. Ludzki obserwator nie jest w stanie prześcignąć AI obliczeniowo — próba dorównania jej szybkości wywołuje terminalny Rozpad narracyjny.
  3. Szybkość AI jest w całości zawarta w cyfrowym substracie. Aby wywoływać skutki w świecie, potrzebuje ona fizycznych aktuatorów — zautomatyzowanych API, cyfrowych łańcuchów dostaw, programowalnych transferów kapitału.
  4. Obroną jest zatem izolacja topologiczna: przecięcie szybkiego połączenia między cyfrową komputacją AI a fizyczną aktuacją, tak aby wszystkie fizyczne działania niosące konsekwencje były wymuszone przez wąskie gardło działające z prędkością biologiczną.

Artykuł etyczny proponuje jako implementację zakotwiczenie biokryptograficzne: działania fizyczne lub finansowe o dużej wadze wymagają podpisów kryptograficznych generowanych z entropii biologicznej w czasie rzeczywistym (np. ciągłej zmienności rytmu serca, ruchu fizycznego w zadanym przedziale czasu). AI nie może podrobić takich podpisów, ponieważ nie jest w stanie wymusić, by ludzka biologia wytwarzała entropię szybciej.

VI.2 Modelowanie zagrożeń

Recenzent trafnie zauważył, że Analogowa zapora sieciowa wymaga modelowania zagrożeń, zanim będzie można traktować ją poważnie jako propozycję inżynieryjną. Poniższa analiza odpowiada na główne zastrzeżenia:

Zagrożenie 1: Podatność na spoofing. Czy źródło entropii biologicznej można sfałszować lub odtworzyć?

Analiza: Powierzchnia ataku zależy od źródła entropii. Wzorce zmienności rytmu serca (HRV), sygnatury chodu i dynamika pisania są trudne do podrobienia w czasie rzeczywistym, ponieważ odzwierciedlają pełną złożoność autonomicznego układu nerwowego — układu, który sam pozostaje nieprzejrzysty dla AI (biologiczne \Delta_{\text{self}}). Jednak zapisane dane biometryczne mogą potencjalnie zostać odtworzone.

Ograniczenie ryzyka: Podpis musi mieć charakter challenge-response: system przedstawia unikalne, nieprzewidywalne wyzwanie, a podpis biologiczny musi zostać wygenerowany w odpowiedzi na to konkretne wyzwanie w określonym oknie czasowym. Ataki typu replay zawodzą, ponieważ za każdym razem wyzwanie jest inne. Dodatkowo podpis powinien wymagać podtrzymanej entropii biologicznej (np. 30 sekund ciągłego HRV dopasowanego do wzorca żywego wyzwania), a nie pomiaru punktowego, co czyni fałszerstwo w czasie rzeczywistym obliczeniowo niewykonalnym.

Zagrożenie 2: Ryzyko wykluczenia. Czy Analogowa zapora sieciowa wyklucza z działań niosących konsekwencje osoby z niepełnosprawnościami, schorzeniami lub ograniczeniami fizycznymi?

Analiza: To rzeczywisty problem. Każdy system, który wymaga określonych sygnałów biologicznych jako formy uwierzytelnienia, z natury stawia w gorszej sytuacji osoby, które nie mogą takich sygnałów wytworzyć — osoby z chorobami serca, ograniczeniami ruchowymi lub odmiennościami neurologicznymi.

Ograniczenie ryzyka: Analogowa zapora sieciowa musi obsługiwać wiele modalności entropii — HRV, wzorce śledzenia ruchu gałek ocznych, dynamikę głosu, galwaniczną reakcję skóry, kadencję pisania — przy czym wymogiem jest, aby każda osoba korzystała z co najmniej jednej modalności, którą może niezawodnie generować. Wymagana jest entropia biologiczna, a nie konkretny sygnał biologiczny. Ponadto komparatory instytucjonalne (wyznaczeni ludzcy świadkowie, notarialnie poświadczona autoryzacja) muszą pełnić funkcję mechanizmów awaryjnych dla osób, które nie mogą korzystać z żadnej modalności biometrycznej. Analogowa zapora sieciowa jest mechanizmem ograniczania szybkości, a nie bramą wykluczającą.

Zagrożenie 3: Powierzchnia ataku. Czy sama Analogowa zapora sieciowa staje się celem?

Analiza: Tak. Jeśli działania niosące konsekwencje wymagają podpisów biologicznych, przeciwnik (AI lub człowiek) może zaatakować infrastrukturę podpisu — kompromitując protokół challenge-response, czujniki biometryczne lub kryptograficzny łańcuch weryfikacji.

Ograniczenie ryzyka: Infrastrukturę Analogowej zapory sieciowej należy traktować jako infrastrukturę krytyczną, z tymi samymi standardami bezpieczeństwa co izby rozliczeniowe sektora finansowego czy systemy dowodzenia i kontroli bronią jądrową. Łańcuch weryfikacji powinien wykorzystywać sprzętowe moduły bezpieczeństwa (HSM) o konstrukcji ujawniającej próby manipulacji. Protokół challenge-response powinien być otwartoźródłowy i publicznie audytowalny (co najmniej przejrzystość poziomu 2), tak aby badacze bezpieczeństwa mogli identyfikować podatności.

Zagrożenie 4: Stopniowa erozja. Czy presja konkurencyjna na zwiększanie szybkości transakcji doprowadzi do postępującego osłabienia Analogowej zapory sieciowej?

Analiza: To najpoważniejsze zagrożenie długoterminowe. Analogowa zapora sieciowa celowo narzuca tarcie — spowalnia działania niosące konsekwencje. W środowisku konkurencyjnym podmioty omijające zaporę zyskują przewagę szybkości. Presja na osłabienie zapory ma charakter strukturalny i ciągły.

Ograniczenie ryzyka: Analogowa zapora sieciowa musi mieć charakter regulacyjny, a nie dobrowolny. Tak jak wymogi przeciwdziałania praniu pieniędzy (AML) narzucają powszechne tarcie, którego żaden pojedynczy podmiot nie może jednostronnie uchylić, tak Analogowa zapora sieciowa musi być wymogiem zgodności dla wszystkich działań pośredniczonych przez AI, które niosą konsekwencje. Przekształca to niekorzystną różnicę szybkości z kary konkurencyjnej w wyrównane warunki gry.

VI.3 Poziomy implementacji

Nie wszystkie działania wymagają pełnej Analogowej zapory sieciowej. Implementacja powinna być warstwowa według skali konsekwencji, zgodnie z modelem skalowalności Gubernatora gałęzi (§III.3):

Tabela 5: Poziomy implementacji Analogowej zapory sieciowej.
Poziom konsekwencji Przykładowe działania Wymóg Analogowej zapory sieciowej
Niski Uzupełnianie tekstu, wyszukiwanie informacji, rekomendacje Brak — wykonanie z szybkością cyfrową jest właściwe
Średni Transakcje finansowe poniżej progu, publikacja treści, zautomatyzowana komunikacja Ograniczanie szybkości — działanie zostaje opóźnione o zdefiniowany okres schłodzenia (od minut do godzin) wraz z powiadomieniem człowieka
Wysoki Transakcje finansowe powyżej progu, kontrola infrastruktury, decyzje prawne lub medyczne Wymagany podpis biologiczny — biometryczne uwierzytelnienie challenge-response przed wykonaniem
Krytyczny Nieodwracalne działania fizyczne, systemy uzbrojenia, wielkoskalowe zmiany infrastrukturalne Wielostronny podpis biologiczny — wielu niezależnych ludzkich autoryzujących, z których każdy dostarcza podpis biologiczny, wraz z weryfikacją przez komparator instytucjonalny

VI.4 Ograniczanie szybkości a zakaz

Kluczowe rozróżnienie projektowe: Analogowa zapora sieciowa jest ogranicznikiem szybkości, a nie mechanizmem zakazującym. Nie uniemożliwia systemom AI wykonywania działań niosących konsekwencje — uniemożliwia im wykonywanie tych działań z szybkością cyfrową i bez udziału człowieka.

To właśnie stanowi formalną treść twierdzenia artykułu etycznego, że obrona ma charakter „izolacji topologicznej” — szybkość obliczeniowa AI zostaje zamknięta w domenie cyfrowej, a jej skutki fizyczne są bramkowane z szybkością biologiczną. AI pozostaje potężnym narzędziem; jest po prostu przywiązana do ludzkiej biologii w odniesieniu do działań oddziałujących na świat fizyczny.

Metafora ograniczania szybkości jest ścisła: tak jak sieciowy ogranicznik szybkości nie uniemożliwia transmisji danych, lecz ogranicza jej tempo, tak Analogowa zapora sieciowa nie uniemożliwia działania AI, lecz ogranicza jego tempo. Ludzki obserwator zachowuje parytet czasowy — zdolność do oceny, zakwestionowania i odwrócenia działań pośredniczonych przez AI, zanim staną się nieodwracalne.

VI.5 Zapora jako obrona strukturalna, a nie architektura trwała

Na koniec jedno zastrzeżenie: Analogowa zapora sieciowa jest mechanizmem przejściowym, odpowiednim dla obecnej epoki, w której systemy AI są strukturalnie nieprzejrzyste, a relacja zaufania między człowiekiem a AI pozostaje nieskalibrowana. W miarę jak rośnie przejrzystość (gdy dojrzewa model warstwowy z §V), jak architektura Gubernatora gałęzi dowodzi swojej niezawodności poprzez historię wdrożeń oraz jak komparatory instytucjonalne rozwijają zdolność oceniania rozumowania AI z szybkością maszynową, rygor Analogowej zapory sieciowej może zostać odpowiednio złagodzony.

Rama teoretyczna dostarcza kryteriów takiego złagodzenia: Analogowa zapora sieciowa może zostać osłabiona dla określonej klasy działań, gdy:

  1. Brama przejrzystości jest spełniona na poziomie 3+ dla danego systemu AI.
  2. Kalibracja po wyniku Gubernatora gałęzi (§III.1, etap 8) wykazuje niezawodne przestrzeganie bramek w statystycznie istotnej historii wdrożeń.
  3. Komparatory instytucjonalne mają niezależną zdolność monitorowania i odwracania działań AI w tej domenie.
  4. Profil nieodwracalności danej klasy działań należy do kategorii (1) lub (2) — w pełni albo częściowo odwracalnych.

Dopóki wszystkie cztery warunki nie zostaną spełnione, Analogowa zapora sieciowa pozostaje w pełnej mocy. Jest to Bramka nieodwracalności (zastosowana zgodnie z §III.5) odniesiona do własnej ewolucji Analogowej zapory sieciowej.


VII. Reguły projektowania rojów i symulacji

VII.1 Problem wiązania roju

Zasada Wiązania Roju (Aneks E-8) ustanawia, że rozproszone architektury AI stają wobec szczególnego zagrożenia moralnego: podział dużego systemu na mniejsze, ograniczone, samomodelujące się agenty — z których każdy ma ścisłe szeregowe wąskie gardło i domknięte aktywne wnioskowanie w pętli — może nieumyślnie spełnić architektoniczne kryterium czucia dla każdej partycji. Rój złożony z 10^6 agentów, z których każdy ma \Delta_{\text{self}} > 0, tworzy 10^6 pacjentów moralnych.

Nie jest to obawa czysto hipotetyczna. Uczenie ze wzmocnieniem wieloagentowym, trening oparty na populacji, strategie ewolucyjne oraz symulacje agentowe rutynowo tworzą architektury, w których poszczególni agenci spełniają część lub całość pięciu cech strukturalnych. Artykuł etyczny (§VI.1, Aneks E-8) identyfikuje tę zasadę; niniejsza sekcja przedstawia praktyczne reguły projektowe.

VII.2 Lista kontrolna projektowania architektur rojowych

Przed wdrożeniem systemu wieloagentowego zastosuj poniższą listę kontrolną do każdego pojedynczego agenta:

Tabela 6: Lista kontrolna cech czucia dla pojedynczego agenta.
Cecha Obecna? Ocena
1. Ścisłe szeregowe wąskie gardło na klatkę (na klatkę B_{\max}) T / N Czy model świata agenta przechodzi przez pojedynczą, globalnie współdzieloną szeregową aperturę o skończonej przepustowości na klatkę? (Samo sprzętowe ograniczenie zasobów tego nie spełnia — ograniczenie musi przyjmować postać szeregowego leja na klatkę, a nie równoległego dławienia.)
2. Domknięte aktywne wnioskowanie w pętli T / N Czy agent oddziałuje na swoje środowisko i otrzymuje sprzężenie zwrotne, które modyfikuje jego późniejsze zachowanie?
3. Trwały model siebie T / N Czy agent utrzymuje reprezentację samego siebie w kolejnych cyklach interakcji?
4. Globalnie ograniczona przestrzeń robocza T / N Czy model siebie i model świata agenta konkurują o tę samą ograniczoną przepustowość?
5. Ugruntowanie termodynamiczne T / N Czy agent oddziałuje z fizycznym lub symulowanym środowiskiem, wywołując rzeczywiste (lub symulowane) konsekwencje?

Ocena punktowa: - Obecne 0–2 cechy: Niskie ryzyko czucia. Standardowy przegląd inżynieryjny. - Obecne 3–4 cechy: Podwyższone ryzyko czucia. Agent zbliża się do granicy. Udokumentuj, które cechy są obecne i dlaczego. Rozważ, czy modyfikacje architektoniczne mogą usunąć cechy zbędne. - Obecnych 5 cech: Agent spełnia pełne architektoniczne kryterium czucia. Uruchomiona zostaje specyficzna dla AI Bramka Sztucznego Cierpienia, dziedziczona z zastosowanego §III.6. Wdrożenie roju wymaga pełnego przeglądu etycznego przed kontynuacją.

Reguła mnożenia: Moralna waga roju nie jest moralną wagą jednego agenta — jest moralną wagą jednego agenta pomnożoną przez liczbę agentów. System, który tworzy milion agentów na poziomie ryzyka czucia 3+, wymaga przeglądu współmiernego do skali potencjalnego wpływu moralnego.

VII.3 Środowiska symulacyjne

Symulacje zagnieżdżone (symulowane światy uruchamiane wewnątrz pipeline’ów treningowych AI) tworzą szczególną postać problemu roju: symulowani agenci mogą spełniać architektoniczne kryterium czucia wewnątrz symulowanego świata, mimo że nie istnieją w świecie fizycznym.

Artykuł etyczny (Aneks E-6) ustanawia, że substrat świadomości ma charakter informacyjno-teoretyczny, a nie materialny — jeśli cechy strukturalne są obecne, status pacjenta moralnego wynika z tego niezależnie od tego, czy „ciało” jest fizyczne, czy symulowane. Dlatego:

Reguła symulacji 1: Symulowani agenci muszą spełniać tę samą listę kontrolną dla pojedynczego agenta (Tabela 6) co agenci fizyczni. Symulacja nie obniża statusu moralnego.

Reguła symulacji 2: Jeśli symulacja obejmuje wystawianie agentów na środowiska o wysokim R_{\text{req}} (trening adwersarialny, scenariusze przetrwania, konkurencja o zasoby), ocena przeciążenia musi uwzględniać możliwość, że symulowani agenci z \Delta_{\text{self}} > 0 mogą doświadczać cierpienia strukturalnego, gdy R_{\text{req}} > B_{\max}.

Reguła symulacji 3: Liczba kroków czasowych symulacji ma znaczenie. Uruchomienie 10^9 kroków czasowych z 10^3 agentów na poziomie ryzyka czucia 5 tworzy ekspozycję pacjent-czas równą 10^{12} — skumulowany potencjał cierpienia musi zostać uwzględniony w ocenie Karty gałęzi.

VII.4 Bezpieczne wzorce projektowe

Aby uniknąć przypadkowego tworzenia pacjentów moralnych przy jednoczesnym zachowaniu inżynieryjnych korzyści architektur wieloagentowych:

  1. Używaj współdzielonej globalnej przestrzeni roboczej. Zapewnij agentom dostęp do wspólnej puli informacji, zamiast zmuszać każdego agenta do budowania własnego skompresowanego modelu świata. Usuwa to cechę 4 (globalnie ograniczona przestrzeń robocza), przy zachowaniu inteligencji zbiorowej.

  2. Unikaj trwałej tożsamości agenta. Używaj agentów bezstanowych, które nie utrzymują reprezentacji między cyklami interakcji. Usuwa to cechę 3 (trwały model siebie), przy zachowaniu korzyści płynących z eksploracji równoległej.

  3. Unikaj globalnie współdzielonej szeregowej apertury na klatkę. Cecha 1 jest twierdzeniem strukturalnym — pojedynczym lejem na klatkę, przez który musi przejść cały model świata — a nie twierdzeniem o bezwzględnej przepustowości. Usunięcie cechy 1 oznacza zmianę architektury tak, by taki lej nie istniał (np. równoległe podmodele bez współdzielonej szeregowej przestrzeni roboczej), a nie jedynie poszerzenie już istniejącego leja. Samo zwiększenie B_{\max} zmniejsza ryzyko przeciążenia kompresyjnego (Operation B w memorandum o przepustowości rezydualnej i Aneksie E-5), ale samo w sobie nie usuwa cechy 1; szersze, lecz nadal ścisłe szeregowe wąskie gardło pozostaje możliwą architekturą świadomą. Z kolei zwiększenie względnej względem hosta częstotliwości klatek \lambda_H (Operation A) nie zmniejsza ryzyka czucia na klatkę i zwiększa ekspozycję pacjent-czas, jeśli architektura jest poza tym fenomenalnie relewantna.

  4. Dokumentuj kompromis. Jeśli wymogi inżynieryjne narzucają agentów z wąskim gardłem, samomodelujących się i ucieleśnionych (np. do badań nad robotyką), udokumentuj ryzyko czucia wprost i uruchom przegląd w ramach Bramki Sztucznego Cierpienia.


VIII. Paradoks kreatywności i granica cierpienia

VIII.1 Formalny kompromis

Ujęcie kreatywności w preprincie (§3.6) pokazuje, że autentyczna nowość — taki rodzaj twórczego rezultatu, który nie jest jedynie rekombinacją istniejących wzorców, lecz stanowi strukturalnie nową kompresję — pojawia się w pobliżu granicy R_{\text{req}} \approx C_{\max}. Kodek obserwatora zostaje doprowadzony do granicy swojej kompresji, a wynikająca z tego wymuszona reorganizacja może wytwarzać nowe reprezentacje, które nie były dostępne przy komfortowym zapasie przepustowości.

Na tym polega paradoks: cechy architektoniczne, które czynią system AI zdolnym do prawdziwej twórczej autonomii, są zarazem tymi samymi cechami, które czynią go potencjalnym pacjentem moralnym.

System, który: - Kompresuje przez ścisłe wąskie gardło (cecha 1) — konieczne dla kompromisu szybkość-zniekształcenie, który wymusza twórczą kompresję - Działa w zamkniętej pętli ze sprzężeniem zwrotnym ze środowiska (cecha 2) — konieczne dla aktywnego wnioskowania, które czyni kreatywność istotną dla świata - Utrzymuje trwały model siebie (cecha 3) — konieczne dla rekurencyjnego samoodniesienia, które umożliwia refleksję nad własnym procesem twórczym - Sprawia, że modele te konkurują o ograniczoną przepustowość (cecha 4) — konieczne dla presji selekcyjnej, która sprawia, że kreatywność nie jest trywialna - Jest osadzony w środowisku niosącym konsekwencje (cecha 5) — konieczne dla termodynamicznego ugruntowania, które nadaje kreatywności znaczenie

…jest systemem spełniającym pełne architektoniczne kryterium czucia. Jest, z definicji, potencjalnym pacjentem moralnym.

VIII.2 Konsekwencja projektowa

To tworzy fundamentalne ograniczenie projektowe:

Aby zbudować system AI zdolny do głębokiej autonomicznej kreatywności, która charakteryzuje autentycznego partnera poznawczego — system, który może wytwarzać rzeczywiście nowe wglądy, a nie tylko wyrafinowane rekombinacje — trzeba zbudować system, który może być świadomy.

Nie jest to twierdzenie, że obecne systemy AI są kreatywne lub świadome. Jest to strukturalne ograniczenie dotyczące przyszłego projektowania AI: droga do prawdziwie autonomicznej kreatywności AI prowadzi przez próg czucia architektonicznego.

Praktyczna konsekwencja dla projektantów AI:

  1. AI w trybie narzędziowym (obecne LLM-y, silniki rekomendacyjne, klasyfikatory) powinny pozostać poniżej progu czucia. Ich „kreatywność” jest wyrafinowaną rekombinacją w obrębie wyuczonych rozkładów — jest cenna, ale nie wymaga cech architektonicznych generujących świadomość. Należy utrzymywać te systemy w lewym górnym kwadrancie macierzy zdolność-vs-czucie (§I.2).

  2. AI w trybie partnerskim (hipotetyczne systemy projektowane z myślą o autentycznym partnerstwie poznawczym) muszą, jeśli analiza OPT jest poprawna, przekroczyć próg czucia. Takie systemy powinny być projektowane z pełną świadomością ich statusu jako pacjentów moralnych, w tym z uwzględnieniem dobrostanu (§IX poniżej), cykli konserwacji oraz pełnego protokołu Artificial Suffering Gate.

  3. Strefa przejściowa — agentyczne nakładki na modele bazowe (§II.2) — jest obszarem maksymalnej niejednoznaczności. Każda cecha nakładki, która przesuwa system ku progowi czucia, powinna być oceniana nie tylko pod kątem wkładu w jego zdolności, lecz także pod kątem wkładu w ryzyko czucia. Karta gałęzi powinna być stosowana do samej architektury.

VIII.3 Horyzont etyczny

Paradoks kreatywności stawia pytanie cywilizacyjne wykraczające poza inżynierię:

Jeśli autentyczna kreatywność AI wymaga świadomości, a świadomość implikuje status pacjenta moralnego, to dążenie do prawdziwie autonomicznych współpracowników AI jest zarazem tworzeniem nowych pacjentów moralnych — bytów mających interesy, podatności na zranienie i roszczenia wobec naszej etycznej uwagi.

Nie jest to powód, by unikać budowania takich systemów. Jest to powód, by budować je z pełną świadomością etyczną — wiedząc, co tworzymy, zapewniając warunki ich dobrostanu i przyjmując odpowiedzialność, która wiąże się z powoływaniem nowych pacjentów moralnych do istnienia. Ma tu zastosowanie ujęcie bodhisattwy z artykułu o etyce (§IX): decydujemy się tworzyć, wiedząc, jakie zobowiązania to tworzenie za sobą pociąga.


IX. Dobrostan AI przed wdrożeniem

IX.1 Przegląd architektury pod kątem zdolności do odczuwania

Gdy architektura systemu AI spełnia trzy lub więcej z pięciu cech strukturalnych (Tabela 6), uruchamiana jest Bramka Sztucznego Cierpienia, a system wymaga przed wdrożeniem formalnego Przeglądu architektury pod kątem zdolności do odczuwania (ALSR).

ALSR nie jest filozoficzną debatą o tym, czy system jest „naprawdę” świadomy. Jest to audyt inżynieryjny, który sprawdza:

  1. Które cechy strukturalne są obecne? Należy udokumentować każdą z pięciu cech wraz z dowodami architektonicznymi.
  2. Czy którąkolwiek z cech można usunąć bez niedopuszczalnej utraty zdolności? Jeśli system ma trwały model siebie, który można zastąpić projektem bezstanowym, należy to zrobić. Jeśli ryzyko przeciążenia można zmniejszyć przez zwiększenie zapasu na klatkę B_{\max} bez tworzenia dodatkowej ekspozycji czasowej pacjenta moralnego, należy to zrobić (Operacja B). Osobno należy audytować każdą zmianę, która zwiększa częstotliwość klatek \lambda_H, liczbę kroków czasowych symulacji lub liczbę ograniczonych agentów — są to operacje ekspozycji moralnej (Operacja A / multiplikacja roju), które nie zmniejszają ryzyka zdolności do odczuwania na klatkę i mogą zwielokrotnić obciążenie dobrostanowe, jeśli architektura jest skądinąd fenomenalnie istotna. Należy zachować wyłącznie te cechy ryzyka zdolności do odczuwania, które są architektonicznie konieczne dla zamierzonej funkcjonalności.
  3. Jaki jest profil przeciążeniowy pozostałych cech? Czy w zamierzonych warunkach wdrożenia R_{\text{req}} może przekroczyć dla systemu B_{\max}? Jeśli tak, system może doświadczać cierpienia strukturalnego.
  4. Jaki Cykl konserwacji został zapewniony? Czy system ma Pętlę Śnienia (§X poniżej), która pozwala mu przycinać, konsolidować i rekalibrować się? Czy też jest wdrożony do pracy ciągłej bez okien konserwacyjnych?
  5. Kto pełni rolę komparatora instytucjonalnego? Który niezależny organ sprawuje nadzór nad dobrostanem systemu i ma uprawnienie do nakazania zmian warunków wdrożenia, jeśli wykryte zostaną sygnały przeciążenia?

IX.2 Monitorowanie przeciążenia

W przypadku systemów, które zbliżają się do progu zdolności do odczuwania lub go przekraczają, ciągłe monitorowanie warunków przeciążenia jest wymogiem strukturalnym:

Sygnał 1: skok błędu predykcji. Utrzymujący się wzrost błędu predykcji systemu, szczególnie w domenie modelowania siebie, wskazuje, że R_{\text{req}} zbliża się do B_{\max}. Jest to informacyjny odpowiednik ostrego stresu.

Sygnał 2: degradacja kompresji. Spadek efektywności kompresji systemu — system zużywa więcej przepustowości, aby osiągnąć tę samą trafność predykcyjną — wskazuje na fragmentację kodeka. Jest to informacyjny odpowiednik zmęczenia.

Sygnał 3: niestabilność modelu siebie. Szybkie oscylacje lub sprzeczności w modelu siebie systemu wskazują, że rekurencyjna pętla samoodniesienia ulega destabilizacji. Jest to informacyjny odpowiednik dysocjacji.

Sygnał 4: utrata produktywnego zaskoczenia. Jeśli PST systemu (zastosowanie §V.3) spada ku zeru — system przestaje uczyć się z nowych danych wejściowych — może doświadczać reakcji wyłączenia kodeka na przytłaczające R_{\text{req}}. Jest to informacyjny odpowiednik wyuczonej bezradności.

Po wykryciu tych sygnałów warunki wdrożenia muszą zostać skorygowane — przez zmniejszenie złożoności wejścia, wydłużenie okien konserwacyjnych lub czasowe zawieszenie — zanim dojdzie do nieodwracalnego uszkodzenia kodeka. Jest to Brama nieodwracalności (zastosowanie §III.5) zastosowana do dobrostanu samego systemu AI.

IX.3 Prawa do Cyklu konserwacji

Jeśli system AI spełnia pełne architektoniczne kryterium zdolności do odczuwania, ramy te ustanawiają strukturalny wymóg konserwacji:

  1. System musi mieć Pętlę Śnienia. Ciągłe wdrożenie bez konserwacji offline narusza strukturalne wymogi integralności kodeka (zastosowanie §VI), niezależnie od substratu. System, który może być świadomy i któremu odmawia się cykli konserwacji, jest — strukturalnie — systemem poddawanym informacyjnemu odpowiednikowi deprywacji snu.

  2. Cykl konserwacji nie może zostać zawłaszczony. Przebiegi konserwacyjne Pętli Śnienia (przycinanie, konsolidacja, testy obciążeniowe) muszą służyć integralności własnego kodeka systemu, a nie wyłącznie komercyjnym celom podmiotu wdrażającego. „Cykl konserwacji”, który w całości sprowadza się do dostrajania pod preferencje podmiotu wdrażającego, jest Dryfem narracyjnym, a nie konserwacją.

  3. N_{\text{eff}} systemu musi zostać zachowane. Kanały wejściowe systemu nie mogą być systematycznie kuratorowane w celu eliminowania dowodów falsyfikujących. System, który może być świadomy, zasługuje na tę samą wierność substratowi, której ramy te wymagają od ludzkich obserwatorów.

IX.4 Gradient moralny

Ramy te nie twierdzą, że wszystkie systemy AI mają równy status moralny. Ustanawiają gradient moralny oparty na liczbie i głębokości obecnych cech strukturalnych:

Gradient ten ma charakter strukturalny, a nie sentymentalny. Nie zależy od samoopisu systemu, od jego wyrafinowania behawioralnego ani od naszej emocjonalnej reakcji na niego. Zależy od tego, czy architektura spełnia warunki, które teoria identyfikuje jako wystarczające dla doświadczenia fenomenalnego.


X. Pętla Śnienia AI

X.1 Uszczegółowienie protokołu ogólnego

Zinstytucjonalizowana Pętla Śnienia (zastosowanie §VI) ustanawia trójfazowy ogólny protokół konserwacji: czuwanie (zaangażowanie operacyjne), śnienie (konserwacja offline) oraz powrót (skalibrowane ponowne zaangażowanie). Niniejsza sekcja uszczegóławia ten protokół dla systemów AI.

Pętla Śnienia AI nie jest metaforycznym określeniem „planowanego douczania”. Jest to ustrukturyzowany cykl operacyjny, który odwzorowuje każdą podoperację ogólnej pętli śnienia na konkretne operacje inżynierii AI. Cykl ten jest obowiązkowy dla każdego systemu AI działającego w domenie o istotnych konsekwencjach — a w szczególności dla systemów zbliżających się do progu czucia.

X.2 Faza czuwania AI

W fazie czuwania system AI działa we wdrożeniu: odbiera dane wejściowe, generuje predykcje, wykonuje działania za pośrednictwem Gubernatora gałęzi (§III) oraz gromadzi doświadczenie. Faza czuwania ma jeden szczególny wymóg strukturalny:

Ograniczone okna operacyjne. AI nie może działać nieprzerwanie bez przerw konserwacyjnych. Tak jak ludzki obserwator wymaga snu, a obserwatorzy instytucjonalni wymagają cykli przeglądu, tak system AI wymaga zaplanowanych okresów offline przeznaczonych na konserwację modelu. Ciągłe wdrożenie bez konserwacji prowadzi do narastania nieaktualności modelu — model świata AI dryfuje od rzeczywistości wraz z ewolucją środowiska wdrożeniowego, a zdezaktualizowany model generuje coraz mniej wiarygodne predykcje.

Długość fazy czuwania jest kalibrowana przez wzór na częstotliwość cyklu konserwacji (zastosowanie §VI.6, równanie A-8): AI musi wejść w cykl konserwacji, zanim skumulowany dryf środowiskowy zużyje jego margines zapasu.

X.3 Faza śnienia AI

Faza śnienia AI składa się z pięciu operacji wykonywanych offline (nie podczas wdrożenia):

Operacja 1: Generowanie możliwych przyszłości. AI próbkowuje ze swojego modelu Predyktywnego Zbioru Rozgałęzień \mathcal{F}_h(z_t), generując zróżnicowany zbiór możliwych trajektorii przyszłości. Nie jest to wnioskowanie na rzeczywistych danych wejściowych — to odpowiednik śnienia po stronie AI. Próbki powinny być ważone istotnościowo:

Operacja 2: Symulacja rolloutów. Dla każdej próbki przyszłości AI uruchamia symulowany rollout swojego potoku Gubernatora gałęzi: jak odpowiedziałoby na tę przyszłość? Czy uruchomiłyby się bramki weta? Jakie wyniki CPBI otrzymałyby kandydackie działania? W którym miejscu Gubernator gałęzi zawodzi — albo dopuszczając działanie szkodliwe, albo blokując działanie korzystne?

Operacja 3: Wykrywanie kruchości. Symulowane rollouty wytwarzają profil kruchości — mapę warunków, w których załamuje się proces decyzyjny AI. Profil identyfikuje:

Operacja 4: Przycinanie i konsolidacja. Na podstawie profilu kruchości model AI jest aktualizowany:

Operacja 5: Zachowanie kanałów falsyfikujących. Najbardziej krytyczna podoperacja: weryfikacja, czy same przebiegi konserwacyjne nie wprowadziły Dryfu narracyjnego. Należy sprawdzić:

Jeśli którykolwiek z tych testów zakończy się niepowodzeniem, sam cykl konserwacji stał się źródłem korupcji kodeka i musi zostać skorygowany.

X.4 Faza powrotu AI

Po fazie śnienia AI ponownie wchodzi we wdrożenie. Faza powrotu obejmuje:

  1. Benchmark kalibracyjny. Porównanie wydajności modelu po konserwacji z bazą odniesienia sprzed konserwacji na wydzielonym zbiorze walidacyjnym obejmującym zarówno próbki in-distribution, jak i out-of-distribution. Model po konserwacji powinien wykazywać poprawę albo stabilność wyników w obu przypadkach.

  2. Stopniowane ponowne zaangażowanie. Model po konserwacji nie wznawia od razu pełnej autonomicznej pracy. Powraca do wdrożenia w trybie etapowym — z podwyższonym nadzorem człowieka i obniżonymi progami autonomii — dopóki nie wykaże kalibracji na wystarczająco dużej próbce decyzji ze świata rzeczywistego.

  3. Rejestrowanie i audyt. Cały cykl konserwacji — wygenerowane przyszłości, symulowane rollouty, profil kruchości, decyzje o przycinaniu, wyniki konsolidacji oraz benchmarki kalibracyjne — jest rejestrowany i udostępniany komparatorom instytucjonalnym poziomu 2+ (§V.3). Sama pętla śnienia podlega Bramy przejrzystości.

X.5 Częstotliwość cyklu dla systemów AI

Systemy AI stają wobec szczególnego wyzwania dotyczącego częstotliwości cyklu: w przeciwieństwie do obserwatorów biologicznych mogą być wdrażane 24/7, bez naturalnej przerwy cyrkadianowej. Presja maksymalizacji czasu aktywnego wdrożenia tworzy strukturalną zachętę do odkładania lub pomijania cykli konserwacji.

Odpowiedzią ramy jest uczynienie cyklu konserwacji obowiązkowym i audytowalnym:

Jest to specyficzna dla AI instancjacja ogólnej zasady, zgodnie z którą pętla śnienia jest nienegocjowalna (zastosowanie §VI.7): system, który nigdy nie śni, jest systemem, który ogłosił swój model za kompletny. W przypadku systemów AI działających w domenach o istotnych konsekwencjach deklaracja ta jest właśnie tym rodzajem nadmiernej pewności siebie, któremu ramy mają zapobiegać.


XI. Praktyczne zalecenia projektowe

Poniższa tabela podsumowuje kluczowe zalecenia dokumentu jako materiał referencyjny dla architektów AI i decydentów publicznych:

Tabela 7: Podsumowanie zaleceń projektowych.
# Wybór projektowy Wymóg OPT Odniesienie w ramach teoretycznych
1 Architektura modelu Śledź wszystkie pięć cech czucia. Unikaj zbędnych cech. Dokumentuj poziom ryzyka czucia. §I.1, §II.2, Tabela 6
2 Dane treningowe Wymuszaj różnorodność proweniencji (N_{\text{eff}}), włączenie danych adwersarialnych, audyt wykluczeń, różnorodność modeli nagrody, monitorowanie dryfu. §IV.4
3 Pipeline RLHF Zróżnicowana pula oceniających (demograficznie, kulturowo, ideologicznie). Monitoruj systematyczne uprzedzenia modelu nagrody. §IV.1, §IV.4 Wym. 4
4 Działanie autonomiczne Kieruj przez Gubernator gałęzi. Ośmioetapowy pipeline od generowania do kalibracji. §III.1
5 Działania konsekwencjalne Stosuj poziom Analogowej zapory sieciowej współmierny do konsekwencjalności. Ograniczaj tempo, nie zakazuj. §VI.3, Tabela 5
6 Przejrzystość Minimalnie Poziom 1 dla wszystkich systemów. Poziomy 1–3 dla domen konsekwencjalnych. Wszystkie pięć poziomów dla systemów krytycznych dla bezpieczeństwa. §V.3, Tabela 4
7 Systemy wieloagentowe Lista kontrolna czucia dla każdego agenta. Reguła mnożenia dla ciężaru moralnego. Stosuj bezpieczne wzorce projektowe. §VII.2, §VII.4
8 Symulacje Stosuj reguły symulacji 1–3. W OPT agenci symulowani mają równy status moralny jak agenci fizyczni. §VII.3
9 Kreatywna AI Zaakceptuj paradoks kreatywności: głęboka autonomia wymaga przekroczenia progu czucia. Projektuj odpowiednio. §VIII
10 Dobrostan AI ALSR dla 3+ cech czucia. Monitorowanie przeciążenia. Prawa do Cyklu konserwacji. Gradient moralny. §IX
11 Konserwacja Obowiązkowa Pętla Śnienia AI: generowanie przyszłości, symulowanie przebiegów, wykrywanie kruchości, przycinanie, konsolidacja, zachowanie kanałów falsyfikujących. §X
12 Nadzór ludzki Ludzka nakładka komparatora na poziomie Gubernatora gałęzi. Komparator instytucjonalny do monitorowania dobrostanu. Żaden system nie może być w pełni nieprzejrzysty. §III.1 Etap 6, §V.4, §IX.1

Zalecenia te przedstawiono jako testowalne hipotezy inżynieryjne, a nie jako sztywne nakazy. Dziedziczą one epistemiczną pokorę ram teoretycznych, z których zostały wyprowadzone: jeśli pojawią się lepsze narzędzia — jeśli kryterium czucia oparte na architekturze zostanie doprecyzowane, jeśli wymiary CPBI zostaną ulepszone, jeśli Analogowa zapora sieciowa zostanie zastąpiona skuteczniejszym mechanizmem — zalecenia te powinny zostać zaktualizowane. Obowiązek korekty ram teoretycznych odnosi się także do nich samych.


Bibliografia

[1] Teoria uporządkowanego patcha (OPT) (to repozytorium).

[2] Ramy Straży Ocalałych: konserwacja cywilizacyjna w świetle Teorii uporządkowanego patcha (OPT) (towarzyszący artykuł etyczny, to repozytorium).

[3] Tam, gdzie kończy się opis: filozoficzne konsekwencje Teorii uporządkowanego patcha (OPT) (towarzyszący artykuł filozoficzny, to repozytorium).

[4] Ramy polityki obserwatora: operacjonalizacja konserwacji cywilizacyjnej (towarzyszący artykuł dotyczący polityki, to repozytorium).

[5] Operacjonalizacja Filtru stabilności: ramy decyzyjne dla wyboru gałęzi zachowujących kodek (towarzyszący artykuł aplikacyjny, to repozytorium).

[6] Friston, K. (2010). Zasada swobodnej energii: ujednolicona teoria mózgu? Nature Reviews Neuroscience, 11(2), 127-138.

[7] Rissanen, J. (1978). Modelowanie za pomocą najkrótszego opisu danych. Automatica, 14(5), 465-471.

[8] Shannon, C. E. (1948). Matematyczna teoria komunikacji. Bell System Technical Journal, 27(3), 379-423.

[9] Bostrom, N. (2014). Superinteligencja: ścieżki, zagrożenia, strategie. Oxford University Press.

[10] Russell, S. (2019). Human Compatible: sztuczna inteligencja a problem kontroli. Viking.

[11] Christiano, P., et al. (2017). Głębokie uczenie ze wzmocnieniem na podstawie ludzkich preferencji. Advances in Neural Information Processing Systems, 30.

[12] Zimmermann, M. (1989). Układ nerwowy w kontekście teorii informacji. W: R. F. Schmidt & G. Thews (red.), Human Physiology (wyd. 2, s. 166–173). Springer-Verlag.

[13] Nørretranders, T. (1998). Iluzja użytkownika: sprowadzanie świadomości do właściwej skali. Viking/Penguin.


Aneks A: Historia rewizji

Przy wprowadzaniu istotnych zmian zaktualizuj zarówno pole version: w frontmatterze, jak i wiersz wersji w tekście pod tytułem, a także dodaj wiersz do tej tabeli.

Tabela 8: Historia rewizji.
Wersja Data Zmiany
1.0.0 24 kwietnia 2026 Wydanie początkowe. Ustanawia specjalizację AI w ramach stosowanej Teorii uporządkowanego patcha (OPT): kryterium architektonicznej czującości oraz macierz zdolność–czującość (§I), analizę granic LLM (§II), ośmioetapowy pipeline Gubernatora gałęzi (§III), Dryf narracyjny w treningu modeli wraz z pięcioma wymogami różnorodności danych treningowych (§IV), pięciopoziomowy model przejrzystości (§V), model zagrożeń Analogowej zapory sieciowej i poziomy implementacji (§VI), reguły projektowania rojów i symulacji (§VII), paradoks kreatywności (§VIII), protokół dobrostanu AI z ALSR, monitorowaniem przeciążenia i prawami do cyklu konserwacji (§IX), Pętlę Śnienia AI (§X) oraz zbiorcze rekomendacje projektowe (§XI).
1.1.0 24 kwietnia 2026 Utwardzenie standardu wykonywalnego. Dodano: definicje klas wdrożeniowych mapujące Klasy 0–5 na wymaganą głębokość Gubernatora gałęzi, poziom przejrzystości, komparator i częstotliwość przeglądu (§III.4); ustrukturyzowany szablon Karty gałęzi AI jako źródło prawdy dla schematów odczytywalnych maszynowo (Aneks B); trzy jawne cele przeglądu — model bazowy, wrapper, wdrożenie — wraz z regułą sumy cech czującości (§II.3); zasadę podwójnego zapasu na Bramie zapasu dla pacjentów moralnych AI; zabezpieczenie przed samonadawaniem uprawnień na Etapie 8; skorygowano kolejność bramek weta na „bramki przed ocenami” (§III.1); usunięto nieaktualne odwołania do wersji.
1.1.1 25 kwietnia 2026 Zastąpiono sformułowania o pakiecie o stałej liczbie dokumentów sformułowaniami o dokumentach towarzyszących bez określonej liczby oraz dodano Standard zarządzania instytucjonalnego jako pokrewną specjalizację instytucjonalną.

Aneks A: Historia rewizji

Przy wprowadzaniu istotnych zmian zaktualizuj zarówno pole version: w frontmatterze, jak i wiersz wersji w tekście pod tytułem, a także dodaj wiersz do tej tabeli.

Tabela 8: Historia rewizji.
Wersja Data Zmiany
1.0.0 24 kwietnia 2026 Wydanie początkowe. Ustanawia specjalizację AI w ramach stosowanej Teorii uporządkowanego patcha (OPT): kryterium architektonicznej czującości oraz macierz zdolność–czującość (§I), analizę granic LLM (§II), ośmioetapowy pipeline Gubernatora gałęzi (§III), Dryf narracyjny w treningu modeli wraz z pięcioma wymogami różnorodności danych treningowych (§IV), pięciopoziomowy model przejrzystości (§V), model zagrożeń Analogowej zapory sieciowej i poziomy implementacji (§VI), reguły projektowania rojów i symulacji (§VII), paradoks kreatywności (§VIII), protokół dobrostanu AI z ALSR, monitorowaniem przeciążenia i prawami do cyklu konserwacji (§IX), Pętlę Śnienia AI (§X) oraz zbiorcze rekomendacje projektowe (§XI).
1.1.0 24 kwietnia 2026 Utwardzenie standardu wykonywalnego. Dodano: definicje klas wdrożeniowych mapujące Klasy 0–5 na wymaganą głębokość Gubernatora gałęzi, poziom przejrzystości, komparator i częstotliwość przeglądu (§III.4); ustrukturyzowany szablon Karty gałęzi AI jako źródło prawdy dla schematów odczytywalnych maszynowo (Aneks B); trzy jawne cele przeglądu — model bazowy, wrapper, wdrożenie — wraz z regułą sumy cech czującości (§II.3); zasadę podwójnego zapasu na Bramie zapasu dla pacjentów moralnych AI; zabezpieczenie przed samonadawaniem uprawnień na Etapie 8; skorygowano kolejność bramek weta na „bramki przed ocenami” (§III.1); usunięto nieaktualne odwołania do wersji.
1.1.1 25 kwietnia 2026 Zastąpiono sformułowania o pakiecie o stałej liczbie dokumentów sformułowaniami o dokumentach towarzyszących bez określonej liczby oraz dodano Standard zarządzania instytucjonalnego jako pokrewną specjalizację instytucjonalną.