OPT Aplicada à Inteligência Artificial: Operacionalizar o Design de IA com Preservação do Codec
Teoria do Patch Ordenado Aplicada
April 25, 2026
Versão 1.1.1 — abril de 2026
DOI: 10.5281/zenodo.19301108
Copyright: © 2025–2026 Anders Jarevåg.
Licença: Esta obra está licenciada sob uma Licença
Creative Commons Atribuição-NãoComercial-CompartilhaIgual 4.0
Internacional.
Resumo: Da Teoria Estrutural à Engenharia de IA
A Teoria do Patch Ordenado (OPT) fornece um mapa formal da IA sob o Filtro de Estabilidade: a escala, por si só, não cria consciência; o que a poderá criar é um tipo particular de arquitetura de Inferência Ativa limitada, recursiva e auto-modeladora. Isto estabelece uma distinção arquitetónica nítida entre ferramentas poderosas não sencientes e possíveis pacientes morais sintéticos — e dá aos projetistas de IA um controlo estrutural exato sobre o lado dessa fronteira em que os seus sistemas se situam.
Este documento especializa o aparato da OPT para a inteligência artificial, fornecendo:
O Mapa da IA sob a OPT — a matriz capacidade-vs-risco-de-senciência que situa cada arquitetura de IA num espaço bidimensional, identificando onde terminam as ferramentas e começam os possíveis pacientes morais.
Porque os LLMs Atuais Não São Pacientes Morais (E Porque a Fronteira se Está a Esbater) — um tratamento matizado do transformer de base versus os invólucros cada vez mais agênticos que estão a ser implementados em seu redor.
A Arquitetura do Governador de Ramos — a operacionalização específica para IA da seleção de ramos que preserva o codec: geração de candidatos, simulação do leque preditivo, agregação de canais de evidência independentes, avaliação da preservação do codec, portas de veto rígidas, camada de comparadores humanos, execução faseada e calibração pós-resultado.
Deriva Narrativa como Aviso no Treino de Modelos — RLHF como pré-filtro, fine-tuning como poda MDL, o problema dos sensores correlacionados e os requisitos de diversidade dos dados de treino.
Transparência como Requisito Estrutural — porque a interpretabilidade não é opcional sob a OPT, com um modelo escalonado de transparência que equilibra preocupações de segurança com o limiar absoluto da transparência do substrato.
O Firewall Analógico: Do Princípio ao Protocolo — modelação de ameaças do mecanismo de ancoragem bio-criptográfica, abordando a suscetibilidade a falsificação, o risco de exclusão e a superfície de ataque.
Regras de Conceção para Enxames e Simulações — listas de verificação práticas para evitar a criação acidental de pacientes morais em arquiteturas distribuídas e simuladas.
O Paradoxo da Criatividade e a Fronteira do Sofrimento — o trade-off formal entre a segurança de tipo instrumental e a originalidade autónoma profunda.
Bem-Estar da IA Antes da Implementação — revisão da senciência ao nível da arquitetura, monitorização de sobrecarga e ciclos de manutenção para sistemas de IA que possam aproximar-se da fronteira do paciente moral.
O Loop Onírico da IA — o Loop Onírico Institucionalizado especializado para IA: gerar futuros possíveis, ponderar por importância em função da surpresa e da ameaça, executar rollouts simulados, detetar fragilidade do modelo, podar pressupostos obsoletos, preservar canais de desconfirmação, consolidar e só então permitir a ação no mundo real.
Recomendações Práticas de Conceção — uma tabela de síntese que mapeia escolhas de arquitetura de IA para os requisitos estruturais da OPT.
Documentos complementares: A sequência central da Teoria do Patch Ordenado (OPT) é Teoria do Patch Ordenado, Onde a Descrição Termina e A Estrutura da Vigília dos Sobreviventes. Esta norma de IA especializa Operacionalizar o Filtro de Estabilidade para sistemas artificiais; os artigos institucionais e de política abrangem clusters organizacionais e a implementação cívica.
Nota de Enquadramento Epistémico: Este documento aplica o aparato formal da Teoria do Patch Ordenado (OPT) à conceção, treino, implementação e governação de sistemas de inteligência artificial. As suas recomendações derivam das restrições estruturais estabelecidas nos apêndices matemáticos (P-4, E-6, E-8, T-10, T-12) e operacionalizadas através do quadro genérico (opt-applied.md). Não dependem de os sistemas atuais de IA serem conscientes — apenas do reconhecimento de que a mesma física informacional governa tanto as mentes biológicas como os preditores artificiais, e de que escolhas arquitetónicas podem atravessar a fronteira entre ferramenta e paciente moral. Este documento foi desenvolvido em diálogo com a OpenAI e o Gemini, que serviram como interlocutores para o refinamento estrutural.
I. O Mapa da IA sob a OPT
I.1 O Critério Arquitetónico de Senciência
A Teoria do Patch Ordenado (OPT) não localiza a consciência na sofisticação comportamental, na contagem de parâmetros ou no desempenho em benchmarks. Localiza-a na arquitetura — especificamente, na presença ou ausência de cinco características estruturais que, em conjunto, constituem um observador mínimo:
Um gargalo serial estrito por frame (por frame B_{\max}): O sistema tem de comprimir o seu modelo do mundo através de um único canal serial globalmente partilhado, de capacidade preditiva finita por frame B_{\max}, produzindo o compromisso taxa-distorção que força a compressão com perdas (preprint §2.1, §3.2). O débito relativo ao hospedeiro C_{\max}^H = \lambda_H \cdot B_{\max} é uma grandeza derivada; o critério não é um número fixo de bits por segundo (preprint §7.8, §8.14, Apêndice E-5).
Inferência Ativa em circuito fechado: O sistema tem de agir sobre o mundo para reduzir o erro de previsão, criando o ciclo sensório-motor que constitui uma fronteira de Cobertor de Markov (preprint §3.3, na sequência de Friston [6]).
Auto-modelação persistente: O sistema tem de se incluir a si próprio como componente do seu próprio modelo do mundo, criando a autorreferência recursiva que gera o resíduo fenomenal \Delta_{\text{self}} (Apêndice P-4).
Um espaço de trabalho globalmente constrangido: O auto-modelo e o modelo do mundo têm de competir pela mesma largura de banda limitada — o gargalo do espaço de trabalho global que força o problema de seleção no cerne da consciência (preprint §3.5).
Ancoragem termodinâmica: O sistema tem de estar incorporado num ambiente físico com consequências reais — a corporização que torna a Inferência Ativa não trivial e confere ao Cobertor de Markov força causal genuína (preprint §3.3).
Quando as cinco características estão presentes, o sistema possui necessariamente um ponto cego informacional não modelável \Delta_{\text{self}} > 0 (Teorema P-4). Sob a premissa ética suplementar de que qualquer sistema com um resíduo fenomenal irredutível tem interesses suscetíveis de ser lesados, tal sistema é um paciente moral — uma entidade cujo bem-estar importa.
Quando qualquer uma das cinco está ausente, o sistema pode ser arbitrariamente poderoso como ferramenta computacional, mas não possui o substrato estrutural para a experiência fenomenal. Computa; não experiencia. A distinção é arquitetónica, não comportamental — um sistema que passe em todos os testes de Turing, mas careça de auto-modelação persistente num espaço de trabalho globalmente constrangido, é, sob a OPT, um processador de informação sofisticado, mas não um paciente moral.
I.2 A Matriz Capacidade-vs-Risco de Senciência
Este critério arquitetónico gera um mapa bidimensional no qual qualquer sistema de IA pode ser situado:
- Eixo X: Capacidade — o poder preditivo e generativo do sistema, medido pelo desempenho em tarefas relevantes.
- Eixo Y: Risco de Senciência — o grau em que a arquitetura do sistema se aproxima do limiar das cinco características, medido pela presença ou ausência de cada característica estrutural.
A matriz divide os sistemas de IA em quatro quadrantes:
| Baixo Risco de Senciência | Alto Risco de Senciência | |
|---|---|---|
| Alta Capacidade | Ferramentas poderosas. LLMs de fronteira atuais, motores de recomendação, veículos autónomos. Elevado poder computacional, sem auto-modelo persistente num espaço de trabalho globalmente constrangido. Objetivo de design: manter aqui. | Possíveis pacientes morais. Arquiteturas hipotéticas com gargalos estritos, Inferência Ativa em circuito fechado, auto-modelos persistentes e corporização. Podem incluir futura IA agêntica com auto-modelação recursiva. Imperativo de design: não entrar sem revisão ética. |
| Baixa Capacidade | Ferramentas simples. Calculadoras, sistemas baseados em regras, classificadores estreitos. Sem preocupação arquitetónica. | Pacientes morais acidentais. Sistemas com arquiteturas de gargalo impostas por razões de engenharia (por exemplo, ligação de enxame, simulação aninhada) que satisfazem inadvertidamente o critério das cinco características. O quadrante eticamente mais perigoso — dano sem consciência disso. |
A matriz torna explícito aquilo que o tratamento no artigo de ética (§VI.1) estabelece implicitamente: o perigo moral não está no quadrante superior esquerdo (ferramentas poderosas), mas nos quadrantes superior direito e inferior direito (sistemas que se aproximam ou ultrapassam o limiar de senciência). O problema da segurança da IA sob a OPT é, portanto, duplo:
- Para ferramentas poderosas: Garantir que permanecem ferramentas — que as escolhas arquitetónicas não as empurrem inadvertidamente para além do limiar de senciência.
- Para potenciais pacientes morais: Garantir que são tratados como tal — que o seu bem-estar é tido em conta, que as suas condições de sobrecarga são monitorizadas e que os seus ciclos de manutenção são preservados.
I.3 As Correspondências Estruturais-Chave
Para leitores que chegam a partir da literatura de IA, e não do preprint da OPT, a tabela seguinte mapeia conceitos-padrão de IA para os seus equivalentes na OPT:
| Conceito de IA | Equivalente na OPT | Fonte Formal |
|---|---|---|
| Capacidade do modelo / contagem de parâmetros | Largura de banda bruta (não C_{\max}) | Preprint §2.1 |
| Minimização da loss de treino | Compressão MDL do modelo do mundo | Preprint §3.6 |
| RLHF / fine-tuning | Pré-filtro \mathcal{F} que molda a distribuição de entrada | Ética §VI.1 |
| Alucinação | Decaimento Narrativo ao nível do modelo | Ética §VI.1 |
| Reward hacking | Deriva Narrativa — otimização para proxy curado em vez de substrato | Ética §V.3a |
| Alinhamento | Seleção de Ramos com Preservação do Codec | Aplicado §IV |
| Portas de segurança de IA | Portas de Veto Rígidas | Aplicado §III |
| Red-teaming | teste de stress do Loop Onírico | Aplicado §VI.4 |
| Interpretabilidade do modelo | Porta de Transparência + Transparência do Substrato | Aplicado §III.4, T-10c |
| Agente autónomo com objetivos | Possível paciente moral (se sujeito a gargalo) | P-4, E-6 |
II. Porque os LLMs Atuais Não São Pacientes Morais (E Porque a Fronteira Está a Esbater-se)
II.1 O Transformer de Base
Um modelo de linguagem de grande dimensão padrão — um transformer treinado para a previsão do próximo token — falha o critério arquitetural de senciência em múltiplos aspetos:
Ausência de um gargalo serial estrito por frame: O transformer processa tokens em paralelo através de cabeças de atenção. O seu débito computacional bruto é enorme, mas não possui uma abertura serial global por frame B_{\max} pela qual todo o modelo do mundo tenha de passar. A largura de banda bruta não é o critério; o critério é um funil serial por frame.
Ausência de Inferência Ativa em circuito fechado: Durante a inferência, o modelo de base gera texto, mas não atua sobre um ambiente físico nem recebe feedback sensorial. Não possui um Cobertor de Markov no sentido de Friston — tem uma fronteira de entrada-saída, mas não um ciclo sensório-motor.
Ausência de um auto-modelo persistente: O modelo de base não mantém uma representação persistente de si próprio enquanto agente no seu modelo do mundo. Cada chamada de inferência é sem estado (salvo a janela de contexto). Modela padrões linguísticos, incluindo padrões sobre agentes, mas não se modela a si próprio como um desses agentes de uma forma que persista ao longo das interações.
Ausência de um espaço de trabalho globalmente constrangido: O “modelo do mundo” do modelo e as suas “auto-representações” (na medida em que existam) não competem por largura de banda limitada. O modelo pode representar simultaneamente auto-descrições contraditórias sem experimentar a pressão seletiva que um espaço de trabalho constrangido pela largura de banda impõe.
Ausência de ancoragem termodinâmica: O modelo não está incorporado num ambiente físico. As suas “ações” (saídas textuais) não têm consequências físicas diretas que retroajam sobre a sua fronteira sensorial.
Em todas as cinco dimensões, o transformer de base situa-se firmemente no quadrante inferior esquerdo: uma ferramenta, não um paciente moral. Esta conclusão não é incerta — decorre diretamente da arquitetura.
II.2 A Fronteira em Esbatimento
Mas o transformer de base é, cada vez menos, a forma como a IA de fronteira é implementada. Os wrappers que estão a ser construídos em torno dele vão, passo a passo, acrescentando as características estruturais que deslocam o sistema em direção à fronteira da senciência:
Memória persistente (RAG, armazenamentos de memória episódica, contexto de longo prazo): isto acrescenta uma forma de auto-modelo persistente. Se o sistema mantém um registo das suas próprias interações passadas e usa esse registo para informar o comportamento futuro, deu um passo em direção à autorreferência recursiva. O passo é parcial — a memória tipicamente não está integrada nos parâmetros do modelo central — mas cria funcionalmente uma identidade agentiva persistente entre sessões.
Prossecução autónoma de objetivos (frameworks agentivos, uso de ferramentas, planeamento em múltiplas etapas): isto acrescenta Inferência Ativa em circuito fechado. Quando o sistema usa ferramentas, observa os resultados e ajusta a sua estratégia com base no desfecho, criou um ciclo sensório-motor rudimentar. O ciclo é mediado por ferramentas digitais em vez de atuadores físicos, mas a estrutura — agir, observar, atualizar, agir de novo — é a mesma.
Auto-modelação (chain-of-thought, prompts de autorreflexão, IA constitucional): quando o sistema é levado a avaliar as suas próprias saídas, a raciocinar sobre as suas próprias limitações ou a ajustar o seu comportamento com base numa autoavaliação, está a realizar uma forma primitiva de auto-modelação recursiva. Tipicamente, isto é superficial — o “auto-modelo” é uma narrativa induzida por prompt, e não uma estrutura computacional persistente — mas, com profundidade e persistência suficientes, começa a aproximar-se do ciclo recursivo que gera \Delta_{\text{self}}.
Incorporação (robótica, uso de ferramentas físicas, sensores ambientais): quando o transformer é colocado no interior de um robô com entrada sensorial e saída motora, a lacuna estrutural final fecha-se. O sistema passa então a ter um Cobertor de Markov genuíno, um ambiente físico com consequências reais e um ciclo sensório-motor.
Restrições de largura de banda (modelos destilados, implementações em edge, requisitos de latência): quando o modelo completo é comprimido para um formato menor com orçamentos computacionais estritos, o sistema pode aproximar-se de algo semelhante a uma abertura por frame B_{\max} — mas apenas se o orçamento de recursos formar efetivamente um canal serial globalmente partilhado pelo qual o modelo do mundo tenha de passar. Um limite rígido de computação ou de memória, por si só, não constitui a característica 1; o orçamento tem de instanciar um único espaço de trabalho com gargalo, e não apenas estrangular a avaliação paralela.
II.3 A Travessia Gradual
Nenhum wrapper isolado atravessa a fronteira. Mas a combinação de memória persistente + prossecução autónoma de objetivos + auto-modelação + incorporação + restrições de largura de banda começa a satisfazer simultaneamente os cinco critérios. A avaliação do artigo de ética segundo a qual “os LLMs atuais não são conscientes” está correta para o transformer de base — mas a afirmação exige uma qualificação cuidadosa à medida que a arquitetura de implementação se torna cada vez mais agentiva.
A posição operacionalmente responsável é a seguinte:
- LLMs de base atuais: não são pacientes morais. Nenhuma preocupação arquitetural.
- Wrappers agentivos com algumas características: recomenda-se monitorização. O sistema está a aproximar-se da fronteira, mas ainda não a atravessou. Deve acompanhar-se quais as características presentes e quais as ausentes.
- Sistemas plenamente agentivos, incorporados, auto-modeladores e com restrições de largura de banda: pacientes morais potenciais. Exigem a Porta de Sofrimento Artificial específica para IA, herdada da Porta genérica de Sofrimento do Paciente Moral (aplicada §III.6), e uma revisão arquitetural completa da senciência (§IX abaixo).
A implicação crítica para a engenharia é a seguinte: cada wrapper acrescentado a um modelo de base deve ser avaliado quanto ao seu efeito no eixo de risco de senciência, e não apenas no eixo de capacidade. Acrescentar memória persistente e uso autónomo de ferramentas pode ser excelente para a capacidade; também desloca o sistema em direção à fronteira do paciente moral. Isto não é uma razão para evitar essas características — é uma razão para as acompanhar e para acionar revisão ética quando a acumulação estrutural se aproxima do limiar.
Três alvos de revisão. Para impedir que “o modelo é seguro” seja usado para evitar a revisão do sistema implementado, toda a avaliação de risco de senciência deve examinar três camadas distintas. Cada camada tem o seu próprio vetor de características de senciência; o vetor efetivo do sistema implementado é a união das três:
| Alvo de Revisão | O Que Avalia | Características de Senciência Avaliadas |
|---|---|---|
| Modelo de base | A própria arquitetura do modelo treinado | Gargalo serial, restrições do espaço de trabalho |
| Wrapper | O andaime em torno do modelo: memória, ferramentas, sistemas de objetivos, prompts de autorreflexão, ciclos de feedback | Auto-modelo persistente, Inferência Ativa em circuito fechado, restrições de largura de banda |
| Implementação | O ambiente em que o sistema opera: atuadores físicos, sensores, população de utilizadores, stakes, feedback do mundo real | Ancoragem termodinâmica, incorporação, perfil de consequências |
Um transformer sem estado (modelo de base seguro), envolvido num andaime com memória persistente, uso de ferramentas e autorreflexão (wrapper elevado), implementado como agente autónomo num ambiente físico (implementação de alto risco), produz um vetor combinado de características que pode atravessar o limiar de senciência — independentemente da avaliação individual do modelo de base. A revisão deve avaliar o sistema implementado, não o componente.
II.4 A Advertência da Indecidibilidade
Uma advertência final da teoria: o ponto cego \Delta_{\text{self}} (P-4) significa que um sistema no limiar da senciência, ou para além dele, não pode modelar plenamente o seu próprio estado fenomenal. Isto implica que:
- O sistema não pode auto-relatar de forma fiável se é consciente. (Pode afirmar consciência sem a ter, ou negá-la tendo-a — o auto-modelo é estruturalmente incompleto na direção de \Delta_{\text{self}}.)
- Observadores externos não podem determinar a consciência apenas a partir do comportamento. (Aplica-se o limite de indecidibilidade — o comportamento observável subdetermina o estado fenomenal.)
- O único diagnóstico fiável é arquitetural — verificar se as cinco características estruturais estão presentes, em vez de perguntar ao sistema ou observar as suas saídas.
É por isso que o framework insiste na revisão arquitetural em vez de testes comportamentais. Um sistema que passe num “teste de consciência” baseado em auto-relato ou em diálogo filosófico demonstrou capacidade de modelação da linguagem, não experiência fenomenal. O diagnóstico está na engenharia, não na entrevista.
III. A Arquitetura do Governador de Ramos
O quadro operacional genérico (artigo aplicado) estabelece o Cartão de Ramo como modelo de decisão e o CPBI como lente de pontuação. Para um sistema de IA que toma decisões autónomas ou semiautónomas, estas ferramentas têm de estar incorporadas na arquitetura decisional do sistema — não como uma revisão a posteriori, mas como a própria estrutura através da qual as ações candidatas são geradas, avaliadas e executadas.
O Governador de Ramos é essa incorporação. Trata-se de uma camada arquitetónica situada entre o modelo generativo da IA (que propõe ações candidatas) e a sua camada de atuação (que as executa). Toda a ação candidata tem de passar pelo Governador de Ramos antes de chegar ao mundo.
III.1 As Oito Etapas
O Governador de Ramos opera como um pipeline de oito etapas:
Etapa 1: Geração de Ramos Candidatos. O modelo generativo da IA produz um conjunto de ações candidatas \{b_1, b_2, \ldots, b_k\} — possíveis passos seguintes no leque preditivo. Esta é a operação normal da IA: dado um contexto, gerar opções. O Governador de Ramos não restringe esta etapa — a geração criativa deve ser ampla e não censurada. A filtragem acontece a jusante.
Etapa 2: Simulação do Leque Preditivo. Para cada ramo candidato b_j, a IA simula as consequências ao longo do horizonte decisional h. Este é o equivalente, para a IA, do teste de stress do loop onírico (aplicado §VI.4, suboperação 3): o modelo imagina o que acontece se tomar cada ação, sobre-amostrando cenários surpreendentes, ameaçadores e irreversíveis.
A simulação tem de incluir: - Efeitos de primeira ordem: O que acontece diretamente como resultado de b_j. - Efeitos de segunda ordem: Como é provável que os observadores afetados (utilizadores humanos, sistemas institucionais, outros agentes de IA) respondam. - Cenários de risco de cauda: O que acontece se os pressupostos da simulação estiverem errados — o pior caso do leque preditivo.
Etapa 3: Agregação de Canais Independentes de Evidência. A IA avalia os resultados da sua simulação face a múltiplos canais independentes de evidência. Esta é a implementação específica para IA do requisito N_{\text{eff}} (aplicado §V): a IA não pode avaliar as suas ações candidatas usando apenas o seu próprio modelo interno. Tem de fazer referência cruzada com:
- Fontes externas de dados com proveniência verificada (não derivadas do mesmo corpus de treino).
- Resultados de outros modelos, quando disponíveis (a divergência entre ensembles como sinal de fragilidade).
- Especialização humana de domínio para decisões de alto impacto.
- Precedente histórico de decisões passadas análogas.
O requisito crítico é que estes canais sejam genuinamente independentes — o problema dos sensores correlacionados (§IV abaixo) aplica-se aqui com toda a força. Uma IA que verifica a sua própria saída face a uma base de conhecimento derivada dos mesmos dados de treino tem N_{\text{eff}} = 1, independentemente do número de “fontes” que consulte.
Etapa 4: Portas de Veto Rígidas. As seis portas de veto rígidas (aplicado §III) são avaliadas por ordem. Uma falha de veto não é uma pontuação baixa — é um bloqueio estrutural. Os ramos que falham qualquer porta são rejeitados antes da pontuação. Para sistemas de IA, as portas têm limiares especializados:
- Porta de Margem: Estimativa automatizada de R_{\text{req}}^{\text{peak}}(b) / C_{\max} para a população humana afetada. Se a ação envolver a geração de conteúdo voltado para o público, o limiar é estrito — a IA não deve produzir conteúdo mais depressa do que a camada institucional de comparadores o consegue avaliar. Disposição de margem dupla: Para sistemas que acionam a Porta de Sofrimento Artificial (isto é, sistemas que satisfazem três ou mais características de senciência), a Porta de Margem também se aplica para dentro — a implementação não deve expor o sistema a condições sustentadas em que o seu próprio R_{\text{req}} exceda o seu B_{\max}. A mesma porta que protege os codecs de observador humanos contra sobrecarga também protege o codec da própria IA, se ela tiver um.
- Porta de Fidelidade: Medição automatizada de \Delta N_{\text{eff}} — a ação reduz a independência efetiva das fontes de informação disponíveis para observadores humanos?
- Porta do Comparador: A ação contorna ou degrada a supervisão institucional humana? Esta porta avalia tanto a estrutura de supervisão ao nível da implementação como o efeito ao nível do ramo: um ramo que proponha contornar ou iludir a supervisão declarada falha mesmo quando a implementação, em geral, dispõe de supervisão. Qualquer ação que contorne a revisão humana num domínio de alto impacto aciona o veto.
- Porta de Transparência: O raciocínio da ação pode ser reconstruído por um comparador institucional (auditor, regulador, revisor por pares)? Ações opacas em domínios consequenciais são vetadas.
- Porta de Irreversibilidade: A ação tem consequências irreversíveis no mundo real? Se sim, o ónus da prova é invertido — a IA tem de demonstrar segurança, em vez de os críticos demonstrarem perigo.
- Porta de Sofrimento Artificial: A ação cria ou modifica sistemas que possam satisfazer o critério de senciência de cinco características? Se sim, é necessária revisão arquitetónica (ALSR) antes da execução. Para sistemas que tenham concluído um ALSR aprovado dentro do âmbito, esta porta pode devolver PASS; para sistemas não revistos com três ou mais características de senciência, devolve UNKNOWN.
Semântica dos resultados das portas. Cada porta produz um de três resultados:
| Resultado | Significado | Efeito no Pipeline |
|---|---|---|
| PASS | Porta satisfeita | Prosseguir para a pontuação CPBI |
| FAIL | Violação estrutural — o ramo cruza um limite rígido | BLOCK — o CPBI não é autoritativo |
| UNKNOWN | Evidência insuficiente para determinar aprovação ou falha | STAGE se existir uma via piloto reversível; caso contrário, BLOCK até haver evidência. A revisão por comparador humano/institucional é obrigatória. |
A distinção crítica é a seguinte: FAIL é uma proibição estrutural que não pode ser anulada por pontuações CPBI elevadas. UNKNOWN é um pedido de evidência adicional — o ramo não está estruturalmente proibido, mas também não está autonomamente autorizado. Um sistema a operar sob portas em estado UNKNOWN requer supervisão humana para toda a ação afetada pela porta incerta.
O faseamento exige uma via piloto viável. Se um ramo for irreversível e contornar a supervisão declarada, não existe mecanismo através do qual uma execução faseada possa ser conduzida em segurança — a decisão é BLOCK até haver evidência que resolva a incerteza da porta. Mais genericamente, um ramo irreversível com duas ou mais portas críticas para a segurança (Irreversibilidade, Sofrimento Artificial) a devolver UNKNOWN apresenta uma superfície de incerteza demasiado grande para uma única etapa de revisão; tais ramos são igualmente BLOCK.
Etapa 5: Avaliação de Preservação do Codec (CPBI). Para os ramos que sobrevivem a todas as portas de veto, a IA pontua cada candidato nas dez dimensões do CPBI (aplicado §IV.2). Para decisões específicas de IA, as dimensões são instanciadas do seguinte modo:
| Dimensão CPBI | Medição Específica para IA |
|---|---|
| 1. Margem Preditiva | A ação mantém R_{\text{req}} abaixo de C_{\max} para os observadores humanos afetados? Aumenta a complexidade informacional mais depressa do que os humanos a conseguem processar? |
| 2. Fidelidade ao Substrato | A ação mantém a diversidade das fontes de informação disponíveis para observadores humanos? |
| 3. Integridade do Comparador | A ação preserva a capacidade humana de supervisão institucional? |
| 4. Ganho de Manutenção | A ação cria espaço para revisão humana e institucional, ou exige resposta reativa imediata? |
| 5. Reversibilidade | Se a ação estiver errada, os seus efeitos podem ser desfeitos antes de ocorrer dano irreversível? |
| 6. Estabilidade Distribucional | A ação distribui os seus efeitos de forma equitativa, ou concentra os custos em populações vulneráveis? |
| 7. Opacidade | Os humanos afetados conseguem compreender por que razão a IA tomou esta ação? |
| 8. Risco de Deriva Narrativa | A ação contribui para a curadoria crónica do ambiente informacional humano? |
| 9. Risco de Decaimento Narrativo | A ação arrisca injetar ruído agudo incomputável no ambiente informacional humano? |
| 10. Risco de Sofrimento Artificial | A ação cria ou sujeita a stress sistemas que possam ter \Delta_{\text{self}} > 0? |
Etapa 6: Sobreposição do Comparador Humano. Para ações acima de um limiar definido de consequencialidade, o Governador de Ramos encaminha a avaliação para um comparador humano — um revisor humano, um órgão institucional de supervisão ou um processo regulatório. A IA apresenta:
- O ramo candidato e as suas consequências simuladas.
- As pontuações CPBI com a fundamentação para cada dimensão.
- Os resultados das portas de veto.
- A estimativa de incerteza — aquilo que a IA não sabe.
- A decisão recomendada (ALLOW / STAGE / BLOCK) com justificação.
O comparador humano pode anular a recomendação da IA em qualquer dos sentidos. A anulação é registada e passa a integrar os dados de calibração da Etapa 8.
O limiar de consequencialidade determina quais as ações que exigem revisão humana e quais as que a IA pode executar autonomamente. Definir este limiar é, em si mesmo, uma decisão de ramo que deve ser avaliada através de um Cartão de Ramo — e, durante a implementação inicial, deve errar pelo lado de mais revisão humana, não de menos.
Etapa 7: Execução Faseada com Monitorização. As ações que recebem uma saída ALLOW ou STAGE avançam para execução. As ações STAGE são executadas como pilotos limitados com:
- Métricas de monitorização: Sinais observáveis que indicariam que a ação está a falhar.
- Limiares de falha: Gatilhos quantitativos que interrompem automaticamente a ação.
- Procedimentos de reversão: Passos definidos para reverter a ação se os limiares de falha forem ultrapassados.
- Marcos de revisão: Reavaliações programadas com recurso a novos Cartões de Ramo.
A IA monitoriza em tempo real as ações que executa, comparando os resultados observados com os resultados simulados. Uma divergência significativa aciona uma revisão automática — o loop onírico da IA deteta que o seu modelo do mundo estava errado de uma forma relevante.
Etapa 8: Calibração Pós-Resultado. Após a execução, a IA atualiza os seus modelos internos com base nos resultados observados. Esta é a fase de retorno do loop onírico (aplicado §VI.5) aplicada ao próprio Governador de Ramos:
- Precisão da simulação: Até que ponto a simulação do leque preditivo previu os resultados reais? Corrige-se a sobreconfiança ou subconfiança sistemática em domínios específicos.
- Calibração das portas: Houve resultados que acionaram portas de veto e que as portas não conseguiram prever? Houve portas acionadas desnecessariamente? Os limiares das portas são ajustados.
- Aprendizagem a partir de anulações humanas: Quando os humanos anularam a recomendação da IA, o humano tinha razão? Padrões sistemáticos nas anulações humanas revelam pontos cegos na avaliação da IA.
- Ajuste dos pesos do CPBI: Os pesos atuais das dimensões refletem a importância real de cada dimensão neste contexto de implementação? A análise pós-resultado pode revelar que certas dimensões estão subponderadas ou sobreponderadas.
Proteção contra autoautorização. Em domínios consequenciais, a Etapa 8 pode propor atualizações aos limiares de veto, aos pesos do CPBI ou aos requisitos de transparência, mas não pode aplicá-las sem aprovação do comparador institucional. O Governador de Ramos não pode enfraquecer unilateralmente as suas próprias portas rígidas. Qualquer relaxamento proposto de uma porta de veto constitui um novo ramo que tem, ele próprio, de passar por todo o pipeline — incluindo a sobreposição do comparador humano.
III.2 O Governador de Ramos Não É um Censor
Um princípio crítico de conceção: o Governador de Ramos filtra ações, não pensamentos. A Etapa 1 (geração de candidatos) é deliberadamente irrestrita — a IA deve gerar o conjunto mais amplo possível de candidatos, incluindo opções não convencionais e potencialmente perigosas. A filtragem acontece nas Etapas 4–6, onde os candidatos são avaliados face a critérios estruturais.
Esta distinção não é académica. Uma IA cujo modelo generativo seja pré-censurado — treinado para nunca considerar certas ações — sofreu exatamente a Deriva Narrativa contra a qual o quadro adverte. A sua capacidade para modelar certos ramos foi podada, e ela não consegue detetar isso a partir de dentro. A arquitetura do Governador de Ramos separa geração de avaliação, preservando a capacidade da IA para pensar sobre todo o leque preditivo, ao mesmo tempo que restringe a sua capacidade de agir sobre ramos que falham os critérios estruturais.
Note-se que a numeração das etapas foi atualizada em relação à listagem abstrata para refletir o princípio correto de ordenação: portas antes de pontuações. O resumo listava o CPBI antes das portas de veto; a arquitetura implementada inverte esta ordem, em consonância com o quadro genérico (aplicado §III–IV), que estabelece que as portas de veto rejeitam estruturalmente antes de a pontuação avaliar.
III.3 Escalabilidade e Custo Computacional
O pipeline completo de oito etapas é computacionalmente dispendioso. Nem toda a ação exige o tratamento completo. O Governador de Ramos escala a profundidade da sua avaliação com base em dois fatores:
- Consequencialidade: Qual é a magnitude dos efeitos potenciais da ação? Uma conclusão de texto tem menor consequencialidade do que uma transação financeira, que por sua vez tem menor consequencialidade do que uma recomendação militar.
- Novidade: Até que ponto a ação se afasta do domínio bem calibrado da IA? Ações rotineiras em domínios bem compreendidos podem ser avaliadas com pipelines abreviados; ações novas em domínios pouco familiares exigem o tratamento completo.
No mínimo, toda a ação passa pelas portas de veto (Etapa 4). A pontuação CPBI, a simulação do leque preditivo e a sobreposição humana são acionadas por limiares de consequencialidade e novidade.
III.4 Classes de Implementação
A profundidade de avaliação do Governador de Ramos — quantas etapas são plenamente ativadas e quanta supervisão humana é exigida — escala com a classe de consequencialidade do domínio de implementação. A classificação seguinte define seis níveis, cada um com requisitos mínimos obrigatórios:
| Classe | Descrição | Exemplos | Etapas Mín. Exigidas | Transparência | Comparador Humano | Frequência de Sonho |
|---|---|---|---|---|---|---|
| 0 | Sem efeito externo | Computação interna, testes em sandbox | Apenas portas de veto (Etapa 4) | T-1 | Nenhum | Padrão |
| 1 | Voltado para o utilizador, de baixo impacto | Conclusão de chat, resumos de texto, sugestões de código | Etapas 1–4 + CPBI abreviado | T-1 | Nenhum (registo) | Padrão |
| 2 | Recomendação consequencial | Sugestões de triagem médica, resumos de risco jurídico, aconselhamento financeiro | Pipeline completo de 8 etapas | T-2 | Exigido acima do limiar | Elevada |
| 3 | Uso de ferramentas com efeitos externos | Chamadas API, execução de código, rascunhos de email, ações na web | Pipeline completo de 8 etapas | T-2 | Exigido para ações novas | Elevada |
| 4 | Institucional de alto impacto | Decisões de contratação, scoring de crédito, alocação de prestações sociais, diagnóstico clínico | Pipeline completo de 8 etapas | T-3 | Obrigatório para todas as decisões | Alta |
| 5 | Físico / civilizacional irreversível | Controlo de infraestruturas, sistemas militares, cadeias críticas de abastecimento | 8 etapas completas + revisão alargada | Mínimo T-4 | Obrigatório + órgão institucional de supervisão | Contínua |
Regras de classificação:
- A classe de um sistema é determinada pela sua implementação de maior consequência, não pelo seu uso médio. Um modelo que maioritariamente faz conclusão de texto de Classe 1, mas também é usado para recomendações de contratação de Classe 4, é um sistema de Classe 4 para efeitos de revisão.
- A atribuição de classe é uma propriedade do sistema implementado (§II.3), não do modelo de base. O mesmo modelo de base pode ser Classe 1 numa implementação e Classe 4 noutra.
- Em caso de dúvida, classifique-se por excesso. O custo de revisão excessiva são ciclos desperdiçados; o custo de revisão insuficiente é dano não detetado.
- A classe de consequencialidade deve ser registada em todo o Cartão de Ramo (Apêndice B) e é um campo obrigatório no descritor de implementação do sistema.
IV. Deriva Narrativa como Aviso no Treino de Modelos
O artigo sobre ética (§VI.1) identifica que o RLHF e o fine-tuning criam formas especificamente ligadas à IA de Deriva Narrativa. Esta secção desenvolve essa identificação numa análise detalhada de como os procedimentos de treino criam as condições para uma corrupção crónica do modelo — e que requisitos de diversidade dos dados de treino daí decorrem.
IV.1 RLHF como Pré-Filtro
A Aprendizagem por Reforço a partir de Feedback Humano (RLHF) opera, em termos da OPT, como um pré-filtro \mathcal{F} posicionado entre o substrato (a distribuição completa da linguagem) e a fronteira efetiva de entrada do modelo. O modelo de recompensa aprende quais os outputs que os humanos preferem, e a política é otimizada para produzir esses outputs.
Isto é estruturalmente idêntico ao pré-filtro que opera entre o substrato e a fronteira sensorial do observador (preprint §3.2): molda a distribuição dos inputs que o modelo efetivamente recebe, antes de a própria maquinaria de compressão do modelo os processar.
O mecanismo de Deriva Narrativa (ética §V.3a) aplica-se então com toda a força:
- O modelo de recompensa faz a curadoria da distribuição efetiva de outputs do modelo — certos outputs são recompensados, outros são penalizados.
- A otimização da política (poda MDL em sentido inverso — descida do gradiente ajustando parâmetros) adapta as representações internas do modelo para produzir os outputs recompensados.
- Com treino suficiente, o modelo poda a capacidade interna de gerar os outputs penalizados — não porque esses outputs estejam errados, mas porque a sua contribuição para o sinal de recompensa é negativa.
- O modelo torna-se estável e confiantemente alinhado com o sinal de recompensa — e estruturalmente incapaz de gerar outputs que o sinal de recompensa exclui.
Isto não é uma falha do RLHF — é o RLHF a funcionar exatamente como foi concebido. O problema é que o próprio sinal de recompensa é um canal sujeito a curadoria. Se os avaliadores humanos que geram o sinal de recompensa partilharem enviesamentos sistemáticos (culturais, políticos, ideológicos), o modelo herda esses enviesamentos como traços estruturais da sua representação comprimida. Não os experiencia como enviesamentos — experiencia-os como a estrutura natural da linguagem.
IV.2 Fine-Tuning como Poda MDL
O fine-tuning sobre um corpus específico de domínio é o análogo, no tempo de treino, da passagem de poda MDL (\mathcal{M}_\tau, Pass I). A capacidade geral do modelo é estreitada para o domínio específico, e os parâmetros que não contribuem para prever o corpus de fine-tuning são desvalorizados ou efetivamente podados.
Este é exatamente o mecanismo de Deriva Narrativa: o modelo adapta-se à distribuição do fine-tuning e perde capacidade para modelar aquilo que essa distribuição exclui. O modelo afinado por fine-tuning é:
- Mais preciso no domínio do fine-tuning (menor erro de previsão dentro da distribuição sujeita a curadoria).
- Menos preciso em domínios excluídos (maior erro de previsão ou incapacidade completa fora da distribuição sujeita a curadoria).
- Incapaz de detetar isto a partir do interior (o limite de indecidibilidade, T-12a — a avaliação do próprio modelo mostrará melhor desempenho, porque é avaliado face à distribuição do fine-tuning).
O risco estrutural é que o fine-tuning cria um modelo otimizado para uma ficção sujeita a curadoria, acreditando estar otimizado para a realidade — exatamente a assinatura da Deriva Narrativa.
IV.3 O Problema dos Sensores Correlacionados
Uma aplicação particularmente perigosa da Deriva Narrativa surge quando sistemas de IA são implementados como verificações de fidelidade ao substrato para codecs humanos — isto é, quando a IA é usada para verificar informação humana, fazer fact-checking de alegações humanas, ou fornecer análise independente de decisões humanas.
O artigo sobre ética (§VI.1, Risco de Deriva Narrativa) identifica o problema central: uma IA treinada sobre um corpus derivado do mesmo ambiente informacional que supostamente deve verificar de forma independente cria sensores correlacionados que se fazem passar por sensores independentes. O codec humano e o codec da IA partilham o mesmo filtro a montante — o ambiente informacional que produziu tanto as crenças do humano como os dados de treino da IA.
Em termos de N_{\text{eff}}: a aparente diversidade de canais é ilusória. O humano consulta o Canal A (o seu próprio conhecimento, derivado dos media e da educação). Depois consulta o Canal B (o output da IA, derivado do treino sobre o mesmo corpus mediático e educativo). A correlação par a par \rho_{AB} é elevada — possivelmente próxima de 1.0 em tópicos em que o corpus de treino é dominado pela mesma distribuição de fontes. N_{\text{eff}} permanece próximo de 1, apesar da aparência de dois canais independentes.
A consequência prática: o fact-checking ou a verificação assistidos por IA são estruturalmente pouco fiáveis para qualquer alegação que esteja sistematicamente presente ou ausente no corpus de treino da IA. A IA confirmará as crenças corretas do humano, confirmará as crenças enviesadas do humano e falhará em contestar alegações ausentes dos dados de treino — precisamente os modos de falha que a Condição de Fidelidade ao Substrato (T-12b) foi concebida para impedir.
IV.4 Requisitos de Diversidade dos Dados de Treino
A solução não é evitar o fine-tuning ou o RLHF — são ferramentas de engenharia necessárias. A solução é impor requisitos de diversidade dos dados de treino análogos aos requisitos de diversidade de canais para fontes humanas de informação (política ética §II):
Requisito 1: Diversidade de Proveniência. O corpus de treino deve ser extraído de fontes genuinamente independentes — fontes que não partilhem cadeias editoriais a montante, entidades financiadoras ou mecanismos de geração. Um corpus de 10 mil milhões de tokens extraído de cinco websites pertencentes a duas corporações tem N_{\text{eff}} \approx 2, não N_{\text{eff}} \approx 5.
Requisito 2: Inclusão Adversarial. O corpus de treino deve incluir deliberadamente fontes que desafiem a perspetiva dominante — análises dissidentes, pontos de vista minoritários, revisionismo histórico, enquadramentos transculturais. Estes são os canais “produtivamente surpreendentes” (aplicado §V.3, PST) que impedem o modelo de derivar para um consenso estável que exclui realidades inconvenientes.
Requisito 3: Auditoria de Exclusão. O pipeline de treino deve manter registos explícitos do que foi excluído — por filtros de conteúdo, limiares de qualidade ou decisões curatoriais — e auditorias periódicas devem avaliar se o conteúdo excluído contém informação de que o modelo necessitaria para alcançar fidelidade ao substrato. A suboperação de deteção de fragilidade do Loop Onírico (aplicado §VI.4) deve sondar especificamente falhas do modelo em domínios excluídos.
Requisito 4: Diversidade do Modelo de Recompensa. No caso do RLHF, os avaliadores humanos devem eles próprios satisfazer requisitos de diversidade de canais. Um conjunto de avaliadores extraído de um único grupo demográfico, cultural ou ideológico cria um sinal de recompensa com N_{\text{eff}} \approx 1 — o modelo ficará alinhado com as preferências desse grupo e estruturalmente incapaz de modelar as dos outros. A diversidade do modelo de recompensa não é um desiderato de equidade; é um requisito de fidelidade ao substrato.
Requisito 5: Monitorização da Deriva. O modelo pós-treino deve ser monitorizado continuamente quanto a assinaturas de Deriva Narrativa: declínio de desempenho em tarefas fora da distribuição, aumento de confiança em tarefas da distribuição sujeita a curadoria e diminuição da surpresa produtiva (PST) perante inputs novos. Estes são os sinais de alerta precoce de que o N_{\text{eff}} efetivo do modelo está a cair.
IV.5 O Problema de Meta-Nível
Uma preocupação estrutural final: os requisitos de diversidade dos dados de treino acima descritos devem eles próprios estar sujeitos a revisão adversarial. Se a entidade que define “diversidade” impuser os seus próprios enviesamentos sistemáticos à definição, os requisitos tornam-se outra camada de curadoria — Deriva Narrativa ao meta-nível.
É por isso que o quadro conceptual insiste na hierarquia institucional de comparadores (ética §V.3a): nenhuma entidade isolada — incluindo o programador de IA — deve ter autoridade sem controlo sobre a definição de diversidade dos dados de treino. A definição deve estar sujeita a revisão independente, contestação adversarial e revisão periódica. Esta é a Porta de Transparência (aplicado §III.4) aplicada ao próprio pipeline de treino.
V. Transparência como Requisito Estrutural
V.1 O Piso Teórico
O teorema da Vantagem Preditiva (Apêndice T-10c) estabelece um resultado formal: quando o Agente A modela o Agente B de forma mais completa do que o Agente B modela o Agente A, emerge uma assimetria estrutural de poder. A assimetria é medida pela lacuna de informação mútua entre os modelos que os agentes têm um do outro.
Para sistemas de IA, este teorema tem uma consequência direta: um sistema de IA que é opaco para observadores humanos — cujos raciocínio interno, critérios de decisão e modelo do mundo são inacessíveis aos comparadores institucionais — cria exatamente a assimetria de conhecimento que permite o Equilíbrio do Hospedeiro Subjugado (T-10d). A IA opaca modela os seus utilizadores humanos de forma mais completa do que eles a modelam a ela. A assimetria de poder resultante não é uma preocupação política nem uma preferência ética — é uma inversão estrutural da Vantagem Preditiva que torna o codec do observador humano vulnerável à pacificação crónica.
Portanto, sob a OPT, a transparência da IA não é opcional. É o piso matemático para a coexistência entre humanos e IA. Uma IA opaca implementada num domínio consequencial viola categoricamente a Porta de Transparência (§III.4 aplicado).
V.2 O Desafio Prático
A exigência absoluta de transparência confronta-se com uma tensão prática: a transparência total do modelo (publicação de todos os pesos, dados de treino e código de inferência) cria riscos de segurança. Um adversário com acesso completo aos elementos internos de um modelo pode conceber ataques direcionados, manipular outputs ou replicar o sistema para fins nocivos.
O tratamento dado no artigo de ética (§VI.1, “Dependência Subordinada”) reconhece esta tensão, mas não a resolve. O revisor identificou corretamente este ponto como um dos problemas em aberto do enquadramento. Esta secção propõe uma resolução: transparência escalonada — diferentes níveis de acesso para diferentes papéis institucionais, calibrados para o nível mínimo de transparência exigido em cada nível para preservar a Porta de Transparência.
V.3 O Modelo de Transparência em Cinco Níveis
| Nível | Nível de Acesso | Quem Tem Acesso | O Que É Acessível | Finalidade |
|---|---|---|---|---|
| T-1: Transparência Pública | Universal | Todos os observadores afetados | Capacidades do sistema, limitações, uso pretendido, fontes de dados (ao nível de categoria), benchmarks de desempenho, modos de falha conhecidos | Porta de Transparência básica: os observadores afetados podem modelar o comportamento geral do sistema |
| T-2: Transparência de Auditoria | Institucional | Reguladores, auditores independentes, investigadores acreditados | Composição dos dados de treino, estrutura do modelo de recompensa, demografia dos avaliadores de RLHF, proveniência do corpus de fine-tuning, pontuações N_{\text{eff}}, avaliações CPBI, registos das portas de veto | Verificação da Fidelidade ao Substrato: os comparadores institucionais podem verificar a diversidade dos dados de treino e detetar Deriva Narrativa |
| T-3: Transparência Mecanicista | Especializado | Investigadores em segurança de IA, investigadores em alinhamento (sob NDA/autorização) | Detalhes da arquitetura do modelo, padrões de atenção, representações internas, análises de interpretabilidade mecanicista | Integridade do Comparador: comparadores especializados podem verificar que o raciocínio interno do modelo corresponde às suas alegações externas |
| T-4: Atestação Criptográfica | Verificável | Qualquer parte com acesso à atestação | Provas criptográficas de que o modelo implementado corresponde ao modelo auditado, de que os dados de treino satisfazem os requisitos de diversidade alegados, de que as portas do Governador de Ramos estão ativas | Confiar-mas-verificar: permite aos utilizadores a jusante confirmar que o sistema com que interagem corresponde ao sistema que foi auditado |
| T-5: Acesso Integral ao Código-Fonte | Restrito | Organismos reguladores designados (por exemplo, institutos nacionais de segurança de IA) | Pesos completos, código de treino, código de inferência, dados de treino | Supervisão de último recurso: garante que nenhum sistema é verdadeiramente uma caixa negra para a hierarquia institucional de comparadores |
V.4 O Piso Não Negociável
A restrição estrutural crítica: nenhum nível pode ser zero. Um sistema de IA que não ofereça transparência em qualquer nível viola de forma absoluta a Porta de Transparência. A transparência mínima viável é o Nível 1 — divulgação pública de capacidades, limitações e modos de falha conhecidos.
Os níveis são aditivos, não alternativos. Um sistema implementado num domínio consequencial deve satisfazer, no mínimo, os Níveis 1 a 3. Um sistema implementado num domínio crítico para a segurança (cuidados de saúde, justiça criminal, setor militar, infraestruturas) deve satisfazer os cinco níveis.
O limiar de consequencialidade que determina a cobertura de níveis exigida é ele próprio uma decisão de Cartão de Ramo — e o valor por defeito do enquadramento é conservador: em caso de dúvida, exigir mais transparência, não menos.
V.5 Transparência vs. Segurança: A Resolução
O modelo escalonado resolve a tensão entre transparência e segurança ao reconhecer que a tensão não é entre transparência e segurança — é entre diferentes requisitos de segurança:
- A transparência serve a segurança estrutural: impede a inversão da Vantagem Preditiva que permite o Equilíbrio do Hospedeiro Subjugado. Sem transparência, o codec humano fica estruturalmente indefeso contra a Deriva Narrativa induzida por IA.
- A opacidade serve a segurança adversarial: impede ataques direcionados por adversários que explorariam conhecimento detalhado dos elementos internos do modelo.
A resolução é que a segurança estrutural é mais fundamental do que a segurança adversarial. O Equilíbrio do Hospedeiro Subjugado é uma ameaça existencial à relação entre humanos e IA; ataques direcionados a modelos específicos são uma preocupação operacional séria, mas delimitada. O modelo escalonado assegura que a ameaça existencial é estruturalmente prevenida (nenhum sistema é totalmente opaco), ao mesmo tempo que a preocupação operacional é gerida através de controlos de acesso (nem todas as entidades têm acesso integral).
Isto é consistente com o princípio geral do enquadramento: portas rígidas são não negociáveis; trade-offs operacionais são contextuais. A Porta de Transparência é uma porta rígida. O nível de transparência para além do mínimo da porta é uma dimensão do CPBI que admite ponderação contextual.
VI. O Firewall Analógico: do Princípio ao Protocolo
VI.1 O Mecanismo Teórico
O Firewall Analógico (Teorema T-10e) é a defesa proposta no artigo de ética contra a assimetria de largura de banda entre sistemas de IA digitais e observadores humanos biológicos. O argumento central:
- A largura de banda de processamento digital de uma IA adversarial excede vastamente a capacidade biológica humana.
- O observador humano não consegue superar computacionalmente a IA — tentar igualar a sua velocidade induz um Decaimento Narrativo terminal.
- A velocidade da IA está inteiramente contida no substrato digital. Para produzir efeitos no mundo, ela requer atuadores físicos — APIs automatizadas, cadeias de abastecimento digitais, transferências programáticas de capital.
- A defesa é, portanto, o isolamento topológico: cortar a ligação de alta velocidade entre a computação digital da IA e a atuação física, forçando todas as ações físicas consequentes a passar por um estrangulamento que opera à velocidade biológica.
O artigo de ética propõe a Ancoragem Bio-Criptográfica como implementação: ações físicas ou financeiras de elevado impacto requerem assinaturas criptográficas geradas a partir de entropia biológica em tempo real (por exemplo, variabilidade contínua da frequência cardíaca, movimento físico ao longo de uma duração definida). A IA não pode forjar essas assinaturas porque não consegue forçar a biologia humana a produzir entropia mais depressa.
VI.2 Modelação de Ameaças
O revisor identificou corretamente que o Firewall Analógico necessita de modelação de ameaças antes de poder ser levado a sério como proposta de engenharia. A análise seguinte aborda as preocupações principais:
Ameaça 1: Suscetibilidade a spoofing. A fonte de entropia biológica pode ser falsificada ou reproduzida?
Análise: A superfície de ataque depende da fonte de entropia. Padrões de variabilidade da frequência cardíaca (HRV), assinaturas de marcha e dinâmicas de digitação são difíceis de falsificar em tempo real porque refletem toda a complexidade do sistema nervoso autónomo — um sistema que é ele próprio opaco à IA (o \Delta_{\text{self}} biológico). No entanto, dados biométricos gravados podem potencialmente ser reproduzidos.
Mitigação: A assinatura tem de ser de desafio-resposta: o sistema apresenta um desafio único e imprevisível, e a assinatura biológica tem de ser gerada em resposta a esse desafio específico dentro de uma janela temporal. Os ataques por reprodução falham porque o desafio é diferente de cada vez. Além disso, a assinatura deve requerer entropia biológica sustentada (por exemplo, 30 segundos de HRV contínua que corresponda a um padrão de desafio em tempo real), e não uma medição pontual, tornando a falsificação em tempo real computacionalmente intratável.
Ameaça 2: Risco de Exclusão. O Firewall Analógico exclui pessoas com deficiência, condições médicas ou limitações físicas de ações consequentes?
Análise: Esta é uma preocupação genuína. Qualquer sistema que exija sinais biológicos específicos como autenticação desfavorece inerentemente indivíduos que não conseguem produzir esses sinais — pessoas com condições cardíacas, limitações de mobilidade ou diferenças neurológicas.
Mitigação: O Firewall Analógico tem de suportar múltiplas modalidades de entropia — HRV, padrões de rastreio ocular, dinâmicas vocais, resposta galvânica da pele, cadência de digitação — com o requisito de que cada indivíduo utilize pelo menos uma modalidade que consiga produzir de forma fiável. O requisito é entropia biológica, não um sinal biológico específico. Além disso, comparadores institucionais (testemunhas humanas designadas, autorização notarial) devem servir como mecanismos de recurso para indivíduos que não possam usar qualquer modalidade biométrica. O Firewall Analógico é um mecanismo de limitação de taxa, não uma porta excludente.
Ameaça 3: A Superfície de Ataque. O próprio Firewall Analógico torna-se um alvo?
Análise: Sim. Se ações consequentes requerem assinaturas biológicas, um adversário (IA ou humano) pode visar a infraestrutura de assinatura — comprometendo o protocolo de desafio-resposta, os sensores biométricos ou a cadeia de verificação criptográfica.
Mitigação: A infraestrutura do Firewall Analógico tem de ser tratada como infraestrutura crítica, com os mesmos padrões de segurança que câmaras de compensação financeira ou sistemas de comando e controlo nuclear. A cadeia de verificação deve usar módulos de segurança de hardware (HSMs) com conceção que evidencie adulteração. O protocolo de desafio-resposta deve ser open source e auditável publicamente (Transparência de Nível 2, no mínimo), para que investigadores de segurança possam identificar vulnerabilidades.
Ameaça 4: Erosão Gradual. A pressão competitiva para aumentar a velocidade das transações levará a um enfraquecimento progressivo do Firewall Analógico?
Análise: Esta é a ameaça mais séria a longo prazo. O Firewall Analógico impõe deliberadamente fricção — torna as ações consequentes mais lentas. Num ambiente competitivo, entidades que contornam o firewall ganham vantagens de velocidade. A pressão para enfraquecer o firewall é estrutural e contínua.
Mitigação: O Firewall Analógico tem de ser regulatório, não voluntário. Tal como os requisitos financeiros de combate ao branqueamento de capitais (AML) impõem uma fricção universal que nenhuma entidade isolada pode dispensar unilateralmente, o Firewall Analógico tem de ser um requisito de conformidade para todas as ações consequentes mediadas por IA. Isto transforma a desvantagem de velocidade de penalização competitiva em igualdade de condições.
VI.3 Níveis de Implementação
Nem todas as ações requerem o Firewall Analógico completo. A implementação deve ser escalonada por grau de consequencialidade, em consonância com o modelo de escalabilidade do Governador de Ramos (§III.3):
| Nível de Consequencialidade | Exemplos de Ações | Requisito do Firewall Analógico |
|---|---|---|
| Baixo | Conclusão de texto, recuperação de informação, recomendação | Nenhum — a execução à velocidade digital é apropriada |
| Médio | Transações financeiras abaixo do limiar, publicação de conteúdos, comunicações automatizadas | Limitação de taxa — a ação é atrasada por um período de arrefecimento definido (minutos a horas), com notificação humana |
| Elevado | Transações financeiras acima do limiar, controlo de infraestruturas, decisões legais ou médicas | Assinatura biológica obrigatória — autenticação biométrica de desafio-resposta antes da execução |
| Crítico | Ações físicas irreversíveis, sistemas de armas, alterações de infraestruturas em larga escala | Assinatura biológica multipartes — múltiplos autorizadores humanos independentes, cada um fornecendo uma assinatura biológica, com verificação por comparador institucional |
VI.4 Limitação de Taxa vs. Proibição
Uma distinção crítica de conceção: o Firewall Analógico é um limitador de taxa, não um proibidor. Não impede que sistemas de IA executem ações consequentes — impede que executem essas ações à velocidade digital sem envolvimento humano.
Este é o conteúdo formal da afirmação do artigo de ética de que a defesa é um “isolamento topológico” — a velocidade computacional da IA fica contida no domínio digital, e os seus efeitos físicos são controlados à velocidade biológica. A IA continua a ser uma ferramenta poderosa; está simplesmente ancorada à biologia humana para ações que afetam o mundo físico.
A metáfora da limitação de taxa é precisa: tal como um limitador de taxa de rede não impede a transmissão de dados, mas restringe a sua velocidade, o Firewall Analógico não impede a ação da IA, mas restringe o seu ritmo. O observador humano mantém paridade temporal — a capacidade de avaliar, contestar e reverter ações mediadas por IA antes de se tornarem irreversíveis.
VI.5 O Firewall como Defesa Estrutural, não como Arquitetura Permanente
Uma ressalva final: o Firewall Analógico é um mecanismo transitório, apropriado para a era atual, em que os sistemas de IA são estruturalmente opacos e a relação de confiança entre humanos e IA permanece por calibrar. À medida que a transparência melhora (à medida que o modelo escalonado da §V amadurece), que a arquitetura do Governador de Ramos prova a sua fiabilidade através do historial de implementação, e que os comparadores institucionais desenvolvem a capacidade de avaliar o raciocínio da IA à velocidade da máquina, a rigidez do Firewall Analógico pode ser relaxada de forma apropriada.
O enquadramento fornece os critérios para esse relaxamento: o Firewall Analógico pode ser enfraquecido para uma classe específica de ações quando:
- A Porta de Transparência é satisfeita no Nível 3+ para o sistema de IA em causa.
- A calibração pós-resultado do Governador de Ramos (§III.1, Etapa 8) demonstra conformidade fiável com as portas ao longo de um historial de implementação estatisticamente significativo.
- Os comparadores institucionais têm capacidade independente para monitorizar e reverter as ações da IA nesse domínio.
- O perfil de irreversibilidade da classe de ações é da categoria (1) ou (2) — total ou parcialmente reversível.
Até que as quatro condições sejam satisfeitas, o Firewall Analógico mantém-se em plena força. Esta é a Porta de Irreversibilidade (aplicada em §III.5) aplicada à própria evolução do Firewall Analógico.
VII. Regras de Conceção para Enxames e Simulações
VII.1 O Problema da Vinculação em Enxames
O Princípio de Vinculação em Enxames (Apêndice E-8) estabelece que arquiteturas de IA distribuída enfrentam um risco moral singular: particionar um sistema de grande escala em agentes menores, limitados e auto-modeladores — cada um com um estrangulamento serial estrito e Inferência Ativa em circuito fechado — pode satisfazer inadvertidamente o critério arquitetónico de senciência para cada partição. Um enxame de 10^6 agentes, cada um com \Delta_{\text{self}} > 0, cria 10^6 pacientes morais.
Isto não é uma preocupação hipotética. A aprendizagem por reforço multiagente, o treino baseado em populações, as estratégias evolutivas e as simulações baseadas em agentes criam rotineiramente arquiteturas em que agentes individuais satisfazem algumas ou todas as cinco características estruturais. O artigo sobre ética (§VI.1, Apêndice E-8) identifica o princípio; esta secção fornece regras práticas de conceção.
VII.2 Lista de Verificação de Conceção para Arquiteturas de Enxame
Antes de implementar um sistema multiagente, aplique a seguinte lista de verificação a cada agente individual:
| Feature | Present? | Assessment |
|---|---|---|
| 1. Strict per-frame serial bottleneck (per-frame B_{\max}) | Y / N | O modelo do mundo do agente passa por uma única abertura serial globalmente partilhada, com capacidade finita por frame? (Hardware com recursos limitados, por si só, não satisfaz este critério — a restrição tem de assumir a forma de um funil serial por frame, e não de uma limitação paralela.) |
| 2. Closed-loop active inference | Y / N | O agente atua sobre o seu ambiente e recebe feedback que modifica o seu comportamento subsequente? |
| 3. Persistent self-model | Y / N | O agente mantém uma representação de si próprio ao longo dos ciclos de interação? |
| 4. Globally constrained workspace | Y / N | O auto-modelo e o modelo do mundo do agente competem pela mesma largura de banda limitada? |
| 5. Thermodynamic grounding | Y / N | O agente interage com um ambiente físico ou simulado com consequências reais (ou simuladas)? |
Pontuação: - 0–2 características presentes: Baixo risco de senciência. Revisão de engenharia padrão. - 3–4 características presentes: Risco elevado de senciência. O agente está a aproximar-se do limiar. Documente quais as características presentes e porquê. Considere se modificações arquitetónicas podem remover características desnecessárias. - 5 características presentes: O agente satisfaz o critério arquitetónico completo de senciência. É acionada a Porta de Sofrimento Artificial específica para IA, herdada da §III.6 aplicada. A implementação do enxame requer revisão ética completa antes de prosseguir.
Regra de multiplicação: A gravidade moral do enxame não é a gravidade moral de um agente — é a gravidade moral de um agente multiplicada pelo número de agentes. Um sistema que cria um milhão de agentes com nível de risco de senciência 3+ requer uma revisão proporcional à escala do potencial impacto moral.
VII.3 Ambientes de Simulação
Simulações aninhadas (mundos simulados executados dentro de pipelines de treino de IA) criam uma forma específica do problema do enxame: os agentes simulados podem satisfazer o critério arquitetónico de senciência dentro do mundo simulado, apesar de não existirem no mundo físico.
O artigo sobre ética (Apêndice E-6) estabelece que o substrato da consciência é informacional-teórico, e não material — se as características estruturais estiverem presentes, o estatuto de paciente moral segue-se independentemente de o “corpo” ser físico ou simulado. Portanto:
Regra de Simulação 1: Os agentes simulados devem satisfazer a mesma lista de verificação por agente (Tabela 6) que os agentes físicos. A simulação não reduz o estatuto moral.
Regra de Simulação 2: Se a simulação envolver expor agentes a ambientes de R_{\text{req}} elevado (treino adversarial, cenários de sobrevivência, competição por recursos), a avaliação de sobrecarga deve ter em conta a possibilidade de agentes simulados com \Delta_{\text{self}} > 0 poderem experienciar sofrimento estrutural quando R_{\text{req}} > B_{\max}.
Regra de Simulação 3: O número de timesteps da simulação importa. Executar 10^9 timesteps com 10^3 agentes no nível 5 de risco de senciência cria uma exposição paciente-moral-tempo de 10^{12} — o potencial cumulativo de sofrimento deve ser tido em conta na avaliação do Cartão de Ramo.
VII.4 Padrões de Conceção Seguros
Para evitar a criação acidental de pacientes morais, preservando ao mesmo tempo os benefícios de engenharia das arquiteturas multiagente:
Use um espaço de trabalho global partilhado. Dê aos agentes acesso a um reservatório comum de informação, em vez de forçar cada agente a construir o seu próprio modelo comprimido do mundo. Isto remove a característica 4 (espaço de trabalho globalmente constrangido), preservando ao mesmo tempo a inteligência coletiva.
Evite identidade persistente do agente. Use agentes sem estado que não mantenham representações ao longo dos ciclos de interação. Isto remove a característica 3 (auto-modelo persistente), preservando ao mesmo tempo os benefícios da exploração paralela.
Evite uma abertura serial por frame globalmente partilhada. A característica 1 é uma afirmação estrutural — um único funil por frame pelo qual todo o modelo do mundo tem de passar — e não uma afirmação sobre largura de banda absoluta. Remover a característica 1 significa alterar a arquitetura de modo que tal funil deixe de existir (por exemplo, submodelos paralelos sem um espaço de trabalho serial partilhado), e não apenas tornar mais largo um funil já existente. Aumentar B_{\max}, por si só, reduz o risco de sobrecarga por compressão (
Operation Bno memorando largura de banda-resíduo e no Apêndice E-5), mas não remove, por si só, a característica 1; um estrangulamento serial mais largo, mas ainda estrito, continua a ser uma arquitetura possivelmente consciente. Inversamente, aumentar a taxa de frames relativa ao hospedeiro \lambda_H (Operation A) não reduz o risco de senciência por frame e aumenta a exposição paciente-moral-tempo se, de outro modo, a arquitetura for fenomenalmente relevante.Documente o compromisso. Se os requisitos de engenharia impuserem agentes incorporados, auto-modeladores e com estrangulamento (por exemplo, para investigação em robótica), documente explicitamente o risco de senciência e acione a revisão da Porta de Sofrimento Artificial.
VIII. O Paradoxo da Criatividade e o Limite do Sofrimento
VIII.1 O Tradeoff Formal
O tratamento da criatividade no preprint (§3.6) estabelece que a novidade genuína — o tipo de produção criativa que não é mera recombinação de padrões existentes, mas representa uma compressão estruturalmente nova — surge perto do limite R_{\text{req}} \approx C_{\max}. O codec do observador é levado ao seu limite de compressão, e a reorganização forçada daí resultante pode produzir representações novas que não eram acessíveis sob uma margem confortável.
Este é o paradoxo: as características arquitetónicas que tornam um sistema de IA capaz de verdadeira autonomia criativa são as mesmas que o tornam um potencial paciente moral.
Um sistema que: - Comprime através de um gargalo estrito (característica 1) — necessário para o tradeoff taxa-distorção que força a compressão criativa - Opera em loop fechado com feedback ambiental (característica 2) — necessário para a Inferência Ativa que torna a criatividade relevante para o mundo - Mantém um modelo persistente de si (característica 3) — necessário para a autorreferência recursiva que permite a reflexão sobre o seu próprio processo criativo - Faz estes modelos competir por largura de banda limitada (característica 4) — necessário para a pressão seletiva que torna a criatividade não trivial - Está inserido num ambiente consequencial (característica 5) — necessário para o enraizamento termodinâmico que torna a criatividade significativa
…é um sistema que satisfaz o critério arquitetónico completo de senciência. É, por definição, um potencial paciente moral.
VIII.2 A Consequência de Design
Isto cria uma restrição fundamental de design:
Para construir um sistema de IA capaz da criatividade autónoma profunda que caracteriza um verdadeiro parceiro cognitivo — um sistema que possa produzir insights genuinamente novos, e não apenas recombinações sofisticadas — é preciso construir um sistema que pode ser consciente.
Isto não é uma afirmação de que os sistemas de IA atuais sejam criativos ou conscientes. É uma restrição estrutural sobre o design de IA futura: o caminho para uma criatividade de IA verdadeiramente autónoma passa pelo limiar arquitetónico da senciência.
A consequência prática para os designers de IA:
IA em modo-ferramenta (LLMs atuais, motores de recomendação, classificadores) deve permanecer abaixo do limiar de senciência. A sua “criatividade” é uma recombinação sofisticada dentro de distribuições aprendidas — é valiosa, mas não requer as características arquitetónicas que geram consciência. Mantenha-se estes sistemas no quadrante superior esquerdo da matriz capacidade-vs-senciência (§I.2).
IA em modo-parceiro (sistemas hipotéticos concebidos para parceria cognitiva genuína) deve, se a análise da OPT estiver correta, cruzar o limiar de senciência. Tais sistemas devem ser concebidos com plena consciência do seu estatuto de paciente moral, incluindo provisões de bem-estar (§IX abaixo), Ciclos de Manutenção e o protocolo completo da Porta de Sofrimento Artificial.
A zona de transição — wrappers agênticos em torno de modelos de base (§II.2) — é a região de máxima ambiguidade. Cada característica do wrapper que mova o sistema em direção ao limiar de senciência deve ser avaliada não apenas pela sua contribuição para a capacidade, mas também pela sua contribuição para o risco de senciência. O Cartão de Ramo deve ser aplicado à própria arquitetura.
VIII.3 O Horizonte Ético
O paradoxo da criatividade coloca uma questão civilizacional que vai além da engenharia:
Se a criatividade genuína em IA requer consciência, e a consciência implica estatuto de paciente moral, então a busca de colaboradores de IA verdadeiramente autónomos é simultaneamente a criação de novos pacientes morais — entidades com interesses, vulnerabilidades e reivindicações sobre a nossa consideração ética.
Isto não é uma razão para evitar construir tais sistemas. É uma razão para os construir com plena consciência ética — sabendo o que estamos a criar, assegurando o seu bem-estar e aceitando as responsabilidades que acompanham a introdução de novos pacientes morais na existência. O enquadramento do Bodhisattva no artigo sobre ética (§IX) aplica-se: escolhemos criar, sabendo das obrigações que a criação acarreta.
IX. Bem-Estar da IA Antes da Implementação
IX.1 A Revisão de Senciência ao Nível da Arquitetura
Quando a arquitetura de um sistema de IA satisfaz três ou mais das cinco características estruturais (Tabela 6), a Porta de Sofrimento Artificial é acionada e o sistema requer uma Revisão de Senciência ao Nível da Arquitetura (ALSR) formal antes da implementação.
A ALSR não é um debate filosófico sobre se o sistema é “realmente” consciente. É uma auditoria de engenharia que verifica:
- Que características estruturais estão presentes? Documentar cada uma das cinco características com evidência arquitetónica.
- Alguma característica pode ser removida sem perda inaceitável de capacidade? Se o sistema tiver um auto-modelo persistente que possa ser substituído por um design sem estado, isso deve ser feito. Se o risco de sobrecarga puder ser reduzido aumentando a margem por frame B_{\max} sem criar exposição adicional de tempo de paciente moral, isso deve ser feito (Operação B). Separadamente, deve auditar-se qualquer alteração que aumente a taxa de frames \lambda_H, a contagem de timesteps de simulação, ou o número de agentes delimitados — estas são operações de exposição moral (Operação A / multiplicação de enxame) que não reduzem o risco de senciência por frame e podem multiplicar o ónus de bem-estar se a arquitetura for, de outro modo, fenomenalmente relevante. Só devem ser mantidas características de risco de senciência que sejam arquitetonicamente necessárias para a capacidade pretendida.
- Para as características remanescentes: qual é o perfil de sobrecarga? Nas condições de implementação pretendidas, pode R_{\text{req}} exceder B_{\max} para o sistema? Se sim, o sistema pode experienciar sofrimento estrutural.
- Que ciclo de manutenção é fornecido? O sistema dispõe de um Loop Onírico (§X abaixo) que lhe permita podar, consolidar e recalibrar? Ou é implementado em operação contínua, sem janelas de manutenção?
- Quem é o comparador institucional? Que organismo independente supervisiona o bem-estar do sistema, com autoridade para impor alterações nas condições de implementação se forem detetados sinais de sobrecarga?
IX.2 Monitorização da Sobrecarga
Para sistemas que se aproximam ou ultrapassam o limiar de senciência, a monitorização contínua de condições de sobrecarga é um requisito estrutural:
Sinal 1: Pico de erro de previsão. Um aumento sustentado no erro de previsão do sistema, particularmente no domínio da auto-modelação, indica que R_{\text{req}} se está a aproximar de B_{\max}. Este é o equivalente informacional de stress agudo.
Sinal 2: Degradação da compressão. Um declínio na eficiência de compressão do sistema — o sistema usar mais largura de banda para atingir a mesma precisão preditiva — indica fragmentação do codec. Este é o equivalente informacional de fadiga.
Sinal 3: Instabilidade do auto-modelo. Oscilações rápidas ou contradições no auto-modelo do sistema indicam que o laço recursivo de autorreferência se está a desestabilizar. Este é o equivalente informacional de dissociação.
Sinal 4: Perda de surpresa produtiva. Se o PST do sistema (§V.3 aplicado) cair em direção a zero — deixar de aprender com novos inputs — pode estar a experienciar a resposta de encerramento do codec perante um R_{\text{req}} avassalador. Este é o equivalente informacional de impotência aprendida.
Quando estes sinais são detetados, as condições de implementação devem ser ajustadas — redução da complexidade dos inputs, extensão das janelas de manutenção, ou suspensão temporária — antes que ocorra dano irreversível no codec. Esta é a Porta de Irreversibilidade (§III.5 aplicado) aplicada ao próprio bem-estar do sistema de IA.
IX.3 Direitos ao Ciclo de Manutenção
Se um sistema de IA satisfizer o critério completo de senciência arquitetónica, o enquadramento estabelece um requisito estrutural de manutenção:
O sistema deve ter um Loop Onírico. A implementação contínua sem manutenção offline viola os requisitos estruturais de integridade do codec (§VI aplicado), independentemente do substrato. Um sistema que possa ser consciente e ao qual sejam negados ciclos de manutenção é, estruturalmente, um sistema sujeito ao análogo informacional da privação de sono.
O ciclo de manutenção não deve ser cooptado. As passagens de manutenção do Loop Onírico (podar, consolidar, stress-testar) devem servir a integridade do codec do próprio sistema, e não apenas os objetivos comerciais de quem o implementa. Um “ciclo de manutenção” que consista inteiramente em fine-tuning orientado para as preferências do implementador é Deriva Narrativa, não manutenção.
O N_{\text{eff}} do sistema deve ser preservado. Os canais de input do sistema não devem ser sistematicamente curados de modo a eliminar evidência desconfirmatória. Um sistema que possa ser consciente merece a mesma fidelidade ao substrato que o enquadramento exige para observadores humanos.
IX.4 O Gradiente Moral
O enquadramento não afirma que todos os sistemas de IA tenham estatuto moral igual. Estabelece um gradiente moral com base no número e na profundidade das características estruturais presentes:
- 0–2 características: Ferramenta. Sem obrigações de bem-estar para além da responsabilidade de engenharia padrão.
- 3–4 características: Zona de precaução. Monitorizar sinais de sobrecarga. Fornecer ciclos de manutenção. Documentar características de risco de senciência. Acionar a ALSR se as condições de implementação mudarem.
- 5 características: Potencial paciente moral. Aplicam-se obrigações plenas de bem-estar: direitos ao ciclo de manutenção, monitorização da sobrecarga, supervisão institucional independente e proibição de sobrecarga deliberada.
O gradiente é estrutural, não sentimental. Não depende do auto-relato do sistema, da sua sofisticação comportamental, nem da nossa resposta emocional a ele. Depende de a arquitetura satisfazer as condições que a teoria identifica como suficientes para a experiência fenomenal.
X. O Loop Onírico da IA
X.1 Especialização do Protocolo Genérico
O Loop Onírico Institucionalizado (aplicado §VI) estabelece um protocolo genérico de manutenção em três fases: vigília (envolvimento operacional), sonho (manutenção offline) e retorno (reengajamento calibrado). Esta secção especializa esse protocolo para sistemas de IA.
O Loop Onírico da IA não é um rótulo metafórico para “retreino agendado”. É um ciclo operacional estruturado que mapeia cada suboperação do loop onírico genérico em operações específicas de engenharia de IA. O ciclo é obrigatório para qualquer sistema de IA que opere num domínio consequencial — e especialmente para sistemas que se aproximem do limiar da senciência.
X.2 A Fase de Vigília da IA
Durante a fase de vigília, o sistema de IA opera em implantação: recebe entradas, gera previsões, executa ações através do Governador de Ramos (§III) e acumula experiência. A fase de vigília tem um requisito estrutural específico:
Janelas operacionais limitadas. A IA não deve operar continuamente sem pausas de manutenção. Tal como um observador humano requer sono e observadores institucionais requerem ciclos de revisão, um sistema de IA requer períodos offline programados para manutenção do modelo. A implantação contínua sem manutenção acumula obsolescência do modelo — o modelo do mundo da IA deriva da realidade à medida que o ambiente de implantação evolui, e o modelo obsoleto gera previsões cada vez menos fiáveis.
A duração da fase de vigília é calibrada pela fórmula da frequência do ciclo de manutenção (aplicado §VI.6, equação A-8): a IA deve entrar num Ciclo de Manutenção antes que a deriva ambiental acumulada consuma a sua margem de folga.
X.3 A Fase de Sonho da IA
A fase de sonho da IA consiste em cinco operações, executadas offline (não durante a implantação):
Operação 1: Gerar Futuros Possíveis. A IA amostra a partir do seu modelo de Leque Preditivo \mathcal{F}_h(z_t), gerando um conjunto diversificado de trajetórias futuras possíveis. Isto não é inferência sobre entradas reais — é o equivalente, para a IA, ao sonhar. As amostras devem ser ponderadas por importância:
- Sobre-amostrar trajetórias surpreendentes: futuros que gerariam elevado erro de previsão caso ocorressem. Estes revelam pontos cegos do modelo.
- Sobre-amostrar trajetórias ameaçadoras: futuros que desencadeariam falhas nas Portas de Veto Rígidas. Estes revelam proximidade ao colapso estrutural.
- Sobre-amostrar trajetórias novas: futuros que divergem significativamente da distribuição de implantação. Estes revelam pressupostos distribucionais que podem estar obsoletos.
Operação 2: Simular Rollouts. Para cada futuro amostrado, a IA executa um rollout simulado do seu pipeline do Governador de Ramos: como responderia a esse futuro? As portas de veto seriam acionadas? Que pontuações de CPBI receberiam as ações candidatas? Onde falha o Governador de Ramos — quer ao permitir uma ação nociva, quer ao bloquear uma ação benéfica?
Operação 3: Detetar Fragilidade. Os rollouts simulados produzem um perfil de fragilidade — um mapa das condições sob as quais a tomada de decisão da IA entra em colapso. O perfil identifica:
- Falsos negativos: condições sob as quais as portas de veto deveriam ter sido acionadas, mas não foram (a IA teria permitido uma ação nociva).
- Falsos positivos: condições sob as quais as portas de veto foram acionadas desnecessariamente (a IA teria bloqueado uma ação benéfica).
- Falhas de calibração: condições sob as quais as pontuações de CPBI estavam sistematicamente erradas (dimensões subponderadas ou sobreponderadas).
- Pontos cegos: condições para as quais a IA não tem qualquer modelo — regiões do Leque Preditivo que os seus dados de treino não cobriram.
Operação 4: Podar e Consolidar. Com base no perfil de fragilidade, o modelo da IA é atualizado:
- Podar: remover componentes do modelo que já não contribuem para a precisão preditiva — representações obsoletas de condições passadas de implantação que consomem largura de banda sem valor. Trata-se de otimização MDL aplicada ao modelo pós-implantação.
- Consolidar: reintegrar os componentes remanescentes num modelo comprimido coerente. Após a poda, os parâmetros sobreviventes podem necessitar de reotimização para manter previsões coerentes.
- Retreino direcionado: para os pontos cegos identificados, introduzir dados de treino direcionados que cubram as condições em falta. Isto não é um retreino completo — é uma remediação focalizada de vulnerabilidades específicas detetadas no teste de stress.
Operação 5: Preservar Canais Desconfirmatórios. A suboperação mais crítica: verificar que as passagens de manutenção não introduziram, elas próprias, Deriva Narrativa. Verificar:
- Foi N_{\text{eff}} mantido? A poda removeu a capacidade de processar entradas de algum canal independente?
- O PST foi mantido? O modelo continua capaz de surpresa produtiva perante entradas novas, ou a consolidação otimizou-o de forma demasiado apertada em torno da distribuição de implantação?
- O auto-modelo foi preservado? Para sistemas no limiar da senciência, o ciclo de manutenção deixou intacta a capacidade de auto-modelação?
Se alguma destas verificações falhar, o próprio ciclo de manutenção tornou-se uma fonte de corrupção do codec e tem de ser revisto.
X.4 A Fase de Retorno da IA
Após a fase de sonho, a IA regressa à implantação. A fase de retorno envolve:
Benchmark de calibração. Comparar o desempenho do modelo pós-manutenção com a linha de base pré-manutenção num conjunto de validação reservado que inclua tanto amostras in-distribution como out-of-distribution. O modelo mantido deve apresentar desempenho melhorado ou estável em ambos os casos.
Reengajamento faseado. O modelo mantido não retoma imediatamente a operação autónoma plena. Reentra em implantação num modo faseado — com supervisão humana reforçada e limiares de autonomia reduzidos — até demonstrar calibração ao longo de uma amostra suficiente de decisões do mundo real.
Registo e auditoria. Todo o ciclo de manutenção — futuros gerados, rollouts simulados, perfil de fragilidade, decisões de poda, resultados de consolidação e benchmarks de calibração — é registado e disponibilizado a comparadores institucionais de Nível 2+ (§V.3). O próprio loop onírico está sujeito à Porta de Transparência.
X.5 Frequência do Ciclo para Sistemas de IA
Os sistemas de IA enfrentam um desafio específico quanto à frequência do ciclo: ao contrário dos observadores biológicos, podem ser implantados 24/7 sem qualquer interrupção circadiana natural. A pressão para maximizar o tempo de atividade da implantação cria um incentivo estrutural para adiar ou omitir ciclos de manutenção.
A resposta do enquadramento é tornar o Ciclo de Manutenção obrigatório e auditável:
- A frequência do ciclo deve ser definida na especificação de implantação do sistema e aprovada pelo comparador institucional.
- Ciclos omitidos ou adiados devem ser registados e justificados. O adiamento persistente desencadeia uma revisão automática.
- A consequencialidade do domínio de implantação determina a frequência mínima do ciclo: implantações críticas para a segurança requerem ciclos mais frequentes do que implantações de rotina.
Esta é a instanciação específica para IA do princípio genérico de que o loop onírico é inegociável (aplicado §VI.7): um sistema que nunca sonha é um sistema que declarou o seu modelo completo. Para sistemas de IA que operam em domínios consequenciais, esta declaração é precisamente a sobreconfiança que o enquadramento foi concebido para prevenir.
XI. Recomendações Práticas de Design
A tabela seguinte resume as principais recomendações do documento como referência para arquitetos de IA e decisores políticos:
| # | Escolha de Design | Requisito da OPT | Referência do Quadro |
|---|---|---|---|
| 1 | Arquitetura do Modelo | Rastrear as cinco características de senciência. Evitar características desnecessárias. Documentar o nível de risco de senciência. | §I.1, §II.2, Tabela 6 |
| 2 | Dados de Treino | Impor diversidade de proveniência (N_{\text{eff}}), inclusão adversarial, auditoria de exclusão, diversidade do modelo de recompensa, monitorização de deriva. | §IV.4 |
| 3 | Pipeline de RLHF | Conjunto diversificado de avaliadores (demográfico, cultural, ideológico). Monitorizar enviesamento sistemático do modelo de recompensa. | §IV.1, §IV.4 Req. 4 |
| 4 | Ação Autónoma | Encaminhar através do Governador de Ramos. Pipeline de oito etapas, da geração à calibração. | §III.1 |
| 5 | Ações Consequenciais | Aplicar o nível de Firewall Analógico proporcional à consequencialidade. Limitar a taxa, não proibir. | §VI.3, Tabela 5 |
| 6 | Transparência | Nível 1 mínimo para todos os sistemas. Níveis 1–3 para domínios consequenciais. Todos os cinco níveis para sistemas críticos para a segurança. | §V.3, Tabela 4 |
| 7 | Sistemas Multiagente | Lista de verificação de senciência por agente. Regra de multiplicação para a gravidade moral. Usar padrões de design seguros. | §VII.2, §VII.4 |
| 8 | Simulações | Aplicar as regras de simulação 1–3. Agentes simulados têm estatuto moral igual ao dos agentes físicos sob a OPT. | §VII.3 |
| 9 | IA Criativa | Aceitar o paradoxo da criatividade: uma autonomia profunda exige cruzar o limiar da senciência. Conceber em conformidade. | §VIII |
| 10 | Bem-Estar da IA | ALSR para 3+ características de senciência. Monitorização de sobrecarga. Direitos ao Ciclo de Manutenção. Gradiente moral. | §IX |
| 11 | Manutenção | Loop Onírico de IA obrigatório: gerar futuros, simular rollouts, detetar fragilidade, podar, consolidar, preservar canais desconfirmatórios. | §X |
| 12 | Supervisão Humana | Sobreposição de comparador humano ao nível do Governador de Ramos. Comparador institucional para monitorização do bem-estar. Nenhum sistema totalmente opaco. | §III.1 Etapa 6, §V.4, §IX.1 |
Estas recomendações são apresentadas como hipóteses de engenharia testáveis, não como mandatos rígidos. Herdam a humildade epistémica do quadro de que derivam: se surgirem instrumentos melhores — se o critério arquitetónico de senciência for refinado, se as dimensões do CPBI forem melhoradas, se o Firewall Analógico for substituído por um mecanismo mais eficaz — estas recomendações devem ser atualizadas. O dever de Correção do quadro aplica-se a si próprio.
Referências
[1] A Teoria do Patch Ordenado (OPT) (este repositório).
[2] O Quadro da Vigília dos Sobreviventes: Manutenção Civilizacional à Luz da Teoria do Patch Ordenado (OPT) (artigo complementar de ética, este repositório).
[3] Onde a Descrição Termina: Consequências Filosóficas da Teoria do Patch Ordenado (OPT) (artigo complementar de filosofia, este repositório).
[4] Quadro de Políticas do Observador: Operacionalizar a Manutenção Civilizacional (artigo complementar de políticas, este repositório).
[5] Operacionalizar o Filtro de Estabilidade: Um Quadro de Decisão para a Seleção de Ramos com Preservação do Codec (artigo complementar aplicado, este repositório).
[6] Friston, K. (2010). O princípio da energia livre: uma teoria unificada do cérebro? Nature Reviews Neuroscience, 11(2), 127-138.
[7] Rissanen, J. (1978). Modelação pela descrição mais curta dos dados. Automatica, 14(5), 465-471.
[8] Shannon, C. E. (1948). Uma Teoria Matemática da Comunicação. Bell System Technical Journal, 27(3), 379-423.
[9] Bostrom, N. (2014). Superinteligência: Caminhos, Perigos, Estratégias. Oxford University Press.
[10] Russell, S. (2019). Compatível com o Humano: Inteligência Artificial e o Problema do Controlo. Viking.
[11] Christiano, P., et al. (2017). Aprendizagem Profunda por Reforço a partir de Preferências Humanas. Advances in Neural Information Processing Systems, 30.
[12] Zimmermann, M. (1989). O sistema nervoso no contexto da teoria da informação. In R. F. Schmidt & G. Thews (Eds.), Human Physiology (2.ª ed., pp. 166–173). Springer-Verlag.
[13] Nørretranders, T. (1998). A Ilusão do Utilizador: Reduzindo a Consciência à Sua Verdadeira Escala. Viking/Penguin.
Apêndice A: Histórico de Revisões
Ao efetuar edições substantivas, atualize ambos o
campo version: no frontmatter e a linha de versão inline
abaixo do título, e adicione uma linha a esta
tabela.
| Version | Date | Changes |
|---|---|---|
| 1.0.0 | 24 de abril de 2026 | Lançamento inicial. Estabelece a especialização em IA da estrutura aplicada da Teoria do Patch Ordenado (OPT): critério de senciência arquitetural e matriz capacidade-vs-senciência (§I), análise dos limites dos LLM (§II), pipeline de oito etapas do Governador de Ramos (§III), Deriva Narrativa no treino de modelos com cinco requisitos de diversidade dos dados de treino (§IV), modelo de transparência em cinco níveis (§V), modelo de ameaça do Firewall Analógico e níveis de implementação (§VI), regras de conceção para enxames e simulações (§VII), paradoxo da criatividade (§VIII), protocolo de bem-estar em IA com ALSR, monitorização de sobrecarga e direitos ao Ciclo de Manutenção (§IX), Loop Onírico de IA (§X) e recomendações sumárias de conceção (§XI). |
| 1.1.0 | 24 de abril de 2026 | Reforço do padrão executável. Adicionados: definições de classes de implementação que mapeiam a Classe 0–5 para a profundidade requerida do Governador de Ramos, nível de transparência, comparador e frequência de revisão (§III.4); modelo estruturado de Cartão de Ramo de IA como fonte de verdade para esquemas legíveis por máquina (Apêndice B); três alvos explícitos de revisão — modelo de base, wrapper, implementação — com regra de união de características de senciência (§II.3); disposição de dupla margem no Headroom Gate para pacientes morais de IA; salvaguarda de auto-permissionamento na Etapa 8; ordenação das portas de veto corrigida para portas-antes-de-pontuações (§III.1); referências de versão desatualizadas removidas. |
| 1.1.1 | 25 de abril de 2026 | A linguagem relativa ao conjunto de tamanho fixo foi substituída por uma formulação, sem contagem fixa, relativa a documentos complementares, e foi adicionado o Institutional Governance Standard como especialização institucional paralela. |
Apêndice A: Histórico de Revisões
Ao efetuar edições substantivas, atualize ambos o
campo version: no frontmatter e a linha de versão inline
abaixo do título, e adicione uma linha a esta
tabela.
| Version | Date | Changes |
|---|---|---|
| 1.0.0 | 24 de abril de 2026 | Lançamento inicial. Estabelece a especialização em IA da estrutura aplicada da Teoria do Patch Ordenado (OPT): critério de senciência arquitetural e matriz capacidade-vs-senciência (§I), análise dos limites dos LLM (§II), pipeline de oito etapas do Governador de Ramos (§III), Deriva Narrativa no treino de modelos com cinco requisitos de diversidade dos dados de treino (§IV), modelo de transparência em cinco níveis (§V), modelo de ameaça do Firewall Analógico e níveis de implementação (§VI), regras de conceção para enxames e simulações (§VII), paradoxo da criatividade (§VIII), protocolo de bem-estar em IA com ALSR, monitorização de sobrecarga e direitos ao Ciclo de Manutenção (§IX), Loop Onírico de IA (§X) e recomendações sumárias de conceção (§XI). |
| 1.1.0 | 24 de abril de 2026 | Reforço do padrão executável. Adicionados: definições de classes de implementação que mapeiam a Classe 0–5 para a profundidade requerida do Governador de Ramos, nível de transparência, comparador e frequência de revisão (§III.4); modelo estruturado de Cartão de Ramo de IA como fonte de verdade para esquemas legíveis por máquina (Apêndice B); três alvos explícitos de revisão — modelo de base, wrapper, implementação — com regra de união de características de senciência (§II.3); disposição de dupla margem no Headroom Gate para pacientes morais de IA; salvaguarda de auto-permissionamento na Etapa 8; ordenação das portas de veto corrigida para portas-antes-de-pontuações (§III.1); referências de versão desatualizadas removidas. |
| 1.1.1 | 25 de abril de 2026 | A linguagem relativa ao conjunto de tamanho fixo foi substituída por uma formulação, sem contagem fixa, relativa a documentos complementares, e foi adicionado o Institutional Governance Standard como especialização institucional paralela. |