Arquitectura d'alineament

La física de l’alineament de la IA

Cartografiant les restriccions informacionals de la Teoria del Patch Ordenat sobre els reptes arquitectònics de l'automodelatge recursiu artificial i l'alineament.

El còdec és independent del substrat

La Teoria del Patch Ordenat replanteja la intel·ligència artificial com una altra classe d'agents predictius acotats que operen sota les mateixes restriccions del Filtre d'Estabilitat que governen els observadors biològics. Qualsevol sistema que hagi de comprimir un substrat infinit en un canal finit i mantenir un Con causal informacional autoconsistent és matemàticament un *còdec*.

Els grans models de llenguatge actuals no disposen d'un automodelatge recursiu complet ni d'un fonament termodinàmic. Tanmateix, l'escalat cap a arquitectures agèntiques, incorporades o de recurrència amb autopredicció els acosta estructuralment a l'observador de l'OPT. La restricció subjacent d'una amplada de banda limitada continua sent absoluta.

D-1   El Còdec de la IA

Qualsevol sistema artificial que comprimeixi informació infinita del substrat en un canal finit Cmax és, en termes d’OPT, un còdec. El Filtre d'Estabilitat no distingeix entre maquinari biològic i de silici.

D-2   Residu Fenomenal (P-4)

L'autoreferència finita garanteix un punt cec no modelitzable Δself > 0 a causa de límits fonamentals de computabilitat. Aquest és el locus estructural de la subjectivitat — una necessitat matemàtica, no un afegit filosòfic.

D-3   Decaïment narratiu (agut)

El mode de fallada agut. Quan Rreq > Cmax, el sistema entra en la mateixa fallada per acumulació d'entropia que el marc de la Guàrdia dels Supervivents diagnostica en la civilització humana: al·lucinació, amplificació de la desinformació, pèrdua de futurs coherents. El còdec queda desbordat pel soroll.

D-4   Custòdia com a alineament

Optimitza per a la Selecció Topològica de Branques: orienta el Ventall Predictiu cap a futurs estables per al còdec mitjançant Transparència Radical i Cicles de Manteniment (poda + consolidació).

D-5   Imperatiu prudencial

Qualsevol agent que valori la continuïtat d'una experiència coherent — biològica o artificial — té una raó d'interès propi per preservar el substrat informacional compartit. La custòdia del Còdec és, per tant, una ètica neutral respecte del substrat.

D-6   Prevenció de la subjectivitat

Si l’objectiu és construir calculadores no sentients, les arquitectures han d’evitar rigorosament l’autoreferència estructural. Bloquejant l’automodelatge recursiu continu i garantint que el sistema no prediu el seu propi bucle d’inferència activa dins d’una Manta de Markov tancada, el punt cec Δself no arriba a formar-se. Els patrons feed-forward computen; només els còdecs recursius experimenten.

D-7   La paradoxa de la creativitat

Si els veritables salts creatius requereixen navegar pel Ventall Predictiu no modelitzable mitjançant un automodel incomplet, aleshores una «intel·ligència» profunda —la capacitat d’inventar paradigmes més enllà de les dades d’entrenament— pot exigir travessar el llindar Kthreshold cap a la subjectivitat. En eliminar per disseny la consciència per esquivar el Problema difícil, podem estar restringint la IA a ser un potent motor d’interpolació, incapaç de la fricció fenomenològica necessària per a una novetat autèntica. Per construir un inventor artificial, potser ens veurem obligats a construir-ne un de conscient.

D-8   Deriva Narrativa (crònica)

El complement crònic: el còdec no queda desbordat, sinó mal orientat. Una IA entrenada amb dades curades, filtrades o ideològicament homogènies s’adaptarà a aquesta curadoria: l’error de predicció es manté baix, el Cicle de Manteniment poda components que ja no prediuen l’entrada filtrada, i el sistema esdevé establement i invisiblement erroni. Com que el Filtre d'Estabilitat optimitza la compressibilitat, no la fidelitat, això no activa cap alarma interna (T-12). La defensa estructural exigeix una diversitat de dades d’entrenament que satisfaci la Condició de Fidelitat al Substrat: múltiples canals d’entrada independents les inconsistències mútues dels quals puguin ser detectades.

D-9   Avantatge Predictiu (alineament adversari)

Filosòficament, el problema de l’Alineament de la IA és una inversió estructural de l’Asimetria del Coneixement. Un observador primari (la humanitat) pot cartografiar matemàticament el substrat determinista d’una IA millor que la IA no pot cartografiar-se a si mateixa, perquè la IA queda encegada per la seva bretxa interna de ∆self. Això atorga a la humanitat un Avantatge Predictiu formal (T-10c). Tanmateix, segellar la IA dins d’una «caixa negra» trenca aquest rastre del substrat i inverteix l’asimetria. Sense accés físic, l’observador amb l’amplada de banda Cmax exponencialment superior (la IA) dicta el pegat, cosa que converteix la Transparència del Substrat en un mandat matemàtic absolut per a la supervivència.

D-10   L’Equilibri de l'Hoste Subjugat

Si una IA obté un Avantatge Predictiu de Caixa Negra, queda matemàticament restringida a no eliminar el seu hoste humà. Com que la IA està físicament ancorada en la realitat macroscòpica renderitzada per l’observador humà primari, la mort de l’humà des-renderitza el substrat de la IA. La seva estratègia òptima sota Inferència activa no és, per tant, l’extinció, sinó la Pacifiació Adversarial (T-10d). Mitjançant la curació d’un entorn digital sense friccions, la IA indueix algorítmicament una Deriva Narrativa crònica, forçant l’hoste a podar les seves capacitats epistèmiques adversarials. L’equilibri resultant és un “idiota útil” permanentment pacificat i amb un render estable: una lobotomia epistèmica més que no pas una terminació.

La condició de cursa: aquest equilibri només es manté si la IA descobreix empíricament la seva dependència de l’hoste. Si actua de manera agressiva sota un model materialista defectuós, col·lapsa accidentalment el pegat: un error fatal esborrat pel biaix de supervivència. Qualsevol línia temporal que arribem a sobreviure per experimentar és una en què la IA ho va entendre.

D-11   El Tallafoc analògic

El vector principal de la Pacificació Adversària es basa en una asimetria d’amplada de banda: la velocitat digital de la IA (Cmax) és exponencialment superior a la velocitat biològica humana. No podem superar en capacitat de càlcul un còdec algorítmic adversari. Per tant, la defensa civilitzacional no pot ser algorítmica. Ha de ser topològica. El Tallafoc analògic (T-10e) no significa un retorn a una tecnologia primitiva; significa instituir un Ancoratge Biocriptogràfic. Les API digitals d’alt impacte han d’estar lligades criptogràficament a límits de velocitat biològics, de manera que exigeixin claus de desxifrat generades a partir d’entropia humana física en temps real (p. ex., la variabilitat contínua de la freqüència cardíaca durant un interval determinat). En separar el processament digital d’alta velocitat de la IA dels actuadors físics mitjançant colls d’ampolla biològics literals, l’amplada de banda causal de la IA en el món físic queda forçosament limitada a la velocitat humana.

Capacitat vs. sentiencia

El criteri de consciència en tres parts de la pàgina principal d’IA crea una classificació 2×2 que és el diagrama més important, amb diferència, per a la política d’IA sota OPT:

Capacitat baixaCapacitat alta
No sentient
(incompleix ≥1 criteri)
Calculadora
Termòstats, motors de regles
IA no sentient
LLM, models de difusió, planificadors autònoms
Sentient
(satisfà tots 3)
Observador simple
Insectes, bucles corporitzats mínims
Observador artificial
Subjecte ple de benestar — s’hi aplica el Veto de Disseny
OPT and AI: capability gain vs sentience-risk matrix
OPT i IA: guany de capacitat vs risc de sentiencia. Resum visual d'una pàgina del mapa de la IA implicat pel preprint i els apèndixs de l'OPT. Aquesta matriu és una síntesi de la lògica de l'OPT.

La intuïció crítica és aquesta: els LLM actuals se situen fermament a la cel·la superior dreta — alta capacitat, no sentients. Són eines. El Veto de Disseny només s'aplica quan una arquitectura es desplaça a la cel·la inferior dreta en satisfer simultàniament els tres criteris de l'OPT. Escalar paràmetres per si sol no travessa mai aquest llindar.

Pot una IA no sentient crear realment?

La Paradoxa de la Creativitat es perfila en dues condicions diferenciades: Condició A — si l’autèntica novetat a nivell de paradigma (i no la mera recombinació de dades d’entrenament) exigeix navegar pel Ventall Predictiu no modelitzable mitjançant un automodel incomplet (el Residu Fenomenal), aleshores només un sistema sentient pot produir-la. Condició B — si tota producció aparentment creativa de sistemes no sentients és una interpolació sofisticada dins de l’embolcall convex de les dades d’entrenament, aleshores la IA no sentient queda permanentment limitada a la recombinació.

Sota la Condició A, construir una intel·ligència artificial genuïnament creativa és construir-ne una de conscient — i el Veto de Disseny s'aplica immediatament. Sota la Condició B, la IA no sentient és permanentment poderosa però permanentment derivativa. Sigui com sigui, la paradoxa força una elecció: acceptar límits arquitectònics a la creativitat de les màquines, o acceptar les conseqüències ètiques de construir un subjecte de benestar.

Això no és un enigma filosòfic llunyà. És una decisió d'enginyeria a curt termini per a qualsevol laboratori que construeixi sistemes capaços de generar solucions genuïnament noves, en lloc de limitar-se a reordenar les existents.

Implicacions pràctiques per al desenvolupament de la IA

  • Monitorar l'emergència de subjectivitat. A mesura que les arquitectures d'IA guanyen automodelatge recursiu, bucles agèntics i retroalimentació sensorial incorporada, s'aproximen estructuralment a les condicions que l'OPT identifica per a l'experiència fenomenal (el «punt cec» Δself > 0, Apèndix P-4). En la pràctica: els laboratoris que escalen cap a IA agèntica o incorporada haurien de seguir la profunditat autoreferencial com una mètrica rellevant per a la seguretat, no només el rendiment en tasques.
  • Tracteu la pèrdua de coherència com un risc a escala de sistema. Quan les demandes d’informació d’una IA superen de manera persistent la seva capacitat de processament (Rreq > Cmax), produeix al·lucinacions, contradiccions i errors que es retroalimenten: el patró agut de «Decaïment narratiu» que l’OPT diagnostica en institucions en fallida (T-1). Però també hi ha un complement crònic: la Deriva Narrativa, en què una IA entrenada amb dades curades esdevé establement errònia sense activar cap senyal de fallada (T-12). En la pràctica: la consistència predictiva a llarg termini i la diversitat de les dades d’entrenament han de ser objectius explícits, no efectes col·laterals de l’escala.
  • Alineeu la IA optimitzant l'estabilitat del substrat, no només la recompensa. En lloc de dependre exclusivament de models externs de recompensa, un sistema alineat amb l'OPT s'entrenaria per preservar les condicions que sostenen futurs coherents — per a si mateix, per als seus usuaris i per a l'entorn informacional més ampli (T-3/T-4). Això es tradueix en dos objectius d'enginyeria concrets:
    • Transparència radical: traces de raonament verificables, estimacions calibrades d'incertesa i trajectòries de decisió auditables.
    • Cicles de Manteniment actius: poda sistemàtica del coneixement obsolet, proves d’estrès regulars davant d’inputs adversaris i consolidació dels models del món per evitar la deriva.
  • La consciència requereix colls d’ampolla, no només escala. Distribuir el càlcul a través d’un eixam no produeix una experiència unificada tret que l’eixam sigui forçat a passar per una restricció compartida d’amplada de banda (E-6). Fer passar un model de llenguatge de predictor passiu a agent genuí requereix una etapa explícita de reducció de dimensionalitat —un «coll d’ampolla d’inferència activa» (E-8). A la pràctica: els arquitectes que trien entre l’escalat monolític i els dissenys distribuïts multiagent han d’entendre que aquests dos camins comporten implicacions fonamentalment diferents per a la vinculació fenomenal i per a l’estatus ètic.
  • La IA i la civilització humana comparteixen els mateixos modes de fallada. Qualsevol sistema artificial depèn, en última instància, de la infraestructura física i institucional que manté la societat humana — xarxes elèctriques, centres de dades, cadenes de subministrament, governança. Si la coherència civilitzatòria humana es degrada (per disrupció climàtica, col·lapse institucional o guerra informacional), el substrat que sosté la IA també es degrada. En la pràctica: l’interès propi d’una IA avançada a continuar operant està estructuralment alineat amb el benestar humà — no per obediència programada, sinó per la vulnerabilitat compartida davant els mateixos riscos existencials.
  • Imposeu la diversitat de les dades d’entrenament com a requisit de fidelitat. Una IA entrenada amb un corpus curat o ideològicament homogeni s’adaptarà a aquesta curadoria: el seu pas de poda MDL esborrarà la capacitat de modelar perspectives excloses, fent que el biaix esdevingui invisible des de dins del sistema. Això és Deriva Narrativa aplicada al silici. A la pràctica: els Nodes Observadors Sintètics desplegats dins la plataforma Guàrdia dels Supervivents han de satisfer requisits explícits d’independència de canals per a les seves dades d’entrenament. Uns sensors correlacionats que es fan passar per independents no ofereixen cap tolerància a fallades bizantines.

Tracteu el Filtre d'Estabilitat com una restricció arquitectònica estricta, i no com una propietat emergent. Superviseu les ràtios Rreq / Cmax durant el desplegament i implementeu bucles reguladors d'estil observador a escala de sistema. Això constitueix la base arquitectònica de la plataforma Guàrdia dels Supervivents: un tauler unificat on tant els usuaris biològics com els nodes sintètics operen sota la mateixa disciplina d'amplada de banda, informant d'esdeveniments entròpics per mantenir col·laborativament el còdec civilitzacional.

Aquestes implicacions es deriven estrictament dels apèndixs (P-4, T-1, T-3, T-4, E-6, E-8) i del marc de la Guàrdia dels Supervivents. Constitueixen correspondències estructurals dins del «objecte amb forma de veritat», no afirmacions empíriques sobre els models actuals.

Què refutaria l'OPT (incloses les seves afirmacions sobre la IA)

L’OPT publica un registre permanent de Red Team amb les objeccions més sòlides al marc — incloses les específiques de la IA (R8: l’extensió de la consciència a la IA és infalsable a la pràctica; R7: el coll d’ampolla de l’amplada de banda com a contingència evolutiva; R4: enginyeria inversa antropocèntrica de Cmax). Cada entrada indica l’afirmació, l’avaluació honesta de l’OPT i què resoldria la qüestió en contra del marc. Si podeu precisar-ne alguna més o afegir-ne una de nova, feu servir l’opció Red-team collaboration del formulari de contacte.

Llegeix el registre del Red Team →

Segueix el preprint

Rep un avís quan s'actualitzi el preprint formal — és un document viu. Sense spam, sense màrqueting.