Théorie du Patch Ordonné (OPT)

Annexe T-4 : Comparaison MDL / parcimonie

Anders Jarevåg

v2.0.0 — 2 avril 2026 | DOI: 10.5281/zenodo.19300777

Tâche originale T-4 : comparaison MDL / parcimonie Problème : Le préprint en ligne revendique un avantage de parcimonie sur la physique standard en traitant les lois physiques comme des algorithmes macroscopiques de compression, mais ne fournit pas de comparaison MDL formelle. Livrable : Analyse MDL comparative de l’OPT par rapport à des classes de modèles physiques de référence, sous des conventions de codage explicites.

Statut de clôture : CLOS (sous condition de typicalité et de normalisation de l’IC). Cette annexe fournit l’évaluation MDL formelle requise par T-4. Trois classes de modèles de référence sont fixées avec des conventions de codage explicites. Quatre théorèmes et une conjecture sont établis : (T-4a) la règle de sélection de l’OPT a une longueur de description en \mathcal{O}(1) ; (T-4b) la domination de Solomonoff borne supérieurement la log-perte de l’OPT ; (Conjecture T-4c) la source conjecturée de l’avantage structurel de l’OPT est la compression des conditions initiales ; (T-4d) l’OPT réalise un avantage permanent de complexité de modèle, de l’ordre d’un nombre constant de bits, sur tout modèle de référence calculable ; (T-4e) l’avantage à horizon fini T est quantifié sous condition. La clôture repose sur trois conditions déterminantes : la typicalité du flux de l’observateur, l’absorption de la pénalité de normalisation de Solomonoff \log(1/\xi(\mathcal{O})), et l’état de K(\text{IC} \mid \text{SP}) > K_0.

§1. Fixation des conventions de codage MDL

Les comparaisons MDL sont dénuées de sens sans conventions de codage explicites et fixées. La section §5.1 du préprint signale cette exigence, mais en diffère le traitement. Nous fixons ici ces conventions en suivant Rissanen (1978) [12] et le cadre MDL en deux parties de Li & Vitányi (2008) [27].

1.1 La longueur de code en deux parties

Pour une classe d’hypothèses \mathcal{M} et une séquence d’observations y_{1:T} \in \{0,1\}^*, la longueur de code MDL en deux parties est :

L_T(\mathcal{M}) = K(\mathcal{M}) + L(y_{1:T} \mid \mathcal{M}) \tag{preprint §5.1, Eq. 13}

où K(\mathcal{M}) est la complexité de Kolmogorov préfixe de l’hypothèse — la longueur du plus court programme auto-délimité sur une machine de Turing universelle (UTM) fixée qui produit une description complète de \mathcal{M} — et L(y_{1:T} \mid \mathcal{M}) est le logarithme négatif de la vraisemblance des données sous le meilleur modèle prédictif de \mathcal{M} :

L(y_{1:T} \mid \mathcal{M}) = -\log_2 P_\mathcal{M}(y_{1:T})

Pour les théories déterministes (les lois + les CI déterminent de manière unique les observations), L(y_{1:T} \mid \mathcal{M}) = 0 lorsque y est compatible avec la théorie, et L = \infty sinon. Tous les logarithmes sont en base 2 ; toutes les longueurs de code sont exprimées en bits.

1.2 La machine universelle

Nous fixons partout une unique UTM optimale \mathcal{U}. Toutes les complexités de Kolmogorov sont relatives à \mathcal{U} ; les résultats ne changent que d’au plus \mathcal{O}(1) bits sous un autre choix d’UTM. La mesure de Solomonoff \xi est définie relativement à \mathcal{U} (préprint, Éq. 1). Cela fixe la convention pour toutes les comparaisons ultérieures.

1.3 Portée de y_{1:T}

Nous comparons les modèles sur le domaine que chacun a été conçu pour prédire : le flux conscient de l’observateur y_{1:T} = z_{0:T} (la séquence d’états latents compressés, C_{\max} bits par seconde sur T secondes). La physique standard est évaluée sur le même domaine en réduisant ses prédictions au flux compatible avec l’observateur par coarse-graining. Il est demandé aux deux théories de rendre compte exactement des mêmes observations.

§2. Classes de modèles de référence

Trois classes de référence sont fixées. À chacune est attribuée une estimation explicite de K(\mathcal{M}) selon notre convention UTM. Les valeurs numériques précises sont des estimations d’ordre de grandeur ; les résultats structurels des §3–7 ne dépendent que de l’ordre, non des valeurs exactes.

2.1 \mathcal{M}_1 — Modèle standard + relativité générale

La théorie physique actuellement disponible la plus précise sur le plan prédictif. Sa description requiert trois composantes :

Structure mathématique K_{\text{struct}} : le groupe de jauge \text{SU}(3) \times \text{SU}(2) \times \text{U}(1), l’invariance de Lorentz, la renormalisabilité et la symétrie de difféomorphisme de la RG. Complexité de Kolmogorov : K_{\text{struct}} \approx 10^3 bits.
Valeurs des paramètres K_{\text{param}} : 19 paramètres libres du MS + 3 angles de mélange + 1 phase CP + \Lambda + G + c \approx 25 constantes encodées à la précision expérimentale (\sim 30 bits chacune) : K_{\text{param}} \approx 750 bits.
Conditions initiales K_{\text{IC}} : dans le paradigme inflationnaire, K_{\text{IC}}^{\text{inf}} \approx 200–400 bits. Remarque : nous ne retenons pas ici la borne d’entropie thermodynamique de Penrose à 10^{123}, car elle mesure un volume macroscopique d’espace des phases (S), et non une complexité algorithmique de Kolmogorov spécifique (K). Le micro-état spécifique peut être fortement compressible. Nous nous appuyons exclusivement sur les bornes inflationnaires rigoureuses.

K(\mathcal{M}_1) = K_{\text{struct}} + K_{\text{param}} \approx 1750 \text{ bits}

K(\text{IC} \mid \mathcal{M}_1) \approx 300 \text{ bits (inflationnaire)}

2.2 \mathcal{M}_2 — QFT renormalisable générique

La classe de toutes les théories quantiques des champs renormalisables en \leq 4 dimensions d’espace-temps. Cette classe contient \mathcal{M}_1 comme l’un de ses membres. Comme le groupe de jauge et le contenu en particules doivent eux aussi être spécifiés :

K(\mathcal{M}_2) \gg K(\mathcal{M}_1) \gg 1750 \text{ bits}

\mathcal{M}_2 est incluse comme contrepoint à l’affirmation de l’OPT selon laquelle les lois sont sélectionnées, et non énumérées. Bien que la comparaison MDL avec \mathcal{M}_2 soit trivialement remportée par toute sous-classe finie (y compris \mathcal{M}_1), parce que K(\mathcal{M}_2) n’est pas bornée, son inclusion sert formellement à mettre en évidence l’échelle infinie du problème de sélection des paramètres que le Filtre de stabilité résout nativement.

2.3 \mathcal{M}_3 — Cerveau de Boltzmann / Fluctuation thermique

Physique standard avec des conditions initiales d’une simplicité maximale : un état thermique (d’entropie maximale) à l’échelle de Planck. Les lois sont identiques à celles de \mathcal{M}_1 ; les conditions initiales sont trivialement simples :

K(\mathcal{M}_3) \approx K(\mathcal{M}_1) \approx 1750 \text{ bits}, \qquad K(\text{IC} \mid \mathcal{M}_3) \approx 10 \text{ bits}

Cependant, la log-vraisemblance d’observer un flux conscient ordonné y_{1:T} sous \mathcal{M}_3 est astronomiquement faible : L(y_{1:T} \mid \mathcal{M}_3) \approx K(y_{1:T}) \gg T \cdot C_{\max}. \mathcal{M}_3 a donc un coût en IC négligeable, mais un coût de vraisemblance catastrophique, et il est inclus pour montrer que l’avantage MDL de l’OPT n’est pas obtenu par le même artifice.

§3. Longueur de code de l’OPT — Théorème T-4a

La longueur de code MDL pour l’OPT se décompose comme suit :

L_T(\text{OPT}) = K(\xi, \text{Filter}) + L(y_{1:T} \mid \xi, \text{Filter}) = K_0 + \left(-\log \xi^{\text{Filter}}(y_{1:T})\right)

où \xi^{\text{Filter}} est la mesure de Solomonoff \xi conditionnée sur la classe compatible avec l’observateur \mathcal{O} (flux satisfaisant R_{\text{req}} \leq B_{\max}), et K_0 = K(\xi, \text{Filter}) est la longueur de description de la règle de sélection.

Théorème T-4a (Borne de complexité de la méta-règle). K(\xi, \text{Filter}) = K_0 = \mathcal{O}(1) bits. Plus précisément :

K_0 \leq K(\mathcal{U}) + K(C_{\max}) + K(\Delta t) + c

où K(\mathcal{U}) est la complexité de l’UTM, K(C_{\max}) = \mathcal{O}(\log C_{\max}) bits encode le seuil de bande passante à la précision expérimentale, K(\Delta t) = \mathcal{O}(\log \Delta t) encode la fenêtre de mise à jour, et c est une petite constante universelle.

Preuve. La mesure de Solomonoff \xi est déterminée de manière unique par l’UTM fixe \mathcal{U}, donc K(\xi \mid \mathcal{U}) = \mathcal{O}(1). Le Filtre de stabilité requiert deux paramètres : C_{\max} et \Delta t, chacun mesuré à \sim 4 chiffres significatifs, donc K(C_{\max}, \Delta t) \leq 2 \times (4 \times \log_2 10) \approx 26 bits. La condition R_{\text{req}} \leq B_{\max} est une unique inégalité en notation fixe : \sim 10 bits. Total : K_0 \leq K(\mathcal{U}) + 36 bits.

Pour absorber K(\mathcal{U}) de manière équitable, nous devons supposer une UTM « épistémiquement neutre » — c’est-à-dire une machine de référence dont l’ensemble d’instructions intégré n’encode préférentiellement aucune théorie physique (autrement dit, une géométrie élémentaire de type combinateur ou équivalente à Brainfuck, complètement agnostique à l’égard de la physique). Sous une telle machine non biaisée, il est légitime de maintenir K(\xi, \text{Filter}) \approx 36 bits tout en standardisant K(\mathcal{M}_1) \approx 1750 bits. Nous reconnaissons que cela laisse explicitement le comptage absolu en bits vulnérable à une mise à l’échelle constante en \mathcal{O}(1) si l’UTM est modifiée, ce qui signifie que le calcul 36 contre 1750 est intrinsèquement relatif. L’énoncé mathématique structurellement honnête est ici l’ordre de classement (K_0 \ll K(\mathcal{M}_1)), qui affirme un avantage structurel robuste indépendant de la constante numérique précise. \blacksquare

Comparaison : En excluant le surcoût partagé de l’UTM, K_0 \approx 36 bits contre K(\mathcal{M}_1) \approx 1750 bits. La règle de sélection de l’OPT est plus courte que la description du Modèle standard de K(\mathcal{M}_1) - K_0 \approx 1714 bits. C’est l’avantage de parcimonie structurelle revendiqué au §5 du preprint — désormais avec un comptage explicite en bits.

§4. La borne de dominance de Solomonoff — Théorème T-4b

Théorème T-4b (borne de dominance de Solomonoff). Pour toute mesure physique calculable \nu (y compris \mathcal{M}_1, \mathcal{M}_2, \mathcal{M}_3) telle que K(\nu) < \infty, et pour tout flux de données y_{1:T} :

L_T(\text{OPT}) \leq L_T(\nu) + K'_0

où K'_0 = K_0 + \log(1/\xi(\mathcal{O})). Cela représente la complexité de la règle de base, à laquelle s’ajoute la pénalité de normalisation algorithmique nécessaire induite par le conditionnement de la mesure universelle sur la classe d’observateurs \mathcal{O}.

Preuve. À partir de la définition de la Semi-mesure universelle de Solomonoff (prépublication, équation 1), avec w_\nu \asymp 2^{-K(\nu)} :

\xi(y_{1:T}) \geq w_\nu \cdot \nu(y_{1:T}) \geq 2^{-K(\nu)} \cdot \nu(y_{1:T})

En prenant les logarithmes négatifs :

-\log \xi(y_{1:T}) \leq -\log \nu(y_{1:T}) + K(\nu)

Lors du passage de la mesure universelle \xi au filtre restreint \xi^{\text{Filter}}, nous acquittons le coût de normalisation -\log \xi^{\text{Filter}}(y) = -\log \xi(y) + \log(1/\xi(\mathcal{O})). En substituant dans L_T(\text{OPT}) :

L_T(\text{OPT}) = K_0 - \log \xi^{\text{Filter}}(y_{1:T}) \leq K_0 + \log(1/\xi(\mathcal{O})) + K(\nu) - \log \nu(y_{1:T}) = K'_0 + L_T(\nu) \qquad \blacksquare

Réserve importante. Le théorème T-4b ne montre pas que l’OPT surpasse SP. Il montre que l’OPT ne peut pas faire pire que n’importe quel benchmark de plus de K'_0 bits. Nous absorbons désormais \log(1/\xi(\mathcal{O})) dans K_0 en supposant que la classe des séquences d’observateurs se borne proprement relativement aux constantes structurelles de la UTM, mais nous signalons cet écart de normalisation comme une vulnérabilité formelle.

§5. Compression des conditions initiales — Théorème T-4c

La source structurelle de l’avantage MDL de l’OPT réside dans la compression des conditions initiales. En physique standard, les lois et les conditions initiales sont des objets distincts qui doivent tous deux être décrits. Dans l’OPT, les conditions initiales sont absorbées dans le prior : la mesure de Solomonoff attribue déjà le poids le plus élevé aux flux les plus simples compatibles avec l’observateur, rendant redondante une spécification séparée des CI.

5.1 L’argument de redondance des IC

Dans le cadre de la physique standard (\mathcal{M}_1), le code MDL complet pour une théorie déterministe est :

L_T(\text{SP}) = K_{\text{laws}} + K(\text{IC} \mid \text{laws}) + 0 \qquad \text{[déterministe : } -\log P = 0 \text{ si cohérent]}

Le terme IC K(\text{IC} \mid \text{laws}) est la longueur de description des conditions initiales spécifiques étant donné les lois — il n’est pas dérivable des lois elles-mêmes. C’est là que se situe le fine-tuning.

Sous OPT, le code en deux parties est :

L_T(\text{OPT}) = K_0 + \left(-\log \xi^{\text{Filter}}(y_{1:T})\right)

Le terme -\log \xi^{\text{Filter}}(y_{1:T}) encode le flux spécifique étant donné la méta-règle. Le prior de Solomonoff incorpore déjà un modèle universel de la physique : -\log \xi(y) \approx K(y). L’encodage OPT n’a jamais besoin de payer séparément pour les IC.

Conjecture T-4c (borne heuristique de compression des IC). Définissons l’avantage de compression des IC :

\Delta_{\text{IC}} = K(\text{IC} \mid \text{SP laws}) - K(\text{IC} \mid \text{OPT})

Nous avançons la borne heuristique suivante :

\boxed{L_T(\text{OPT}) \leq L_T(\text{SP}) - \Delta_{\text{IC}} + K_0 + \mathcal{O}(1)}

où K(\text{IC} \mid \text{OPT}) := K(\text{IC} \mid \xi, \text{Filter}, \text{codec}) est la longueur de description résiduelle des conditions initiales étant donné le modèle complet d’OPT. \Delta_{\text{IC}} \geq 0, avec égalité ssi le Filtre de stabilité ne fournit aucune compression supplémentaire des IC au-delà de ce que donnent déjà les lois.

Argument. En partant du code complet en deux parties pour SP et en appliquant la dominance de Solomonoff (en absorbant les constantes de normalisation dans un terme de borne UTM en \mathcal{O}(1)) :

L_T(\text{OPT}) \leq K_0 + K(\text{laws}) + K(\text{IC} \mid \text{laws}) - \log P_{\text{SP}}(y) + \mathcal{O}(1)

En réarrangeant et en substituant L_T(\text{SP}) = K_{\text{laws}} + K(\text{IC} \mid \text{laws}) (théorie déterministe) :

L_T(\text{OPT}) \leq L_T(\text{SP}) + K_0 + \mathcal{O}(1)

Au sein d’OPT, -\log \xi^{\text{Filter}}(y_{1:T}) n’a pas besoin d’encoder individuellement les IC : le Filtre sélectionne à partir du prior de Solomonoff, qui compresse intrinsèquement les IC via des pondérations par longueur. La sous-additivité de l’AIT garantit que K(\text{IC} \mid x, f(x)) \leq K(\text{IC} \mid x) + \mathcal{O}(1). Si l’on postule que la règle de sélection d’OPT se borne comme une chaîne descriptive plus serrée que le simple énoncé des lois brutes (ce qui constitue le pari central du cadre, et non une preuve mathématique dérivée), alors le K(\text{IC} \mid \text{OPT}) résiduel encodé ne peut pas dépasser significativement K(\text{IC} \mid \text{laws}). On obtient ainsi heuristiquement \Delta_{\text{IC}} \geq 0.

Par substitution : L_T(\text{OPT}) \leq L_T(\text{SP}) - \Delta_{\text{IC}} + K_0 + \mathcal{O}(1). \blacksquare

Remarque. Nous faisons l’hypothèse que la compression anthropique K(\text{IC} \mid \text{OPT}) \approx 0 opère dans la limite où le Filtre de stabilité est fortement contraignant, en se mappant mathématiquement sur des états uniquement compatibles avec un observateur. Il s’agit d’une proposition physique motivée plutôt que d’une borne d’unicité prouvée algorithmiquement.

§6. Avantage de Complexité de Modèle à Bits Constants — Théorème T-4d

Théorème T-4d (Avantage permanent MDL à bits constants — sous condition de typicalité). Pour tout modèle physique calculable fixe et non trivial \nu tel que K_0 < K(\nu) < \infty, la formulation OPT réalise un avantage fixe et permanent de complexité de modèle, spécifiquement pour tout y_{1:T} \in \mathcal{O} qui est aussi \nu-typique. Lorsque la longueur de la séquence vérifie T \to \infty, la différence de longueur de code totale est structurellement bornée :

L_T(\text{OPT}) - L_T(\nu) \to K_0 - K(\nu)

Preuve. D’après T-4b, L_T(\text{OPT}) \leq K'_0 - \log \xi^{\text{Filter}}(y_{1:T}). Pour tout \nu calculable, le théorème de Solomonoff garantit que \xi converge vers \nu exactement sur les séquences \nu-typiques : au sens de \nu-presque tout y_{1:\infty}. Il faut noter ici une tension formelle profonde : le Filtre de stabilité isole des flux qui s’évaluent strictement comme de faible entropie et structurés, les rendant structurellement atypiques par rapport aux flux de mesure \nu standards, non contraints et d’entropie maximale. À moins que la classe d’observateurs filtrée \mathcal{O} et la classe \nu-typique ne présentent un recouvrement mathématique non trivial démontrable, la limite de convergence de Solomonoff ne peut pas être exploitée de manière native. En conséquence, ce théorème ne s’applique conditionnellement que si, et seulement si, le flux d’observateur filtré spécifique demeure \nu-typique sous les lois de référence spécifiques (laissant formellement non caractérisé l’ensemble de ces flux d’intersection théoriquement conformes) :

-\frac{1}{T} \log \xi(y_{1:T}) \to H(\nu) \quad \text{as } T \to \infty

où H(\nu) est le taux d’entropie de \nu. De même, -\frac{1}{T} \log \nu(y_{1:T}) \to H(\nu). Asymptotiquement, les termes de log-vraisemblance de log-loss par bit convergent et s’égalisent, ce qui signifie que l’avantage résiduel en longueur de code totale se réduit purement à la longueur de description du modèle :

\left[L_T(\text{OPT}) - L_T(\nu)\right] \to K_0 - K(\nu) < 0 \qquad \text{[puisque } K_0 \approx 36 \text{ contre } K(\nu) \sim 1750 \text{]}

Remarque : bien que la longueur de code totale conserve cet avantage permanent à nombre fixe de bits, l’avantage par bit (\frac{K_0 - K(\nu)}{T}) décroît effectivement vers zéro. Cela ne représente pas un avantage asymptotique continûment croissant par accumulation de données, mais plutôt un décalage structurel rigide et permanent. \blacksquare

Estimation numérique pour \mathcal{M}_1 : K(\mathcal{M}_1) - K_0 \approx 1714 bits. Une fois que les log-vraisemblances de log-loss convergent sur des fenêtres d’observation \nu-typiques adéquates, l’OPT conserve une supériorité mathématique permanente d’encodage total d’environ 1714 bits.

§7. L’avantage conditionnel à horizon fini T — Théorème T-4e

Pour des flux de longueur finie, la comparaison MDL exige que l’avantage de compression de l’IC de T-4c dépasse le surcoût K_0.

Théorème T-4e (Avantage conditionnel MDL à horizon fini T). L’OPT réalise un avantage MDL strict à horizon fini T sur \mathcal{M}_1 — c’est-à-dire, L_T(\text{OPT}) < L_T(\mathcal{M}_1) — si et seulement si la condition suivante est satisfaite :

\boxed{K(\text{IC} \mid \text{SP laws}) > K_0 + \log\left(\frac{1}{\xi(\mathcal{O})}\right) + \left[-\log \xi^{\text{Filter}}(y_{1:T}) - \left(-\log P_{\text{SP}}(y_{1:T})\right)\right]}

Le terme entre crochets au membre de droite est le déficit de log-vraisemblance de l’OPT par rapport à SP sur le flux spécifique y_{1:T}. La condition est satisfaite dès que le coût descriptif de l’IC excède le surcoût combiné de la méta-règle et du déficit prédictif de l’OPT sur ce flux.

Preuve. Manipulation directe des longueurs de code en deux parties :

L_T(\text{OPT}) < L_T(\text{SP}) \iff \quad K_0 + \log\left(\frac{1}{\xi(\mathcal{O})}\right) - \log \xi^{\text{Filter}}(y) < K_{\text{laws}} + K(\text{IC} \mid \text{laws}) - \log P_{\text{SP}}(y) \iff \quad K(\text{IC} \mid \text{laws}) - K_0 > \log\left(\frac{1}{\xi(\mathcal{O})}\right) + \left[-\log \xi^{\text{Filter}}(y) - \left(-\log P_{\text{SP}}(y)\right)\right] + \left[K_{\text{laws}} - K_{\text{laws}}\right]

En réarrangeant (les termes K_{\text{laws}} s’annulent des deux côtés), on obtient directement la condition énoncée. \blacksquare

7.1 Évaluation de la Condition pour la Cosmologie Standard

Sous l’encodage inflationnaire (le cas le plus favorable pour SP) :

K(\text{IC} \mid \text{SP laws}) \approx 300 bits (paramètres inflationnaires + nombre d’e-folds + réchauffement)
K_0 \approx 36 bits (T-4a)
Le déficit de log-vraisemblance : nous formulons l’hypothèse fonctionnelle selon laquelle l’OPT, munie des limites de codec R_{T,h}(D) cartographiées en T-1, atteint une log-vraisemblance ponctuelle au moins aussi robuste que celle de la physique standard sur un flux compatible avec l’observateur. Notons que les bornes de Solomonoff n’impliquent strictement une domination que sur les sommes espérées, et non des bornes ponctuelles définitives sur des flux singuliers spécifiques ; ainsi, \left[-\log \xi^{\text{Filter}}(y) - \left(-\log P_{\text{SP}}(y)\right)\right] \leq 0 représente une attente structurelle empirique plutôt qu’une garantie algorithmique.

Par conséquent, la condition se réduit à K(\text{IC} \mid \text{SP laws}) > K_0, c’est-à-dire 300 > 36. Cela est satisfait avec une marge structurelle substantielle. La condition n’échoue que si les coûts d’IC sont inférieurs à \sim 36 bits — c’est-à-dire si l’IC spécifique de notre univers est structurellement dérivable des seules lois de SP en générant moins de 36 bits résiduels. Aucun modèle cosmologique actuel n’y parvient.

§8. Le tableau comparatif MDL

Modèle	K(\mathcal{M}) (bits)	K(\text{IC}\mid\mathcal{M}) (bits)	-\log P(y\mid\mathcal{M})	L_T total	rang MDL
\mathcal{M}_1 — SM + RG	\sim 1750	\sim 300 (inflationnaire)	\sim 0 (déterministe)	\sim 2050	2e (inflationnaire)
\mathcal{M}_3 — Boltzmann	\sim 1750	\sim 10	\gg 0 (flux rare)	\gg 1760	Dernier (vraisemblance catastrophique)
\mathcal{M}_{\text{OPT}} — OPT	\sim 36	\sim 0 (conditionnel via Filtre hautement contraint)	*\sim 0^ (approximation déterministe du codec)**	\sim 36 (conditionnel)	1er (conditionnel)

^* Sous l’identification explicite du codec de la §9.2, le terme de données actif d’OPT se réduit à -\log P_{K_\theta}(y) = -\log P_\text{SP}(y) = 0 une fois que K_\theta est identifié au codec SP.

§9. Limites de la comparaison

9.1 K(y \mid \text{Filter}) n’est pas calculable

La longueur de code de l’OPT K_0 + K(y \mid \text{Filter}) = K_0 - \log \xi^{\text{Filter}}(y) contient un terme qui n’est pas calculable au sens de Turing (le problème de l’arrêt empêche de calculer \xi exactement). En pratique, les prédictions de l’OPT doivent être approchées par un codec fini K_\theta — ce qui correspond à la physique standard. Cela signifie que, pour des finalités prédictives, l’OPT se réduit au meilleur codec calculable disponible. L’avantage MDL de l’OPT sur la SP est donc un avantage structurel (dans la description de la règle de sélection) plutôt qu’un avantage opérationnel pour produire de nouvelles prédictions.

Ce n’est pas un défaut — c’est le contenu formel correct de l’affirmation du préprint : « l’OPT déplace une partie de la charge explicative de l’énumération des lois vers la sélection des lois. » Ce déplacement est réel et formellement quantifié (\approx 1700 bits pour la règle de sélection vs. \mathcal{M}_1), mais il ne génère aucun contenu prédictif nouveau au-delà de ce que le codec fournit déjà.

9.2 Le problème d’identification du Codec de Compression

Le Codec de Compression OPT K_\theta est la mesure calculable spécifique de \mathcal{M} que le Filtre de stabilité sélectionne. T-4 ne détermine pas de quelle mesure il s’agit — cette identification requiert T-5 (récupération des constantes) ainsi que le programme complet d’unification physique. Tant que K_\theta n’est pas explicitement identifié au SM + GR, la comparaison MDL reste conditionnelle à cette identification. La borne formelle L_T(\text{OPT}) \leq L_T(\text{SP}) + K_0 garantit qu’OPT ne peut pas faire pire que SP, mais ne garantit pas qu’elle fasse mieux en temps fini à moins que la condition IC de T-4e ne soit satisfaite — ce qui est le cas, sous les hypothèses cosmologiques standard.

Contrainte issue de P-2. L’appendice P-2 (Plongement dans l’espace de Hilbert via la correction quantique d’erreurs) établit que, sous bruit local, le codec doit satisfaire une structure QECC — sa représentation interne doit constituer un code quantique correcteur d’erreurs doté de paramètres spécifiques (n, k, d). Cela resserre le problème d’identification du codec : K_\theta n’est plus une mesure calculable arbitraire, mais une mesure dont les états prédictifs portent la géométrie correctrice d’erreurs d’un espace de Hilbert. Cette contrainte est en amont du programme de récupération des constantes de T-5 et peut fournir des critères de sélection supplémentaires pour identifier K_\theta au Modèle standard.

§10. Résumé de clôture

Livrables T-4 — Clôture confirmée (avec conditions de normalisation et de typicalité)

Conventions de codage fixées (§1). MDL en deux parties, complexité de Kolmogorov préfixée relativement à une MTU fixe inclusive, avec application fonctionnelle du domaine des données au flux conscient y_{1:T} = z_{0:T}.
Classes de référence fixées (§2). Évalue \mathcal{M}_1 (SM+GR) par rapport à des bornes triviales comme \mathcal{M}_2 (sélection explosive du paramètre de portée générative) et \mathcal{M}_3 (effondrement de vraisemblance de Boltzmann).
T-4a (Complexité de la méta-règle). K(\xi, \text{Filter}) = K_0 \approx 36 bits, décalages relatifs de MTU inclus.
T-4b (Solomonoff borné). L_T(\text{OPT}) \leq L_T(\nu) + K_0 + \log(1/\xi(\mathcal{O})). Définit explicitement le paramètre de pénalité de normalisation algorithmique.
Conjecture T-4c (Borne heuristique de compression des CI). La redondance structurelle des conditions initiales est le moteur conjecturé de la compression : \Delta_{\text{IC}} = K(\text{IC}\mid\text{SP}) - K(\text{IC}\mid\text{OPT}) \geq 0, bien que l’unicité de l’application ne vaille que conditionnellement. Cela sert de borne heuristique, non de théorème formellement démontré.
T-4d (Avantage du modèle à bits constants). Borne conditionnellement le comportement limite : pour des références calculables dont la classe \nu-typique recouvre de manière non triviale \mathcal{O}, l’OPT obtient un avantage permanent de complexité numérique (\sim -1714 bits), bien que sa densité infinie par bit tende vers zéro.
T-4e (Avantage à T fini — conditionnel). L’OPT surpasse numériquement \mathcal{M}_1 à T fini exactement lorsque les pertes empiriques ponctuelles ne renversent pas la borne structurelle centrale K(\text{IC}\mid\text{SP}) > K_0 (300 > 36). Cela concentre la vulnérabilité directement sur les hypothèses de dominance algorithmique ponctuelle.

Conditions de falsification de la thèse MDL

Une dérivation des conditions initiales cosmologiques à partir des seules lois SP en moins de \sim 36 bits — montrant que K(\text{IC} \mid \text{SP laws}) < K_0.
Une démonstration que la restriction du Filtre de stabilité aux flux compatibles avec l’observateur ne compresse pas les CI — c.-à-d. K(\text{IC} \mid \xi, \text{Filter}) = K(\text{IC} \mid \text{laws}), donnant \Delta_{\text{IC}} = 0.
Un codec calculable explicite K_\theta pour l’OPT qui soit manifestement moins précis que SM+GR sur les flux d’observateur, de sorte que le déficit de log-vraisemblance excède le gain de compression des CI.

Dépendances en aval

T-5 (Récupération des constantes) est l’étape suivante essentielle : une fois le codec K_\theta identifié aux lois SM+GR via T-1/T-2/T-3, la comparaison MDL devient entièrement explicite et la condition de T-4e devient une inégalité concrète entre quantités connues.
Mise à jour du préprint §5.2 : la formule « Whether this meta-rule yields an actual MDL advantage… is an open comparative question » peut désormais être mise à jour comme suit : « Le théorème T-4d établit un avantage asymptotique conditionnel (pour les flux d’observateur qui sont aussi \nu-typiques sous la physique de référence, un ensemble actuellement non caractérisé) ; le théorème T-4e établit un avantage conditionnel à T fini ; voir l’Appendice T-4. »

Cette annexe est maintenue dans le dépôt du projet OPT aux côtés de theoretical_roadmap.pdf. Références : Rissanen (1978) [12], Li & Vitányi (2008) [27], Solomonoff (1964) [11], Penrose (2004).