Théorie du Patch Ordonné

Appendice T-1 : Filtre de stabilité

Anders Jarevåg

3 avril 2026 | DOI: 10.5281/zenodo.19300777

Tâche originale T-1 : Filtre de stabilité — spécification complète taux-distorsion Problème : la théorie taux-distorsion de Shannon requiert : une source X, un alphabet de reproduction et une fonction de distorsion d(x, \hat{x}). Le préprint invoque R_{pred}(D) sans spécifier ces trois éléments pour le substrat de l’OPT. Livrable : une spécification complète (\mathcal{X}, \hat{\mathcal{X}}, P_X, d) du problème taux-distorsion de l’OPT.

Cette révision distingue l’excès d’entropie de la complexité statistique, démontre l’identité KL prédictive à horizon fini, démontre la borne inférieure générale R_{T,h}(D)\ge E_{T,h}-D, et énonce un critère d’égalité exacte pour les cas où cette borne inférieure est atteinte. C_{\max} demeure un paramètre empirique plutôt qu’une quantité dérivée du formalisme taux-distorsion.
Statut de clôture : PARTIELLEMENT RÉSOLU. La spécification du quadruplet, l’identité KL prédictive et la borne inférieure générale R_{T,h}(D) \geq E_{T,h}(\nu) - D sont établies avec un critère d’égalité exacte. L’affirmation antérieure, générique et sous forme fermée, R(D) = C_\mu - D a été retirée ; le résultat correct est la borne inférieure. C_{\max} demeure un paramètre empirique plutôt qu’une quantité dérivée du formalisme taux-distorsion.

§0. Niveau de formulation

Formulation de travail. Fixons T,h<\infty. Soit X:=X_{1:T} le bloc passé et Y:=X_{T+1:T+h} le bloc d’anticipation future sous une mesure stationnaire ergodique calculable fixée \nu\in\mathcal M. Définissons l’information prédictive à horizon fini E_{T,h}(\nu):=I(X;Y). Lorsque la limite à horizon infini existe, définissons l’entropie excédentaire E_\nu := I(\overleftarrow X;\overrightarrow X). Si S désigne l’état causal complet de la machine-\epsilon, définissons la complexité statistique C_{\mu,\nu}:=H(S). Il s’agit de quantités distinctes. Le problème de taux-distorsion à horizon fini, dans cette annexe, est formulé en termes de E_{T,h}, et non de C_{\mu,\nu}. La mesure de Solomonoff \xi n’intervient qu’en tant que méta-prior de pondération (prépublication, équation 1) : les courbes individuelles R(D) sont calculées mesure par mesure pour chaque \nu. Les résultats qui requièrent le mélange complet \xi sont énoncés séparément.

§1. La spécification complète en quadruplet

1.1 Source X et distribution P_X

Fixons une mesure ergodique stationnaire calculable \nu \in \mathcal{M} sur \{0,1\}^\infty. La source est le processus (X_t)_{t \ge 1} distribué selon \nu. Pour le rôle de méta-prior, \xi de l’équation (1) du preprint pondère chaque telle \nu par w_\nu \approx 2^{-K(\nu)}. Nous écrivons P_X = \nu pour un élément fixé de \mathcal{M}. Tous les résultats ci-dessous s’appliquent mesure par mesure à \nu ; le lien avec Solomonoff intervient via la borne de dominance au §4.

1.2 Alphabet de reproduction \hat{X}

Pour T,h fixés, définissons sur les blocs passés une relation d’équivalence prédictive à horizon fini : x \sim_h x' \iff \nu(Y\in A\mid X=x)=\nu(Y\in A\mid X=x') \quad\text{pour tout ensemble mesurable }A\subseteq\{0,1\}^h. Soit S_h la classe d’équivalence de X sous \sim_h. Alors S_h est la statistique suffisante minimale pour prédire Y à partir de X à l’horizon h.

L’état causal complet de l’\epsilon-machine, S, est l’objet à horizon infini obtenu lorsqu’on passe à des passés semi-infinis et au futur complet. La présente annexe utilise S_h pour les dérivations à horizon fini et réserve S à la limite complète de l’état causal.

Statut de calculabilité. Pour un \nu calculable général, la présente annexe ne revendique pas la calculabilité exacte de la partition en états prédictifs. Celle-ci est traitée comme un objet mesurable idéalisé. La calculabilité exacte n’est affirmée que pour des sous-classes explicitement identifiées, telles que les processus à mémoire finie.

1.3 Fonction de distorsion d_h(x, z)

La fonction de distorsion est la divergence prédictive de KL : d_h(x,z):=D_{\mathrm{KL}}\!\big(P_\nu(Y\mid X=x)\,\|\,P_\nu(Y\mid Z=z)\big). Ici, Z est une variable de représentation produite par un encodeur p(z\mid x). Lorsque Z=S_h, il s’agit de la distorsion exacte de l’état prédictif ; lorsque Z est un code grossier ou stochastique, P_\nu(Y\mid Z=z) est la loi prédictive induite.

Quadruplet complet

Élément	Définition
X	(X_t)_{t \ge 1} — processus stationnaire ergodique sous \nu \in \mathcal{M}
\hat{X}	S_h — états prédictifs à horizon fini
P_X	\nu — membre calculable fixé de \mathcal{M} ; Solomonoff \xi est le méta-prior
d_h(x, z)	D_{\mathrm{KL}}( P_\nu(\cdot\\|x) \\| P_\nu(\cdot\\|z) ) — divergence prédictive de KL sur l’horizon h

§2. Dérivation de R_{T,h}(D) sous le quadruplet

La fonction taux-distorsion pour le quadruplet du §1 est :

R_{T,h}(D) = \min_{p(z|x) : \mathbb{E}[d_h(X,Z)] \le D} I(X ; Z)

2.1 L’identité de distorsion KL

Soient X:=X_{1:T}, Y:=X_{T+1:T+h}, et soit Z une représentation quelconque produite par un encodeur p(z\mid x). Puisque Z-X-Y est une chaîne de Markov, \mathbb E[d_h(X,Z)] = \mathbb E\!\left[D_{\mathrm{KL}}(P(Y\mid X)\|P(Y\mid Z))\right] = H(Y\mid Z)-H(Y\mid X) = I(X;Y\mid Z). De manière équivalente, \mathbb E[d_h(X,Z)] = I(X;Y)-I(Z;Y)=E_{T,h}(\nu)-I(Z;Y). Par conséquent, la contrainte de distorsion \mathbb E[d_h(X,Z)]\le D est équivalente à I(Z;Y)\ge E_{T,h}(\nu)-D.

2.2 Reformulation par le goulot d’étranglement informationnel

La contrainte de distorsion restreint l’espace des encodeurs admissibles à ceux qui satisfont \mathbb{E}[d_h(X,Z)] \le D. Cela correspond exactement à imposer une borne inférieure à I(Z;Y), ce qui donne le problème contraint du goulot d’étranglement informationnel. Comme la région réalisable \{(I(Z;Y), I(X;Z))\} est convexe sous les arguments standards de partage temporel, la dualité forte s’applique. Cela permet une reformulation exacte au moyen du lagrangien du goulot d’étranglement informationnel (Tishby, Pereira & Bialek 1999 [28]) : \mathcal{L}[p(z|x)] = I(X ; Z) - \beta \cdot I(Z ; Y) où le multiplicateur de Lagrange \beta est déterminé par D. Le lagrangien IB décrit la frontière de Pareto entre taux de compression et fidélité prédictive.

2.3 Théorème principal : borne inférieure générale et critère d’égalité

Nous établissons la borne pour la fonction taux-distorsion :

Proposition (borne inférieure générale et critère d’égalité).
Pour tout encodeur p(z\mid x), posons D:=\mathbb E[d_h(X,Z)]. Alors I(X;Z)=E_{T,h}(\nu)-D+I(X;Z\mid Y). Par conséquent, R_{T,h}(D)\ge E_{T,h}(\nu)-D. Pour des alphabets de reproduction finis compacts, lorsque la continuité garantit que l’infimum sur les encodeurs est atteint, l’égalité à une distorsion donnée D a lieu si et seulement s’il existe un encodeur réalisant cette distorsion avec I(X;Z\mid Y)=0. Pour des encodeurs déterministes Z=g(X), cela équivaut à H(Z\mid Y)=0.

À distorsion nulle, la statistique suffisante minimale S_h atteint R_{T,h}(0)=I(X;S_h)=H(S_h). Notons que ce taux à distorsion nulle H(S_h) se situe en général strictement au-dessus de la borne inférieure E_{T,h}. La différence est l’écart non négatif H(S_h) - E_{T,h} = H(S_h|Y). Cet écart représente physiquement une « information stockée » structurelle dans le passé que la seule fenêtre future ne parvient pas à récupérer. Le fait que l’égalité soit satisfaite à distorsion nulle (H(S_h|Y)=0) constitue un cas hautement dégénéré, génériquement faux pour les processus complexes.

Dans la limite complète des états causaux, R(0)=C_{\mu,\nu}=H(S). Cela n’est égal à E_\nu que dans des cas particuliers ; en général, E_\nu < C_{\mu,\nu}.

2.4 Comportement pour des alphabets de reproduction plus grossiers

Pour tout grossissement déterministe Z=g(S_h), I(X;Z)=I(Z;Y)+I(X;Z\mid Y)=E_{T,h}(\nu)-D+I(X;Z\mid Y)\ge E_{T,h}(\nu)-D. Le terme d’écart non négatif I(X;Z\mid Y) ne s’annule que lorsque la représentation grossie est récupérable à partir de la fenêtre future Y. Ainsi, des alphabets plus grossiers produisent généralement des courbes taux-distorsion strictement au-dessus de la droite E_{T,h}-D. Cette droite constitue une borne inférieure universelle, et non une enveloppe génériquement atteinte. Tout codec calculable en pratique utilise une approximation à mémoire finie des états causaux et présente donc une courbe située au-dessus de cette borne.

2.5 Évaluations aux limites

Limite	Valeur	Interprétation
D = 0	R_{T,h}(0) = I(X; S_h)	Compression exacte de l’état prédictif ; information maximale préservée
D = E_{T,h}	R_{T,h}(E_{T,h}) = 0	Représentation triviale ; toute l’information prédictive est écartée
D = D_{\min}	R_{T,h}(D_{\min}) \ge E_{T,h}(\nu) - D_{\min}	Borne inférieure minimale pour un observateur viable ; seuil du Filtre de stabilité

(Remarque : dans la limite d’un horizon infini, le point de taux nul se situe à la distorsion E_\nu, et non à C_{\mu,\nu})

§3. C_{\max} — Caractérisation et barrières

3.1 Lemme de convergence à horizon infini

Le théorème principal (§2.3) établit la borne inférieure R_{T,h}(D) \ge E_{T,h}(\nu) - D pour des (T, h) finis. Nous montrons maintenant que cela s’étend au cadre à horizon infini.

Lemme (extension à horizon infini). Soit \nu une mesure stationnaire ergodique sur \{0,1\}^\infty. Alors :

E_{T,h}(\nu) = I(X_{1:T}\,;\,X_{T+1:T+h}) est non décroissante à la fois en T et en h (par l’inégalité de traitement des données : conditionner sur des blocs plus longs ne peut pas diminuer l’information mutuelle entre passé et futur sous stationnarité).
La limite E_\nu := \lim_{T,h \to \infty} E_{T,h}(\nu) existe (éventuellement +\infty) par convergence monotone.
Pour chaque D \ge 0 fixé, la suite R_{T,h}(D) est non décroissante en T (des passés plus longs ne peuvent pas réduire le taux de compression optimal) et non décroissante en h. Esquisse de preuve de la monotonie en h : La fonction de distorsion se décompose comme d_{h+1}(x, z) = D_{\mathrm{KL}}\!\left(P_\nu(\cdot \mid x) \,\|\, P_z(\cdot \mid z)\right) sur h+1 pas futurs, ce qui peut s’écrire, via la règle de chaîne, comme d_h(x,z) + D_{\mathrm{KL}}\!\left(P_\nu(X_{T+h+1} \mid x, X_{T+1:T+h}) \,\|\, P_z(X_{T+h+1} \mid z, X_{T+1:T+h})\right). Puisque le second terme est non négatif, on a ponctuellement d_{h+1} \geq d_h. Par conséquent, l’ensemble de contraintes \{P(z|x) : E[d_{h+1}] \leq D\} \subseteq \{P(z|x) : E[d_h] \leq D\}, et minimiser sur un ensemble admissible plus petit ne peut pas diminuer le taux : R_{T,h+1}(D) \geq R_{T,h}(D).
Par conséquent, R_\nu(D) := \lim_{T,h \to \infty} R_{T,h}(D) existe.

Puisque R_{T,h}(D) \ge E_{T,h}(\nu) - D vaut à chaque étape finie, et que les deux côtés convergent monotoniquement, la borne passe à la limite :

R_\nu(D) \ge E_\nu - D

C’est la borne inférieure à horizon infini invoquée dans les Propositions T-1a et T-1c ci-dessous. Remarque : Pour les processus tels que E_\nu = +\infty (par exemple, des cycles de de Bruijn d’ordre élevé lorsque k \to \infty), la borne est trivialement satisfaite ; de tels processus sont exclus de l’ensemble compatible avec les observateurs O_{C_{\max},D_{\min}} pour tout C_{\max} fini.

3.2 Partition de M par le Filtre de stabilité — Proposition T-1a

Proposition T-1a (partition non triviale).
Fixons des valeurs empiriques C_{\max}>0, \Delta t>0 et D_{\min}\ge0. Définissons O_{C_{\max},D_{\min}} := \{\nu\in\mathcal M: R_\nu(D_{\min})\le C_{\max}\Delta t\}. Alors O_{C_{\max},D_{\min}} et son complémentaire sont tous deux non vides.

Preuve. Le processus constant appartient à O_{C_{\max},D_{\min}} parce qu’il a E_\nu=0 et R_\nu(D)=0.
Pour le complémentaire, choisissons un processus binaire en cycle de de Bruijn d’ordre k : un processus binaire stationnaire ergodique de période 2^k, à phase uniforme, dans lequel chaque mot de longueur k apparaît exactement une fois par cycle. Pour ce processus, E_\nu=C_{\mu,\nu}=k. Dès lors, R_\nu(D_{\min})\ge k-D_{\min}. Choisir k>C_{\max}\Delta t + D_{\min} donne R_\nu(D_{\min})>C_{\max}\Delta t, donc \nu\notin O_{C_{\max},D_{\min}}. \square

3.3 Définition/Caractérisation de C_{\max} — T-1b

Définition T-1b (paramètre empirique de bande passante).
C_{\max} est pris comme un paramètre empirique de bande passante d’accès conscient, externe au formalisme taux-distorsion. Étant donné C_{\max}, on définit la classe compatible avec l’observateur O_{C_{\max},D_{\min}} := \{\nu\in\mathcal M: R_\nu(D_{\min})\le C_{\max}\Delta t\}. Si l’on souhaite résumer une classe de référence \mathcal{O}_{ref} spécifiée séparément, on définit C^{ref}_{max}:=\frac{1}{\Delta t}\sup_{\nu\in\mathcal{O}_{ref}}R_\nu(D_{\min}). Il s’agit d’une statistique résumée d’une classe choisie, et non de la définition de la classe elle-même.

3.4 La Barrière de Non-Émergence — Esquisse de preuve T-1c

Esquisse de preuve T-1c (aucune borne universelle finie à partir de \xi seul).
La semi-mesure de Solomonoff \xi attribue un poids a priori positif à toute mesure calculable \nu\in\mathcal M. La classe \mathcal M contient des processus binaires ergodiques stationnaires dont l’entropie excédentaire E_\nu est arbitrairement grande (par exemple, la famille de de Bruijn ci-dessus). Puisque R_\nu(D_{\min})\ge E_\nu-D_{\min}, il n’existe aucune borne supérieure finie, valable sur tout le support, pour R_\nu(D_{\min}) qui soit dérivable de \xi seul. Tout C_{\max} fini requiert donc un apport empirique supplémentaire ou une restriction de classe au-delà du simple prior de Solomonoff. \square

§4. Connexion au méta-prior de Solomonoff

Le quadruplet de la §1 et la dérivation en R(D) de la §2 sont énoncés mesure par mesure, pour \nu. La connexion à Solomonoff — c’est-à-dire la manière dont le méta-prior \xi pondère les flux compatibles avec l’observateur — relève d’une correspondance structurelle plutôt que d’une dérivation.

Pour tout \nu \in O_{C_{\max},D_{\min}} compatible avec l’observateur, l’équilibre taux-distorsion garantit que le flux compressé z_{0:T} constitue la représentation sélectionnée par le Filtre de stabilité. Le prior de Solomonoff \xi assigne à ce \nu un poids w_\nu \approx 2^{-K(\nu)} : les processus compatibles avec l’observateur les plus simples (K plus faible) sont exponentiellement plus probables sous \xi. C’est l’expression formelle de l’argument de parcimonie (Appendice T-4) : le Filtre de stabilité, opérant sur \xi, sélectionne le codec le plus simple qui reste compatible avec la bande passante.

La borne de dominance issue de T-4b s’applique directement : pour toute mesure physique calculable \nu telle que K(\nu) < \infty :

-\log \xi(y_{1:T}) \le -\log \nu(y_{1:T}) + K(\nu)

Cela garantit que le méta-prior OPT \xi n’assigne jamais aux flux compatibles avec l’observateur une probabilité plus faible que n’importe quel modèle physique calculable fixé, à la longueur de description propre du modèle K(\nu) près.

§5. Le quantum de bit expérientiel h^\ast (Aperçu de E-1)

Étant donné un choix empirique de C_{\max} et une fenêtre empirique de mise à jour consciente \Delta t, on définit h^*:=C_{\max}\Delta t. Pour C_{\max}\approx 10 bits/s et \Delta t\in[50,80] ms, h^*\approx 0.5\text{–}0.8 bit par moment conscient.

Tout processus ergodique stationnaire \nu \in \mathcal{M} satisfaisant E_{T,h}(\nu) - D_{\min} > h^\ast déclenchera légitimement une Dégradation narrative. Cela tient au fait que R_{T,h}(D_{\min}) \ge E_{T,h} - D_{\min} > h^\ast = C_{\max} \Delta t, ce qui viole explicitement le critère de compatibilité. Il s’agit toutefois d’une condition suffisante d’effondrement, et non d’une condition strictement nécessaire : comme la borne inférieure est rarement saturée (R_{T,h} > E_{T,h} - D_{\min} génériquement d’après le §2.4), des processus peuvent subir une Dégradation narrative même lorsque E_{T,h} - D_{\min} \le h^\ast. Cela fournit la prédiction quantitative pour E-1 ; la sensibilité au choix de \Delta t \in [40, 300] ms est examinée dans l’appendice E-1.

§6. Résumé de clôture

Livrables T-1 — Statut révisé

Le quadruplet est spécifié dans un cadre prédictif à horizon fini.
L’identité prédictive-KL est dérivée correctement.
Le théorème générique R(D)=C_\mu-D est remplacé par la borne inférieure correcte R_{T,h}(D)\ge E_{T,h}-D ainsi que par un critère d’égalité exact I(X;Z\mid Y)=0.
Le codage à distorsion nulle est caractérisé par la statistique suffisante minimale S_h, et dans la limite complète des états causaux R(0)=C_{\mu,\nu}.
C_{\max} est traité comme empirique, et non comme dérivé en interne.
h^*=C_{\max}\Delta t est une paramétrisation empirique, et non un théorème issu du §2.

Cette annexe est maintenue dans le dépôt du projet OPT aux côtés de theoretical_roadmap.pdf.