Teoría del Parche Ordenado

Apéndice T-1: Filtro de Estabilidad

Anders Jarevåg

3 de abril de 2026 | DOI: 10.5281/zenodo.19300777

Tarea Original T-1: Filtro de Estabilidad — Especificación completa de tasa-distorsión Problema: La teoría de tasa-distorsión de Shannon requiere: una fuente X, un alfabeto de reproducción y una función de distorsión d(x, \hat{x}). El preprint invoca R_{pred}(D) sin especificar estos tres elementos para el sustrato de la OPT. Entregable: Una especificación completa de (\mathcal{X}, \hat{\mathcal{X}}, P_X, d) para el problema de tasa-distorsión de la OPT.

Esta revisión distingue la entropía excedente de la complejidad estadística, demuestra la identidad KL predictiva a horizonte finito, demuestra la cota inferior general R_{T,h}(D)\ge E_{T,h}-D, y enuncia un criterio exacto de igualdad para cuándo se alcanza esa cota inferior. C_{\max} sigue siendo un parámetro empírico, en lugar de una cantidad derivada del formalismo de tasa-distorsión.
Estado de cierre: PARCIALMENTE RESUELTO. La especificación de la cuádrupla, la identidad KL predictiva y la cota inferior general R_{T,h}(D) \geq E_{T,h}(\nu) - D quedan establecidas junto con un criterio exacto de igualdad. La afirmación anterior de forma cerrada genérica R(D) = C_\mu - D ha sido retirada; el resultado correcto es la cota inferior. C_{\max} sigue siendo un parámetro empírico, en lugar de una cantidad derivada del formalismo de tasa-distorsión.

§0. Nivel de formulación

Formulación de trabajo. Fijemos T,h<\infty. Sea X:=X_{1:T} el bloque pasado y Y:=X_{T+1:T+h} el bloque de anticipación futura bajo una medida ergódica estacionaria computable fija \nu\in\mathcal M. Defínase la información predictiva de horizonte finito E_{T,h}(\nu):=I(X;Y). Cuando existe el límite de horizonte infinito, defínase la entropía excedente E_\nu := I(\overleftarrow X;\overrightarrow X). Si S denota el estado causal completo de la \epsilon-máquina, defínase la complejidad estadística C_{\mu,\nu}:=H(S). Estas son magnitudes distintas. El problema de tasa-distorsión de horizonte finito en este apéndice se formula en términos de E_{T,h}, no de C_{\mu,\nu}. La semimedida de Solomonoff \xi interviene solo como ponderación del metaprior (preprint, Ec. 1): las curvas individuales R(D) se calculan para cada medida \nu. Los resultados que requieren la mezcla completa \xi se enuncian por separado.

§1. La especificación completa de la cuádrupla

1.1 Fuente X y distribución P_X

Fijemos una medida computable, estacionaria y ergódica \nu \in \mathcal{M} sobre \{0,1\}^\infty. La fuente es el proceso (X_t)_{t \ge 1} distribuido según \nu. Para el papel de meta-prior, \xi de la Ec. (1) del preprint pondera cada una de esas \nu mediante w_\nu \approx 2^{-K(\nu)}. Escribimos P_X = \nu para un miembro fijo de \mathcal{M}. Todos los resultados que siguen se aplican medida por medida \nu; la conexión con Solomonoff entra a través de la cota de dominancia en §4.

1.2 Alfabeto de Reproducción \hat{X}

Para T,h fijos, defínase una relación de equivalencia predictiva de horizonte finito sobre bloques pasados: x \sim_h x' \iff \nu(Y\in A\mid X=x)=\nu(Y\in A\mid X=x') \quad\text{para todo conjunto medible }A\subseteq\{0,1\}^h. Sea S_h la clase de equivalencia de X bajo \sim_h. Entonces S_h es el estadístico suficiente minimal para predecir Y a partir de X en el horizonte h.

El estado causal completo de la \epsilon-máquina, S, es el objeto de horizonte infinito que se obtiene al pasar a pasados semiinfinitos y al futuro completo. Este apéndice utiliza S_h para las derivaciones de horizonte finito y reserva S para el límite completo del estado causal.

Estado de computabilidad. Para una \nu computable general, este apéndice no afirma la computabilidad exacta de la partición del estado predictivo. Se la trata como un objeto medible idealizado. La computabilidad exacta se afirma únicamente para subclases identificadas explícitamente, como los procesos de memoria finita.

1.3 Función de Distorsión d_h(x, z)

La función de distorsión es la divergencia predictiva KL: d_h(x,z):=D_{\mathrm{KL}}\!\big(P_\nu(Y\mid X=x)\,\|\,P_\nu(Y\mid Z=z)\big). Aquí Z es una variable de representación producida por un codificador p(z\mid x). Cuando Z=S_h, esta es la distorsión exacta del estado predictivo; cuando Z es un refinamiento grueso o un código estocástico, P_\nu(Y\mid Z=z) es la ley predictiva inducida.

Cuádrupla completa

Elemento	Definición
X	(X_t)_{t \ge 1} — proceso estacionario ergódico bajo \nu \in \mathcal{M}
\hat{X}	S_h — estados predictivos de horizonte finito
P_X	\nu — miembro computable fijo de \mathcal{M}; Solomonoff \xi es el metaprior
d_h(x, z)	D_{\mathrm{KL}}( P_\nu(\cdot\\|x) \\| P_\nu(\cdot\\|z) ) — divergencia predictiva KL sobre el horizonte h

§2. Derivación de R_{T,h}(D) bajo la Cuádrupla

La función tasa-distorsión para la cuádrupla de §1 es:

R_{T,h}(D) = \min_{p(z|x) : \mathbb{E}[d_h(X,Z)] \le D} I(X ; Z)

2.1 La Identidad de Distorsión KL

Sea X:=X_{1:T}, Y:=X_{T+1:T+h}, y sea Z cualquier representación producida por un codificador p(z\mid x). Dado que Z-X-Y es una cadena de Markov, \mathbb E[d_h(X,Z)] = \mathbb E\!\left[D_{\mathrm{KL}}(P(Y\mid X)\|P(Y\mid Z))\right] = H(Y\mid Z)-H(Y\mid X) = I(X;Y\mid Z). Equivalentemente, \mathbb E[d_h(X,Z)] = I(X;Y)-I(Z;Y)=E_{T,h}(\nu)-I(Z;Y). Por lo tanto, la restricción de distorsión \mathbb E[d_h(X,Z)]\le D es equivalente a I(Z;Y)\ge E_{T,h}(\nu)-D.

2.2 Reformulación del Cuello de Botella de la Información

La restricción de distorsión limita el espacio de codificadores admisibles a aquellos que satisfacen \mathbb{E}[d_h(X,Z)] \le D. Esto corresponde con precisión a acotar I(Z;Y) por debajo, dando lugar al problema restringido del Cuello de Botella de la Información. Debido a que la región alcanzable \{(I(Z;Y), I(X;Z))\} es convexa bajo los argumentos estándar de compartición temporal, se cumple la dualidad fuerte. Esto permite una reformulación exacta mediante el lagrangiano del Cuello de Botella de la Información (Tishby, Pereira y Bialek 1999 [28]): \mathcal{L}[p(z|x)] = I(X ; Z) - \beta \cdot I(Z ; Y) con el multiplicador de Lagrange \beta determinado por D. El lagrangiano IB traza la frontera de Pareto entre la tasa de compresión y la fidelidad predictiva.

2.3 Teorema Principal: Cota Inferior General y Criterio de Igualdad

Establecemos la cota para la función tasa-distorsión:

Proposición (cota inferior general y criterio de igualdad).
Para cualquier codificador p(z\mid x), sea D:=\mathbb E[d_h(X,Z)]. Entonces I(X;Z)=E_{T,h}(\nu)-D+I(X;Z\mid Y). En consecuencia, R_{T,h}(D)\ge E_{T,h}(\nu)-D. Para alfabetos de reproducción finitos y compactos, donde la continuidad garantiza que se alcanza el ínfimo sobre los codificadores, la igualdad a una distorsión dada D se cumple si y solo si existe un codificador que alcanza esa distorsión con I(X;Z\mid Y)=0. Para codificadores deterministas Z=g(X), esto es equivalente a H(Z\mid Y)=0.

A distorsión nula, la estadística suficiente mínima S_h alcanza R_{T,h}(0)=I(X;S_h)=H(S_h). Nótese que esta tasa de distorsión nula H(S_h) se sitúa, en general, estrictamente por encima de la cota inferior E_{T,h}. La diferencia es la brecha no negativa H(S_h) - E_{T,h} = H(S_h|Y). Esta brecha representa físicamente información estructural «almacenada» en el pasado que la ventana futura por sí sola no logra recuperar. Que la igualdad se cumpla a distorsión nula (H(S_h|Y)=0) es un caso altamente degenerado y, por lo general, falso para procesos complejos.

En el límite completo de estados causales, R(0)=C_{\mu,\nu}=H(S). Esto es igual a E_\nu solo en casos especiales; en general, E_\nu < C_{\mu,\nu}.

2.4 Comportamiento para Alfabetos de Reproducción más Groseros

Para cualquier groserización determinista Z=g(S_h), I(X;Z)=I(Z;Y)+I(X;Z\mid Y)=E_{T,h}(\nu)-D+I(X;Z\mid Y)\ge E_{T,h}(\nu)-D. El término de holgura no negativo I(X;Z\mid Y) se anula únicamente cuando la representación groserizada es recuperable a partir de la ventana futura Y. Por consiguiente, los alfabetos más groseros producen en general curvas de tasa-distorsión estrictamente por encima de la recta E_{T,h}-D. Esa recta es una cota inferior universal, no una envolvente genérica alcanzable. Cualquier códec computable en la práctica utiliza una aproximación de memoria finita a los estados causales y, por tanto, tiene una curva situada por encima de esta cota.

2.5 Evaluaciones de Contorno

Límite	Valor	Interpretación
D = 0	R_{T,h}(0) = I(X; S_h)	Compresión exacta del estado predictivo; máxima información preservada
D = E_{T,h}	R_{T,h}(E_{T,h}) = 0	Representación trivial; toda la información predictiva se descarta
D = D_{\min}	R_{T,h}(D_{\min}) \ge E_{T,h}(\nu) - D_{\min}	Cota inferior mínima para un observador viable; umbral del Filtro de Estabilidad

(Nota: En el límite de horizonte infinito, el punto de tasa cero está en la distorsión E_\nu, no en C_{\mu,\nu})

§3. C_{\max} — Caracterización y barreras

3.1 Lema de Convergencia en Horizonte Infinito

El teorema principal (§2.3) establece la cota inferior R_{T,h}(D) \ge E_{T,h}(\nu) - D para (T, h) finitos. Mostramos ahora que esto se extiende al caso de horizonte infinito.

Lema (extensión a horizonte infinito). Sea \nu una medida ergódica estacionaria sobre \{0,1\}^\infty. Entonces:

E_{T,h}(\nu) = I(X_{1:T}\,;\,X_{T+1:T+h}) es no decreciente tanto en T como en h (por la desigualdad de procesamiento de datos: condicionar sobre bloques más largos no puede disminuir la información mutua entre pasado y futuro bajo estacionariedad).
El límite E_\nu := \lim_{T,h \to \infty} E_{T,h}(\nu) existe (posiblemente +\infty) por convergencia monótona.
Para cada D \ge 0 fijo, la sucesión R_{T,h}(D) es no decreciente en T (pasados más largos no pueden reducir la tasa óptima de compresión) y no decreciente en h. Esbozo de prueba de la monotonía en h: La función de distorsión se descompone como d_{h+1}(x, z) = D_{\mathrm{KL}}\!\left(P_\nu(\cdot \mid x) \,\|\, P_z(\cdot \mid z)\right) sobre h+1 pasos futuros, lo que puede escribirse, mediante la regla de la cadena, como d_h(x,z) + D_{\mathrm{KL}}\!\left(P_\nu(X_{T+h+1} \mid x, X_{T+1:T+h}) \,\|\, P_z(X_{T+h+1} \mid z, X_{T+1:T+h})\right). Como el segundo término es no negativo, d_{h+1} \geq d_h puntualmente. Por tanto, el conjunto de restricciones \{P(z|x) : E[d_{h+1}] \leq D\} \subseteq \{P(z|x) : E[d_h] \leq D\}, y minimizar sobre un conjunto factible más pequeño no puede disminuir la tasa: R_{T,h+1}(D) \geq R_{T,h}(D).
Por consiguiente, R_\nu(D) := \lim_{T,h \to \infty} R_{T,h}(D) existe.

Puesto que R_{T,h}(D) \ge E_{T,h}(\nu) - D vale en cada etapa finita, y ambos lados convergen monótonamente, la cota pasa al límite:

R_\nu(D) \ge E_\nu - D

Esta es la cota inferior en horizonte infinito invocada en las Proposiciones T-1a y T-1c más abajo. Nota: Para procesos con E_\nu = +\infty (p. ej., ciclos de de Bruijn de orden alto cuando k \to \infty), la cota se satisface trivialmente; tales procesos quedan excluidos del conjunto compatible con observadores O_{C_{\max},D_{\min}} para cualquier C_{\max} finito.

3.2 Partición de M por el Filtro de Estabilidad — Proposición T-1a

Proposición T-1a (partición no trivial).
Fijemos C_{\max}>0, \Delta t>0 y D_{\min}\ge0 empíricos. Definamos O_{C_{\max},D_{\min}} := \{\nu\in\mathcal M: R_\nu(D_{\min})\le C_{\max}\Delta t\}. Entonces, tanto O_{C_{\max},D_{\min}} como su complemento son no vacíos.

Demostración. El proceso constante pertenece a O_{C_{\max},D_{\min}} porque tiene E_\nu=0 y R_\nu(D)=0.
Para el complemento, elíjase un proceso binario de ciclo de de Bruijn de orden k: un proceso binario estacionario y ergódico de período 2^k con fase uniforme, en el que toda palabra de longitud k aparece exactamente una vez por ciclo. Para este proceso, E_\nu=C_{\mu,\nu}=k. Por tanto, R_\nu(D_{\min})\ge k-D_{\min}. Eligiendo k>C_{\max}\Delta t + D_{\min} se obtiene R_\nu(D_{\min})>C_{\max}\Delta t, de modo que \nu\notin O_{C_{\max},D_{\min}}. \square

3.3 Definición/Caracterización de C_{\max} — T-1b

Definición T-1b (parámetro empírico de ancho de banda).
C_{\max} se toma como un parámetro empírico de ancho de banda de acceso consciente, externo al formalismo de tasa-distorsión. Dado C_{\max}, defínase la clase compatible con el observador O_{C_{\max},D_{\min}} := \{\nu\in\mathcal M: R_\nu(D_{\min})\le C_{\max}\Delta t\}. Si se desea resumir una clase de referencia especificada por separado \mathcal{O}_{ref}, defínase C^{ref}_{max}:=\frac{1}{\Delta t}\sup_{\nu\in\mathcal{O}_{ref}}R_\nu(D_{\min}). Se trata de un estadístico resumen de una clase elegida, no de la definición de la clase misma.

3.4 La Barrera de No Emergencia — Esbozo de prueba T-1c

Esbozo de prueba T-1c (no existe una cota universal finita a partir de \xi sola).
La Semimedida Universal de Solomonoff \xi asigna peso a priori positivo a toda medida computable \nu\in\mathcal M. La clase \mathcal M contiene procesos binarios estacionarios ergódicos con entropía excedente E_\nu arbitrariamente grande (por ejemplo, la familia de Bruijn anterior). Dado que R_\nu(D_{\min})\ge E_\nu-D_{\min}, no existe una cota superior finita, válida en todo el soporte, para R_\nu(D_{\min}) que pueda derivarse de \xi sola. Por tanto, cualquier C_{\max} finito requiere insumos empíricos adicionales o una restricción de clase más allá del mero prior de Solomonoff. \square

§4. Conexión con el Meta-Prior de Solomonoff

La cuádrupla de §1 y la derivación de R(D) de §2 se enuncian por medida \nu. La conexión con Solomonoff —cómo el meta-prior \xi pondera los flujos compatibles con el observador— es una correspondencia estructural más que una derivación.

Para cualquier \nu \in O_{C_{\max},D_{\min}} compatible con el observador, el equilibrio tasa-distorsión garantiza que el flujo comprimido z_{0:T} sea la representación seleccionada por el Filtro de Estabilidad. El prior de Solomonoff \xi asigna a esta \nu un peso w_\nu \approx 2^{-K(\nu)}: los procesos compatibles con el observador más simples (menor K) son exponencialmente más probables bajo \xi. Esta es la expresión formal del argumento de parsimonia (Apéndice T-4): el Filtro de Estabilidad, operando sobre \xi, selecciona el códec más simple que encaja dentro del ancho de banda.

La cota de dominancia de T-4b se aplica directamente: para cualquier medida computable de física \nu con K(\nu) < \infty:

-\log \xi(y_{1:T}) \le -\log \nu(y_{1:T}) + K(\nu)

Esto garantiza que el meta-prior OPT \xi nunca asigne a los flujos compatibles con el observador una probabilidad menor que cualquier modelo fijo y computable de física, salvo por la propia longitud de descripción del modelo, K(\nu).

§5. El cuanto de bit experiencial h^\ast (avance de E-1)

Dada una elección empírica de C_{\max} y una ventana empírica de actualización consciente \Delta t, definimos h^*:=C_{\max}\Delta t. Para C_{\max}\approx 10 bits/s y \Delta t\in[50,80] ms, h^*\approx 0.5\text{–}0.8 bits por momento consciente.

Todo proceso ergódico estacionario \nu \in \mathcal{M} que satisfaga E_{T,h}(\nu) - D_{\min} > h^\ast desencadenará legítimamente Decaimiento Narrativo. Esto se debe a que R_{T,h}(D_{\min}) \ge E_{T,h} - D_{\min} > h^\ast = C_{\max} \Delta t, violando explícitamente el criterio de compatibilidad. Sin embargo, esta es una condición suficiente para el colapso, no una estrictamente necesaria: como la cota inferior rara vez es ajustada (R_{T,h} > E_{T,h} - D_{\min} de manera genérica según §2.4), los procesos pueden sufrir Decaimiento Narrativo incluso cuando E_{T,h} - D_{\min} \le h^\ast. Esto proporciona la predicción cuantitativa para E-1; la sensibilidad a la elección de \Delta t \in [40, 300] ms se analiza en el apéndice de E-1.

§6. Resumen de cierre

Entregables de T-1 — Estado revisado

La cuádrupla queda especificada en un marco predictivo de horizonte finito.
La identidad predictiva-KL se deriva correctamente.
El teorema genérico R(D)=C_\mu-D se sustituye por la cota inferior correcta R_{T,h}(D)\ge E_{T,h}-D junto con un criterio exacto de igualdad I(X;Z\mid Y)=0.
La codificación de distorsión cero se caracteriza mediante la estadística suficiente mínima S_h, y en el límite completo de estado causal R(0)=C_{\mu,\nu}.
C_{\max} se trata como empírico, no como derivado internamente.
h^*=C_{\max}\Delta t es una parametrización empírica, no un teorema de §2.

Este apéndice se mantiene como parte del repositorio del proyecto OPT junto con theoretical_roadmap.pdf.