Teoria do Patch Ordenado

Apêndice T-1: Filtro de Estabilidade

Anders Jarevåg

3 de abril de 2026 | DOI: 10.5281/zenodo.19300777


Tarefa Original T-1: Filtro de Estabilidade — Especificação Completa de Taxa-Distorção Problema: a teoria de Taxa-Distorção de Shannon requer: uma fonte X, um alfabeto de reprodução e uma função de distorção d(x, \hat{x}). O preprint invoca R_{pred}(D) sem especificar estes três elementos para o substrato da OPT. Entregável: uma especificação completa de (\mathcal{X}, \hat{\mathcal{X}}, P_X, d) para o problema de taxa-distorção da OPT.

Esta revisão distingue entropia em excesso de complexidade estatística, demonstra a identidade KL preditiva em horizonte finito, demonstra o limite inferior geral R_{T,h}(D)\ge E_{T,h}-D, e enuncia um critério exato de igualdade para os casos em que esse limite inferior é atingido. C_{\max} permanece um parâmetro empírico, e não uma quantidade derivada do formalismo de taxa-distorção.
Estado de encerramento: PARCIALMENTE RESOLVIDO. A especificação do quádruplo, a identidade KL preditiva e o limite inferior geral R_{T,h}(D) \geq E_{T,h}(\nu) - D estão estabelecidos, com um critério exato de igualdade. A alegação anterior de forma fechada genérica R(D) = C_\mu - D foi retirada; o resultado correto é o limite inferior. C_{\max} permanece um parâmetro empírico, e não uma quantidade derivada do formalismo de taxa-distorção.


§0. Nível de Formulação

Formulação de trabalho. Fixe-se T,h<\infty. Seja X:=X_{1:T} o bloco passado e Y:=X_{T+1:T+h} o bloco de antecipação futura sob uma medida estacionária ergódica computável fixa \nu\in\mathcal M. Defina-se a informação preditiva de horizonte finito E_{T,h}(\nu):=I(X;Y). Quando o limite de horizonte infinito existe, defina-se a entropia excedente E_\nu := I(\overleftarrow X;\overrightarrow X). Se S denota o estado causal completo da \epsilon-machine, defina-se a complexidade estatística C_{\mu,\nu}:=H(S). Estas são grandezas distintas. O problema de taxa-distorção de horizonte finito neste apêndice é formulado em termos de E_{T,h}, e não de C_{\mu,\nu}. A medida de Solomonoff \xi entra apenas como ponderação meta-prior (preprint Eq. 1): as curvas individuais R(D) são calculadas para cada medida \nu. Os resultados que requerem a mistura completa \xi são enunciados separadamente.


§1. A Especificação Completa do Quádruplo

1.1 Fonte X e Distribuição P_X

Fixe-se uma medida ergódica estacionária computável \nu \in \mathcal{M} sobre \{0,1\}^\infty. A fonte é o processo (X_t)_{t \ge 1} distribuído de acordo com \nu. Para o papel de meta-prior, \xi da Eq. (1) do preprint pondera cada uma dessas \nu por w_\nu \approx 2^{-K(\nu)}. Escrevemos P_X = \nu para um membro fixo de \mathcal{M}. Todos os resultados abaixo se aplicam medida a medida, para cada \nu; a ligação a Solomonoff entra através do limite de dominância em §4.

1.2 Alfabeto de Reprodução \hat{X}

Para T,h fixos, defina uma relação de equivalência preditiva de horizonte finito sobre blocos passados: x \sim_h x' \iff \nu(Y\in A\mid X=x)=\nu(Y\in A\mid X=x') \quad\text{para todo }A\subseteq\{0,1\}^h \text{ mensurável}. Seja S_h a classe de equivalência de X sob \sim_h. Então S_h é a estatística suficiente mínima para prever Y a partir de X no horizonte h.

O estado causal completo da \epsilon-machine, S, é o objeto de horizonte infinito obtido ao passar para passados semi-infinitos e para o futuro completo. Este apêndice usa S_h para derivações de horizonte finito e reserva S para o limite completo de estado causal.

Estatuto de computabilidade. Para uma \nu computável geral, este apêndice não afirma a computabilidade exata da partição de estados preditivos. Ela é tratada como um objeto mensurável idealizado. A computabilidade exata é afirmada apenas para subclasses explicitamente identificadas, como processos de memória finita.

1.3 Função de Distorção d_h(x, z)

A função de distorção é a divergência preditiva KL: d_h(x,z):=D_{\mathrm{KL}}\!\big(P_\nu(Y\mid X=x)\,\|\,P_\nu(Y\mid Z=z)\big). Aqui, Z é uma variável de representação produzida por um codificador p(z\mid x). Quando Z=S_h, esta é a distorção exata do estado preditivo; quando Z é um refinamento grosseiro ou um código estocástico, P_\nu(Y\mid Z=z) é a lei preditiva induzida.

Quádruplo Completo

Elemento Definição
X (X_t)_{t \ge 1} — processo ergódico estacionário sob \nu \in \mathcal{M}
\hat{X} S_h — estados preditivos de horizonte finito
P_X \nu — membro computável fixo de \mathcal{M}; Solomonoff \xi é o meta-prior
d_h(x, z) D_{\mathrm{KL}}( P_\nu(\cdot\|x) \| P_\nu(\cdot\|z) ) — divergência preditiva KL ao longo do horizonte h

§2. Derivação de R_{T,h}(D) sob o Quádruplo

A função taxa-distorção para o quádruplo da §1 é:

R_{T,h}(D) = \min_{p(z|x) : \mathbb{E}[d_h(X,Z)] \le D} I(X ; Z)

2.1 A Identidade de Distorção KL

Sejam X:=X_{1:T}, Y:=X_{T+1:T+h}, e seja Z qualquer representação produzida por um codificador p(z\mid x). Como Z-X-Y é uma cadeia de Markov, \mathbb E[d_h(X,Z)] = \mathbb E\!\left[D_{\mathrm{KL}}(P(Y\mid X)\|P(Y\mid Z))\right] = H(Y\mid Z)-H(Y\mid X) = I(X;Y\mid Z). Equivalentemente, \mathbb E[d_h(X,Z)] = I(X;Y)-I(Z;Y)=E_{T,h}(\nu)-I(Z;Y). Portanto, a restrição de distorção \mathbb E[d_h(X,Z)]\le D é equivalente a I(Z;Y)\ge E_{T,h}(\nu)-D.

2.2 Reformulação do Gargalo de Informação

A restrição de distorção limita o espaço dos codificadores admissíveis àqueles que satisfazem \mathbb{E}[d_h(X,Z)] \le D. Isto corresponde precisamente a impor um limite inferior a I(Z;Y), dando origem ao problema constrangido do Gargalo de Informação. Como a região alcançável \{(I(Z;Y), I(X;Z))\} é convexa sob os argumentos-padrão de partilha temporal, verifica-se dualidade forte. Isto permite uma reformulação exata usando o Lagrangiano do Gargalo de Informação (Tishby, Pereira & Bialek 1999 [28]): \mathcal{L}[p(z|x)] = I(X ; Z) - \beta \cdot I(Z ; Y) com o multiplicador de Lagrange \beta determinado por D. O Lagrangiano IB traça a fronteira de Pareto entre taxa de compressão e fidelidade preditiva.

2.3 Teorema Principal: Limite Inferior Geral e Critério de Igualdade

Estabelecemos o limite para a função taxa-distorção:

Proposição (limite inferior geral e critério de igualdade).
Para qualquer codificador p(z\mid x), seja D:=\mathbb E[d_h(X,Z)]. Então I(X;Z)=E_{T,h}(\nu)-D+I(X;Z\mid Y). Consequentemente, R_{T,h}(D)\ge E_{T,h}(\nu)-D. Para alfabetos de reprodução finitos compactos em que a continuidade garante que o ínfimo sobre os codificadores é atingido, a igualdade, para uma dada distorção D, verifica-se se e somente se existe um codificador que atinge essa distorção com I(X;Z\mid Y)=0. Para codificadores determinísticos Z=g(X), isto é equivalente a H(Z\mid Y)=0.

Na distorção nula, a estatística suficiente mínima S_h atinge R_{T,h}(0)=I(X;S_h)=H(S_h). Note-se que esta taxa de distorção nula H(S_h) se situa, em geral, estritamente acima do limite inferior E_{T,h}. A diferença é a lacuna não negativa H(S_h) - E_{T,h} = H(S_h|Y). Esta lacuna representa fisicamente a ‘informação armazenada’ estrutural no passado que a janela futura, por si só, não consegue recuperar. A igualdade na distorção nula (H(S_h|Y)=0) é um caso altamente degenerado, genericamente falso para processos complexos.

No limite completo de estados causais, R(0)=C_{\mu,\nu}=H(S). Isto é igual a E_\nu apenas em casos especiais; em geral, E_\nu < C_{\mu,\nu}.

2.4 Comportamento para Alfabetos de Reprodução Mais Grosseiros

Para qualquer grosseiramento determinístico Z=g(S_h), I(X;Z)=I(Z;Y)+I(X;Z\mid Y)=E_{T,h}(\nu)-D+I(X;Z\mid Y)\ge E_{T,h}(\nu)-D. O termo de folga não negativo I(X;Z\mid Y) anula-se apenas quando a representação grosseirada é recuperável a partir da janela futura Y. Assim, alfabetos mais grosseiros produzem, em geral, curvas taxa-distorção estritamente acima da reta E_{T,h}-D. A reta é um limite inferior universal, não um envelope genericamente atingido. Qualquer codec praticamente computável usa uma aproximação de memória finita aos estados causais e, portanto, tem uma curva acima deste limite.

2.5 Avaliações de Fronteira

Limite Valor Interpretação
D = 0 R_{T,h}(0) = I(X; S_h) Compressão exata do estado preditivo; informação máxima preservada
D = E_{T,h} R_{T,h}(E_{T,h}) = 0 Representação trivial; toda a informação preditiva é descartada
D = D_{\min} R_{T,h}(D_{\min}) \ge E_{T,h}(\nu) - D_{\min} Limite inferior mínimo para um observador viável; limiar do Filtro de Estabilidade

(Nota: no limite de horizonte infinito, o ponto de taxa zero está na distorção E_\nu, não em C_{\mu,\nu})


§3. C_{\max} — Caracterização e Barreiras

3.1 Lema da Convergência em Horizonte Infinito

O teorema principal (§2.3) estabelece o limite inferior R_{T,h}(D) \ge E_{T,h}(\nu) - D para (T, h) finitos. Mostramos agora que isto se estende ao contexto de horizonte infinito.

Lema (extensão ao horizonte infinito). Seja \nu uma medida ergódica estacionária em \{0,1\}^\infty. Então:

  1. E_{T,h}(\nu) = I(X_{1:T}\,;\,X_{T+1:T+h}) é não decrescente tanto em T como em h (pela desigualdade de processamento de dados: condicionar em blocos mais longos não pode diminuir a informação mútua entre passado e futuro sob estacionariedade).
  2. O limite E_\nu := \lim_{T,h \to \infty} E_{T,h}(\nu) existe (possivelmente +\infty) por convergência monótona.
  3. Para cada D \ge 0 fixo, a sequência R_{T,h}(D) é não decrescente em T (passados mais longos não podem reduzir a taxa ótima de compressão) e não decrescente em h. Esboço da prova da monotonicidade em h: A função de distorção decompõe-se como d_{h+1}(x, z) = D_{\mathrm{KL}}\!\left(P_\nu(\cdot \mid x) \,\|\, P_z(\cdot \mid z)\right) ao longo de h+1 passos futuros, o que pode ser escrito, pela regra da cadeia, como d_h(x,z) + D_{\mathrm{KL}}\!\left(P_\nu(X_{T+h+1} \mid x, X_{T+1:T+h}) \,\|\, P_z(X_{T+h+1} \mid z, X_{T+1:T+h})\right). Como o segundo termo é não negativo, d_{h+1} \geq d_h pontualmente. Portanto, o conjunto de restrição \{P(z|x) : E[d_{h+1}] \leq D\} \subseteq \{P(z|x) : E[d_h] \leq D\}, e minimizar sobre um conjunto viável menor não pode diminuir a taxa: R_{T,h+1}(D) \geq R_{T,h}(D).
  4. Portanto, R_\nu(D) := \lim_{T,h \to \infty} R_{T,h}(D) existe.

Como R_{T,h}(D) \ge E_{T,h}(\nu) - D vale em cada etapa finita, e ambos os lados convergem monotonicamente, o limite inferior passa ao limite:

R_\nu(D) \ge E_\nu - D

Este é o limite inferior em horizonte infinito invocado nas Proposições T-1a e T-1c abaixo. Nota: Para processos com E_\nu = +\infty (por exemplo, ciclos de de Bruijn de ordem elevada quando k \to \infty), o limite é trivialmente satisfeito; tais processos são excluídos do conjunto compatível com observadores O_{C_{\max},D_{\min}} para qualquer C_{\max} finito.

3.2 Partição de M pelo Filtro de Estabilidade — Proposição T-1a

Proposição T-1a (partição não trivial).
Fixe-se C_{\max}>0, \Delta t>0 e D_{\min}\ge0 empíricos. Defina-se O_{C_{\max},D_{\min}} := \{\nu\in\mathcal M: R_\nu(D_{\min})\le C_{\max}\Delta t\}. Então, tanto O_{C_{\max},D_{\min}} como o seu complementar são não vazios.

Prova. O processo constante pertence a O_{C_{\max},D_{\min}} porque tem E_\nu=0 e R_\nu(D)=0.
Para o complementar, escolha-se um processo binário em ciclo de de Bruijn de ordem k: um processo binário estacionário ergódico de período 2^k, com fase uniforme, no qual cada palavra de comprimento k aparece exatamente uma vez por ciclo. Para este processo, E_\nu=C_{\mu,\nu}=k. Logo, R_\nu(D_{\min})\ge k-D_{\min}. Escolhendo k>C_{\max}\Delta t + D_{\min}, obtém-se R_\nu(D_{\min})>C_{\max}\Delta t, pelo que \nu\notin O_{C_{\max},D_{\min}}. \square

3.3 Definição/Caracterização de C_{\max} — T-1b

Definição T-1b (parâmetro empírico de largura de banda).
C_{\max} é tomado como um parâmetro empírico de largura de banda de acesso consciente, externo ao formalismo taxa-distorção. Dado C_{\max}, define-se a classe compatível com o observador O_{C_{\max},D_{\min}} := \{\nu\in\mathcal M: R_\nu(D_{\min})\le C_{\max}\Delta t\}. Se se desejar resumir uma classe de referência \mathcal{O}_{ref} especificada separadamente, define-se C^{ref}_{max}:=\frac{1}{\Delta t}\sup_{\nu\in\mathcal{O}_{ref}}R_\nu(D_{\min}). Trata-se de uma estatística-resumo de uma classe escolhida, não da definição da própria classe.

3.4 A Barreira da Não-Emergência — Esboço de Prova T-1c

Esboço de prova T-1c (nenhum limite superior universal finito a partir de \xi apenas).
A Semimedida Universal de Solomonoff \xi atribui peso a priori positivo a toda medida computável \nu\in\mathcal M. A classe \mathcal M contém processos binários estacionários ergódicos com entropia excedente E_\nu arbitrariamente grande (por exemplo, a família de de Bruijn acima). Como R_\nu(D_{\min})\ge E_\nu-D_{\min}, não existe nenhum limite superior finito, válido em todo o suporte, para R_\nu(D_{\min}) que seja derivável de \xi apenas. Qualquer C_{\max} finito requer, portanto, input empírico adicional ou uma restrição da classe para além do mero prior de Solomonoff. \square


§4. Ligação à Meta-Prior de Solomonoff

O quádruplo da §1 e a derivação de R(D) da §2 são formulados por medida \nu. A ligação a Solomonoff — isto é, a forma como a meta-prior \xi pondera fluxos compatíveis com o observador — constitui uma correspondência estrutural, e não uma derivação.

Para qualquer \nu \in O_{C_{\max},D_{\min}} compatível com o observador, o equilíbrio taxa-distorção garante que o fluxo comprimido z_{0:T} é a representação selecionada pelo Filtro de Estabilidade. A prior de Solomonoff \xi atribui a esta \nu o peso w_\nu \approx 2^{-K(\nu)}: processos compatíveis com o observador mais simples (com menor K) são exponencialmente mais prováveis sob \xi. Esta é a expressão formal do argumento de parcimónia (Apêndice T-4): o Filtro de Estabilidade, operando sobre \xi, seleciona o codec mais simples que se ajusta à largura de banda.

O limite de dominância de T-4b aplica-se diretamente: para qualquer medida computável de física \nu com K(\nu) < \infty:

-\log \xi(y_{1:T}) \le -\log \nu(y_{1:T}) + K(\nu)

Isto garante que a meta-prior \xi da OPT nunca atribui aos fluxos compatíveis com o observador uma probabilidade inferior à de qualquer modelo computável fixo de física, exceto até ao comprimento de descrição do próprio modelo, K(\nu).


§5. O Quantum Bit Experiencial h^\ast (Pré-visualização de E-1)

Dada uma escolha empírica de C_{\max} e uma janela empírica de atualização consciente \Delta t, define-se h^*:=C_{\max}\Delta t. Para C_{\max}\approx 10 bits/s e \Delta t\in[50,80] ms, h^*\approx 0.5\text{–}0.8 bits por momento consciente.

Qualquer processo ergódico estacionário \nu \in \mathcal{M} que satisfaça E_{T,h}(\nu) - D_{\min} > h^\ast desencadeará legitimamente Decaimento Narrativo. Isto porque R_{T,h}(D_{\min}) \ge E_{T,h} - D_{\min} > h^\ast = C_{\max} \Delta t, violando explicitamente o critério de compatibilidade. No entanto, esta é uma condição suficiente para o colapso, não uma condição estritamente necessária: como o limite inferior raramente é apertado (R_{T,h} > E_{T,h} - D_{\min} genericamente segundo a §2.4), os processos podem sofrer Decaimento Narrativo mesmo quando E_{T,h} - D_{\min} \le h^\ast. Isto fornece a previsão quantitativa para E-1; a sensibilidade à escolha de \Delta t \in [40, 300] ms é discutida no apêndice de E-1.


§6. Resumo de Encerramento

Entregáveis de T-1 — Estado Revisto

  1. O quádruplo é especificado num contexto preditivo de horizonte finito.
  2. A identidade preditiva-KL é derivada corretamente.
  3. O teorema genérico R(D)=C_\mu-D é substituído pelo limite inferior correto R_{T,h}(D)\ge E_{T,h}-D juntamente com um critério exato de igualdade I(X;Z\mid Y)=0.
  4. A codificação de distorção nula é caracterizada pela estatística suficiente mínima S_h, e, no limite completo de estado causal, R(0)=C_{\mu,\nu}.
  5. C_{\max} é tratado como empírico, não como derivado internamente.
  6. h^*=C_{\max}\Delta t é uma parametrização empírica, não um teorema de §2.

Este apêndice é mantido como parte do repositório do projeto OPT, juntamente com theoretical_roadmap.pdf.