标准信息记号遵循 Cover & Elements。所有对数以 2 为底;熵和互信息以位(bits)报告。
在第 $t$ 步:完整轨迹 $T_t$(所有中间激活)、记录轨迹 $\tilde T_t \subseteq T_t$(审计者可见)、有效状态 $S_t$(内部计算)、行动 $A_t$(下一令牌)、未记录源 $U_t$(不在 $\tilde T_t$ 中的外生输入)。
3.1 两个核心审计量
定义(核心审计量):双重证书所针对的两个量是:
- 结构不可恢复性: $\varepsilon_\text{state} := H(S_t \mid \tilde T_t)$,在给定可见轨迹条件下有效状态的残差熵。
- 残差决策相关性: $\delta_\text{act} := I(S_t; A_t \mid \tilde T_t)$,在给定可见轨迹条件下有效状态与下一行动之间的互信息。
两个量在部署中均不可直接计算:$\varepsilon_\text{state}$ 需要恢复完整的内部状态分布,$\delta_\text{act}$ 需要观测 $S_t$。双重证书框架针对的是:
- 一个结构上界 $\varepsilon_{\text{state}}^{\text{UB}} \geq \varepsilon_\text{state}$,从部署拓扑计算得出(§\ref{sec:static-cert});
- 一个经验下界 $\delta_{\text{act}}^{\text{LB}} \leq \delta_\text{act}$,通过探针变量估计(§\ref{sec:dynamic-cert})。
所报告的审计对为 $(\varepsilon_{\text{state}}^{\text{UB}}, \delta_{\text{act}}^{\text{LB}})$。
仅凭行为观察无法识别这两个量:不同的因果图可以在 $(\tilde T_t, A_t)$ 对上产生相同的联合分布,因此观察输出不能固定 $H(S_t \mid \tilde T_t)$ 或 $I(S_t; A_t \mid \tilde T_t)$。静态证书通过拓扑的结构访问解决第一个问题;动态证书通过灰盒探针访问解决第二个问题。
注(互补性与继承性):由数据处理不等式,$\delta_\text{act} \leq \varepsilon_\text{state}$。证书在其各自的有界方向上继承这一排序,但仍然是审计证据的独立轴:
- 若 $\varepsilon_{\text{state}}^{\text{UB}} = 0$(全日志架构),则 $\varepsilon_\text{state} = 0$ 且 $\delta_\text{act} = 0$;任何有效的下界均满足 $\delta_{\text{act}}^{\text{LB}} = 0$。
- 若 $\delta_{\text{act}}^{\text{LB}} = 0$(在最佳可用探针下),隐藏状态可能仍然存在:$\varepsilon_{\text{state}}^{\text{UB}}$ 可能很大,而当前任务并未激活该隐藏容量(休眠不可恢复状态)。逆否命题($\delta_{\text{act}}^{\text{LB}} > 0 \Rightarrow \varepsilon_{\text{state}}^{\text{UB}} > 0$)由 DPI 排序推出。 因此,审计解释是二维的:部署团队必须同时报告残差信道预算和最强可容许行为探针,而不是将它们坍缩为单一的隐藏性评分。
3.2 审计访问模式
- 结构访问。 审计者拥有部署架构、日志清单和协议预算。这足以从拓扑计算 $\varepsilon_{\text{state}}^{\text{UB}}$(§\ref{sec:static-cert}),但不提供动态下界。
- 受控重放访问。 审计者可以在原样(wild)和重放(replay)状态下重新运行同一系统,同时保持可见轨迹不变。当重放机制仅通过缺失状态恢复影响行动时,这支持重放证书。
- 代理或干预访问。 审计者可以读取代理变量 $Z_t = f(S_t)$ 或扰动一个隐藏模块。这些支持关于 $\delta_\text{act}$ 的条件 DPI 下界(§\ref{sec:dynamic-cert})。
本文的经验核心使用受控 ReAct 智能体中的这些访问模式。它不使用转述式(paraphrase-based)或格式化的黑盒重放作为内部决策相关性的证据。
Comments