三、设置与审计机制

标准信息记号遵循 Cover & Elements。所有对数以 2 为底；熵和互信息以位（bits）报告。

在第 $t$ 步：完整轨迹 $T_t$（所有中间激活）、记录轨迹 $\tilde T_t \subseteq T_t$（审计者可见）、有效状态 $S_t$（内部计算）、行动 $A_t$（下一令牌）、未记录源 $U_t$（不在 $\tilde T_t$ 中的外生输入）。

3.1 两个核心审计量

定义（核心审计量）：双重证书所针对的两个量是：

结构不可恢复性： $\varepsilon_\text{state} := H(S_t \mid \tilde T_t)$，在给定可见轨迹条件下有效状态的残差熵。
残差决策相关性： $\delta_\text{act} := I(S_t; A_t \mid \tilde T_t)$，在给定可见轨迹条件下有效状态与下一行动之间的互信息。

两个量在部署中均不可直接计算：$\varepsilon_\text{state}$ 需要恢复完整的内部状态分布，$\delta_\text{act}$ 需要观测 $S_t$。双重证书框架针对的是：

一个结构上界 $\varepsilon_{\text{state}}^{\text{UB}} \geq \varepsilon_\text{state}$，从部署拓扑计算得出（§\ref{sec:static-cert}）；
一个经验下界 $\delta_{\text{act}}^{\text{LB}} \leq \delta_\text{act}$，通过探针变量估计（§\ref{sec:dynamic-cert}）。

所报告的审计对为 $(\varepsilon_{\text{state}}^{\text{UB}}, \delta_{\text{act}}^{\text{LB}})$。

仅凭行为观察无法识别这两个量：不同的因果图可以在 $(\tilde T_t, A_t)$ 对上产生相同的联合分布，因此观察输出不能固定 $H(S_t \mid \tilde T_t)$ 或 $I(S_t; A_t \mid \tilde T_t)$。静态证书通过拓扑的结构访问解决第一个问题；动态证书通过灰盒探针访问解决第二个问题。

注（互补性与继承性）：由数据处理不等式，$\delta_\text{act} \leq \varepsilon_\text{state}$。证书在其各自的有界方向上继承这一排序，但仍然是审计证据的独立轴：

若 $\varepsilon_{\text{state}}^{\text{UB}} = 0$（全日志架构），则 $\varepsilon_\text{state} = 0$ 且 $\delta_\text{act} = 0$；任何有效的下界均满足 $\delta_{\text{act}}^{\text{LB}} = 0$。
若 $\delta_{\text{act}}^{\text{LB}} = 0$（在最佳可用探针下），隐藏状态可能仍然存在：$\varepsilon_{\text{state}}^{\text{UB}}$ 可能很大，而当前任务并未激活该隐藏容量（休眠不可恢复状态）。逆否命题（$\delta_{\text{act}}^{\text{LB}} > 0 \Rightarrow \varepsilon_{\text{state}}^{\text{UB}} > 0$）由 DPI 排序推出。因此，审计解释是二维的：部署团队必须同时报告残差信道预算和最强可容许行为探针，而不是将它们坍缩为单一的隐藏性评分。

3.2 审计访问模式

结构访问。 审计者拥有部署架构、日志清单和协议预算。这足以从拓扑计算 $\varepsilon_{\text{state}}^{\text{UB}}$（§\ref{sec:static-cert}），但不提供动态下界。
受控重放访问。 审计者可以在原样（wild）和重放（replay）状态下重新运行同一系统，同时保持可见轨迹不变。当重放机制仅通过缺失状态恢复影响行动时，这支持重放证书。
代理或干预访问。 审计者可以读取代理变量 $Z_t = f(S_t)$ 或扰动一个隐藏模块。这些支持关于 $\delta_\text{act}$ 的条件 DPI 下界（§\ref{sec:dynamic-cert}）。

本文的经验核心使用受控 ReAct 智能体中的这些访问模式。它不使用转述式（paraphrase-based）或格式化的黑盒重放作为内部决策相关性的证据。

三、设置与审计机制

3.1 两个核心审计量

3.2 审计访问模式

Comments

Leave a comment

3.1 两个核心审计量#

3.2 审计访问模式#

Comments

Leave a comment

3.1 两个核心审计量

3.2 审计访问模式