智能体审计的双重证书:分离结构不可恢复性与决策相关性
对已部署的语言模型智能体进行审计,需要两个可分离的量:多少有效操作状态逃逸了记录轨迹,以及这些残差状态中有多少驱动了行为。本文提出一个双重证书协议(dual-certificate protocol)。静态证书 $\varepsilon_{\text{state}}^{\text{UB}}$ 通过未追踪信道上的最小割对残差隐状态熵给出上界。动态证书 $\delta_{\text{act}}^{\text{LB}}$…
对已部署的语言模型智能体进行审计,需要两个可分离的量:多少有效操作状态逃逸了记录轨迹,以及这些残差状态中有多少驱动了行为。本文提出一个双重证书协议(dual-certificate protocol)。静态证书 $\varepsilon_{\text{state}}^{\text{UB}}$ 通过未追踪信道上的最小割对残差隐状态熵给出上界。动态证书 $\delta_{\text{act}}^{\text{LB}}$…