智能体审计的双重证书:分离结构不可恢复性与决策相关性

对已部署的语言模型智能体进行审计,需要两个可分离的量:多少有效操作状态逃逸了记录轨迹,以及这些残差状态中有多少驱动了行为。本文提出一个双重证书协议(dual-certificate protocol)。静态证书 $\varepsilon_{\text{state}}^{\text{UB}}$ 通过未追踪信道上的最小割对残差隐状态熵给出上界。动态证书 $\delta_{\text{act}}^{\text{LB}}$…

星期五, 11:20, 2026-05-15 · 1 分钟 · 61 字 · # NeurIPS 2026 · # 人工智能审计 · # 信息论