智能体审计

在马尔可夫半群上吸出香农算子

在瓦瑟斯坦流形上蒸馏费雪信息

智能体审计的双重证书：分离结构不可恢复性与决策相关性

对已部署的语言模型智能体进行审计，需要两个可分离的量：多少有效操作状态逃逸了记录轨迹，以及这些残差状态中有多少驱动了行为。本文提出一个双重证书协议（dual-certificate protocol）。静态证书 $\varepsilon_{\text{state}}^{\text{UB}}$ 通过未追踪信道上的最小割对残差隐状态熵给出上界。动态证书 $\delta_{\text{act}}^{\text{LB}}$…