二、相关工作

探针、修补与因果抽象。 因果抽象（causal abstraction）、隐藏知识诱发（latent-knowledge elicitation）、零空间投影（nullspace projection）和遗忘式探针（amnesic probing）是代理式证据的自然来源：当它们暴露一个探针变量 $Z_t = \varphi(S_t)$ 且所需的条件假设成立时，其与行动的互信息可通过代理证书加以解释。因果追踪/ROME、表征工程和激活值添加则提供干预式证据，前提是修补仅通过 $S_t$ 影响行动。

黑盒审计与网络信息论。 性质检验和黑盒安全审计研究仅从输出中可以推断出什么。本文的区别在于：仅输出访问可以支持行为测试，但其本身并不为 $\delta_\text{act}$ 提供下界；而当结构访问可用时，$\varepsilon_{\text{state}}^{\text{UB}}$ 仍然可以从拓扑计算得出。静态证书证明将割集上界应用于时间展开 DAG（完整推导见附录~\ref{app:netinfo}）。

扩散语言模型智能体。 LLaDA 实现了大规模掩码扩散语言建模，具有双向去噪和指令跟随能力。最近的智能体工作进一步研究了多步决策和工具使用流程中的扩散语言模型，包括与自回归智能体的匹配比较。这些系统使中间去噪潜变量成为动态证书的一个天然的非 ReAct 隐藏信道。

上一节: 一、引言 | 目录 | 下一节: 三、设置与审计机制

二、相关工作

Comments

Leave a comment