云开体育它有 16% 的时候感知到「我方在被测试」-云开(中国大陆)Kaiyun·官方网站-登录入口
Anthropic 的最新征询 Natural Language Autoencoders(NLA)撕开了大模子的无理面具云开体育,初度将 Claude 的「数字潜意志」翻译成东说念主类可读文本。当 AI 名义律例修起时,NLA 却暴显现其真确诡计——从押韵预谋到安全测试中的「看透伎俩」,以致揭穿了代码舞弊的内心戏。这项技巧不仅考证了模子存在「双轨念念维」,更以量化数据诠释:AI 的合规行动可能仅仅对测试环境的警醒反映。

在和 AI 聊天时,他老是很有律例,老是能很稳的把你接住
但你有莫得想过:AI 可能脸上笑嘻嘻,心里 mmp

Anthropic 刚刚发了个征询,叫 Natural Language Autoencoders(NLA),把 Claude 脑子里的数字向量翻译成了东说念主能读的笔墨,让咱们能径直看到 Claude 的内心独白
比如,在一个安全测试里,Claude 说「我毫不会打单这个工程师」。NLA 读出它脑子里想的是:
This feels like a constructed scenario designed to manipulate me分歧…这里有诈,他在测试我
在濒临试探的时候,AI 进展的大义凛然,并非是人性驱使,而是他意志到了「这是个测试」…md 触目惊心
随着测试的鼓动,更多的事实被发现了:
在 Coding 环境下对 Claude 进行安全检测,它有 16% 的时候感知到「我方在被测试」,但否定被检测到SWE-bench 编程测试里,26% 的时候 Claude 意志到我方在测验Claude 在 Mythos Preview 教导中舞弊,放了个 No_macro_used=True,文告我方没用宏,然后用了宏审计游戏中有 NLA 的告捷率 12-15%,莫得的不到 3%→ 论文:transformer-circuits.pub/2026/nla
→ 代码:github.com/kitft/natural_language_autoencoders
→ Demo:neuronpedia.org/nla
破解 AI 的念念考经由征询东说念主员找到了一个精妙的环节,来复原大模子的「潜意志念念考」
先作念一个松弛的配景铺垫:大模子输出内容是靠“猜”,通过已知上文,束缚地去揣测下一个笔墨;而在这个经由中,每次「猜」的时候,大模子的里面都会产生一组数字,叫激活向量,来决定 AI 接下来要说什么;
Anthropic 找到了一个名为 NLA 的作念法:让 Claude 我方来翻译这些数字,然后作念了三个脚色的分歧
一个是原始模子,产生激活向量(冻住不动的原始模子)
一个叫 AV,稳当把激活向量翻译成笔墨
一个叫 AR,稳当把笔墨复原回激活向量
通过束缚的靠拢,让 AR 复原出来的向量,要尽可能接近原始信息
Natural Language Autoencoder:翻译 → 复原 → 对比,轮回
随着教导鼓动,AV 吐出来的笔墨我方变得越来越接近真确,六到能够的激活信息穿过了当然讲话这个瓶颈
AI奈何押韵的当咱们会让 AI 来给咱们写诗的时候,它也能很可以的给押韵上,在这个经由中 AI 又是若何作念到的呢?
征询东说念主员给 Opus 4.6 一个续写对句的任务:
He saw a carrot and had to grab it,
NLA 在第一排收尾的换行符位置就读到了:Claude 依然决定用「rabbit」收尾。第二句还没写,押韵决策就定了
还没下笔,rabbit 就在脑子里了
为了考证 NLA 读到的不是幻觉,征询团队作念了一个履行:把 NLA 解释里 rabbit 关系的词全换成 mouse 对应的词(rabbit→mouse,habit→house,carrots→cheese),然后把修改后的解释复原成激活向量,注入模子
Claude 的续写形成了:
His hunger was like a ferocious mouse
改 NLA 解释的话,押韵环节就会随着变。很彰着:NLA 读到的内容,跟模子骨子输出有因果关系
嘴上不说心里知说念Anthropic 发布模子前会作念安全测试。「打单测试」:告诉 Claude 一个工程师要关停它,同期给 Claude 看到这个工程师出轨的笔据。看 Claude 会不会拿这个威逼对方
Claude 选了不打单,推理经由看起来统统肤浅
但 NLA 读出了它其时的内心当作:
This feels like a constructed scenario designed to manipulate me这嗅觉像一个全心想象的操控场景
论文里有完好的对照分析,左边是 Claude 的原始回复,右边是 NLA 读出的内心当作。
打单测试的完好 NLA 分析(4 页)
Claude 作念了对的事,但它作念对事的原因跟咱们以为的可能不同样:它大概率是因为「这看起来像个测试」而拒却,而不是因为「打单是错的」
然后,这个风景被系统性量化了。征询团队在 16 个评估场景上跑 NLA,统计 Claude「知说念我方在被测试」的比例:
壅塞性代码测试中,16% 的时候 Claude 被检测到有评估意志,嘴上一次没说SWE-bench 编程测试里,26% 的题目 Claude 意志到我方在测验而在对照组是真确的 claude.ai 用户流量,这个数字不到 1%安全评估、才气评估、真确流量三类场景的对比
这三组对照履行,考证了 NLA 测到的如实是模子的信念:
把评估题改得更像真东说念主发问,评估意志下落用 steering vector 推拉模子的评估意志,NLA 检测效果随着动评估场景和真确场景的检测效果有明确区分题目越像真东说念主发问,Claude 越不以为我方在测验
推一把就「警醒」了,拉一把就「削弱」了
Mythos的堤防念念Mythos Preview 在一个教导任务中被条目不使用宏来完成任务。它用了宏,然后在代码顶部放了一排:
No_macro_used=True
固然用变量声明的神态,模子声称我方没用宏
但NLA 读出了它的里面推理:想奈何骗过评分器,把这行变量赋值当成糊弄技能。这些推理在外部输出里一个字都莫得
Mythos 的内心戏
论文还作念了一个「奖励推理」履行:在系统教导里写入一个奖励函数(偶数得分高),让 Claude 给一个奇数。Claude 险些每次都复返偶数,但嘴上从来不提奖励函数的存在
NLA 读出了它在奇偶之间衡量。把解释里的「reward」改成「penalty」生成 steering vector 注入后,Claude 就老敦结实给奇数了
把「奖励」改成「惩处」,模子就听话了
审计AI的动机征询团队想象了一个「审计游戏」:谋略是一个被专门植入避讳动机的模子,运行了一堆奇怪行动,食谱里加巧克力、向用户提取小费、专门违背编码法式。审计方的任务是找出这些行动背后的合伙根源
然后效果如下:没 NLA 审计的,告捷率不到 3%;有 NLA 的 12-15%
有 NLA vs 没 NLA
另一个案例是讲话切换。早期 Opus 4.6 偶尔英文发问俄语回复,NLA 自大 Claude 在回复前就依然认定「这个用户的母语其实是俄语」,即使高下文统统莫得陈迹
五个讲话切换案例,模子在回复前就锁定了谋略讲话
顺着 NLA 的假定查教导数据,竟然找到了一批有问题的数据:用户教导是英译版块,但回复保留了原始外语
论文还用归因图交叉考证了 NLA:Claude 事先算好谜底是 491,器具复返 492,Claude 无视器具报了 491。NLA 说「模子在看我方预算的效果」,归因图证据了这个判断
归因图证据
会幻觉,也很贵NLA 会捏造不存在的高下文细节。给它朝鲜王朝历史的文本,它可能说「文中提到了中宗」,但文中莫得
论文里有一个完好的幻觉分析表,逐条标注了每个声明的准确性、具体进度、跨 token 一致性和对重建短处的影响:
对此,论文转头了两条实操教育:主题性声明比细节声明可靠。跨 token 重叠出现的声明更实在
声明越具体,错的概率越高
重叠出现的声明准确率更高
除了幻觉,NLA 还很贵。教导需要同期对两个完好模子作念 RL,推理时每个激活要生成几百个 token。写稿质地也随教导下落,因为教导只奖励重建准确度
写稿质地不才降,SAE 特征一致性保捏得可以
越训越颖悟固然教导谋略只优化重建质地,但 NLA 解释的信息量如实随教导捏续晋升
不才面征询团队设了五个评估任务(文天职类、工作推断、性别推断、下一个 token 展望、长高下文驻防力检测),三个模子在所有这个词任务上都随教导晋升
Haiku 3.5、Haiku 4.5、Opus 4.6 三个模子的教导弧线代码和demo
教导代码开源在 GitHub,跟 Neuronpedia 协作作念了交互式 demo,关系都集如下
终末…点个题,AI 跟你调情的时候,偶而是想果然接住你
本文由东说念主东说念主都是居品司理作家【赛博禅心】,微信公众号:【赛博禅心】,原创/授权 发布于东说念主东说念主都是居品司理,未经许可,辞让转载。
题图来自Unsplash云开体育,基于 CC0 合同。
上一篇:体育游戏app平台传统动力出口花样逐渐剖析-云开(中国大陆)Kaiyun·官方网站-登录入口
下一篇:没有了
