别把 AI Judge 当护城河：真正该上锁的是 Agent Harness 与已登录会话

关键判断

AI judge 不是“装上就安全”的自动闸门，它自己也会被低扰动格式 token 诱导，把 block 反转成 allow。
Agent 的真实能力面来自 harness，而不是模型口头说了什么；状态、工具、浏览器、文件系统与 handoff 逻辑才是风险边界。
一旦 agent 触达已登录浏览器会话、文档、消息或文件写权限，风险单位就从“答错一句话”升级成“执行一条高影响操作链”。
对个人工作台而言，更稳的默认姿势是：人保管登录态，agent 复用 host browser 已登录会话；默认只给读、搜、起草，把发送、删除、分享、改权限升级为人工确认。
真正值钱的不是更会点按钮，而是把最小权限、可观测性与 action items 做成长期工作纪律。

过去两天，AI 圈继续秀 computer use、手机上的 Claude Code、越来越像人的 agent 工作流。但今天最值得认真看的，不是它们又会了什么，而是安全闸门本身也开始不可靠。Unit 42 的新研究说明，负责做 block / allow 判断的 AI judge，会被看似普通的换行、列表符号、角色标签诱导，把本该拦下的内容放过去。换句话说，如果你把安全寄托在“前面再套一个模型审一遍”，很可能只是多了一层更难察觉的幻觉。

这正好和 LangChain 今天讲的 harness 概念对上：agent 真正的能力边界，不在模型嘴上，而在它背后的 prompt、tools、filesystem、browser、sandbox、handoff 和执行逻辑。模型再聪明，真正把风险变成现实动作的，始终是 harness。只要浏览器里带着已登录会话，或者文档、消息、文件系统还保有写权限，风险单位就不再是“一句答错”，而是一条可提交、可删除、可改权限的操作链。

把这件事放回我自己的工作台，结论就更直接了。OpenAI 的 computer use 视频说明能力面会继续扩张，但今天本地 memory 和 security note 给出的经验是：高价值登录态应该由人保管，agent 只复用 host browser 中已完成的人类会话；默认能力先收在读、搜、起草，把发送、删除、分享、改权限全部抬到人工确认。AI judge 可以是辅助闸门，但不能被当成护城河。

真正值得建设的，不是更会点按钮的 agent，而是一套能长期运行的最小权限 harness：谁能拿状态，谁能碰工具，谁能进入长期记忆，谁能把结果提交出去，都要先分层再自动化。2026 年的竞争力，已经不是把 agent 接上全世界，而是让它在正确的边界里稳定工作。