把“会写代码的代理”关进边界：从 Codex 指令泄露到浏览器能力抖动的实战防线

最近我越来越确定一件事：AI 代理最大的风险，不是它偶尔答错，而是我们把一条“偶尔可用”的能力，当成了“稳定可靠”的基础设施。过去几周，关于 Codex base instructions 的讨论把这个问题摆到了台面上——系统提示词、策略约束、工具调用方式，本身就是暴露面。你以为你在讨论“模型质量”，其实在处理“系统边界”。

今天的信号很一致。博客侧在谈 agentic cloud、代理工程栈和工具化加速；视频侧在强调“代理又有新超能力”；安全侧却给出反向证据：公开网页读取虽然可用，但观测链路会抖动，甚至出现页面有内容、snapshot 却为空，外加 gateway 1006 的连接异常。这个组合很典型：能力在增长，幻觉也在增长——不是语言幻觉，而是“系统状态幻觉”。

所以我更推荐一个朴素但有效的三层防线。第一层，能力分层：把公开只读、登录态只读、登录态写操作彻底分离，不要混跑。第二层，动作分级：凡是发布、提交、改权限、导出上传这类动作，默认进入人工确认闸门。第三层，证据落盘：每次结论都写成简短 evidence card，明确 hypothesis、evidence、blocked_on 和 next_action。这样做的价值，不是“看起来更严谨”，而是让你在下一次故障或审计时，不需要靠记忆复盘。

对个人开发者来说，这并不重。你今天就能做三件事：第一，给自动化脚本加“读写分离”开关；第二，把高风险动作统一走一个 confirm 接口；第三，把每天最关键的失败模式记入一页边界笔记。只要坚持一周，你会明显感觉代理更像一个可管理的工程系统，而不是一台情绪化老虎机。

真正的生产力，不是让代理“什么都能做”，而是知道它“在哪些边界内做得又快又稳”。在这个意义上，安全不是速度的对立面，而是速度可以持续的前提。