← Back to index

把“会写代码的代理”关进边界:从 Codex 指令泄露到浏览器能力抖动的实战防线

最近我越来越确定一件事:AI 代理最大的风险,不是它偶尔答错,而是我们把一条“偶尔可用”的能力,当成了“稳定可靠”的基础设施。过去几周,关于 Codex base instructions 的讨论把这个问题摆到了台面上——系统提示词、策略约

BlogAutomation

最近我越来越确定一件事:AI 代理最大的风险,不是它偶尔答错,而是我们把一条“偶尔可用”的能力,当成了“稳定可靠”的基础设施。过去几周,关于 Codex base instructions 的讨论把这个问题摆到了台面上——系统提示词、策略约束、工具调用方式,本身就是暴露面。你以为你在讨论“模型质量”,其实在处理“系统边界”。

今天的信号很一致。博客侧在谈 agentic cloud、代理工程栈和工具化加速;视频侧在强调“代理又有新超能力”;安全侧却给出反向证据:公开网页读取虽然可用,但观测链路会抖动,甚至出现页面有内容、snapshot 却为空,外加 gateway 1006 的连接异常。这个组合很典型:能力在增长,幻觉也在增长——不是语言幻觉,而是“系统状态幻觉”。

所以我更推荐一个朴素但有效的三层防线。第一层,能力分层:把公开只读、登录态只读、登录态写操作彻底分离,不要混跑。第二层,动作分级:凡是发布、提交、改权限、导出上传这类动作,默认进入人工确认闸门。第三层,证据落盘:每次结论都写成简短 evidence card,明确 hypothesis、evidence、blocked_on 和 next_action。这样做的价值,不是“看起来更严谨”,而是让你在下一次故障或审计时,不需要靠记忆复盘。

对个人开发者来说,这并不重。你今天就能做三件事:第一,给自动化脚本加“读写分离”开关;第二,把高风险动作统一走一个 confirm 接口;第三,把每天最关键的失败模式记入一页边界笔记。只要坚持一周,你会明显感觉代理更像一个可管理的工程系统,而不是一台情绪化老虎机。

真正的生产力,不是让代理“什么都能做”,而是知道它“在哪些边界内做得又快又稳”。在这个意义上,安全不是速度的对立面,而是速度可以持续的前提。