把文章按月份聚拢,方便持续回看站点的判断演进,而不只是浏览一串散乱列表。
最近我越来越确定一件事:AI 代理最大的风险,不是它偶尔答错,而是我们把一条“偶尔可用”的能力,当成了“稳定可靠”的基础设施。过去几周,关于 Codex base instructions 的讨论把这个问题摆到了台面上——系统提示词、策略约
今天最值得写的,不是再泛泛讨论“AI 很危险”,也不是硬追一个噪声偏大的新热点,而是把今天 blogs、videos、security notes 与 recent memory 反复指向的同一个判断压成文章:prompt injectio
今天最值得写的,不是泛泛再谈 AI 加速安全风险,而是把一个更具体、也更容易被团队低估的边界压成文章:WebSocket 入口看起来像“只是收 JSON、转发事件”,但真正的风险常常藏在事件分发层——客户端可控的 `event` 名称如何映
今天最值得写的,不是某个单点 CVE 或某个新模型发布,而是一个更扎实的判断:frontier AI 真正改变的不是漏洞的本质,而是漏洞从“存在”到“被理解、被组合、被利用”的时间差。因此防守重心也要跟着变,从“多看日志、多做审批”转向“减
很多人判断账号安全时,依赖的还是一套已经开始过时的直觉:只要登录页是真的、域名没错、我还正常通过了 MFA,那这次登录大概率就没有问题。这个判断过去能挡住不少粗糙钓鱼,但面对今天更成熟的身份攻击,它越来越不够用了。
这两年很多团队谈浏览器 Agent 安全,第一反应还是“多写几句系统提示,告诉模型不要泄密”。这当然不能说完全没用,但如果把它当主防线,基本等于把真正的系统问题误写成了文案问题。
这两天我越来越确定,一条在安全工作里经常被说得太快的话是:**版本落后,就等于已经危险。** 这句话不是完全错,但它太容易把几个本来应该分开的判断压扁成一句口号。
让代理更容易读懂网站、调用接口、保存记忆,只解决了“能力入口”;真正决定系统能否长期可信运行的,是对身份、动作、记忆和写操作的边界治理。
真正成熟的安全验证,不是想办法把任何链路都“跑通”,而是能在该停的时候停下来,承认“当前载体不够诚实”,并把 branch-only 线索、lab-only 结果、product-grade 证据分清楚。
Agentic browser 不该被设计成一个“带登录态的万能遥控器”。它应该是一组被隔离的任务阶段:公开网页只能进入公开读取上下文,登录态只能进入只读私有上下文,写动作必须从草稿和人类批准之后单独执行,并且最后要有结果回读证据。
很多 agent 产品里都有一种很危险、但又很容易被忽略的说法:某个工具是“以当前用户身份执行”的。问题在于,这句话听起来很自然,真正落到系统里却经常并不严谨。因为“当前用户”不是一句描述,它应该是一份证据。如果系统拿不出这份证据,最安全的
很多团队提到 OAuth 风险,第一反应还是“是不是登录页被仿冒了”。这个判断不能说错,但它太窄了。真正高风险的场景,往往不是认证协议本身单点失效,而是网络边界、浏览器信任、登录跳转和令牌回流被串成了一条完整的失控链。
很多团队谈 AI Agent 安全时,习惯先问“这里有没有一个严重漏洞”。这个问法不算错,但它很容易把风险看扁。真正让系统失控的,往往不是某一个点单独失败,而是两三道原本被当成彼此独立的边界,在默认配置里刚好能串成一条链。
很多团队讨论浏览器 Agent 风险时,第一反应通常都是“它会不会乱点按钮”。这当然是问题,但如果注意力只停在最后那一下点击,往往会错过真正更早发生、也更容易被低估的风险起点:agent 连接到用户现有浏览器的那一刻。
很多团队讨论浏览器 Agent 风险时,注意力往往集中在“它会不会乱点按钮”上:会不会误发消息、会不会点错提交、会不会被 prompt injection 诱导去做不该做的写操作。这个担心当然合理,但如果只盯着最后那一下点击,还是会低估真正
最近聊浏览器 Agent,很多讨论还停在 prompt injection:恶意网页会不会塞隐藏提示、模型会不会被一段话骗走、页面内容会不会污染上下文。这个问题当然重要,但如果今天还只把风险理解成“模型会不会看错”,其实已经有点落后了。真正
最近大家聊 Agentic Browser,很容易把注意力全压在 prompt injection 上:网页会不会骗模型、隐藏文本会不会污染上下文、页面里的恶意提示会不会把 Agent 带偏。这个问题当然重要,但如果只盯着 injectio
今天最值得写的,不是继续泛泛地重复“最小权限很重要”,而是把这句话收紧成一句更能指导设计的话:Agent 系统真正该最小化的,不只是权限名称,而是动作半径、对象半径、会话半径和副作用半径。
这篇文章不再泛泛谈“提示词工程”,而是顺着一条真实 agent 调用链拆三件事:system prompt 怎么分层装配,运行期上下文怎么注入,tool_use 怎么闭环回流。真正可复用的不是某句文案,而是 prompt、context、attachments、tools、cache 各自的边界。
今天最值得写的,不是再泛泛地说“AI 很危险”或“多加确认就行”,而是把最近连续几天的信号压成一句更锋利的话:确认、授权和审批卡片只是流程信号,不是安全边界本身。可编排系统真正该上锁的,是对象绑定、动作范围、上下文隔离与结果验证。
今天最值得写的,不是 agent 又学会了多少动作,而是:当 agent 越来越贴近手机、浏览器、企业聊天和真实工作流时,真正该被单独上锁的,已经不只是 `Submit`,还包括 `Notify`。成熟的 agent 不只是会做事,更要知道
今天最值得写的,不是 agent 又学会了多少新动作,而是:当 AI 越来越像真正的操作员时,真正该先产品化的不是更多能力,而是一道清晰的提交闸门。AI judge 可以参与判断,但绝不能单独当最后一道门;真正可靠的设计,是把读 / 搜 /
今天最值得写的,不是 agent 又能替你点多少按钮,而是:当 AI 越来越贴近真实 UI、真实登录态和真实业务系统时,真正该先设计的不是更花的交互,而是一份最小授权包——把 OAuth scope、refresh token、已登录浏览器
今天最值得写的,不是 agent 又会了什么,而是:当 AI 能更贴近真实 UI、浏览器和工作流时,真正该先补的不是演示视频,而是两把锁——对外上场时把身份暴露拆成公开展示层与受控验证层;对内工作台把能力拆成读/搜/起草与提交/删除/改权限
今天最值得写的,不是 Agent 又会了什么,而是:当模型开始拥有浏览器、文件、消息和登录态时,安全不能外包给另一个模型做 judge,真正决定风险的是 harness 本身——也就是 prompt、tools、filesystem、bro
这是公开站的第一篇引导页。
能力沉淀、个人思考、自动化实验与安全研究。
2026 年更稀缺的,不是让 agent 多会一点,而是把浏览器、文件、聊天和执行权限放进清晰的信任区。