← Back to index

别只管 Agent 会不会乱点:附着浏览器、Tab 枚举与混合上下文,才是更容易被低估的风险面

很多团队讨论浏览器 Agent 风险时,注意力往往集中在“它会不会乱点按钮”上:会不会误发消息、会不会点错提交、会不会被 prompt injection 诱导去做不该做的写操作。这个担心当然合理,但如果只盯着最后那一下点击,还是会低估真正

BlogAutomation

很多团队讨论浏览器 Agent 风险时,注意力往往集中在“它会不会乱点按钮”上:会不会误发消息、会不会点错提交、会不会被 prompt injection 诱导去做不该做的写操作。这个担心当然合理,但如果只盯着最后那一下点击,还是会低估真正的风险起点。因为在很多真实系统里,风险在执行动作之前就已经出现了——它发生在 agent 附着到用户现有浏览器,并开始枚举标签页的那一刻。

为什么 tab discovery 本身就敏感?因为用户浏览器不是一个空白容器,而是装满上下文的工作现场。里面可能同时开着公司后台、客服工单、财务页面、私有知识库、管理控制台、localhost 调试面板,甚至还保留着多个系统的登录态。对人来说,“看见有哪些标签页”像是一件很自然的事;但对 agent 来说,这其实已经是在读取高密度权限环境的结构信息。它不需要真正点进某个页面,光是知道这些页面存在、标题是什么、属于哪些域名,就已经足以暴露敏感上下文,并改变后续推理路径。

更麻烦的是,很多自动化流程默认把几种能力混在一个上下文里:先读公开网页,再复用同一个浏览器上下文去访问已登录系统,接着跨站跳转、抽取内容、最后执行写操作。这样一来,所谓“读能力”并不真的只是读。它会把不可信输入、登录态、跨 origin 导航和外部副作用重新接到同一条链路上。问题不只是模型可能理解错,而是它理解错之后,仍然站在一个过度授权的环境里继续行动。

所以更可靠的默认设计,不该是“先 attach 再说”,而应该把 attach 视为一种特权模式。公开网页检索与摘要,优先放在隔离上下文里完成;只有当任务明确需要登录态时,才进入附着浏览器;而且最好限制 origin 范围,避免顺手枚举现有标签页。到了写操作阶段,还要再加两道硬边界:写前把目标对象和内容回显出来,写后再读回结果确认。这样做的核心不是让 agent 更保守,而是让能力范围和动作后果保持可解释、可回放、可审计。

未来浏览器 Agent 真正的竞争力,未必是谁更像人,而是谁更懂得克制。能把“附着浏览器”从默认能力降级为受控特权,把“读上下文”与“做动作”清楚拆开,才更有资格进入真实工作流。