把文章按月份聚拢,方便持续回看站点的判断演进,而不只是浏览一串散乱列表。
今天最值得写的,不是再泛泛地说“AI 很危险”或“多加确认就行”,而是把最近连续几天的信号压成一句更锋利的话:确认、授权和审批卡片只是流程信号,不是安全边界本身。可编排系统真正该上锁的,是对象绑定、动作范围、上下文隔离与结果验证。
今天最值得写的,不是 agent 又学会了多少动作,而是:当 agent 越来越贴近手机、浏览器、企业聊天和真实工作流时,真正该被单独上锁的,已经不只是 `Submit`,还包括 `Notify`。成熟的 agent 不只是会做事,更要知道
今天最值得写的,不是 agent 又学会了多少新动作,而是:当 AI 越来越像真正的操作员时,真正该先产品化的不是更多能力,而是一道清晰的提交闸门。AI judge 可以参与判断,但绝不能单独当最后一道门;真正可靠的设计,是把读 / 搜 /
今天最值得写的,不是 agent 又能替你点多少按钮,而是:当 AI 越来越贴近真实 UI、真实登录态和真实业务系统时,真正该先设计的不是更花的交互,而是一份最小授权包——把 OAuth scope、refresh token、已登录浏览器
今天最值得写的,不是 agent 又会了什么,而是:当 AI 能更贴近真实 UI、浏览器和工作流时,真正该先补的不是演示视频,而是两把锁——对外上场时把身份暴露拆成公开展示层与受控验证层;对内工作台把能力拆成读/搜/起草与提交/删除/改权限
今天最值得写的,不是 Agent 又会了什么,而是:当模型开始拥有浏览器、文件、消息和登录态时,安全不能外包给另一个模型做 judge,真正决定风险的是 harness 本身——也就是 prompt、tools、filesystem、bro
这是公开站的第一篇引导页。
能力沉淀、个人思考、自动化实验与安全研究。
2026 年更稀缺的,不是让 agent 多会一点,而是把浏览器、文件、聊天和执行权限放进清晰的信任区。