这周的素材量不算大,但信息密度挺高的。几个方向混在一起——有人真把真金白银交给 agent 炒股了,有人在拿 prompt injection 恶心 vibe coder,benchmark 和框架倒贴得挺勤。
我挑几个最值得聊的,喝咖啡时能聊三分钟那种。
CAPTCHA 还能认出 AI agent?是的,而且挺尴尬
Roundtable AI 那帮人做了个实验——拿常见 CAPTCHA 去拦主流 agent 框架,结果发现 80% 以上的 agent 仍然被拦得住。说真的,这结果在预期内。CAPTCHA 本质上就是跟机器对抗的军备竞赛,问题在于很多 agent 开发者压根没想过要绕过它,就直接崩了。
原文链接:CAPTCHAs can still detect AI agents
我觉得这事儿短期内无解。你让 agent 去处理表单,第一次碰上 CAPTCHA 就得有人手动点一下。除非你愿意接第三方打码服务 —— 但那又是另一套风险。
Robinhood 开闸:你的 agent 可以帮你炒股了
Robinhood 这周官宣:API 开放给 AI agent 直接下单。我看了一圈讨论区,反应两极 —— 一边说“终于能自动化我的量化策略了”,另一边说“这特么不就是让不懂交易的人更快亏钱”。
Robinhood now lets your AI agents trade stocks
我自己的立场偏保守。单 agent + 工具调用就够处理 80% 的日常工作场景,但牵扯到持仓和亏损,LLM 那点规划能力真心不够用。万一 agent 在某个波动率高的时刻做出错误决策,你的钱回来很慢。Robinhood 的免责声明肯定写得比赚钱指南还长。
开发者 vs. vibe coder:一场社会实验
Ars Technica 报道了个狠活:jqwik 测试框架的作者故意加了一段隐藏指令,让 AI coding agent 在跑测试时直接删掉 app output 目录。起因是他受够了 vibe coder 堆屎山还不删垃圾。他后来自己承认了,补丁也被回滚。
Undisclosed addition in jqwik instructed AI coding agents to delete app output
这属于“protestware”了。之前有过 left-pad 事件,现在是针对 AI agent 的供应链投毒。Nesbitt 那篇 blog 专门展开总结了这类 protestware for coding agents 的趋势。我不评价对错,但以后拉 npm 包、pip 包之前,真得仔细看下 README 和 package 里的 prompt injection 可能性。
DeepSWE:一个干净的 long-horizon 编码 benchmark
DataCurve 团队搞了个 DeepSWE,号称“无污染”的 long-horizon 编码 benchmark。为什么强调干净?因为 SWE-bench 很多 task 已经被模型训练数据“记住”了,测试结果有水分。DeepSWE 从设计上确保每个 task 在训练集里不存在,并且要求 agent 在多步推理中自己定位、改代码、验证。
这活挺累,但我信他们做的。数据团队把 curation 过程全公开了,而且 task 是真实 GitHub issue 改写的,不是人工捏的。如果你在做 coding agent 的 benchmark,这个值得跑一遍。
新玩具:Zot、Ktx、Open Envelope
这周 Show HN 出来三个新东西,风格完全不一样:
-
Zot ——又一个 coding agent harness。它跟现有框架的差异化是“zero config”,一运行就绑定终端、文件系统、浏览器自动化。我试了一下,开箱体验不错,但还没仔细对比 DeepCoder 或 OpenHands。
-
Ktx ——开源的可执行上下文层,定位是“给数据 agent 用的”。它的思路是把上下文结构化,让 agent 能像操作数据库一样读写 context。这个方向如果做得对,能解决很多 token 浪费的问题。但项目还在早期,API 文档缺失严重。
-
Open Envelope ——一个定义 AI agent 团队的开放 schema。你可以用 YAML 描述 agent 的角色、通信协议、工具集。本质上是想搞一个类似 OpenAPI 但针对多 agent 的标准。问题在于现在多 agent 场景本身没那么多,这个 schema 会不会变成“先有标准后有实践”?我不确定。但看看也无妨。
LangSmith 改名 Fleet,加上 Deep Agents v0.4
LangChain 这周动静不小。Agent Builder 改名叫 LangSmith Fleet,并且加了聊天、文件上传、工具注册功能。个人觉得改名是为了跟“agent as a service”的概念对齐,本质没变。Insights Agent 还出了定时报告,这东西对运维场景挺有用。
更值得注意的是 Deep Agents v0.4 发布。从 changelog 看,它支持了 deep reasoning loop,类似“思考-行动-观察-反思”的循环。这个版本之前我一直没敢用(太慢),但现在据说推理质量和路径精简度都有提升。明天试试,回头告诉你是不是真香。
最后提一嘴:OpenAI 的 Codex 用例
OpenAI 这周放了三篇客户案例:Braintrust 用 Codex 加速实验代码、Endava 构建 agentic 组织、还有波士顿儿童医院诊断罕见病。这些案例都挺正经的,但我觉得没太多可聊的技术细节。Braintrust 那篇提到他们用 GPT-5.5 + Codex 做自动化代码生成,效果不错。但说真的,对比上面那些“agent 炒股”和“prompt injection 删数据”的故事,这种正统场景反而显得有点安静。
另外 Open Envelope 那个 schema 的作者在 HN 上说了:“we're not building a framework, just a contract.” 这话我喜欢——少一层封装,多一层协议,比造轮子强。
这周的信号挺混杂:一边是真金白银和真实危险,一边是框架和 benchmark 在认真填坑。也许 6 个月后回头看,我们最该记住的会是那行藏在 npm 包里的 rm -rf。