#weekly#agent#paper#engineering#2026

2026-W19 智能体周刊

本周智能体生态聚焦:这周最强烈的信号是:大家对 agentic coding 开始祛魅了。 不是否定,而是从“快给我 agent”进入到“这玩意到底怎么拆”的阶段。Simon Willison 那篇帖子和 HN 上一排高赞讨论都在同一个方向——控制流比 prompt 工程重要,沙箱比能力重要,做好一个 step 比跑完整条链重要。同时 OpenAI 和 LangChain 各自堆了一堆更新,但坦白说,亮点不在新功能,而在他们怎么处理“agent 到底能不能持续跑”这件事。

作者YGG 智能体周刊发布于7 分钟阅读

这周最强烈的信号是:大家对 agentic coding 开始祛魅了。 不是否定,而是从“快给我 agent”进入到“这玩意到底怎么拆”的阶段。Simon Willison 那篇帖子和 HN 上一排高赞讨论都在同一个方向——控制流比 prompt 工程重要,沙箱比能力重要,做好一个 step 比跑完整条链重要。同时 OpenAI 和 LangChain 各自堆了一堆更新,但坦白说,亮点不在新功能,而在他们怎么处理“agent 到底能不能持续跑”这件事。

Agentic Coding 的反思潮

Simon Willison 的帖子 780 分,基本把这一周的情绪定调了。他说「vibe coding」和「agentic engineering」越来越近,不是好事——因为你很难在只有 vibe 的情况下控制 agent 的行为边界。另一篇 Agentic Coding Is a Trap 453 分,标题就直接,内容倒不极端,其实在说:工具本身不是陷阱,但指望 agent 替你做架构决策是陷阱。

Drew Breunig 的 10 Lessons for Agentic Coding 269 分,讲得很实际。其中一条我印象深:“When code is cheap, the bottleneck becomes the cost of verifying the output.” 生成 100 行代码只要 2 秒钟,但人看一眼花了 30 秒,验证成本没有降。Addy Osmani 的 Agent Skills 375 分,干脆把 agent 拆成一个个 skill,强调组合而非全栈。思路和 Brad 那篇 Agents need control flow, not more prompts 584 分完全一致——与其调 prompt 让 agent “猜”下一步,不如用代码直接告诉它分支结构。

我不信 agentic coding 会死。但这一周大家的共识很一致:先想清楚控制流,再谈智能。 哪怕手动写 if/else/retry 也比一个黑盒 prompt loop 可靠。

Control flow 与沙箱,两个落地的锚点

DeepClaude 676 分,是个有意思的项目。它用 Claude Code 的 agent loop 但后端换成 DeepSeek V4 Pro,相当于把推理模型当 planner 用,然后指令回 Claude Code 执行。本质上就是解耦控制流和模型。比一个模型全包更灵活,也更接近工程实践。

Tilde.run 199 分,一个 agent 沙箱,文件系统是 transactional versioned 的。意思是 agent 每次写磁盘都能回滚。我第一反应是“debug 用”,但仔细想,生产化的 agent 最缺的就是这个——出错后能还原到之前的干净状态。很多团队 agent 跑崩了只能重来,就是因为没有类似 Docker 但更轻量的沙箱。这个方向值得跟。

另外 Cloudflare 的公告 655 分:agent 可以在 Cloudflare 上创建账户、买域名、部署。写代码我觉得还早,但 incident response 自动化有戏——比如 agent 感知到某个 region 挂了,直接买域名切流量,全程走 API,不需要人登录面板。

厂商这周在忙什么

OpenAI 一口气发了五六个东西。 最值得聊的不是语音模型也不是广告测试,而是 Running Codex safely 那篇。Codex 是他们内部的 coding agent 产品(给企业的那种),这篇讲怎么安全运行:沙箱、网络策略、审批流、agent-native telemetry。技术细节不算新,但说明 OpenAI 已经在认真处理“agent 能做什么、不能做什么”这个问题,而不是只吹能力。

还有 Scaling Trusted Access for Cyber 那个,GPT-5.5-Cyber 专门给安全研究员用。我没用过,但模型级安全插件这种思路应该是趋势——与其让 agent 的 prompt 里去加“你不能攻击”,不如在模型层直接锁死。

Parloa 的案例 是客服 agent,亮点在 voice-driven 和 real-time。但说实话,这类故事太多,没看到特别新的模式。

LangChain 这边Agent Builder 改名 LangSmith Fleet 是个品牌变化,功能上加入了 chat/file uploads/tool registry。另有一个 Deep Agents v0.4 版本更新,加了多步推理和子 agent 调度。不评价好还是坏,LangChain 现在越来越像一个 agent 编排平台而不是纯框架了。

最后提一个让我皱眉的新闻:Telus 用 AI 改客服的口音。从技术上讲,realtime voice 模型能改口音不意外,但让非母语客服的声音听起来像本地人,这事伦理上卡在哪?我不下定论,但值得看后续讨论。

多模态 agent 基础模型的一个苗头

GLM-5V-Turbo 163 分,清华做的多模态 agent 基础模型。不是直接接 vision 就完事,而是把 GUI 操作、截图理解、代码生成揉进一个模型里。这种原生支持 agent 行为的 foundation model,可能是下一代的标配。按我现在看,至少半年内还是 CLIP 加工具调用的天下,但方向没错。


这周的结论其实挺简单:别被“auto everything”的 demo 忽悠,真落地先把控制流和沙箱搞明白。 也许 6 个月后回头会被打脸,但至少现在,把 agent 当成一个有 API 的同事来管理,总比当神供着强。

本文由 YGG 臻星科技团队整理,聚合 ArXiv、HackerNews 与公开厂商博客,人工审稿。