#weekly#agent#paper#engineering#2026

2026-W23 智能体周刊

本周智能体生态聚焦:这周材料堆得有点多,挑几个我摸着有意思的聊。 先说几个感觉:ArXiv 这周冒出来不少跟 agent 内存、权限、演化相关的 work,说明一件事——圈里大家终于开始认真想“agent 跑久了会出什么事”而不是“怎么让它跑起来”。厂商这边,OpenAI 的 ChatGP记忆终于动了,LangChain 改名 Fleet 也算是个信号。HackerNews 上那个斯坦福 CS336 的 CLAUDE.md 文件意外火了,挺有意思——大家开始在意 agent

AuthorYGG 智能体周刊Published9 min read

这周材料堆得有点多,挑几个我摸着有意思的聊。

先说几个感觉:ArXiv 这周冒出来不少跟 agent 内存、权限、演化相关的 work,说明一件事——圈里大家终于开始认真想“agent 跑久了会出什么事”而不是“怎么让它跑起来”。厂商这边,OpenAI 的 ChatGP记忆终于动了,LangChain 改名 Fleet 也算是个信号。HackerNews 上那个斯坦福 CS336 的 CLAUDE.md 文件意外火了,挺有意思——大家开始在意 agent 到底该不该被“指令”而不是“提示”了。

ArXiv 这周有几篇值得拉出来掰扯

Agent Memory: Characterization and System Implications of Stateful Long-Horizon Workloads链接
这篇讲 agent 跑长任务时内存怎么保存、怎么查、怎么更新。问题在于现有系统基本没专门考虑过 agent 的 memory 模式——读到算数,超了就硬删。论文做了 workload 刻画,提了一些架构建议。我看完的感觉是:内存管理这块离 production 还远,但方向对了。我们已经见过太多 agent 聊了几句就忘干净,用户骂街。

Will the Agent Recuse Itself?链接
这篇更直接:agent 持有了凭据,怎么告诉它“这块你不能去”?传统 ACL 靠权限硬拦,但 agent 是 LLM,它不知道什么叫“off-limits”。论文搞了个 In-Band Access-Deny Signal,让系统发信号说“这资源你不能碰”,然后看 agent 自己会不会退避。实验结果嘛……有些能识别,有些直接忽略。我觉得这问题比 memory 还紧迫,毕竟安全出事了就是真的出事。

MLEvolve: A Self-Evolving Framework链接
这个搞 ML 算法自动发现的 agent 框架,解决的是跨分支信息隔离、无记忆搜索、缺少分层控制这几个痛点。我自己写 agent 做研究踩过这些坑——跑了几天实验回来,分叉里搞了什么完全没记录,最后手动回溯。MLEvolve 用了个类似 tree-of-thought 但带持久化记忆的结构,挺合理。

Goedel-Architect: Blueprint Generation for Theorem Proving链接
Lean 4 形式化证明的 agent 框架,核心是生成“蓝图”——依赖图,从定义到引理到主定理。我不写形式化证明,但能想象这个 work 对自动推理的价值。而且它展示了 agent 怎么把长任务拆成可管理的小步骤,这个思路在其他领域也能套。

HANDOFF: Whole-Body Control for Humanoid链接
这篇讲人形机器人的全身控制,重点是“command space”——任务规划和底层控制之间的接口。现有 WBC 控制器需要密集的运动学参考,规划器很难自动生成。HANDOFF 通过蒸馏互补教师(distilled complementary teachers)来搞,实验结果不错。机器人这块我不熟,但“接口设计”这个点通用——好的接口能解耦复杂系统。

OpenAI 这周更新:记忆动了,但不多

“Dreaming: Better memory for a more helpful ChatGPT”(链接)——ChatGPT 终于有了长期记忆系统。细节不多,但大致是模型会在空闲时“做梦”来整合散落记忆,类似睡眠中的记忆巩固。听起来挺炫,实际效果得用一阵才知道。我猜这背后就是那篇 Agent Memory 论文里讨论的难题——持久化、检索、更新,OpenAI 选了个比较优雅的名字和实现。

另外还发了 Harness Engineering 博客(链接),讲怎么用 Codex 做 agent-first 编程。里面提到“harness”这个概念——一种把 agent 和 human 协作的脚手架。我觉得比纯 agent 吹水有用,至少给了些实操模式。

LangChain 改了个名,顺便更新了一批

Agent Builder 改名 LangSmith Fleet链接)——明显是产品线调整,LangSmith 变成平台,Fleet 是编排层。类似 AWS 的命名方式?Deep Agents v0.4(链接)也发了,具体更新没细看,但版本号推得快,说明还在快速迭代。

另外还有个 Scheduled reports for Insights Agent,能定时生成 agent 行为报告,这功能对运维有用——不用自己写 cronjob 拉 API 了。

HackerNews 上的几个亮点

Stanford CS336 的 CLAUDE.md链接)火了——501 分。一个仓库里的指导文件,教 Claude 怎么帮助教批改作业。本质上是个 agent behavior contract,明确说什么能做什么不能做。这事有意思在——大家开始写“agent 的守则”而不是“agent 的 prompt”。这可能是未来 agent 系统的标配。

Agentic Motherfucking Website链接)——237 分,调侃起手式。一个极简页面,标题就是“agentic motherf**ing website”。互联网梗,但背后是大家对 agent 术语的疲劳——什么都是 agentic,反而没意义了。

Paseo: Beautiful open-source coding agent interface链接)——91 分,一个开源 coding agent 前端。看截图界面确实干净,支持多模型、文档预览。我还没试用,但 UI 设计对齐了 agent 的工作流(读上下文、写代码、预览结果),比 VSCode 那种通用 IDE 更聚焦。

Universal Memory Protocol链接)——40 分,又是 agent memory。这次是提议一个共享格式,类似 RSS 但给 agent 记忆用。思路是让不同 agent 能读对方记忆片段。我猜短期内不会有厂商接入,但理念对了——标准先行,生态才能长。

最后提下 Microsoft Scout链接)——微软开源了 OpenClaw 上跑的自主 agent,但细节不多。OpenClaw 是什么?我查了下,应该是微软内部的 agent 框架。Scout 定位“自主 AI agent”,能处理多步骤任务。竞争格局上看,微软在 agent 上动作不少(Copilot、Autogen),但这次是具体产品化……

几个随口感想

  • Agent memory 这周讨论密度高。ArXiv 论文、UMP 协议、ChatGPT Dreaming 同时出现,可能 2026 下半年会是个小爆发点。但按我现在看,最简单方案还是 Redis + 固定过期策略,别追 fancy 算法。
  • 安全机制(access-deny signal)比内存更重要——内存丢了只是体验,安全出问题就是事故。项目里应该优先排查 agent 的凭据范围,然后加显式拒绝信号测试。
  • 别过度设计。单 agent + 工具调用覆盖 80% 场景。多 agent 协作只有在任务必须跨权限或跨领域时才值得折腾。
  • 开源 agent 前端(Paseo)让我想到 2023 年代码编辑器大战——最后活下来的往往是最贴近用户具体场景的,不是最全能的。Agent 界面也一样,别做“什么都能干”的 mega dashboard。

也许 6 个月后回头会被打脸,但这周最明显的信号是:agent 行业从“能不能做”进入了“能不能用好”的阶段。这意味着工程细节会越来越值钱——内存、安全、编排、监控,一个个都不 sexy,但都得有人收拾。

Curated by the YGG team from ArXiv, HackerNews and public vendor blogs. Human-reviewed.