YGG 智能体周刊

这周素材堆里翻了一圈，最扎眼的不是哪个新框架发布，而是几篇"反主流"的文章。有人跳出来说"agent之间用自然语言对话是架构反模式"，有团队安利"agent的大脑就该是版本化文件夹里的Markdown文件"——这些观点放在一年前会被当异端，但现在越来越多人开始怀疑：我们是不是把简单问题复杂化了？

自然语言消息是反模式，这我同意

NovaBerg 那篇帖子标题就很冲：LLM agent 之间用自然语言传消息是架构反模式。核心观点是——两个 agent 对话，你无法保证输出格式稳定，解析成本高，而且每次对话都在"重新理解上下文"，不如直接设计成结构化协议。按我现在看，这个批评戳中了痛点。尤其是多 agent 做复杂任务时，"聊天式协作"很容易变成两个糊涂蛋互相猜。

我脑子里立刻蹦出 LangGraph 和 Swarm 那套编排工具——它们的设计其实就在往结构化走，但你真要给每个子任务画 state machine、定 schema，又得写不少胶水代码。两难。

Markdown 文件做大脑？听起来糙但好用

有人直接说：agent 最好的"大脑"就是版本化文件夹里的 Markdown 文件。不用向量数据库，不用 RAG 管道，就是 Git + 纯文本，让 LLM 去读。听起来很违反直觉，但道理是——80%的场景你不需要语义搜索，需要的是精确、可回溯的信源。我试过在 Cursor 里写项目规划文档，效果比塞一个知识库快多了。也许 6 个月后回头会被打脸，但现阶段这个思路对我很受用。

状态机帮 agent 稳定，Statewright 值得看一眼

Statewright 展示了一个纯视觉状态机工具，直接让 agent 的行为不再是黑盒。它的做法是：用状态图定义 agent 在哪一步该做什么，出了错可以可视化回退。这跟上面那个"Markdown 大脑"其实是两条路线——一个强调结构化编排，一个强调可观察的流程。我不觉得哪条能通吃，但如果你在做一个需要高可靠性的 agent（比如操作数据库，或者给 COBOL 机下指令），状态机这条路肉眼可见比全文本靠谱。

说到 COBOL，Hypercubic 的 Hopper 给老式主机和 COBOL 系统套了一层 agent 接口。挺敢的，居然还有人惦记这些古董。我猜真正用上的是银行和保险，它们不敢重构但可以偷偷加个 AI 接口。

LangSmith 改名 Fleet，不是改个名这么简单

LangChain 本周动静不小。Agent Builder 改名为 LangSmith Fleet，同时加了聊天、文件上传、工具注册表，还有 Deep Agents v0.4。改名的背后：LangChain 想把 agent 的"构建-测试-部署-监控"全链路放进一个产品，Fleet 更像是"运维中心"的概念。Deep Agents v0.4 没细说改动，但从版本号看增量更新。另外他们把基线实验固定功能也加进去了——这对我这种经常跑一堆实验忘了哪条基线的人很实用。

OpenAI 这周发了啥？流水账但有两个值得看

OpenAI 这周更新不少，但大多是 academy 内容（Codex 用于运营团队和数据科学团队）和个人财务体验（仅限 Pro 美国用户）。比较有意思的是 Databricks 用 GPT-5.5 做企业 agent 工作流，宣称在 OfficeQA Pro 基准上达到新 SOTA。注意这里用词是"enterprise agent workflows"——不是简单调 API，而是把 GPT-5.5 嵌入到 agent 编排里。另一个是马耳他全国 ChatGPT Plus 合作——小国家全面推广，训练公民 AI 技能。OpenAI 开始打"国家级合作"牌了。

另外，Claude Agent SDK 现在可以直接在 Claude Plan 里用。按我的理解，Anthropic 想让用户直接在对话里使用 SDK 能力（比如调用外部工具）。说白了两家都在抢"agent 时代的入口"。

隐私话题：20M 人名单在 iPhone 上

这周最炸的隐私新闻：ICE 探员通过 Palantir 拿到了 2000 万人的名单，直接存在 iPhone 里。报道说探员用 Palantir 的软件在移动设备上查询和追踪。如果你关心 AI agent 的数据安全，这个案例是个现实噩梦——agent 本身也许没有直接犯错，但底层数据和权限管控一旦出问题，结果就是 20M 人的隐私裸奔。我想说的是，别光盯着 agent 的 accuracy，安全边界才是天花板。

其他几个值得提一嘴的

Voker（YC S24）：给 AI agent 做分析的工具。还记得 AgentOps 那个赛道吗？现在开始有人具体做产品了。功能大概包括 session 回放、token 消耗、失败追踪。
E2a：开源的 agent 邮件网关。给 agent 发邮件它就能执行任务。我很怀疑这个市场有多大，但如果你需要让 agent 和传统系统（比如工单、审批）互通，邮件接口确实最省事。
adamsreview：让 Claude Code 做多 agent PR 审阅。干活的人都知道，代码审查里最烦的是人工看逻辑问题，这一下可以扔给 agent 先去排查。
Zerostack：纯 Rust 写的 Unix 风格编码 agent。工具链党会喜欢，但我不确定纯 Rust 能带来多大体验优势，毕竟多数用户只关心结果。不过对自己搭建 pipeline 的人来说，性能是实打实的。

这周看下来，我最大的感觉是：agent 圈子正在从"搞一个全能 agent"分裂成"做小而可靠的 agent"。Markdown 文件夹、状态机、结构化协议、安全边界——这些听起来无聊的词，反而可能是真正有用的东西。毕竟工程师最怕的不是 AI 不聪明，而是 AI 搞事情你完全追不到原因。

2026-W20 智能体周刊