这周素材堆里翻了一圈,最扎眼的不是哪个新框架发布,而是几篇"反主流"的文章。有人跳出来说"agent之间用自然语言对话是架构反模式",有团队安利"agent的大脑就该是版本化文件夹里的Markdown文件"——这些观点放在一年前会被当异端,但现在越来越多人开始怀疑:我们是不是把简单问题复杂化了?
自然语言消息是反模式,这我同意
NovaBerg 那篇帖子标题就很冲:LLM agent 之间用自然语言传消息是架构反模式。核心观点是——两个 agent 对话,你无法保证输出格式稳定,解析成本高,而且每次对话都在"重新理解上下文",不如直接设计成结构化协议。按我现在看,这个批评戳中了痛点。尤其是多 agent 做复杂任务时,"聊天式协作"很容易变成两个糊涂蛋互相猜。
我脑子里立刻蹦出 LangGraph 和 Swarm 那套编排工具——它们的设计其实就在往结构化走,但你真要给每个子任务画 state machine、定 schema,又得写不少胶水代码。两难。
Markdown 文件做大脑?听起来糙但好用
有人直接说:agent 最好的"大脑"就是版本化文件夹里的 Markdown 文件。不用向量数据库,不用 RAG 管道,就是 Git + 纯文本,让 LLM 去读。听起来很违反直觉,但道理是——80%的场景你不需要语义搜索,需要的是精确、可回溯的信源。我试过在 Cursor 里写项目规划文档,效果比塞一个知识库快多了。也许 6 个月后回头会被打脸,但现阶段这个思路对我很受用。
状态机帮 agent 稳定,Statewright 值得看一眼
Statewright 展示了一个纯视觉状态机工具,直接让 agent 的行为不再是黑盒。它的做法是:用状态图定义 agent 在哪一步该做什么,出了错可以可视化回退。这跟上面那个"Markdown 大脑"其实是两条路线——一个强调结构化编排,一个强调可观察的流程。我不觉得哪条能通吃,但如果你在做一个需要高可靠性的 agent(比如操作数据库,或者给 COBOL 机下指令),状态机这条路肉眼可见比全文本靠谱。
说到 COBOL,Hypercubic 的 Hopper 给老式主机和 COBOL 系统套了一层 agent 接口。挺敢的,居然还有人惦记这些古董。我猜真正用上的是银行和保险,它们不敢重构但可以偷偷加个 AI 接口。
LangSmith 改名 Fleet,不是改个名这么简单
LangChain 本周动静不小。Agent Builder 改名为 LangSmith Fleet,同时加了聊天、文件上传、工具注册表,还有 Deep Agents v0.4。改名的背后:LangChain 想把 agent 的"构建-测试-部署-监控"全链路放进一个产品,Fleet 更像是"运维中心"的概念。Deep Agents v0.4 没细说改动,但从版本号看增量更新。另外他们把 基线实验固定 功能也加进去了——这对我这种经常跑一堆实验忘了哪条基线的人很实用。
OpenAI 这周发了啥?流水账但有两个值得看
OpenAI 这周更新不少,但大多是 academy 内容(Codex 用于运营团队和数据科学团队)和个人财务体验(仅限 Pro 美国用户)。比较有意思的是 Databricks 用 GPT-5.5 做企业 agent 工作流,宣称在 OfficeQA Pro 基准上达到新 SOTA。注意这里用词是"enterprise agent workflows"——不是简单调 API,而是把 GPT-5.5 嵌入到 agent 编排里。另一个是马耳他全国 ChatGPT Plus 合作——小国家全面推广,训练公民 AI 技能。OpenAI 开始打"国家级合作"牌了。
另外,Claude Agent SDK 现在可以直接在 Claude Plan 里用。按我的理解,Anthropic 想让用户直接在对话里使用 SDK 能力(比如调用外部工具)。说白了两家都在抢"agent 时代的入口"。
隐私话题:20M 人名单在 iPhone 上
这周最炸的隐私新闻:ICE 探员通过 Palantir 拿到了 2000 万人的名单,直接存在 iPhone 里。报道说探员用 Palantir 的软件在移动设备上查询和追踪。如果你关心 AI agent 的数据安全,这个案例是个现实噩梦——agent 本身也许没有直接犯错,但底层数据和权限管控一旦出问题,结果就是 20M 人的隐私裸奔。我想说的是,别光盯着 agent 的 accuracy,安全边界才是天花板。
其他几个值得提一嘴的
- Voker(YC S24):给 AI agent 做分析的工具。还记得 AgentOps 那个赛道吗?现在开始有人具体做产品了。功能大概包括 session 回放、token 消耗、失败追踪。
- E2a:开源的 agent 邮件网关。给 agent 发邮件它就能执行任务。我很怀疑这个市场有多大,但如果你需要让 agent 和传统系统(比如工单、审批)互通,邮件接口确实最省事。
- adamsreview:让 Claude Code 做多 agent PR 审阅。干活的人都知道,代码审查里最烦的是人工看逻辑问题,这一下可以扔给 agent 先去排查。
- Zerostack:纯 Rust 写的 Unix 风格编码 agent。工具链党会喜欢,但我不确定纯 Rust 能带来多大体验优势,毕竟多数用户只关心结果。不过对自己搭建 pipeline 的人来说,性能是实打实的。
这周看下来,我最大的感觉是:agent 圈子正在从"搞一个全能 agent"分裂成"做小而可靠的 agent"。Markdown 文件夹、状态机、结构化协议、安全边界——这些听起来无聊的词,反而可能是真正有用的东西。毕竟工程师最怕的不是 AI 不聪明,而是 AI 搞事情你完全追不到原因。