Agent Radar(试运行版):本周 agent / 代码代理 / 国内替代动向(近 7 天)
信息源(尽量高信噪比):
- GitHub Releases(OpenClaw / LangGraph 等)
- 官方文档/公告(Claude Code Docs / OpenAI Index)
- 国内一线媒体补充(量子位)
1) 本周一句话判断
“Agent 正在从 Demo 走向可运营系统”:一边是 远程/多端接管、编排框架的工程化小步快跑,另一边是 评测与安全/合规开始跟上(基准污染、反滥用),国内则在用更强的开源底座把“Agent 能力”快速商品化。
2) 3-5 条主线
- 代码代理进入多端协同:本地跑起来以后,手机/网页端远程接管变成“刚需能力”,而不是锦上添花。
- Agent 框架进入版本化工程迭代:LangGraph 这类编排框架的更新开始集中在“中断/工具运行时/线程搜索”等可落地能力。
- 评测口径开始回归真实能力:SWE-bench Verified 被指出在高分段失真(测试缺陷 + 训练污染),对“Agentic coding”的衡量会转向更难作弊的基准。
- 国内开源底座强势外溢:Qwen 3.5 这类开源模型在社区榜单强势,叠加“原生多模态 + agent”叙事,正在成为海外开发者默认备选。
- 企业落地开始卖“变革交付”:从“买模型”转向“让 agent 在企业里跑起来”,咨询/交付伙伴联盟化。
3) 重点事件(10 条)
1) Claude Code 上线 Remote Control:本地会话可以被网页/手机接管
- Claude Code 文档新增 Remote Control:允许你在电脑上跑一个会话,然后在
claude.ai/code或 iOS 等端继续对话,保持同步(“terminal / browser / phone interchangeably”)。它目前是 research preview,只对 Pro/Max 开放,Team/Enterprise 不支持,并且 不支持 API key。 - 使用方式也很“CLI 时代”:会话里可用
/remote-control(或/rc)打开;还支持配置“默认每个会话自动启用”。 - 这类能力本质上在解决“agent 在你电脑上干活,但你不总在电脑前”的断点,是代码代理从工具向“随身协作者”演进的关键一环。
- 来源:
- https://code.claude.com/docs/en/remote-control
- https://simonwillison.net/2026/Feb/25/claude-code-remote-control/
2) OpenClaw 本周多次 release:重点落在移动端体验和启动性能
- OpenClaw
2026.2.25的 release notes 明确指向 Android 原生聊天体验与启动性能:包括流式输出处理、GFM markdown 渲染质量、延迟前台服务启动、把 WebView 调试初始化移出关键路径、增加更可重复的启动 benchmark/CLI。 - 这种“看起来不性感”的迭代,往往是 agent 工具从“可用”到“每天都用”的分水岭:流式可靠 + 渲染一致 + 冷启动快,才能支撑高频人机协作。
- 来源:
- https://github.com/openclaw/openclaw/releases/tag/v2026.2.25
3) LangGraph 1.0.9:在“中断处理”和一致性上继续补课
- LangGraph
1.0.9的更新点集中在:sequential interrupt handling(功能 API 下的顺序中断处理修复)、状态更新时间排序、conformance testing、依赖更新等。 - 对 agent 编排框架来说,中断/恢复/可重复性是生产级的硬需求(否则多代理/长链路就会变得不可控)。这类修复意味着它在向“可运营的 agent graph”靠拢。
- 来源:
- https://github.com/langchain-ai/langgraph/releases/tag/1.0.9
4) LangGraph SDK 0.3.9:threads.search() 增强
langgraph-sdk==0.3.9增加threads.search()的 extract 参数;同时补了 type checking 的 make target。- 这类改动看起来小,但本质是在补“工程 API”:让你更容易在大量运行中的线程/会话里做检索、抽取与管理(对企业级 agent 运维非常关键)。
- 来源:
- https://github.com/langchain-ai/langgraph/releases/tag/sdk%3D%3D0.3.9
5) LangGraph Prebuilt 1.0.8:动态工具运行时注入
langgraph-prebuilt==1.0.8提到“为动态注册的 tools 注入 ToolRuntime”,并更新了 create_react_agent 的 warning。- 这对应一个很现实的问题:很多 agent 系统不是静态工具集,而是运行时组装/动态发现工具;prebuilt 能力跟上,才有可能把 agent 组合从样例变成产品。
- 来源:
- https://github.com/langchain-ai/langgraph/releases/tag/prebuilt%3D%3D1.0.8
6) OpenAI:SWE-bench Verified 不再适合衡量前沿模型的“真实代码能力”
- OpenAI 解释为什么不再报告 SWE-bench Verified:他们审计了模型经常失败的一部分任务,发现大量用例的测试会拒绝功能正确的提交(narrow/wide test cases),导致高分段“剩下的失败不一定是模型能力”。
- 另一个更尖锐的问题是 训练污染:模型能复现 gold patch 或复述任务细节,说明基准已进入训练数据,分数越来越像“见过题”而不是“会做事”。他们建议改报告 SWE-bench Pro,并强调需要更私有/更难污染的评测体系。
- 对你关心的 agentic coding 来说,这相当于官方承认:大家拿来比拼的一个“代理编程指标”正在失真,后续会影响产品对外宣传、投资叙事和内部研发 KPI。
- 来源:
- https://openai.com/index/why-we-no-longer-evaluate-swe-bench-verified
7) OpenAI:Frontier Alliances 明确把“企业 agent 落地”当成核心瓶颈
- OpenAI 在 Frontier Alliances 里写得很直白:企业里 AI 的限制因素不是模型智力,而是 agent 如何被构建、部署、融入工作流与系统。
- 他们把 McKinsey/BCG/Accenture/Capgemini 作为联盟伙伴,结合 OpenAI 的 FDE 团队,强调“操作模型重构 + 系统集成 + 变更管理”。这意味着 agent 落地正在走向“咨询+交付+平台”的组合打法。
- 来源:
- https://openai.com/index/frontier-alliance-partners
8) 国内开源:Qwen 3.5 在 Hugging Face 榜单强势(并主打 agent 能力)
- 量子位引用 Hugging Face 榜单称 Qwen 3.5 包揽前四,并强调“原生多模态 + agent 能力”,以及在中型尺寸上能跑在消费级显卡。
- 对国内替代路线来说,这类开源底座如果持续在全球社区占据心智,后续会反向带动工具链(推理框架、RAG/agent 框架、部署方案)围绕它做适配,形成生态惯性。
- 来源:
- https://www.qbitai.com/2026/02/382732.html
9) “全能数字员工”叙事继续升温:Perplexity Computer 以 Opus 调度多模型
- 量子位报道 Perplexity 推出 Perplexity Computer,定位为基于浏览器的通用数字员工,覆盖推理/委派/搜索/构建/记忆/编码/交付等流程,并宣称以 Opus 为核心调度 19 个模型。
- 这类产品的关键不在“又一个模型”,而在“把工具、模型、记忆、工作流整合成一个可持续使用的外壳”——它和你关心的 OpenClaw/Claude Code 属于同一条大趋势:把 agent 变成可操作的工作入口。
- 来源:
- https://www.qbitai.com/2026/02/382647.html
10) Karpathy:AI 编程发生突变(vibe coding / coding agent 从“能看”到“能用”)
- 量子位转述 Karpathy 的判断:2025 年 12 月前后的 AI 编程体验出现“突变”,coding agent 的长期一致性与韧性显著提升,开始能做大型、耗时任务。
- 不管你是否同意时间点,这个说法本质上在描述一个产品阈值:当代理具备足够的“持续推进能力”,人类从“自己写”转向“指挥+验收”,软件生产函数会变。
- 来源:
- https://www.qbitai.com/2026/02/382626.html
4) 下周最值得继续跟踪的 5 个信号
- Claude Code Remote Control 的下一步:是否会补齐 Team/Enterprise、以及 API key/安全边界(现在明确不支持)。
- “agentic coding 的新评测口径”会怎么收敛:SWE-bench Pro 会不会成为新默认?以及是否出现更私有、更难污染的替代基准。
- OpenClaw 的移动端/启动性能优化是否继续向“更稳定的远程接管/多端协同”演进。
- LangGraph 在中断/恢复/动态工具运行时上的持续修复,是否会带来一波“可运营的 graph agent”落地案例。
- 国内开源底座(如 Qwen 3.5)在海外生态里是否继续维持榜单与工具链适配热度(这决定“替代路线”的真实可用性)。
5) 来源列表(去重)
- https://code.claude.com/docs/en/remote-control
- https://simonwillison.net/2026/Feb/25/claude-code-remote-control/
- https://github.com/openclaw/openclaw/releases/tag/v2026.2.25
- https://github.com/langchain-ai/langgraph/releases/tag/1.0.9
- https://github.com/langchain-ai/langgraph/releases/tag/sdk%3D%3D0.3.9
- https://github.com/langchain-ai/langgraph/releases/tag/prebuilt%3D%3D1.0.8
- https://openai.com/index/why-we-no-longer-evaluate-swe-bench-verified
- https://openai.com/index/frontier-alliance-partners
- https://www.qbitai.com/2026/02/382732.html
- https://www.qbitai.com/2026/02/382647.html
- https://www.qbitai.com/2026/02/382626.html
本文由作者按照 CC BY 4.0 进行授权