文章

Agent Radar(试运行版):本周 agent / 代码代理 / 国内替代动向(近 7 天)

信息源(尽量高信噪比):

  • GitHub Releases(OpenClaw / LangGraph 等)
  • 官方文档/公告(Claude Code Docs / OpenAI Index)
  • 国内一线媒体补充(量子位)

1) 本周一句话判断

“Agent 正在从 Demo 走向可运营系统”:一边是 远程/多端接管编排框架的工程化小步快跑,另一边是 评测与安全/合规开始跟上(基准污染、反滥用),国内则在用更强的开源底座把“Agent 能力”快速商品化。

2) 3-5 条主线

  • 代码代理进入多端协同:本地跑起来以后,手机/网页端远程接管变成“刚需能力”,而不是锦上添花。
  • Agent 框架进入版本化工程迭代:LangGraph 这类编排框架的更新开始集中在“中断/工具运行时/线程搜索”等可落地能力。
  • 评测口径开始回归真实能力:SWE-bench Verified 被指出在高分段失真(测试缺陷 + 训练污染),对“Agentic coding”的衡量会转向更难作弊的基准。
  • 国内开源底座强势外溢:Qwen 3.5 这类开源模型在社区榜单强势,叠加“原生多模态 + agent”叙事,正在成为海外开发者默认备选。
  • 企业落地开始卖“变革交付”:从“买模型”转向“让 agent 在企业里跑起来”,咨询/交付伙伴联盟化。

3) 重点事件(10 条)

1) Claude Code 上线 Remote Control:本地会话可以被网页/手机接管

  • Claude Code 文档新增 Remote Control:允许你在电脑上跑一个会话,然后在 claude.ai/code 或 iOS 等端继续对话,保持同步(“terminal / browser / phone interchangeably”)。它目前是 research preview,只对 Pro/Max 开放,Team/Enterprise 不支持,并且 不支持 API key
  • 使用方式也很“CLI 时代”:会话里可用 /remote-control(或 /rc)打开;还支持配置“默认每个会话自动启用”。
  • 这类能力本质上在解决“agent 在你电脑上干活,但你不总在电脑前”的断点,是代码代理从工具向“随身协作者”演进的关键一环。
  • 来源:
    • https://code.claude.com/docs/en/remote-control
    • https://simonwillison.net/2026/Feb/25/claude-code-remote-control/

2) OpenClaw 本周多次 release:重点落在移动端体验和启动性能

  • OpenClaw 2026.2.25 的 release notes 明确指向 Android 原生聊天体验启动性能:包括流式输出处理、GFM markdown 渲染质量、延迟前台服务启动、把 WebView 调试初始化移出关键路径、增加更可重复的启动 benchmark/CLI。
  • 这种“看起来不性感”的迭代,往往是 agent 工具从“可用”到“每天都用”的分水岭:流式可靠 + 渲染一致 + 冷启动快,才能支撑高频人机协作。
  • 来源:
    • https://github.com/openclaw/openclaw/releases/tag/v2026.2.25

3) LangGraph 1.0.9:在“中断处理”和一致性上继续补课

  • LangGraph 1.0.9 的更新点集中在:sequential interrupt handling(功能 API 下的顺序中断处理修复)、状态更新时间排序、conformance testing、依赖更新等。
  • 对 agent 编排框架来说,中断/恢复/可重复性是生产级的硬需求(否则多代理/长链路就会变得不可控)。这类修复意味着它在向“可运营的 agent graph”靠拢。
  • 来源:
    • https://github.com/langchain-ai/langgraph/releases/tag/1.0.9

4) LangGraph SDK 0.3.9:threads.search() 增强

  • langgraph-sdk==0.3.9 增加 threads.search() 的 extract 参数;同时补了 type checking 的 make target。
  • 这类改动看起来小,但本质是在补“工程 API”:让你更容易在大量运行中的线程/会话里做检索、抽取与管理(对企业级 agent 运维非常关键)。
  • 来源:
    • https://github.com/langchain-ai/langgraph/releases/tag/sdk%3D%3D0.3.9

5) LangGraph Prebuilt 1.0.8:动态工具运行时注入

  • langgraph-prebuilt==1.0.8 提到“为动态注册的 tools 注入 ToolRuntime”,并更新了 create_react_agent 的 warning。
  • 这对应一个很现实的问题:很多 agent 系统不是静态工具集,而是运行时组装/动态发现工具;prebuilt 能力跟上,才有可能把 agent 组合从样例变成产品。
  • 来源:
    • https://github.com/langchain-ai/langgraph/releases/tag/prebuilt%3D%3D1.0.8

6) OpenAI:SWE-bench Verified 不再适合衡量前沿模型的“真实代码能力”

  • OpenAI 解释为什么不再报告 SWE-bench Verified:他们审计了模型经常失败的一部分任务,发现大量用例的测试会拒绝功能正确的提交(narrow/wide test cases),导致高分段“剩下的失败不一定是模型能力”。
  • 另一个更尖锐的问题是 训练污染:模型能复现 gold patch 或复述任务细节,说明基准已进入训练数据,分数越来越像“见过题”而不是“会做事”。他们建议改报告 SWE-bench Pro,并强调需要更私有/更难污染的评测体系。
  • 对你关心的 agentic coding 来说,这相当于官方承认:大家拿来比拼的一个“代理编程指标”正在失真,后续会影响产品对外宣传、投资叙事和内部研发 KPI。
  • 来源:
    • https://openai.com/index/why-we-no-longer-evaluate-swe-bench-verified

7) OpenAI:Frontier Alliances 明确把“企业 agent 落地”当成核心瓶颈

  • OpenAI 在 Frontier Alliances 里写得很直白:企业里 AI 的限制因素不是模型智力,而是 agent 如何被构建、部署、融入工作流与系统
  • 他们把 McKinsey/BCG/Accenture/Capgemini 作为联盟伙伴,结合 OpenAI 的 FDE 团队,强调“操作模型重构 + 系统集成 + 变更管理”。这意味着 agent 落地正在走向“咨询+交付+平台”的组合打法。
  • 来源:
    • https://openai.com/index/frontier-alliance-partners

8) 国内开源:Qwen 3.5 在 Hugging Face 榜单强势(并主打 agent 能力)

  • 量子位引用 Hugging Face 榜单称 Qwen 3.5 包揽前四,并强调“原生多模态 + agent 能力”,以及在中型尺寸上能跑在消费级显卡。
  • 对国内替代路线来说,这类开源底座如果持续在全球社区占据心智,后续会反向带动工具链(推理框架、RAG/agent 框架、部署方案)围绕它做适配,形成生态惯性。
  • 来源:
    • https://www.qbitai.com/2026/02/382732.html

9) “全能数字员工”叙事继续升温:Perplexity Computer 以 Opus 调度多模型

  • 量子位报道 Perplexity 推出 Perplexity Computer,定位为基于浏览器的通用数字员工,覆盖推理/委派/搜索/构建/记忆/编码/交付等流程,并宣称以 Opus 为核心调度 19 个模型。
  • 这类产品的关键不在“又一个模型”,而在“把工具、模型、记忆、工作流整合成一个可持续使用的外壳”——它和你关心的 OpenClaw/Claude Code 属于同一条大趋势:把 agent 变成可操作的工作入口。
  • 来源:
    • https://www.qbitai.com/2026/02/382647.html

10) Karpathy:AI 编程发生突变(vibe coding / coding agent 从“能看”到“能用”)

  • 量子位转述 Karpathy 的判断:2025 年 12 月前后的 AI 编程体验出现“突变”,coding agent 的长期一致性与韧性显著提升,开始能做大型、耗时任务。
  • 不管你是否同意时间点,这个说法本质上在描述一个产品阈值:当代理具备足够的“持续推进能力”,人类从“自己写”转向“指挥+验收”,软件生产函数会变。
  • 来源:
    • https://www.qbitai.com/2026/02/382626.html

4) 下周最值得继续跟踪的 5 个信号

  • Claude Code Remote Control 的下一步:是否会补齐 Team/Enterprise、以及 API key/安全边界(现在明确不支持)。
  • “agentic coding 的新评测口径”会怎么收敛:SWE-bench Pro 会不会成为新默认?以及是否出现更私有、更难污染的替代基准。
  • OpenClaw 的移动端/启动性能优化是否继续向“更稳定的远程接管/多端协同”演进。
  • LangGraph 在中断/恢复/动态工具运行时上的持续修复,是否会带来一波“可运营的 graph agent”落地案例。
  • 国内开源底座(如 Qwen 3.5)在海外生态里是否继续维持榜单与工具链适配热度(这决定“替代路线”的真实可用性)。

5) 来源列表(去重)

  • https://code.claude.com/docs/en/remote-control
  • https://simonwillison.net/2026/Feb/25/claude-code-remote-control/
  • https://github.com/openclaw/openclaw/releases/tag/v2026.2.25
  • https://github.com/langchain-ai/langgraph/releases/tag/1.0.9
  • https://github.com/langchain-ai/langgraph/releases/tag/sdk%3D%3D0.3.9
  • https://github.com/langchain-ai/langgraph/releases/tag/prebuilt%3D%3D1.0.8
  • https://openai.com/index/why-we-no-longer-evaluate-swe-bench-verified
  • https://openai.com/index/frontier-alliance-partners
  • https://www.qbitai.com/2026/02/382732.html
  • https://www.qbitai.com/2026/02/382647.html
  • https://www.qbitai.com/2026/02/382626.html
本文由作者按照 CC BY 4.0 进行授权