AI Agent 与 AI 编程 IDE 更新
Cursor 发布 Composer 2.5:长周期 Agent 任务能力显著提升
5月18日,Cursor 正式发布 Composer 2.5,这是对 Composer 2 的重大升级。新版本在智能和行为方面有实质性提升,特别是在长周期(long-horizon)Agent 任务上表现尤为突出。Cursor 正逐步从 AI 辅助编程工具演变为统一的 Agent 协作工作空间,此前发布的 Cursor 3 已经将 Agent 作为核心交互范式。PayPal、National Australia Bank 等大型企业已在生产环境中深度使用 Cursor。(来源:Cursor Blog)
Devin 获得 Windows PC:原生支持 Windows 虚拟机开发
5月21日,Cognition 宣布 Devin 现在可以在 Windows 虚拟机中原生构建、运行和测试软件,将自主 AI 工程能力带入了全球最成熟的开发者生态系统。同一天,Cognition 还发布了 SWE-Safety 基准测试来评估 Agent 安全行为。此前在5月18日,Devin 还推出了 Auto-Triage 功能,可以自动监控 Bug、告警和事件,当出现问题时立即响应调查,并可直接打开 PR 修复。(来源:Cognition Blog)
Anthropic 收购 Stainless:强化 API 基础设施
5月18日,Anthropic 宣布收购 API 基础设施公司 Stainless。Stainless 专注于提供高质量的 API SDK 生成和开发者体验工具,此次收购将帮助 Anthropic 为 Claude API 和 Claude Code 提供更好的开发者工具链。同周,Anthropic 还宣布 KPMG 将在其超过276,000名员工的业务中全面集成 Claude,并与盖茨基金会建立2亿美元合作伙伴关系。(来源:Anthropic Blog)
Augment Code:Auggie 以 33% 更低成本超越 Claude Code
5月15日,Augment Code 发布博客称其 AI 编程助手 Auggie 在 Claude Opus 4.7 基础上实现了比 Claude Code 更低的成本和更优的质量——成本降低33%的同时保持了高质量的代码生成。Augment 还发布了模型路由功能 Augment Prism,可在不同模型间智能切换以平衡成本和质量。(来源:Augment Code Blog)
GitHub Copilot:Agent 驱动开发成为工程新范式
GitHub Engineering Blog 最新专题文章深入探讨了 “Agent-driven development in Copilot Applied Science”,展示了 Copilot 如何从简单的代码补全演变为 Agent 驱动的开发模式。与此同时,dotnet/skills 仓库在 GitHub 上迅速走红,旨在为 AI 编程 Agent 提供 .NET 和 C# 的技能支持。(来源:GitHub Blog / GitHub Trending)
开源生态:Claude Code 插件目录与代码知识图谱工具爆发
GitHub Trending 今日多个 AI Agent 相关项目表现抢眼:Anthropic 官方推出的 claude-plugins-official 仓库(23,680 Stars)成为 Claude Code 插件官方目录;colbymchenry/codegraph(15,504 Stars)提供了预索引的代码知识图谱,可同时用于 Claude Code、Codex、Cursor 等工具,号称”更少的 token、更少的工具调用、100%本地运行”;Chrome DevTools 团队发布的 chrome-devtools-mcp(40,754 Stars)为编码 Agent 提供了浏览器调试能力。(来源:GitHub Trending)
大模型发布与更新
阿里巴巴 Qwen3.7-Max:连续自主执行 35 小时,支持 Claude Code 协议
5月21日,阿里巴巴 Qwen 团队发布 Qwen3.7-Max,这是一款专为”马拉松式”自主 Agent 任务设计的模型。在演示中,该模型在一台从未见过的 T-Head ZW-M890 PPU 硬件上连续自主运行 35 小时,执行了 1,158 次工具调用、432 次内核评估,最终实现了 10.0 倍的几何平均加速。模型拥有 100 万 token 上下文窗口和 64K 最大输出限制,原生支持 Anthropic API 协议,可直接接入 Claude Code 或 OpenClaw 等工具。在 Apex Math Reasoning 基准测试中,Qwen3.7-Max 以 44.5 分超越 Claude Opus-4.6 Max(34.5 分)和 DeepSeek V4-Pro Max(38.3 分)。(来源:VentureBeat / Qwen Team)
OpenAI 模型首次证明离散几何中的中心猜想
5月20日,OpenAI 宣布其研究模型成功反驳了离散几何领域的一个中心猜想,这是 AI 模型在数学研究中取得的重大突破。同时,OpenAI 还在推进内容溯源技术,旨在构建更安全、更透明的 AI 生态系统。(来源:OpenAI Blog)
OpenAI 与 Dell 合作:Codex 进入混合云和企业本地环境
5月18日,OpenAI 宣布与 Dell Technologies 合作,将 Codex 引入混合云和企业本地环境。这意味着企业可以在自己的基础设施上部署 Codex 编程 Agent,满足数据主权和合规需求。此前,OpenAI 还发布了关于在 Windows 上构建 Codex 安全沙箱的工程详解。(来源:OpenAI Blog)
AI 工具产品发布
Kore.ai 发布 Artemis AI Agent 平台,挑战 Salesforce 和 ServiceNow
5月21日,Kore.ai 正式推出 Artemis AI Agent 平台,旨在成为企业 AI Agent 的默认基础设施。该平台采用专有的中间语言来定义 Agent,并主张 AI(而非人类开发者)应承担大部分开发工作。在微软、Salesforce、Google 和 ServiceNow 纷纷争夺企业 Agent 市场的背景下,Kore.ai 的差异化策略是中立性和自动化优先。(来源:VentureBeat)
Resolve AI:多 Agent 协作系统解决生产环境故障
5月21日,Resolve AI 发布了一套新的多 Agent 调查系统。与传统的单 Agent 诊断不同,该平台会派遣一组专门的 Agent 并行追查多个假设,互相验证结论,构建从根因到症状的完整因果链。据称,其内部评估中根因定位准确率提升了两倍以上。(来源:VentureBeat)
Product Hunt 今日亮点:TestSprite 3.0、ElevenAgents、buildpipe
今日 Product Hunt 上涌现了多个 AI 工具:TestSprite 3.0 利用并行 Agent 舰队在数分钟内完成应用测试;ElevenLabs 推出 ElevenAgents,用 AI 语音 Agent 规模化处理客户对话;buildpipe 支持编排多步骤 AI 开发者工作流;Shuffle Design CLI 则是一款多模型 AI 命令行工具,用于快速构建和 redesign 网站。(来源:Product Hunt)
AI Agent 工作记忆突破:仅增加 0.12% 参数即可实现长效记忆
5月21日,一项新研究发布了一种名为 Memoria 的内存模块,仅增加模型 0.12% 的参数即可让 AI Agent 获得类似工作记忆的能力,无需改变模型架构即可在长交互中保持上下文。同日有分析指出,企业 AI Agent 难以走出试点阶段的核心原因正是”遗忘”——Agent 在执行过程中丢失了之前学到的信息。(来源:VentureBeat / arXiv)
Google 25 年来首次重新设计搜索框
5月19日,Google 正式宣布对搜索框进行 25 年来最大幅度的 redesign。这一变化标志着从传统的”蓝色链接”范式向 AI 驱动的搜索体验转型,搜索结果将不再仅仅是链接列表,而是由 AI 综合生成的回答与结构化信息。(来源:VentureBeat)
AI 行业重要新闻
企业级 AI Agent 加速落地:KPMG、PwC 全面部署 Claude
Anthropic 本周宣布了两项重大的企业合作:KPMG 将在全球超过 276,000 名员工中全面集成 Claude,涵盖核心业务运营;PwC 则正在部署 Claude 用于技术构建、交易执行和企业功能重构。此外,Anthropic 还推出了 Claude for Small Business,将 AI 能力扩展到中小企业市场。(来源:Anthropic Blog)
xAI:Grok 接入 OpenCode 与 OpenClaw,Hermes Agent 集成
xAI 最新动态显示,Grok 现已支持接入 OpenCode 和 OpenClaw 等开源 AI 编程框架,并可与 Hermes Agent 连接。同时,Grok Build 工具上线,”Skills”功能扩展到 Web、iOS 和 Android 平台,xAI 正在加速构建 Grok 的 Agent 生态。(来源:xAI Blog)