Qwen3.7-Max 35小时自主执行、Cursor Composer 2.5发布、Devin支持Windows原生运行

AI Agent 与 AI 编程 IDE 更新

Cursor 发布 Composer 2.5：长周期 Agent 任务能力显著提升

5月18日，Cursor 正式发布 Composer 2.5，这是对 Composer 2 的重大升级。新版本在智能和行为方面有实质性提升，特别是在长周期（long-horizon）Agent 任务上表现尤为突出。Cursor 正逐步从 AI 辅助编程工具演变为统一的 Agent 协作工作空间，此前发布的 Cursor 3 已经将 Agent 作为核心交互范式。PayPal、National Australia Bank 等大型企业已在生产环境中深度使用 Cursor。（来源：Cursor Blog）

Devin 获得 Windows PC：原生支持 Windows 虚拟机开发

5月21日，Cognition 宣布 Devin 现在可以在 Windows 虚拟机中原生构建、运行和测试软件，将自主 AI 工程能力带入了全球最成熟的开发者生态系统。同一天，Cognition 还发布了 SWE-Safety 基准测试来评估 Agent 安全行为。此前在5月18日，Devin 还推出了 Auto-Triage 功能，可以自动监控 Bug、告警和事件，当出现问题时立即响应调查，并可直接打开 PR 修复。（来源：Cognition Blog）

Anthropic 收购 Stainless：强化 API 基础设施

5月18日，Anthropic 宣布收购 API 基础设施公司 Stainless。Stainless 专注于提供高质量的 API SDK 生成和开发者体验工具，此次收购将帮助 Anthropic 为 Claude API 和 Claude Code 提供更好的开发者工具链。同周，Anthropic 还宣布 KPMG 将在其超过276,000名员工的业务中全面集成 Claude，并与盖茨基金会建立2亿美元合作伙伴关系。（来源：Anthropic Blog）

Augment Code：Auggie 以 33% 更低成本超越 Claude Code

5月15日，Augment Code 发布博客称其 AI 编程助手 Auggie 在 Claude Opus 4.7 基础上实现了比 Claude Code 更低的成本和更优的质量——成本降低33%的同时保持了高质量的代码生成。Augment 还发布了模型路由功能 Augment Prism，可在不同模型间智能切换以平衡成本和质量。（来源：Augment Code Blog）

GitHub Copilot：Agent 驱动开发成为工程新范式

GitHub Engineering Blog 最新专题文章深入探讨了 “Agent-driven development in Copilot Applied Science”，展示了 Copilot 如何从简单的代码补全演变为 Agent 驱动的开发模式。与此同时，dotnet/skills 仓库在 GitHub 上迅速走红，旨在为 AI 编程 Agent 提供 .NET 和 C# 的技能支持。（来源：GitHub Blog / GitHub Trending）

开源生态：Claude Code 插件目录与代码知识图谱工具爆发

GitHub Trending 今日多个 AI Agent 相关项目表现抢眼：Anthropic 官方推出的 claude-plugins-official 仓库（23,680 Stars）成为 Claude Code 插件官方目录；colbymchenry/codegraph（15,504 Stars）提供了预索引的代码知识图谱，可同时用于 Claude Code、Codex、Cursor 等工具，号称”更少的 token、更少的工具调用、100%本地运行”；Chrome DevTools 团队发布的 chrome-devtools-mcp（40,754 Stars）为编码 Agent 提供了浏览器调试能力。（来源：GitHub Trending）

大模型发布与更新

阿里巴巴 Qwen3.7-Max：连续自主执行 35 小时，支持 Claude Code 协议

5月21日，阿里巴巴 Qwen 团队发布 Qwen3.7-Max，这是一款专为”马拉松式”自主 Agent 任务设计的模型。在演示中，该模型在一台从未见过的 T-Head ZW-M890 PPU 硬件上连续自主运行 35 小时，执行了 1,158 次工具调用、432 次内核评估，最终实现了 10.0 倍的几何平均加速。模型拥有 100 万 token 上下文窗口和 64K 最大输出限制，原生支持 Anthropic API 协议，可直接接入 Claude Code 或 OpenClaw 等工具。在 Apex Math Reasoning 基准测试中，Qwen3.7-Max 以 44.5 分超越 Claude Opus-4.6 Max（34.5 分）和 DeepSeek V4-Pro Max（38.3 分）。（来源：VentureBeat / Qwen Team）

OpenAI 模型首次证明离散几何中的中心猜想

5月20日，OpenAI 宣布其研究模型成功反驳了离散几何领域的一个中心猜想，这是 AI 模型在数学研究中取得的重大突破。同时，OpenAI 还在推进内容溯源技术，旨在构建更安全、更透明的 AI 生态系统。（来源：OpenAI Blog）

OpenAI 与 Dell 合作：Codex 进入混合云和企业本地环境

5月18日，OpenAI 宣布与 Dell Technologies 合作，将 Codex 引入混合云和企业本地环境。这意味着企业可以在自己的基础设施上部署 Codex 编程 Agent，满足数据主权和合规需求。此前，OpenAI 还发布了关于在 Windows 上构建 Codex 安全沙箱的工程详解。（来源：OpenAI Blog）

AI 工具产品发布

Kore.ai 发布 Artemis AI Agent 平台，挑战 Salesforce 和 ServiceNow

5月21日，Kore.ai 正式推出 Artemis AI Agent 平台，旨在成为企业 AI Agent 的默认基础设施。该平台采用专有的中间语言来定义 Agent，并主张 AI（而非人类开发者）应承担大部分开发工作。在微软、Salesforce、Google 和 ServiceNow 纷纷争夺企业 Agent 市场的背景下，Kore.ai 的差异化策略是中立性和自动化优先。（来源：VentureBeat）

Resolve AI：多 Agent 协作系统解决生产环境故障

5月21日，Resolve AI 发布了一套新的多 Agent 调查系统。与传统的单 Agent 诊断不同，该平台会派遣一组专门的 Agent 并行追查多个假设，互相验证结论，构建从根因到症状的完整因果链。据称，其内部评估中根因定位准确率提升了两倍以上。（来源：VentureBeat）

Product Hunt 今日亮点：TestSprite 3.0、ElevenAgents、buildpipe

今日 Product Hunt 上涌现了多个 AI 工具：TestSprite 3.0 利用并行 Agent 舰队在数分钟内完成应用测试；ElevenLabs 推出 ElevenAgents，用 AI 语音 Agent 规模化处理客户对话；buildpipe 支持编排多步骤 AI 开发者工作流；Shuffle Design CLI 则是一款多模型 AI 命令行工具，用于快速构建和 redesign 网站。（来源：Product Hunt）

AI Agent 工作记忆突破：仅增加 0.12% 参数即可实现长效记忆

5月21日，一项新研究发布了一种名为 Memoria 的内存模块，仅增加模型 0.12% 的参数即可让 AI Agent 获得类似工作记忆的能力，无需改变模型架构即可在长交互中保持上下文。同日有分析指出，企业 AI Agent 难以走出试点阶段的核心原因正是”遗忘”——Agent 在执行过程中丢失了之前学到的信息。（来源：VentureBeat / arXiv）

Google 25 年来首次重新设计搜索框

5月19日，Google 正式宣布对搜索框进行 25 年来最大幅度的 redesign。这一变化标志着从传统的”蓝色链接”范式向 AI 驱动的搜索体验转型，搜索结果将不再仅仅是链接列表，而是由 AI 综合生成的回答与结构化信息。（来源：VentureBeat）

AI 行业重要新闻

企业级 AI Agent 加速落地：KPMG、PwC 全面部署 Claude

Anthropic 本周宣布了两项重大的企业合作：KPMG 将在全球超过 276,000 名员工中全面集成 Claude，涵盖核心业务运营；PwC 则正在部署 Claude 用于技术构建、交易执行和企业功能重构。此外，Anthropic 还推出了 Claude for Small Business，将 AI 能力扩展到中小企业市场。（来源：Anthropic Blog）

xAI：Grok 接入 OpenCode 与 OpenClaw，Hermes Agent 集成

xAI 最新动态显示，Grok 现已支持接入 OpenCode 和 OpenClaw 等开源 AI 编程框架，并可与 Hermes Agent 连接。同时，Grok Build 工具上线，”Skills”功能扩展到 Web、iOS 和 Android 平台，xAI 正在加速构建 Grok 的 Agent 生态。（来源：xAI Blog）