OpenAI 被 Gartner 评为企业编程 Agent 领导者，Cursor Composer 2.5 发布，Devin 支持 Windows

🤖 AI Agent & AI 编程 IDE 更新

OpenAI 被 Gartner 评为企业编程 Agent 领域领导者

OpenAI 于 5 月 22 日宣布被 Gartner 评为企业编程 Agent 领域的领导者。同时，OpenAI 与 Dell Technologies 合作将 Codex 引入混合云和本地企业环境（5 月 18 日），并发布了”从任何地方使用 Codex”（5 月 14 日）和为 Windows 构建安全沙箱的工程分享（5 月 13 日），显示 OpenAI 在 Codex 企业级部署方面的全面加速。OpenAI 的产品线中已出现 GPT-5.5、GPT-5.4、GPT-5.3 Instant 和 GPT-5.3-Codex 等多个最新模型版本。（来源：OpenAI Blog）

Cursor 发布 Composer 2.5：长周期 Agent 任务重大升级

Cursor 团队于 5 月 18 日正式发布 Composer 2.5，官方称其为”在智能和行为上相比 Composer 2 的重大改进，尤其在长周期 Agent 任务方面”。这是继 4 月 Cursor 3 统一工作区发布后的又一重要里程碑。同期，PayPal 分享了使用 Cursor 加速生产代码交付的案例。（来源：Cursor Blog）

Cognition Devin 支持 Windows 虚拟机并引入 Auto-Triage

Cognition 于 5 月 21 日宣布 Devin 现已支持原生 Windows 虚拟机环境，可构建、运行和测试 Windows 应用，将自主 AI 工程能力带到全球最大的开发者生态中。5 月 18 日，Devin 还推出了 Auto-Triage 功能，可自动监控 Bug、告警和事故，发现问题时立即响应、调查并关联相关报告，甚至可直接提交 PR。此外，Devin 此前还已支持 Android 模拟器（5 月 13 日），形成了覆盖 Web、移动和桌面的全平台能力。（来源：Cognition Blog）

xAI 推出 Grok in OpenCode，扩展编程 Agent 生态

xAI 于 5 月 21 日宣布用户可使用 SuperGrok 或 X Premium 订阅在 OpenCode 中使用 Grok 模型进行编码。此前一周，xAI 还发布了 Grok in OpenClaw（5 月 19 日）、Skills 功能支持 Web/iOS/Android（5 月 18 日）、Grok 与 Hermes Agent 的连接能力（5 月 15 日），以及 Grok Build 产品（5 月 14 日），加速推进 Grok 在编程 Agent 领域的生态建设。（来源：xAI Blog）

Anthropic 企业生态加速：收购 Stainless、KPMG 全面部署 Claude

Anthropic 于 5 月 18 日宣布收购 API 基础设施公司 Stainless，加速 Claude API 的企业级部署能力。5 月 19 日，KPMG 宣布在其全球 276,000 名员工中全面集成 Claude。5 月 22 日，Anthropic 发布了 Project Glasswing 的初始更新报告——该项目联合了 AWS、Apple、Broadcom、Cisco、CrowdStrike、Google、JPMorganChase、Linux Foundation、Microsoft、NVIDIA 和 Palo Alto Networks 等行业巨头，致力于保护全球最关键软件的安全。同期，PwC 也在全面部署 Claude（5 月 14 日），Anthropic 与 Gates Foundation 达成 2 亿美元合作（5 月 14 日），并推出 Claude for Small Business 计划（5 月 13 日），企业生态建设全面提速。（来源：Anthropic Blog）

GitHub Trending 今日被 AI Agent 编程项目全面占领。Anthropic 官方推出的 anthropics/claude-plugins-official（27,001 Stars）成为 Claude Code 插件生态中心；multica-ai/andrej-karpathy-skills（150,811 Stars）基于 Karpathy 对 LLM 编码缺陷的观察，提供优化 AI 编程 Agent 行为的 CLAUDE.md 文件；colbymchenry/codegraph（20,886 Stars）为 AI 编程 Agent 提供预索引的代码知识图谱，号称可减少 Token 和工具调用次数；Lum1104/Understand-Anything（23,600 Stars）将任意代码转换为交互式知识图谱，支持 Claude Code、Codex、Cursor、Copilot、Gemini CLI 等多种编程 Agent；earendil-works/pi（53,603 Stars）提供编码 Agent CLI、统一 LLM API、TUI/Web UI 库等全套 Agent 工具包。（来源：GitHub Trending）

Google Antigravity CLI 登顶 Product Hunt

Google Antigravity CLI 昨日在 Product Hunt 以 #2 产品发布，口号是”直接从终端运行编码 Agent”。该工具支持多步推理、多文件编辑、工具调用和持久化历史记录，专为 SSH 会话和键盘优先工作流程优化。今日 Product Hunt 上还有 Edgee Fallback Models（#4），定位为”永不停止的 Claude Code”，通过自动切换备用模型保障编码 Agent 持续运行。（来源：Product Hunt）

Augment Code：Auggie 以更低成本超越 Claude Code

Augment Code 于 5 月 15 日发布报告称，其产品 Auggie 在调用 Claude Opus 4.7 时可比直接使用 Claude Code 降低 33% 的成本，同时保持同等甚至更高质量的编码效果。这是继 5 月初发布 Augment Prism 模型路由功能后的又一重要更新。（来源：Augment Code Blog）

🏢 大模型发布与更新

阿里 Qwen3.7-Max：35 小时自主编码，支持 Claude Code 作为运行框架

VentureBeat 报道，阿里 Qwen 团队发布的 Qwen3.7-Max 模型具备 100 万 Token 上下文窗口和 64K 最大输出，可在隔离服务器上连续自主运行 35 小时完成注意内核优化任务，执行 1,158 次工具调用和 432 次内核评估，实现 10.0 倍几何平均加速。该模型原生支持 Anthropic API 协议，可直接接入 Claude Code 或 OpenClaw 等工具。在 Apex Math Reasoning 基准测试中得分 44.5，超越 Claude Opus-4.6 Max 的 34.5 和 DeepSeek V4-Pro Max 的 38.3。（来源：VentureBeat）

OpenAI 模型成功证伪离散几何中心猜想

OpenAI 于 5 月 20 日宣布，其 AI 模型成功证伪了离散几何领域的一个中心猜想，展示了 AI 在数学研究中的突破性潜力。这是继此前 AI 在数学推理方面取得进展后的又一重要里程碑，也呼应了 arXiv 上今日最新论文”Advancing Mathematics Research with AI-Driven Formal Proof Search”的研究方向。（来源：OpenAI Blog / arXiv）

🛠️ AI 工具产品发布

Google Stitch 3.0 登顶 Product Hunt：#1 AI UI 生成工具

Google 发布的 Stitch 3.0 今日在 Product Hunt 以 #1 产品亮相，该工具允许用户通过 AI 在实时画布上生成和迭代 UI 界面。同一平台上的 ModelHub（#2）提供了 Mac 菜单栏管理本地 LLM 的便捷工具，Freu AI（#3）则主打零运行成本的 Mac 应用自动化。（来源：Product Hunt）

Resolve AI 发布多 Agent 事故调查系统

Resolve AI 宣布推出全新多 Agent 调查系统，不再依赖单一 Agent 诊断生产故障，而是派遣一组专业化 Agent 并行追踪多个假设、相互验证结论、构建从根因到症状的完整因果链。官方称该架构将根因定位准确率提升了 2 倍以上，以应对 AI 编程热潮带来的生产系统稳定性挑战。（来源：VentureBeat）

Kore.ai 发布 Artemis AI Agent 平台，挑战企业 Agent 市场

Kore.ai 于 5 月 21 日发布 Artemis AI Agent 平台，采用专有的中间语言定义 Agent，主张由 AI 而非人类开发者完成大部分繁重工作。在 Microsoft、Salesforce、Google、ServiceNow 等巨头竞相争夺企业 Agent 基础设施的激烈竞争中，Kore.ai 选择中立定位作为差异化优势。（来源：VentureBeat）

0.12% 参数内存模块：为 AI Agent 提供工作记忆

VentureBeat 报道了一项新研究，通过在模型参数中增加仅 0.12%的内存模块，无需改变架构即可让 AI Agent 在长程交互中保持上下文记忆，解决了 RAG 无法覆盖的工作记忆痛点。这对企业 AI Agent 的生产部署具有重要价值。（来源：VentureBeat）

📄 最新 AI 学术论文速览

arXiv 今日亮点：自进化 Agent 系统与新注意力机制

来自 5 月 22 日最新提交的 arXiv AI 论文中涌现多项亮点：MOSS 提出通过源码级重写实现自主 Agent 系统的自我进化，让 Agent 能在运行时持续改进自身能力；Gated DeltaNet-2 提出线性注意力中的擦除与写入解耦新机制，由 NVIDIA 和 UW 团队合作完成；LCGuard 为多 Agent 系统中的安全 KV 共享设计了潜在通信防护机制；Deep Reinforcement Learning for Flexible Job Shop Scheduling 展示了深度强化学习在工业排程问题中的最新进展。（来源：arXiv）

OpenAI 被 Gartner 评为企业编程 Agent 领导者，Cursor Composer 2.5 发布，Devin 支持 Windows — AI 日报 2026-05-24