🤖 AI Agent & AI 编程 IDE 更新

OpenAI 被 Gartner 评为企业编程 Agent 领域领导者

OpenAI 于 5 月 22 日宣布被 Gartner 评为企业编程 Agent 领域的领导者。同时,OpenAI 与 Dell Technologies 合作将 Codex 引入混合云和本地企业环境(5 月 18 日),并发布了”从任何地方使用 Codex”(5 月 14 日)和为 Windows 构建安全沙箱的工程分享(5 月 13 日),显示 OpenAI 在 Codex 企业级部署方面的全面加速。OpenAI 的产品线中已出现 GPT-5.5、GPT-5.4、GPT-5.3 Instant 和 GPT-5.3-Codex 等多个最新模型版本。(来源:OpenAI Blog)

Cursor 发布 Composer 2.5:长周期 Agent 任务重大升级

Cursor 团队于 5 月 18 日正式发布 Composer 2.5,官方称其为”在智能和行为上相比 Composer 2 的重大改进,尤其在长周期 Agent 任务方面”。这是继 4 月 Cursor 3 统一工作区发布后的又一重要里程碑。同期,PayPal 分享了使用 Cursor 加速生产代码交付的案例。(来源:Cursor Blog)

Cognition Devin 支持 Windows 虚拟机并引入 Auto-Triage

Cognition 于 5 月 21 日宣布 Devin 现已支持原生 Windows 虚拟机环境,可构建、运行和测试 Windows 应用,将自主 AI 工程能力带到全球最大的开发者生态中。5 月 18 日,Devin 还推出了 Auto-Triage 功能,可自动监控 Bug、告警和事故,发现问题时立即响应、调查并关联相关报告,甚至可直接提交 PR。此外,Devin 此前还已支持 Android 模拟器(5 月 13 日),形成了覆盖 Web、移动和桌面的全平台能力。(来源:Cognition Blog)

xAI 推出 Grok in OpenCode,扩展编程 Agent 生态

xAI 于 5 月 21 日宣布用户可使用 SuperGrok 或 X Premium 订阅在 OpenCode 中使用 Grok 模型进行编码。此前一周,xAI 还发布了 Grok in OpenClaw(5 月 19 日)、Skills 功能支持 Web/iOS/Android(5 月 18 日)、Grok 与 Hermes Agent 的连接能力(5 月 15 日),以及 Grok Build 产品(5 月 14 日),加速推进 Grok 在编程 Agent 领域的生态建设。(来源:xAI Blog)

Anthropic 企业生态加速:收购 Stainless、KPMG 全面部署 Claude

Anthropic 于 5 月 18 日宣布收购 API 基础设施公司 Stainless,加速 Claude API 的企业级部署能力。5 月 19 日,KPMG 宣布在其全球 276,000 名员工中全面集成 Claude。5 月 22 日,Anthropic 发布了 Project Glasswing 的初始更新报告——该项目联合了 AWS、Apple、Broadcom、Cisco、CrowdStrike、Google、JPMorganChase、Linux Foundation、Microsoft、NVIDIA 和 Palo Alto Networks 等行业巨头,致力于保护全球最关键软件的安全。同期,PwC 也在全面部署 Claude(5 月 14 日),Anthropic 与 Gates Foundation 达成 2 亿美元合作(5 月 14 日),并推出 Claude for Small Business 计划(5 月 13 日),企业生态建设全面提速。(来源:Anthropic Blog)

GitHub Trending:AI Agent 项目全面爆发

GitHub Trending 今日被 AI Agent 编程项目全面占领。Anthropic 官方推出的 anthropics/claude-plugins-official(27,001 Stars)成为 Claude Code 插件生态中心;multica-ai/andrej-karpathy-skills(150,811 Stars)基于 Karpathy 对 LLM 编码缺陷的观察,提供优化 AI 编程 Agent 行为的 CLAUDE.md 文件;colbymchenry/codegraph(20,886 Stars)为 AI 编程 Agent 提供预索引的代码知识图谱,号称可减少 Token 和工具调用次数;Lum1104/Understand-Anything(23,600 Stars)将任意代码转换为交互式知识图谱,支持 Claude Code、Codex、Cursor、Copilot、Gemini CLI 等多种编程 Agent;earendil-works/pi(53,603 Stars)提供编码 Agent CLI、统一 LLM API、TUI/Web UI 库等全套 Agent 工具包。(来源:GitHub Trending)

Google Antigravity CLI 登顶 Product Hunt

Google Antigravity CLI 昨日在 Product Hunt 以 #2 产品发布,口号是”直接从终端运行编码 Agent”。该工具支持多步推理、多文件编辑、工具调用和持久化历史记录,专为 SSH 会话和键盘优先工作流程优化。今日 Product Hunt 上还有 Edgee Fallback Models(#4),定位为”永不停止的 Claude Code”,通过自动切换备用模型保障编码 Agent 持续运行。(来源:Product Hunt)

Augment Code:Auggie 以更低成本超越 Claude Code

Augment Code 于 5 月 15 日发布报告称,其产品 Auggie 在调用 Claude Opus 4.7 时可比直接使用 Claude Code 降低 33% 的成本,同时保持同等甚至更高质量的编码效果。这是继 5 月初发布 Augment Prism 模型路由功能后的又一重要更新。(来源:Augment Code Blog)

🏢 大模型发布与更新

阿里 Qwen3.7-Max:35 小时自主编码,支持 Claude Code 作为运行框架

VentureBeat 报道,阿里 Qwen 团队发布的 Qwen3.7-Max 模型具备 100 万 Token 上下文窗口和 64K 最大输出,可在隔离服务器上连续自主运行 35 小时完成注意内核优化任务,执行 1,158 次工具调用和 432 次内核评估,实现 10.0 倍几何平均加速。该模型原生支持 Anthropic API 协议,可直接接入 Claude Code 或 OpenClaw 等工具。在 Apex Math Reasoning 基准测试中得分 44.5,超越 Claude Opus-4.6 Max 的 34.5 和 DeepSeek V4-Pro Max 的 38.3。(来源:VentureBeat)

OpenAI 模型成功证伪离散几何中心猜想

OpenAI 于 5 月 20 日宣布,其 AI 模型成功证伪了离散几何领域的一个中心猜想,展示了 AI 在数学研究中的突破性潜力。这是继此前 AI 在数学推理方面取得进展后的又一重要里程碑,也呼应了 arXiv 上今日最新论文”Advancing Mathematics Research with AI-Driven Formal Proof Search”的研究方向。(来源:OpenAI Blog / arXiv)

🛠️ AI 工具产品发布

Google Stitch 3.0 登顶 Product Hunt:#1 AI UI 生成工具

Google 发布的 Stitch 3.0 今日在 Product Hunt 以 #1 产品亮相,该工具允许用户通过 AI 在实时画布上生成和迭代 UI 界面。同一平台上的 ModelHub(#2)提供了 Mac 菜单栏管理本地 LLM 的便捷工具,Freu AI(#3)则主打零运行成本的 Mac 应用自动化。(来源:Product Hunt)

Resolve AI 发布多 Agent 事故调查系统

Resolve AI 宣布推出全新多 Agent 调查系统,不再依赖单一 Agent 诊断生产故障,而是派遣一组专业化 Agent 并行追踪多个假设、相互验证结论、构建从根因到症状的完整因果链。官方称该架构将根因定位准确率提升了 2 倍以上,以应对 AI 编程热潮带来的生产系统稳定性挑战。(来源:VentureBeat)

Kore.ai 发布 Artemis AI Agent 平台,挑战企业 Agent 市场

Kore.ai 于 5 月 21 日发布 Artemis AI Agent 平台,采用专有的中间语言定义 Agent,主张由 AI 而非人类开发者完成大部分繁重工作。在 Microsoft、Salesforce、Google、ServiceNow 等巨头竞相争夺企业 Agent 基础设施的激烈竞争中,Kore.ai 选择中立定位作为差异化优势。(来源:VentureBeat)

0.12% 参数内存模块:为 AI Agent 提供工作记忆

VentureBeat 报道了一项新研究,通过在模型参数中增加仅 0.12%的内存模块,无需改变架构即可让 AI Agent 在长程交互中保持上下文记忆,解决了 RAG 无法覆盖的工作记忆痛点。这对企业 AI Agent 的生产部署具有重要价值。(来源:VentureBeat)

📄 最新 AI 学术论文速览

arXiv 今日亮点:自进化 Agent 系统与新注意力机制

来自 5 月 22 日最新提交的 arXiv AI 论文中涌现多项亮点:MOSS 提出通过源码级重写实现自主 Agent 系统的自我进化,让 Agent 能在运行时持续改进自身能力;Gated DeltaNet-2 提出线性注意力中的擦除与写入解耦新机制,由 NVIDIA 和 UW 团队合作完成;LCGuard 为多 Agent 系统中的安全 KV 共享设计了潜在通信防护机制;Deep Reinforcement Learning for Flexible Job Shop Scheduling 展示了深度强化学习在工业排程问题中的最新进展。(来源:arXiv)