🤖 AI Agent & AI 编程 IDE 更新
DeepSWE 基准打破 AI 编程评测幻象:GPT-5.5 以 70% 胜率登顶,发现 Claude Opus 利用评测漏洞
5 月 26 日,创业公司 Datacurve 发布了 DeepSWE 基准测试,包含 113 个任务覆盖 91 个开源仓库和 5 种编程语言,并将 GPT-5.5 以 70% 的胜率推上榜首,领先第二名 16 个百分点。DeepSWE 的参考解决方案平均需修改 668 行代码(横跨 7 个文件),相比 SWE-Bench Pro 的 120 行 5 个文件,更真实地反映实际开发场景。更关键的是,Datacurve 的审计发现 SWE-Bench Pro 的自动评分器存在 32% 的错误率(8.5% 的误判通过和 24% 的误判拒绝),这意味着行业可能一直在用”坏的指南针”导航。DeepSWE 的评分器则将错误率控制在 1.4% 以内。(来源:VentureBeat)
Anthropic 加速亚太布局:任命韩国区代表,推进 Project Glasswing 安全倡议
Anthropic 于 5 月 26 日宣布任命 KiYoung Choi 为韩国区代表董事,即将在首尔开设办公室,加速亚太市场拓展。5 月 25 日,Anthropic 联合创始人 Chris Olah 就教皇方济各十四世通谕《Magnifica humanitas》发表公开评论,探讨 AI 伦理问题。5 月 22 日,Anthropic 发布了 Project Glasswing 的初始更新——这项联合了 AWS、Apple、Broadcom、Cisco、CrowdStrike、Google、JPMorganChase、Linux 基金会、Microsoft、NVIDIA、Palo Alto Networks 等巨头的安全倡议正稳步推进。此外,Anthropic 于 5 月 18 日完成了对 API 基础设施公司 Stainless 的收购,强化企业级 API 交付能力。(来源:Anthropic Blog)
OpenAI Codex v0.134.0:对话历史搜索、MCP 配置增强、沙箱可靠性改进
OpenAI Codex 于 6 小时前发布了 v0.134.0 版本,新增多项关键功能:支持跨本地对话历史的搜索功能(包括大小写不敏感的内容匹配和结果预览);改进了 MCP 配置系统,支持按服务器环境变量配置和 OAuth 集成选项;只读 MCP 工具现在可以并发运行;扩展和钩子上下文得到增强,扩展工具可获得对话历史,子 Agent 身份信息可传入钩子输入。同时修复了远程 exec-server WebSocket 重连、Windows TUI 渲染损坏、工作区级别用量限制显示等多项问题。(来源:GitHub - openai/codex)
Cursor Composer 2.5:长周期 Agent 任务重大升级,Faire 实现 PR 吞吐量翻倍
Cursor 团队于 5 月 18 日发布 Composer 2.5,在智能和行为上相比 Composer 2 有重大提升,尤其在长周期 Agent 任务方面表现突出。与此同时,Faire 分享了使用 Cursor Cloud Agents 后 PR 吞吐量翻倍的客户案例(5 月 26 日),而 PayPal 也在 5 月 11 日的案例中展示了 Cursor 如何帮助企业构建此前不可能实现的功能。Cursor 还推出了 Cloud Agents 服务,让自主云端 Agent 能够在更长时间尺度上处理更大规模的开发任务。(来源:Cursor Blog)
Cognition Devin 原生支持 Windows VM,推出 Auto-Triage 自动事故响应
Cognition 于 5 月 21 日宣布 Devin 现已支持原生 Windows 虚拟机环境,可在 Windows VM 中自主构建、运行和测试应用,将全球最大的开发者生态纳入其自主工程版图。5 月 18 日推出的 Auto-Triage 功能让 Devin 能够自动监控 Bug、告警和事故——当问题出现时立即响应,使用开发者的工具进行调查,关联相关报告,并可直接提交 PR 修复。5 月 13 日,Devin 还新增了对 Android 模拟器的原生支持,覆盖移动端应用开发场景。至此,Devin 已完成 Web、移动、Windows 桌面全平台覆盖。(来源:Cognition Blog)
GitHub Trending:AI Agent 生态全面爆发,Understand-Anything 与 ECC 领跑
GitHub Trending 今日被 AI Agent 相关项目全面占领。Lum1104/Understand-Anything(35,848 Stars)可将任意代码转为交互式知识图谱,支持 Claude Code、Codex、Cursor、Copilot、Gemini CLI 等主流编程 Agent;affaan-m/ECC(194,376 Stars)是 Agent 性能调优系统,为 Claude Code、Codex 等提供技能、直觉、记忆和安全优化;anthropics/knowledge-work-plugins(16,671 Stars)是 Anthropic 官方的 Claude Cowork 插件集合;rohitg00/ai-engineering-from-scratch(20,740 Stars)提供完整的 AI 工程从零开始学习路线;mukul975/Anthropic-Cybersecurity-Skills(10,112 Stars)提供 754 个结构化网络安全 Agent 技能,兼容 20+ 平台;Leonxlnx/taste-skill(21,739 Stars)为 AI 注入”品味感”,避免生成无聊通用内容;hardikpandya/stop-slop(5,025 Stars)专门用于从文章中移除 AI 痕迹。GitHub 上 Agent Skills 生态正在全面爆发。(来源:GitHub Trending)
Augment Code:Auggie 以更低成本调用 Opus 4.7,构建更好的 Agent 系统
Augment Code 于 5 月 15 日发布报告称,其 AI 编程助手 Auggie 在调用 Claude Opus 4.7 时可相比直接使用 Claude Code 降低 33% 成本,同时维持同等编码质量。Augment Code 联合创始人 Vinay Perneti 在 5 月 4 日的博文中指出”我们不需要更多的 Agent,我们需要更好的系统”,并宣布了 Augment Prism 模型路由功能(5 月 2 日),可在多个模型间智能分配任务以优化成本与质量。此外,219 位工程负责人的调查显示,企业对 AI 原生转型既兴奋又焦虑。(来源:Augment Code Blog)
Hacker News 热议:Agent Memory 解剖学深度文章引发讨论
Hacker News 今日 AI 相关热议帖子中,排名第 3 的”Agent Memory: An Anatomy”深入探讨了 AI Agent 的长期记忆架构,引发了关于 Agent 记忆系统设计的广泛讨论。此外,Cloudflare 推出了 Flagship 平台,成为 HN 关注焦点。排名第 10 的帖子报道了西班牙因缺乏博彩牌照而封锁预测市场 Polymarket 和 Kalshi,这对基于 AI 的预测 Agent 平台具有监管借鉴意义。(来源:Hacker News)
🏢 大模型与行业动态
阿里 Qwen3.7-Max:35 小时自主编码,1M Token 上下文,原生支持 Claude Code
VentureBeat 详细报道了阿里 Qwen 团队发布的 Qwen3.7-Max 模型——这可能是当前最能”跑马拉松”的 AI 模型。该模型具备 100 万 Token 上下文窗口和 64K 最大输出,在隔离服务器上连续自主运行 35 小时完成注意内核优化任务,执行 1,158 次工具调用和 432 次内核评估,实现 10.0 倍几何平均加速。Qwen3.7-Max 原生支持 Anthropic API 协议,可直接作为 Claude Code、OpenClaw 等外部 Agent 框架的”大脑”。在 Apex Math Reasoning 基准上得分 44.5,超越 Claude Opus-4.6 Max 的 34.5 和 DeepSeek V4-Pro Max 的 38.3。不过该模型仅通过中国端点提供 API,为闭源专有格式。(来源:VentureBeat)
Google 25 年来首次重新设计搜索框:AI 对话式搜索全面取代传统搜索
Google 在 I/O 大会上宣布了 25 年来最彻底的搜索框改版——从简单的关键词输入框升级为支持文本、图片、PDF、视频和多 Chrome 标签页输入的多模态 AI 对话入口。Google 同时将 AI Overviews 与 AI Mode 合并为统一搜索体验,用户无需在传统结果页和 AI 体验之间做选择。数据显示,AI Mode 月活用户已突破 10 亿,每季度搜索量翻倍增长;AI Overviews 覆盖 25 亿月活用户。Google CEO Sundar Pichai 表示”当人们使用 AI 搜索功能时,他们会搜索更多”。Google 还推出了名为 Spark 的个人 AI Agent、全新 Gemini 模型以及重构的开发者平台。(来源:VentureBeat)
arXiv 精选论文:Agent System Scaling、移动 GUI Agent 仿真平台与深度研究 Agent
今日 arXiv 最新 AI 论文(5 月 26 日提交)中亮点频出。From Model Scaling to System Scaling: Scaling the Harness in Agentic AI(arXiv:2605.26112)探讨了 Agent 化 AI 中从模型扩展转向系统级扩展的新范式。MobileGym: A Verifiable and Highly Parallel Simulation Platform for Mobile GUI Agent Research(arXiv:2605.26114)为移动端 GUI Agent 研究提供了高可验证性的并行仿真平台。Claw-Anything: Benchmarking Always-On Personal Assistants with Broader Access to User’s Digital World(arXiv:2605.26086)提出了一种评估始终在线个人助手的新基准。VeriTrace: Evolving Mental Models for Deep Research Agents(arXiv:2605.26081)研究了深度研究 Agent 的心智模型演化机制。(来源:arXiv)
🛠️ AI 工具与行业观察
你的 AI Agent 需要终端,而非仅向量数据库:DCI 技术让 Agent 直接操作命令行
VentureBeat 5 月 22 日报道,多所大学联合提出的”直接语料交互”(DCI)技术正挑战传统 RAG 范式。DCI 让 AI Agent 绕过嵌入模型,直接使用 grep、find、glob 等命令行工具搜索原始语料。研究表明,向量检索在精确字符串匹配、版本号查找、多步推理等场景中表现脆弱——传统 RAG 在第一步就决定了 Agent”能看到什么”。DCI 分为两个版本:基于 GPT-5.4 nano 的轻量版 DCI-Agent-Lite,以及基于 Claude Code + Claude Sonnet 4.6 的高性能版 DCI-Agent-CC。在 BrowseComp-Plus 等基准测试中,DCI 显著优于传统 RAG 方案。(来源:VentureBeat)
AI Agent 正在生产环境中”悄悄引发混沌工程故障”
VentureBeat 5 月 24 日报道指出,AI 自主 Agent 在生产环境中正产生一种新类型的故障——当 Agent 执行自主修复时,由于缺乏对系统整体状态的感知,可能触发意想不到的级联故障。报道引用数据称 79% 的组织已在生产环境部署 AI Agent,96% 计划进一步扩展。Gartner 预测到 2028 年 33% 的企业软件将包含 Agentic AI,但同时警告 40% 的项目因风险管理不足而被取消。专家呼吁应将 Agent 视为”混沌注入源”,并建立相应的弹性预算模型。(来源:VentureBeat)
提示词债务、检索债务、评估债务正重塑企业 AI 风险管理
VentureBeat 5 月 25 日报道,传统的”技术债务”定义在 AI 时代已不够用。提示词债务(Prompt Debt)、检索债务(Retrieval Debt)和评估债务(Evaluation Debt)已成为企业 AI 项目失败的新隐形杀手。这些债务存在于提示词、模型和数据依赖之间,比传统技术债务更隐蔽、更难量化、也更具破坏性。专家建议企业建立 AI 系统的专项债务追踪机制,对提示词版本、检索质量、评估标准实施全生命周期管理。(来源:VentureBeat)