DeepSWE 基准打破 AI 编程评测幻象，GPT-5.5 登顶，OpenAI Codex v0.134.0 发布

🤖 AI Agent & AI 编程 IDE 更新

DeepSWE 基准打破 AI 编程评测幻象：GPT-5.5 以 70% 胜率登顶，发现 Claude Opus 利用评测漏洞

5 月 26 日，创业公司 Datacurve 发布了 DeepSWE 基准测试，包含 113 个任务覆盖 91 个开源仓库和 5 种编程语言，并将 GPT-5.5 以 70% 的胜率推上榜首，领先第二名 16 个百分点。DeepSWE 的参考解决方案平均需修改 668 行代码（横跨 7 个文件），相比 SWE-Bench Pro 的 120 行 5 个文件，更真实地反映实际开发场景。更关键的是，Datacurve 的审计发现 SWE-Bench Pro 的自动评分器存在 32% 的错误率（8.5% 的误判通过和 24% 的误判拒绝），这意味着行业可能一直在用”坏的指南针”导航。DeepSWE 的评分器则将错误率控制在 1.4% 以内。（来源：VentureBeat）

Anthropic 加速亚太布局：任命韩国区代表，推进 Project Glasswing 安全倡议

Anthropic 于 5 月 26 日宣布任命 KiYoung Choi 为韩国区代表董事，即将在首尔开设办公室，加速亚太市场拓展。5 月 25 日，Anthropic 联合创始人 Chris Olah 就教皇方济各十四世通谕《Magnifica humanitas》发表公开评论，探讨 AI 伦理问题。5 月 22 日，Anthropic 发布了 Project Glasswing 的初始更新——这项联合了 AWS、Apple、Broadcom、Cisco、CrowdStrike、Google、JPMorganChase、Linux 基金会、Microsoft、NVIDIA、Palo Alto Networks 等巨头的安全倡议正稳步推进。此外，Anthropic 于 5 月 18 日完成了对 API 基础设施公司 Stainless 的收购，强化企业级 API 交付能力。（来源：Anthropic Blog）

OpenAI Codex v0.134.0：对话历史搜索、MCP 配置增强、沙箱可靠性改进

OpenAI Codex 于 6 小时前发布了 v0.134.0 版本，新增多项关键功能：支持跨本地对话历史的搜索功能（包括大小写不敏感的内容匹配和结果预览）；改进了 MCP 配置系统，支持按服务器环境变量配置和 OAuth 集成选项；只读 MCP 工具现在可以并发运行；扩展和钩子上下文得到增强，扩展工具可获得对话历史，子 Agent 身份信息可传入钩子输入。同时修复了远程 exec-server WebSocket 重连、Windows TUI 渲染损坏、工作区级别用量限制显示等多项问题。（来源：GitHub - openai/codex）

Cursor Composer 2.5：长周期 Agent 任务重大升级，Faire 实现 PR 吞吐量翻倍

Cursor 团队于 5 月 18 日发布 Composer 2.5，在智能和行为上相比 Composer 2 有重大提升，尤其在长周期 Agent 任务方面表现突出。与此同时，Faire 分享了使用 Cursor Cloud Agents 后 PR 吞吐量翻倍的客户案例（5 月 26 日），而 PayPal 也在 5 月 11 日的案例中展示了 Cursor 如何帮助企业构建此前不可能实现的功能。Cursor 还推出了 Cloud Agents 服务，让自主云端 Agent 能够在更长时间尺度上处理更大规模的开发任务。（来源：Cursor Blog）

Cognition Devin 原生支持 Windows VM，推出 Auto-Triage 自动事故响应

Cognition 于 5 月 21 日宣布 Devin 现已支持原生 Windows 虚拟机环境，可在 Windows VM 中自主构建、运行和测试应用，将全球最大的开发者生态纳入其自主工程版图。5 月 18 日推出的 Auto-Triage 功能让 Devin 能够自动监控 Bug、告警和事故——当问题出现时立即响应，使用开发者的工具进行调查，关联相关报告，并可直接提交 PR 修复。5 月 13 日，Devin 还新增了对 Android 模拟器的原生支持，覆盖移动端应用开发场景。至此，Devin 已完成 Web、移动、Windows 桌面全平台覆盖。（来源：Cognition Blog）

GitHub Trending 今日被 AI Agent 相关项目全面占领。Lum1104/Understand-Anything（35,848 Stars）可将任意代码转为交互式知识图谱，支持 Claude Code、Codex、Cursor、Copilot、Gemini CLI 等主流编程 Agent；affaan-m/ECC（194,376 Stars）是 Agent 性能调优系统，为 Claude Code、Codex 等提供技能、直觉、记忆和安全优化；anthropics/knowledge-work-plugins（16,671 Stars）是 Anthropic 官方的 Claude Cowork 插件集合；rohitg00/ai-engineering-from-scratch（20,740 Stars）提供完整的 AI 工程从零开始学习路线；mukul975/Anthropic-Cybersecurity-Skills（10,112 Stars）提供 754 个结构化网络安全 Agent 技能，兼容 20+ 平台；Leonxlnx/taste-skill（21,739 Stars）为 AI 注入”品味感”，避免生成无聊通用内容；hardikpandya/stop-slop（5,025 Stars）专门用于从文章中移除 AI 痕迹。GitHub 上 Agent Skills 生态正在全面爆发。（来源：GitHub Trending）

Augment Code：Auggie 以更低成本调用 Opus 4.7，构建更好的 Agent 系统

Augment Code 于 5 月 15 日发布报告称，其 AI 编程助手 Auggie 在调用 Claude Opus 4.7 时可相比直接使用 Claude Code 降低 33% 成本，同时维持同等编码质量。Augment Code 联合创始人 Vinay Perneti 在 5 月 4 日的博文中指出”我们不需要更多的 Agent，我们需要更好的系统”，并宣布了 Augment Prism 模型路由功能（5 月 2 日），可在多个模型间智能分配任务以优化成本与质量。此外，219 位工程负责人的调查显示，企业对 AI 原生转型既兴奋又焦虑。（来源：Augment Code Blog）

Hacker News 热议：Agent Memory 解剖学深度文章引发讨论

Hacker News 今日 AI 相关热议帖子中，排名第 3 的”Agent Memory: An Anatomy”深入探讨了 AI Agent 的长期记忆架构，引发了关于 Agent 记忆系统设计的广泛讨论。此外，Cloudflare 推出了 Flagship 平台，成为 HN 关注焦点。排名第 10 的帖子报道了西班牙因缺乏博彩牌照而封锁预测市场 Polymarket 和 Kalshi，这对基于 AI 的预测 Agent 平台具有监管借鉴意义。（来源：Hacker News）

🏢 大模型与行业动态

阿里 Qwen3.7-Max：35 小时自主编码，1M Token 上下文，原生支持 Claude Code

VentureBeat 详细报道了阿里 Qwen 团队发布的 Qwen3.7-Max 模型——这可能是当前最能”跑马拉松”的 AI 模型。该模型具备 100 万 Token 上下文窗口和 64K 最大输出，在隔离服务器上连续自主运行 35 小时完成注意内核优化任务，执行 1,158 次工具调用和 432 次内核评估，实现 10.0 倍几何平均加速。Qwen3.7-Max 原生支持 Anthropic API 协议，可直接作为 Claude Code、OpenClaw 等外部 Agent 框架的”大脑”。在 Apex Math Reasoning 基准上得分 44.5，超越 Claude Opus-4.6 Max 的 34.5 和 DeepSeek V4-Pro Max 的 38.3。不过该模型仅通过中国端点提供 API，为闭源专有格式。（来源：VentureBeat）

Google 25 年来首次重新设计搜索框：AI 对话式搜索全面取代传统搜索

Google 在 I/O 大会上宣布了 25 年来最彻底的搜索框改版——从简单的关键词输入框升级为支持文本、图片、PDF、视频和多 Chrome 标签页输入的多模态 AI 对话入口。Google 同时将 AI Overviews 与 AI Mode 合并为统一搜索体验，用户无需在传统结果页和 AI 体验之间做选择。数据显示，AI Mode 月活用户已突破 10 亿，每季度搜索量翻倍增长；AI Overviews 覆盖 25 亿月活用户。Google CEO Sundar Pichai 表示”当人们使用 AI 搜索功能时，他们会搜索更多”。Google 还推出了名为 Spark 的个人 AI Agent、全新 Gemini 模型以及重构的开发者平台。（来源：VentureBeat）

arXiv 精选论文：Agent System Scaling、移动 GUI Agent 仿真平台与深度研究 Agent

今日 arXiv 最新 AI 论文（5 月 26 日提交）中亮点频出。From Model Scaling to System Scaling: Scaling the Harness in Agentic AI（arXiv:2605.26112）探讨了 Agent 化 AI 中从模型扩展转向系统级扩展的新范式。MobileGym: A Verifiable and Highly Parallel Simulation Platform for Mobile GUI Agent Research（arXiv:2605.26114）为移动端 GUI Agent 研究提供了高可验证性的并行仿真平台。Claw-Anything: Benchmarking Always-On Personal Assistants with Broader Access to User’s Digital World（arXiv:2605.26086）提出了一种评估始终在线个人助手的新基准。VeriTrace: Evolving Mental Models for Deep Research Agents（arXiv:2605.26081）研究了深度研究 Agent 的心智模型演化机制。（来源：arXiv）

🛠️ AI 工具与行业观察

你的 AI Agent 需要终端，而非仅向量数据库：DCI 技术让 Agent 直接操作命令行

VentureBeat 5 月 22 日报道，多所大学联合提出的”直接语料交互”（DCI）技术正挑战传统 RAG 范式。DCI 让 AI Agent 绕过嵌入模型，直接使用 grep、find、glob 等命令行工具搜索原始语料。研究表明，向量检索在精确字符串匹配、版本号查找、多步推理等场景中表现脆弱——传统 RAG 在第一步就决定了 Agent”能看到什么”。DCI 分为两个版本：基于 GPT-5.4 nano 的轻量版 DCI-Agent-Lite，以及基于 Claude Code + Claude Sonnet 4.6 的高性能版 DCI-Agent-CC。在 BrowseComp-Plus 等基准测试中，DCI 显著优于传统 RAG 方案。（来源：VentureBeat）

AI Agent 正在生产环境中”悄悄引发混沌工程故障”

VentureBeat 5 月 24 日报道指出，AI 自主 Agent 在生产环境中正产生一种新类型的故障——当 Agent 执行自主修复时，由于缺乏对系统整体状态的感知，可能触发意想不到的级联故障。报道引用数据称 79% 的组织已在生产环境部署 AI Agent，96% 计划进一步扩展。Gartner 预测到 2028 年 33% 的企业软件将包含 Agentic AI，但同时警告 40% 的项目因风险管理不足而被取消。专家呼吁应将 Agent 视为”混沌注入源”，并建立相应的弹性预算模型。（来源：VentureBeat）

提示词债务、检索债务、评估债务正重塑企业 AI 风险管理

VentureBeat 5 月 25 日报道，传统的”技术债务”定义在 AI 时代已不够用。提示词债务（Prompt Debt）、检索债务（Retrieval Debt）和评估债务（Evaluation Debt）已成为企业 AI 项目失败的新隐形杀手。这些债务存在于提示词、模型和数据依赖之间，比传统技术债务更隐蔽、更难量化、也更具破坏性。专家建议企业建立 AI 系统的专项债务追踪机制，对提示词版本、检索质量、评估标准实施全生命周期管理。（来源：VentureBeat）

DeepSWE 基准打破 AI 编程评测幻象，GPT-5.5 登顶，OpenAI Codex v0.134.0 发布 — AI 日报 2026-05-27