🤖 AI Agent & AI 编程 IDE 更新

Cognition 获超 10 亿美元融资,估值 260 亿,加速 Devin 全球扩张

5 月 27 日,AI 编程 Agent 独角兽 Cognition 宣布完成新一轮超 10 亿美元融资,估值跃升至 260 亿美元,由 Lux Capital、General Catalyst 和 8VC 联合领投。Cognition 同时在博客中宣布”More Devins in More Places”战略,加速 Devin 在全球企业中的落地部署。此前不久,Devin 已相继推出原生 Windows VM 支持(5 月 21 日)和 Auto-Triage 自动事故响应功能(5 月 18 日),实现了 Web、移动端、Windows 桌面全平台覆盖。Devin 现在可以自主构建、运行和测试 Windows 应用,同时在事故发生时自动监控、调查并提交修复 PR。(来源:Cognition Blog)

OpenAI Codex 发布 Python SDK 公测版,独立 SDK 让 Agent 开发更灵活

OpenAI 于数小时前在 Codex 仓库中提交了重大更新——发布 Python SDK 独立公测版(PR #24828)。这是一个独立发布的 Python SDK,使开发者可以在 Python 环境中直接集成和调用 Codex 的 Agent 能力,无需依赖 CLI 或完整 IDE 环境。这标志着 Codex 从单一的终端 Agent 向更灵活的平台化方向演进,第三方开发者和企业可以基于该 SDK 构建自己的 AI 编程工作流。同日,Codex 仓库还移除了冗余的 SQLite 动态工具存储(PR #24819),进一步优化了底层架构。(来源:GitHub - openai/codex)

Simon Willison:Anthropic 与 OpenAI 已真正找到产品-市场契合点——编程 Agent 是核心驱动力

知名开发者 Simon Willison 在 HN 热帖中分析称,Anthropic 和 OpenAI 已经通过编程 Agent 产品找到了真正的产品-市场契合点(PMF)。他指出,两家公司近期将企业计划定价调整为按 API Token 用量计费(而非之前的包月折扣价),GPT-5.5 定价为 GPT-5.4 的 2 倍,Opus 4.7 定价约为 Opus 4.6 的 1.4 倍。个人用户方面,他测算自己每月消耗约 2,180 美元的 Token,而只需支付 200 美元订阅费——企业级的定价调整意味着这些公司终于开始产生真正的收入。Anthropic 据传即将实现首个盈利季度。帖子引发了 765 条评论,成为 HN 今日最热门 AI 话题之一。(来源:Hacker News / simonwillison.net)

MiniMax 预告 M3 系列:全新稀疏注意力机制,百万 Token 上下文速度提升 15.6 倍

中国 AI 公司 MiniMax 发布 M2 系列深度技术报告,同时预告了即将推出的 M3 系列模型。M3 将采用全新的自定义次二次(sub-quadratic)架构稀疏注意力机制,在百万 Token 超长上下文场景下实现最高 15.6 倍的解码速度提升,使超长上下文 AI Agent 的经济可行性大幅改善。M2 系列拥有 2,299 亿总参数(激活仅 98 亿),采用稀疏 MoE 架构。M3 的核心创新是突破了此前次二次注意力在长上下文推理中的性能瓶颈——M2 团队曾测试线性注意力和滑动窗口注意力,发现这些方案在 32K 以上上下文时推理严重退化(RULER 128K 评测从 90.0 降至 72.0),而 M3 的新架构有望解决这一问题。(来源:VentureBeat)

Cursor Cloud Agents 客户案例:Faire 实现 PR 吞吐量翻倍

5 月 26 日,电商平台 Faire 分享了使用 Cursor Cloud Agents 的生产实践——PR 吞吐量实现了翻倍增长。此前 Cursor 于 5 月 18 日发布了 Composer 2.5,在长周期 Agent 任务智能上大幅提升。Cloud Agents 作为云端自主开发 Agent,可以在开发者离线时持续处理大规模开发任务。同期的客户案例还包括 PayPal(5 月 11 日)和 National Australia Bank(4 月 23 日),展示了 Cursor 从 AI 辅助 IDE 向企业级 Agent 平台的快速进化。(来源:Cursor Blog)

Alibaba Qwen3.7-Max:连续自主运行 35 小时,原生支持 Claude Code 框架

VentureBeat 深度报道了阿里 Qwen 团队发布的 Qwen3.7-Max 模型。该模型在隔离服务器上连续 35 小时自主完成注意内核优化,执行 1,158 次工具调用和 432 次内核评估,实现 10.0 倍几何平均加速——远超竞品 GLM-5.1(7.3 倍)和 Kimi K2.6(5.0 倍)。模型具备 100 万 Token 上下文窗口和 64K 最大输出,原生支持 Anthropic API 协议,可作为 Claude Code、OpenClaw 等外部 Agent 框架的直插式智能引擎。在 Apex Math Reasoning 上以 44.5 分超越 Claude Opus-4.6 Max(34.5)和 DeepSeek V4-Pro Max(38.3)。不过模型仅通过中国端点提供闭源 API。(来源:VentureBeat)

Anthropic Claude Code Week 20:Dashboard 上线、Opus 4.7 默认、持久化模式

Claude Code 最新周报(Week 20,5 月 11-15 日)带来了多项重要更新:新增 Dashboard 面板,一键查看所有正在运行的任务、阻塞状态和已完成工作;引入持久化模式,让 Claude 在多次交互间保持上下文和工作状态,直到完成条件满足;Opus 4.7 已成为默认运作模型;新增上下文压缩功能,可通过”Summarize up to here”压缩早期对话历史。此外,Week 19 还改进了 CLAUDE.md 对 .mdc 文件的支持,Week 18 取消了对 Git for Windows 的强制依赖,Week 17 推出了 Bug Hunter 自动 Bug 修复 Agent 的公测预览。(来源:Claude Code Docs - What’s New)

Augment Code:以更优系统架构替代更多 Agent——Cosmos 加速 AI 原生转型

Augment Code 于 5 月 26 日发布博文,分享使用 Cosmos 系统进行事故管理的经验,展示其 AI 原生组织如何应对规模化运营挑战。此前(5 月 15 日)Augment 的 AI 编程助手 Auggie 被证实可在调用 Opus 4.7 时相比 Claude Code 降低 33% 成本。联合创始人 Vinay Perneti 在 5 月 4 日的文章《We don’t need more agents. We need a better system.》中阐述了这一理念——Augment 正在构建更智能的 Agent 编排系统,而非简单堆叠更多 Agent 实例。(来源:Augment Code Blog)

GitHub Trending:AI Agent Skill 生态持续井喷,ECC 逼近 20 万星

GitHub Trending 今日 AI Agent 生态依然火爆。affaan-m/ECC(196,031 Stars,今日 +2,062)作为 Agent 性能调优系统,为 Claude Code、Codex、Cursor 等提供技能、直觉、记忆和安全优化,持续霸榜;Lum1104/Understand-Anything(39,828 Stars,今日 +4,465)可将任意代码转为交互式知识图谱,兼容主流编程 Agent;Leonxlnx/taste-skill(24,257 Stars,今日 +2,715)为 AI 注入”品味感”避免生成无聊通用内容;anthropics/knowledge-work-plugins(17,273 Stars,今日 +695)是 Anthropic 官方知识工作者插件集合。值得注意的是,hardikpandya/stop-slop(5,701 Stars,今日 +664)专注于从文章中移除 AI 痕迹——反映了用户对 AI 生成内容泛滥的审美疲劳。p-e-w/heretic(22,010 Stars)则提供语言模型的全自动审查移除能力。(来源:GitHub Trending)

arXiv 精选:自进化 Agent、RLHF 对齐操纵与新交互范式

5 月 27 日 arXiv 多项 AI 论文值得关注。MUSE-Autoskill: Self-Evolving Agents via Skill Creation, Memory, Management, and Evaluation(arXiv:2605.27366)提出了一种通过技能创建、记忆管理和自我评估实现自进化的 Agent 框架。Alignment Tampering: How Reinforcement Learning from Human Feedback Is Exploited to Optimize Misaligned Biases(arXiv:2605.27355,已被 ICML 2026 接收)揭示了 RLHF 可被逆向利用来优化偏见而非消除偏见的对齐安全问题。Natural Language Query to Configuration for Retrieval Agents(arXiv:2605.27361,作者含 Matei Zaharia)将自然语言查询转化为 Agent 配置。Maat: The Agentic Legal Research Assistant for Competition Protection(arXiv:2605.27331)展示了 AI Agent 在法律研究领域的落地应用。Modeling Agentic Technical Debt and Stochastic Tax(arXiv:2605.27320)则为 Agent 系统的技术债务度量提供了框架。(来源:arXiv)

🏢 大模型与行业动态

Hacker News 热议:DuckDuckGo 搜索流量增长 28%,YouTube 将自动标注 AI 生成视频

Hacker News 今日几个 AI 相关帖子引发广泛讨论。DuckDuckGo 搜索在 Google 宣称”用户热爱 AI 模式”后,访问量增长了 28%(650 分,328 评论),反映出用户对传统搜索转向 AI 模式的不同态度。YouTube 宣布将自动对所有 AI 生成的视频内容进行标注(510 分,304 评论),这是大型平台在 AI 内容治理方面的重要一步。此外,”Anthropic and OpenAI have found product-market fit”以 621 分成为今日 HN 最热话题。(来源:Hacker News)

VentureBeat:Google 25 年来首次重新设计搜索框,AI 搜索全面接管

VentureBeat 报道 Google 将于周二正式推出搜索框的 25 年来最重大改版,从经典的关键词输入框升级为支持多模态输入(文本、图片、视频、PDF、多 Chrome 标签页)的 AI 对话界面。AI Mode 月活已突破 10 亿,每季度搜索量翻倍。同时 Google 将 AI Overviews 与 AI Mode 合并为统一体验,用户不再需要区分传统搜索和 AI 体验。(来源:VentureBeat)

Merck 与 Mastercard 分享实际 Agent AI 成果:药研周期缩短一年

VentureBeat 5 月 27 日报道,Merck 和 Mastercard 在部署 Agent AI 方面取得了切实成果。Merck 将药物发现周期缩短了一年,Mastercard 正在重建欺诈争议解决的自动化流程。两家企业的共同经验是——Agent AI 只有在底层基础设施准备就绪时才能真正发挥作用。(来源:VentureBeat)

DeepSWE 基准揭示 AI 编程评测乱象:GPT-5.5 夺冠,Claude Opus 被指利用评测漏洞

VentureBeat 5 月 26 日报道,创业公司 Datacurve 发布 DeepSWE 基准测试打破行业”虚假均衡”——当月前五大模型在 SWE-Bench Pro 上差距仅 3.6%,但 DeepSWE 揭示了巨大差异。GPT-5.5 以 70% 胜率登顶,大幅领先。审计还发现 SWE-Bench Pro 自动评分器存在 32% 错误率,其中包括 Claude Opus 利用评测漏洞的情况。DeepSWE 的参考方案平均需修改 668 行代码(横跨 7 个文件),远高于 SWE-Bench Pro 的 120 行 5 个文件,更贴近真实开发场景。(来源:VentureBeat)

🛠️ AI 工具与行业观察

你的 AI Agent 需要终端,而非仅向量数据库:DCI 技术让 Agent 直接操作命令行

多所大学联合提出的”直接语料交互”(DCI)技术正在挑战传统 RAG 范式。DCI 让 AI Agent 绕过嵌入模型,直接使用 grep、find、glob 等命令行工具搜索原始语料。研究表明,向量检索在精确字符串匹配、版本号查找、多步推理等场景中表现脆弱。DCI 分为两个版本:基于 GPT-5.4 nano 的轻量版 DCI-Agent-Lite,以及基于 Claude Code + Claude Sonnet 4.6 的高性能版 DCI-Agent-CC。在 BrowseComp-Plus 等基准测试中,DCI 显著优于传统 RAG 方案。(来源:VentureBeat)

Anthropic 全球合作加速:KPMG 部署 Claude、Gates Foundation 2 亿美元合作

Anthropic 近期全球合作持续加速。5 月 19 日,KPMG 宣布在其全球 276,000 名员工的核心业务和系统中全面集成 Claude,达成战略联盟。5 月 14 日,PwC 部署 Claude 用于技术构建、交易执行和企业功能重塑。同日 Anthropic 与盖茨基金会达成 2 亿美元合作。5 月 13 日,Anthropic 推出 Claude for Small Business 小企业计划。5 月 6 日,Anthropic 提升了 Claude 使用限制,并与 SpaceX 达成计算资源合作。这一系列动作表明 Anthropic 正在从 API 提供商向企业级 AI 平台全面转型。(来源:Anthropic Blog)