Anthropic 与 Claude Opus 4.8
Anthropic 发布 Claude Opus 4.8,引入动态工作流和努力控制功能
Anthropic 于 5 月 28 日正式发布 Claude Opus 4.8,这是对其旗舰模型的一次重要升级。Opus 4.8 在编程、代理任务和专业工作方面的性能全面超越 Opus 4.7,同时保持了相同的定价。新版本引入了”努力控制”(Effort Control)功能,用户可以在 claude.ai 上自主调节 Claude 投入任务的算力程度。此外,Claude Code 新增了”动态工作流”(Dynamic Workflows)功能,支持在同一会话中调度数百个并行子代理,可自主完成数十万行代码规模的代码库迁移任务。Opus 4.8 的快速模式(2.5 倍速度)价格相较前代模型降低了三分之二。(来源:Anthropic)
Anthropic 完成 650 亿美元 H 轮融资,估值达 9650 亿美元
Anthropic 于 5 月 28 日宣布完成 Series H 融资,募集 650 亿美元,投后估值达到 9650 亿美元。这一巨额融资反映出市场对前沿 AI 模型的持续高涨需求。同时,Anthropic 还宣布在米兰开设新办公室以支持欧洲企业客户,并任命 KiYoung Choi 为韩国区代表董事。(来源:Anthropic)
Claude Opus 4.8 对齐能力接近 Mythos 水平,多项测试创纪录
VentureBeat 报道称,Claude Opus 4.8 在多个第三方测试中表现优异。Cursor 联合创始人 Michael Truell 表示 Opus 4.8 在 CursorBench 上超越了所有前代 Opus 模型;Cognition CEO Scott Wu 称赞其在 Devin 平台上的工具调用一致性大幅提升;法律 AI 公司 EvenUp 报告 Opus 4.8 在其法律代理基准上创下了最高分记录。Anthropic 的对齐评估显示,Opus 4.8 的亲社会特质达到新高,不良行为率显著低于 Opus 4.7,接近其最佳对齐模型 Mythos 的水平。(来源:VentureBeat)
AI 编程 Agent 与 IDE 更新
Cognition 完成超 10 亿美元融资,估值达 260 亿美元
Cognition 于 5 月 27 日宣布完成新一轮融资,募集超过 10 亿美元,估值达到 260 亿美元。本轮由 Lux Capital、General Catalyst 和 8VC 领投。Cognition 同时发布了”更多 Devin,更多场景”的战略规划,其 AI 软件工程师 Devin 正加速向 Windows 原生支持和 Android 模拟器方向扩展。(来源:Cognition Blog)
Cognition 发布”规模化验证代理开发”经验分享
Cognition 于 5 月 29 日发布技术博客,分享了在 Devin 虚拟机构建端到端测试能力方面的实践经验。文章详细阐述了如何对 AI 代理生成的代码进行大规模自动化验证,以确保代理开发在实际生产场景中的可靠性。(来源:Cognition Blog)
GitHub 趋势:Compound Engineering 插件与 Claude Code 持续火爆
GitHub Trending 上,EveryInc 的 Compound Engineering Plugin 今日新增 353 星,总星数达 18,129。该插件支持 Claude Code、OpenAI Codex 和 Cursor 等多个 AI 编程工具。Anthropic 的 claude-code 仓库今日新增 395 星,总星数达 127,867。此外,Cursor 官方发布的 plugins 仓库(插件规范与官方插件)也在今日登上趋势榜,新增 134 星。(来源:GitHub Trending)
Taste-Skill 开源项目爆火:让 AI 拥有”好品味”
名为 Taste-Skill 的开源项目今日在 GitHub 上大热,单日获得 2,062 星,总星数达 28,115。该项目旨在让 AI 避免生成无聊、通用的内容,通过注入”品味”来提升 AI 输出的质量。项目作者表示这是通过 prompt 工程让 AI 更了解人类审美偏好的有趣尝试。(来源:GitHub Trending)
Cursor Composer 2.5 已发布,聚焦长周期代理任务
Cursor 团队于 5 月 18 日发布的 Composer 2.5 在智能和行为上较 Composer 2 有大幅提升,尤其在长周期代理任务方面表现突出。Cursor 还在近期宣布 Faire 使用 Cursor Cloud Agents 后 PR 吞吐量翻倍,以及 PayPal 正在借助 Cursor 扩展 AI 构建的可能性边界。(来源:Cursor Blog)
AI 大模型与行业动态
Mistral AI 发布 Vibe 平台,进军工业 AI 并宣布数据中心计划
在巴黎举行的 AI NOW 峰会上,Mistral AI CEO Arthur Mensch 正式发布了 Vibe 平台,同时宣布公司向工业 AI 领域扩展,并计划自建数据中心以挑战 OpenAI 的市场地位。Mistral AI 目前拥有 1,000 名员工,2026 年营收目标为 10 亿欧元(约 11.7 亿美元)。公司战略覆盖从裸金属 GPU 集群到飞机机翼物理模拟的全栈 AI 能力。(来源:VentureBeat,Hacker News)
Liquid AI 发布 8B-A1B MoE 模型,训练数据达 38T tokens
Hacker News 上今日热门讨论 Liquid AI 发布的新型 8B-A1B 混合专家模型(MoE),该模型在 38T tokens 数据上完成训练,引起了社区的广泛关注。该帖子获得了 143 分和 45 条评论,讨论焦点集中在 MoE 架构的效率优势上。(来源:Hacker News)
MeMo 记忆模型:分离知识存储与推理,性能提升 26%
VentureBeat 报道了一种名为 MeMo 的新型记忆框架,它将 AI 知识存储与推理过程分离,使团队可以升级 LLM 而无需重新训练,同时性能提升了 26%。这项技术有望解决大模型在持续学习和知识更新方面的核心瓶颈。(来源:VentureBeat)
AI Agent 的企业瓶颈不在模型性能,而在权限管理
VentureBeat 报道指出,阻碍企业级 AI 代理落地的关键瓶颈并非模型性能,而是权限管理问题。Workday 为此构建了 Sana 系统,在系统记录层解决了 AI 代理访问企业数据的权限控制难题。这一洞察揭示了当前 AI 代理从实验走向生产环境面临的真实挑战。(来源:VentureBeat)
Pinterest 通过裁剪前沿模型视觉层将 AI 成本降低 90%
在拥有 6.2 亿用户的情况下,直接调用前沿模型 API 对 Pinterest 来说成本过高。Pinterest CTO Matt Madrigal 分享了他们通过裁剪 Qwen3-VL 模型的视觉层来实现 90% 成本削减的经验,为其他大规模 AI 应用提供了实用的成本优化参考。(来源:VentureBeat)
AI 学术前沿
Meta 与 Google 联合研究:自动化 LLM 推理策略设计,节约 69.5% token
Meta 和 Google 的研究人员联合开发了一种新框架,能够自动设计 LLM 推理策略。该框架在仅花费 39.90 美元计算成本的情况下,将 token 使用量减少了 69.5%。这项研究为提升 LLM 推理效率提供了系统化的新思路。(来源:VentureBeat)