AI 行业重磅新闻

1. GPT-5.5 在「Agents’ Last Exam」基准上击败 Claude Fable 5
VentureBeat 报道,在被称为「代理终极考试」的新基准测试中,GPT-5.5 意外击败了 Anthropic 最新发布的 Claude Fable 5。该测试以评估 AI 在严格遵循多步骤复杂指令方面的能力著称。分析认为,OpenAI 的模型目前在精确执行复杂提示方面具有优势,此次结果与近期第三方评估结论一致。(VB, Jun 11)

2. Anthropic 密集宣布企业合作:TCS 与 DXC 将 Claude 带入受监管行业
Anthropic 在 6 月 11-12 日接连宣布两大企业合作:塔塔咨询(TCS)将帮助将 Claude 引入受监管行业客户;DXC Technology 将把 Claude 集成到银行、航空等关键行业系统。这些合作标志着 Anthropic 在企业级合规部署上的重大突破,为后续 IPO 铺路。(Anthropic Blog, Jun 12)

3. Anthropic 提交 S-1 草案,估值达 9650 亿美元
继 5 月完成 650 亿美元 H 轮融资后,Anthropic 于 6 月 1 日秘密向 SEC 提交 S-1 草案。若成功上市,将成为 AI 领域最大规模 IPO 之一。与之呼应的是 Claude Fable 5 / Mythos 5 的发布,Anthropic 正在技术、商业与资本三条线上同步加速。(Anthropic Blog, Jun 1)

AI 研究新突破

4. Google 提出「Faithful Uncertainty」:让模型老实说「我不知道」
Google 研究团队提出一种元认知(metacognitive)方法,让 LLM 在不确定时主动表达不确定性而非生成幻觉。该方案不追求零幻觉,而是在保证输出可信度的前提下保留更多有效回答,对企业级 AI 落地意义重大。(VB, Jun 12)

5. Google DiffusionGemma:一次并行生成 256 tokens,生成中自校正
Google 发布 DiffusionGemma,采用扩散模型替代自回归生成范式——一次产生完整 token 块并在生成过程中自我纠错。该模型在消费级 GPU 上运行快速,尤其适合代码生成等结构化任务,但在开放式对话中表现较弱。(VB, Jun 11)

6. Kimi K2.7-Code 减少 30% 推理 tokens,但基准测试引发争议
Moonshot AI 的 Kimi K2.7-Code 版声称将「思考 token」减少 30%,代码写法更直接。然而从业者指出,其 MoE 架构在实际基准测试中相比 K2.6 出现退步,部分内核测试失败,引发关于「减少思考」是否牺牲了质量的讨论。(VB, Jun 12)

AI Agent / AI 编程 IDE 更新

7. 小米开源 MiMo Code:长链任务击败 Claude Code
小米发布开源 AI 编程工具 MiMo Code,在超过 200 步的超长任务链上表现优于 Claude Code。其核心创新是持久化记忆系统,有效解决了 Agent 开发工作流中的上下文丢失痛点——这也是当前各家竞相突破的方向。(VB, Jun 11)

8. Microsoft SkillOpt 开源:自动优化 Agent 技能提示词
Microsoft 推出开源工具 SkillOpt,用深度学习驱动的文本优化替代人工提示词调优。无需修改模型权重,即可通过数学模型自动验证和提升 Agent 技能表现,为 Agent 技能管理建立了工程化范式。(VB, Jun 11)

9. GitHub Trending:Agent 技能框架持续霸榜

  • addyosmani/agent-skills(5.7 万星,日增 2656):Google 工程师 Addy Osmani 整理的 AI 编程 Agent 生产级工程技能集,涵盖测试、安全、性能等实践。
  • obra/superpowers(22.6 万星,日增 1275):Agent 技能框架与软件开发方法论,已成为 GitHub 上最受欢迎的 AI 开发工具之一。
  • BitBoard (YC P25):面向 AI Agent 的分析工作区,在 HN 首页引发关注。

AI 应用与行业实践

10. Anthropic 发布首个 Public Record 结果
Anthropic 于 6 月 12 日公布了首个公众记录(Public Record)项目结果。该项目旨在透明化 AI 系统的社会影响评估,标志着 Anthropic 在 AI 治理与透明度方面迈出实质性一步。(Anthropic Blog, Jun 12)

11. HN 热议:本地搭建 AI 编程 Agent 实操指南
Hacker News 上一篇文章分享在 macOS 上搭建本地 AI 编程 Agent 的完整流程,获得 237 分高赞。社区围绕本地 vs 云端 Agent 的安全性和延迟展开激烈讨论。(HN, 237 points)

12. NVIDIA SkillSpector 开源:Agent 技能检测工具
NVIDIA 发布开源工具 SkillSpector,用于检测和评估 AI Agent 的技能执行质量。与 Microsoft SkillOpt 形成互补——一个评估技能,一个优化技能,共同推动 Agent 技能的工程化进程。(GitHub, HN 25 points)

13. /architect 项目:将 Fable 的 token 消耗降低 80%
HN 热门项目 /architect 提出一种新架构:用 Fable 进行协调和审查,用 Codex 执行构建,将 Token 消耗降低 80%。这为 AI 编程中高成本模型的优化使用提供了新的范式。(HN, 282 points)


封面图来源:AI-generated SVG Illustration