GPT-5.5 基准逆袭 Claude Fable 5，小米 MiMo Code 开源挑战 Claude Code，Google 扩散解码新范式

AI 行业重磅新闻

1. GPT-5.5 在「Agents’ Last Exam」基准上击败 Claude Fable 5
VentureBeat 报道，在被称为「代理终极考试」的新基准测试中，GPT-5.5 意外击败了 Anthropic 最新发布的 Claude Fable 5。该测试以评估 AI 在严格遵循多步骤复杂指令方面的能力著称。分析认为，OpenAI 的模型目前在精确执行复杂提示方面具有优势，此次结果与近期第三方评估结论一致。(VB, Jun 11)

2. Anthropic 密集宣布企业合作：TCS 与 DXC 将 Claude 带入受监管行业
Anthropic 在 6 月 11-12 日接连宣布两大企业合作：塔塔咨询(TCS)将帮助将 Claude 引入受监管行业客户；DXC Technology 将把 Claude 集成到银行、航空等关键行业系统。这些合作标志着 Anthropic 在企业级合规部署上的重大突破，为后续 IPO 铺路。(Anthropic Blog, Jun 12)

3. Anthropic 提交 S-1 草案，估值达 9650 亿美元
继 5 月完成 650 亿美元 H 轮融资后，Anthropic 于 6 月 1 日秘密向 SEC 提交 S-1 草案。若成功上市，将成为 AI 领域最大规模 IPO 之一。与之呼应的是 Claude Fable 5 / Mythos 5 的发布，Anthropic 正在技术、商业与资本三条线上同步加速。(Anthropic Blog, Jun 1)

AI 研究新突破

4. Google 提出「Faithful Uncertainty」：让模型老实说「我不知道」
Google 研究团队提出一种元认知(metacognitive)方法，让 LLM 在不确定时主动表达不确定性而非生成幻觉。该方案不追求零幻觉，而是在保证输出可信度的前提下保留更多有效回答，对企业级 AI 落地意义重大。(VB, Jun 12)

5. Google DiffusionGemma：一次并行生成 256 tokens，生成中自校正
Google 发布 DiffusionGemma，采用扩散模型替代自回归生成范式——一次产生完整 token 块并在生成过程中自我纠错。该模型在消费级 GPU 上运行快速，尤其适合代码生成等结构化任务，但在开放式对话中表现较弱。(VB, Jun 11)

6. Kimi K2.7-Code 减少 30% 推理 tokens，但基准测试引发争议
Moonshot AI 的 Kimi K2.7-Code 版声称将「思考 token」减少 30%，代码写法更直接。然而从业者指出，其 MoE 架构在实际基准测试中相比 K2.6 出现退步，部分内核测试失败，引发关于「减少思考」是否牺牲了质量的讨论。(VB, Jun 12)

AI Agent / AI 编程 IDE 更新

7. 小米开源 MiMo Code：长链任务击败 Claude Code
小米发布开源 AI 编程工具 MiMo Code，在超过 200 步的超长任务链上表现优于 Claude Code。其核心创新是持久化记忆系统，有效解决了 Agent 开发工作流中的上下文丢失痛点——这也是当前各家竞相突破的方向。(VB, Jun 11)

8. Microsoft SkillOpt 开源：自动优化 Agent 技能提示词
Microsoft 推出开源工具 SkillOpt，用深度学习驱动的文本优化替代人工提示词调优。无需修改模型权重，即可通过数学模型自动验证和提升 Agent 技能表现，为 Agent 技能管理建立了工程化范式。(VB, Jun 11)

9. GitHub Trending：Agent 技能框架持续霸榜

addyosmani/agent-skills（5.7 万星，日增 2656）：Google 工程师 Addy Osmani 整理的 AI 编程 Agent 生产级工程技能集，涵盖测试、安全、性能等实践。
obra/superpowers（22.6 万星，日增 1275）：Agent 技能框架与软件开发方法论，已成为 GitHub 上最受欢迎的 AI 开发工具之一。
BitBoard (YC P25)：面向 AI Agent 的分析工作区，在 HN 首页引发关注。

AI 应用与行业实践

10. Anthropic 发布首个 Public Record 结果
Anthropic 于 6 月 12 日公布了首个公众记录(Public Record)项目结果。该项目旨在透明化 AI 系统的社会影响评估，标志着 Anthropic 在 AI 治理与透明度方面迈出实质性一步。(Anthropic Blog, Jun 12)

11. HN 热议：本地搭建 AI 编程 Agent 实操指南
Hacker News 上一篇文章分享在 macOS 上搭建本地 AI 编程 Agent 的完整流程，获得 237 分高赞。社区围绕本地 vs 云端 Agent 的安全性和延迟展开激烈讨论。(HN, 237 points)

12. NVIDIA SkillSpector 开源：Agent 技能检测工具
NVIDIA 发布开源工具 SkillSpector，用于检测和评估 AI Agent 的技能执行质量。与 Microsoft SkillOpt 形成互补——一个评估技能，一个优化技能，共同推动 Agent 技能的工程化进程。(GitHub, HN 25 points)

13. /architect 项目：将 Fable 的 token 消耗降低 80%
HN 热门项目 /architect 提出一种新架构：用 Fable 进行协调和审查，用 Codex 执行构建，将 Token 消耗降低 80%。这为 AI 编程中高成本模型的优化使用提供了新的范式。(HN, 282 points)

封面图来源：AI-generated SVG Illustration

GPT-5.5 基准逆袭 Claude Fable 5，小米 MiMo Code 开源挑战 Claude Code，Google 扩散解码新范式 | AI 产品研发日报

AI 行业重磅新闻

AI 研究新突破

AI Agent / AI 编程 IDE 更新

AI 应用与行业实践