AI 日报 · 2026-07-02 · VOL · 31

政策与监管

Anthropic

Anthropic 官方 · 今日 →

美商务部正式撤销 Fable 5 + Mythos 5 全球出口管制，7-2 恢复全球访问

美商务部 6-30 撤销对 Fable 5 + Mythos 5 的全球出口管制 / 7-2 起恢复访问 / 此前 6-12 因「越狱漏洞」紧急下架不到三周 / 条件：Anthropic 主动识别并处理安全风险 + 配合制定发布协议

这场为期 18 天的「AI 封杀风波」收尾，节奏耐人寻味：6-12 下架，6-26 软化向本土机构开放 Mythos 5，6-30 全面撤销。监管从「一刀切」到「分层授权」，比 2024 年的芯片出口管制更精细，但代价是 Anthropic 必须把模型安全的最终解释权让渡给商务部——这是全球 AI 治理范式的一次预演。

大模型

OpenAI 推理成本

The Information · 今日 →

OpenAI 推理成本降低 50%，GPT-5.6 Sol 定价仅为 Claude Fable 5 一半

OpenAI 工程师底层系统优化砍掉一半以上推理成本 / 访客版 ChatGPT 仅需数百 GPU 即可支撑 / GPT-5.6 Sol 定价为 Claude Fable 5 的 1/2 / 同时维持健康毛利率

推理成本下降 50% 不只是技术胜利，是定价权之战。当 Claude 卖 30 美元/M tokens、GPT-5.6 Sol 卖 15 美元，而两者都能跑出可用结果时，「最聪明的模型」叙事就开始失效——价格战打到第二代前沿模型，Anthropic 必须用差异化（更长上下文、特定场景）而不是绝对性能来应对。

NVIDIA Nemotron TwoTower

NVIDIA HuggingFace · 今日 →

英伟达开源 Nemotron-TwoTower 扩散语言模型，2.42× 吞吐量，2×H100 跑通

双塔架构：冻结 Context Tower（AR 推理）+ 训练 Denoiser Tower（扩散生成） / 保留基线 98.7% 质量 / 2×H100 默认设置吞吐量 2.42× / 支持扩散/模拟 AR/标准 AR 三种解码 / 商业可用

英伟达罕见地押注「扩散」路径——不是因为 AR 不好，而是 AR 的逐 token 解码在批量生成场景下的吞吐瓶颈越来越刺眼。TwoTower 本质是把「理解」和「生成」解耦：上下文塔不动，去噪塔并行多 token 输出。代码/数学任务上轻微掉点，但 2.42× 加速让任何需要「批量合成数据」的训练 pipeline 都值得跑一遍。

快科技 · 今日 →

Kimi K3 7 月发布确认：2.5 万亿参数，国产最大，超过 DS V4 + 文心 5.0

Kimi 员工 Young_AGI 在 X 确认 7 月发布 K3 / 参数量 2.5 万亿，超过 DS V4 Pro（1.6 万亿）和文心 5.0（2.4 万亿） / 支持 1M 上下文 + 多模态 / 推测 7 月中旬发布

K3 不是「再大一点」的简单堆料——2.5 万亿参 + 1M 上下文 + 多模态，三件事同时成立的国产模型今年是第一次。问题是：堆参数是国产模型的舒适区，但「越大越好」的边界在哪？当推理成本直接与参数量挂钩，2.5T 的部署门槛会让大多数企业望而却步——K3 可能是面向 B 端定制而非通用 API 的产品。

DeepMind 官方 · 昨日 →

Google DeepMind AlphaGeometry 2 攻克 IMO 几何难题，96% 准确率达银牌水平

前代 30 道历史难题解 25 道，新版 24/25 道（96% 准确率） / 非超人类测试 71/793（人类专家 15/793） / 证明时间从数小时缩短至数秒至数分钟 / LLM 启发式搜索 + 符号引擎双轨

AlphaGeometry 2 解决的不是「AI 会不会解几何题」，而是「AI 解题速度是否已经超越人类专家」。1000 万条合成构造数据 + LLM 启发式搜索，让 IMO 银牌级证明变成秒级响应。DeepMind 在「AI for Math」上的策略很清楚：用合成数据绕过人类标注依赖，用符号引擎保证严谨性——这套路子正在被复制到物理、化学领域。

融资与市场

可灵AI

财联社 · 今日 →

可灵 AI 完成 30 亿美元融资估值 180 亿，腾讯参投（较目标缩水 20 亿）

快手旗下可灵 AI 完成 30 亿美元融资 / 投后估值 180 亿美元 / 腾讯参与本轮 / 4 月设定目标 200 亿，实际缩水 20 亿 / 反映市场对 AI 视频生成估值预期回调

从 200 亿目标降到 180 亿成交，是 AI 视频赛道「预期修正」的微观切片。30 亿美元的单轮融资仍然庞大，但 10% 的估值打折说明两个事实：一级市场开始区分「有真实 ARR 的视频生成」和「靠 demo 拉估值的视频生成」；腾讯参投不意外——视频生成是腾讯混元目前最弱的一环，外延投资是补短板最快的方式。

北京日报 · 今日 →

ChatGPT 全球份额首度跌破 50%，6 月大模型市场进入多极竞争

6 月 ChatGPT 全球市场份额首次跌破 50% / Claude、Gemini、DeepSeek 等多家份额上升 / 行业从单一巨头垄断转向多方竞争 / 企业采购多元化趋势确立

跌破 50% 是 ChatGPT 自 2022 年 11 月发布以来的首次重大市场节点。但「失份额」不等于「失绝对值」——ChatGPT 的存量用户基数仍然庞大，份额下降更多来自对手追赶而非自身衰退。真正的信号在 B 端：企业采购 ChatGPT + Claude + Gemini 多模型组合已成标配，OpenAI 靠「独大」赢溢价的日子结束了。

前沿技术

Frontier · GitHub & arXiv 周边

Nanobot

GitHub · HKUDS · 本周 →

Nanobot 自托管 Agent runtime 上 GitHub Trending，44.2K Stars 全平台对接

44.2K Stars / 自托管个人 AI Agent runtime / 集成 WebUI + Telegram + Discord + Slack + Teams + Email / 多 LLM provider / 持久记忆 + 调度 + 工作流自动化 / MIT 协议

Nanobot 的「杀手锏」是轻量：核心代码可读、单一二进制、全平台聊天通道统一接入。在「Agent OS」这个赛道里，它代表的是「不想要框架臃肿、不要厂商锁定」的极客路线。但 Pre-1.0 的 API 不稳定风险，让它更适合开发者自玩而非生产部署——44.2K Stars 证明需求真实，留给作者的是「如何把 demo 变成产品」的经典难题。

OpenFang

GitHub · RightNow-AI · 本周 →

OpenFang：Rust 写的自主 Agent OS，17.8K Stars，32MB 单二进制

17.8K Stars / Rust 编写 / ~32MB 单一二进制 / 自主 Agent 操作系统 / 与 Nanobot 同期 Trending 走红 / 强调低资源占用 + 跨平台分发

OpenFang 与 Nanobot 同期 Trending 不是巧合：开发者对「本地优先 Agent」的渴望到了临界点。两者的差异在于 Rust vs Python ——OpenFang 用 Rust 重写一遍的代价是开发速度慢、生态绑死，但收益是启动时间、内存占用、跨平台分发都达到 OS 级水准。Agent runtime 正在变成「系统软件」级别的工程问题。

arXiv · 本周 →

arXiv 2606.29315 HExA：主动实验学习 Agent，Claude Sonnet 4.6 成功率 2%→77%

Hierarchical Experimentalist Agents (HExA) / 通过主动实验学习（非检索/搜索） / 训练免费 + 兼容任何黑盒模型 / Interphyre benchmark：Claude Sonnet 4.6 从 2% 提升到 77% 成功率 / 跨层级复用技能

HExA 的反直觉之处在于：让 LLM 在陌生领域「做实验」而不是「查资料」。在 2D 物理环境 Interphyre 上，把 Claude Sonnet 4.6 从 2% 拉到 77% ——这种量级的提升来自「学习可组合的技能库」而非「更多训练数据」。Agent 路线正从「RAG + 工具调用」转向「在环境中自己造经验」，这可能才是 AGI 的真正切入点。