VOL · 31

把今天的 AI
一杯咖啡读完

每日精选 · 一手源优先 · 看见 AI 浪潮的真实方向

2026 / 07 / 02 · 周四

政 策 与 监 管
Anthropic
Anthropic 官方 · 今日

美商务部正式撤销 Fable 5 + Mythos 5 全球出口管制,7-2 恢复全球访问

美商务部 6-30 撤销对 Fable 5 + Mythos 5 的全球出口管制 / 7-2 起恢复访问 / 此前 6-12 因「越狱漏洞」紧急下架不到三周 / 条件:Anthropic 主动识别并处理安全风险 + 配合制定发布协议

这场为期 18 天的「AI 封杀风波」收尾,节奏耐人寻味:6-12 下架,6-26 软化向本土机构开放 Mythos 5,6-30 全面撤销。监管从「一刀切」到「分层授权」,比 2024 年的芯片出口管制更精细,但代价是 Anthropic 必须把模型安全的最终解释权让渡给商务部——这是全球 AI 治理范式的一次预演。
大 模 型
OpenAI 推理成本
The Information · 今日

OpenAI 推理成本降低 50%,GPT-5.6 Sol 定价仅为 Claude Fable 5 一半

OpenAI 工程师底层系统优化砍掉一半以上推理成本 / 访客版 ChatGPT 仅需数百 GPU 即可支撑 / GPT-5.6 Sol 定价为 Claude Fable 5 的 1/2 / 同时维持健康毛利率

推理成本下降 50% 不只是技术胜利,是定价权之战。当 Claude 卖 30 美元/M tokens、GPT-5.6 Sol 卖 15 美元,而两者都能跑出可用结果时,「最聪明的模型」叙事就开始失效——价格战打到第二代前沿模型,Anthropic 必须用差异化(更长上下文、特定场景)而不是绝对性能来应对。
NVIDIA Nemotron TwoTower
NVIDIA HuggingFace · 今日

英伟达开源 Nemotron-TwoTower 扩散语言模型,2.42× 吞吐量,2×H100 跑通

双塔架构:冻结 Context Tower(AR 推理)+ 训练 Denoiser Tower(扩散生成) / 保留基线 98.7% 质量 / 2×H100 默认设置吞吐量 2.42× / 支持扩散/模拟 AR/标准 AR 三种解码 / 商业可用

英伟达罕见地押注「扩散」路径——不是因为 AR 不好,而是 AR 的逐 token 解码在批量生成场景下的吞吐瓶颈越来越刺眼。TwoTower 本质是把「理解」和「生成」解耦:上下文塔不动,去噪塔并行多 token 输出。代码/数学任务上轻微掉点,但 2.42× 加速让任何需要「批量合成数据」的训练 pipeline 都值得跑一遍。
快科技 · 今日

Kimi K3 7 月发布确认:2.5 万亿参数,国产最大,超过 DS V4 + 文心 5.0

Kimi 员工 Young_AGI 在 X 确认 7 月发布 K3 / 参数量 2.5 万亿,超过 DS V4 Pro(1.6 万亿)和文心 5.0(2.4 万亿) / 支持 1M 上下文 + 多模态 / 推测 7 月中旬发布

K3 不是「再大一点」的简单堆料——2.5 万亿参 + 1M 上下文 + 多模态,三件事同时成立的国产模型今年是第一次。问题是:堆参数是国产模型的舒适区,但「越大越好」的边界在哪?当推理成本直接与参数量挂钩,2.5T 的部署门槛会让大多数企业望而却步——K3 可能是面向 B 端定制而非通用 API 的产品。
DeepMind 官方 · 昨日

Google DeepMind AlphaGeometry 2 攻克 IMO 几何难题,96% 准确率达银牌水平

前代 30 道历史难题解 25 道,新版 24/25 道(96% 准确率) / 非超人类测试 71/793(人类专家 15/793) / 证明时间从数小时缩短至数秒至数分钟 / LLM 启发式搜索 + 符号引擎双轨

AlphaGeometry 2 解决的不是「AI 会不会解几何题」,而是「AI 解题速度是否已经超越人类专家」。1000 万条合成构造数据 + LLM 启发式搜索,让 IMO 银牌级证明变成秒级响应。DeepMind 在「AI for Math」上的策略很清楚:用合成数据绕过人类标注依赖,用符号引擎保证严谨性——这套路子正在被复制到物理、化学领域。
融 资 与 市 场
可灵AI
财联社 · 今日

可灵 AI 完成 30 亿美元融资估值 180 亿,腾讯参投(较目标缩水 20 亿)

快手旗下可灵 AI 完成 30 亿美元融资 / 投后估值 180 亿美元 / 腾讯参与本轮 / 4 月设定目标 200 亿,实际缩水 20 亿 / 反映市场对 AI 视频生成估值预期回调

从 200 亿目标降到 180 亿成交,是 AI 视频赛道「预期修正」的微观切片。30 亿美元的单轮融资仍然庞大,但 10% 的估值打折说明两个事实:一级市场开始区分「有真实 ARR 的视频生成」和「靠 demo 拉估值的视频生成」;腾讯参投不意外——视频生成是腾讯混元目前最弱的一环,外延投资是补短板最快的方式。
北京日报 · 今日

ChatGPT 全球份额首度跌破 50%,6 月大模型市场进入多极竞争

6 月 ChatGPT 全球市场份额首次跌破 50% / Claude、Gemini、DeepSeek 等多家份额上升 / 行业从单一巨头垄断转向多方竞争 / 企业采购多元化趋势确立

跌破 50% 是 ChatGPT 自 2022 年 11 月发布以来的首次重大市场节点。但「失份额」不等于「失绝对值」——ChatGPT 的存量用户基数仍然庞大,份额下降更多来自对手追赶而非自身衰退。真正的信号在 B 端:企业采购 ChatGPT + Claude + Gemini 多模型组合已成标配,OpenAI 靠「独大」赢溢价的日子结束了。
前 沿 技 术

Frontier · GitHub & arXiv 周边

Nanobot
GitHub · HKUDS · 本周

Nanobot 自托管 Agent runtime 上 GitHub Trending,44.2K Stars 全平台对接

44.2K Stars / 自托管个人 AI Agent runtime / 集成 WebUI + Telegram + Discord + Slack + Teams + Email / 多 LLM provider / 持久记忆 + 调度 + 工作流自动化 / MIT 协议

Nanobot 的「杀手锏」是轻量:核心代码可读、单一二进制、全平台聊天通道统一接入。在「Agent OS」这个赛道里,它代表的是「不想要框架臃肿、不要厂商锁定」的极客路线。但 Pre-1.0 的 API 不稳定风险,让它更适合开发者自玩而非生产部署——44.2K Stars 证明需求真实,留给作者的是「如何把 demo 变成产品」的经典难题。
OpenFang
GitHub · RightNow-AI · 本周

OpenFang:Rust 写的自主 Agent OS,17.8K Stars,32MB 单二进制

17.8K Stars / Rust 编写 / ~32MB 单一二进制 / 自主 Agent 操作系统 / 与 Nanobot 同期 Trending 走红 / 强调低资源占用 + 跨平台分发

OpenFang 与 Nanobot 同期 Trending 不是巧合:开发者对「本地优先 Agent」的渴望到了临界点。两者的差异在于 Rust vs Python ——OpenFang 用 Rust 重写一遍的代价是开发速度慢、生态绑死,但收益是启动时间、内存占用、跨平台分发都达到 OS 级水准。Agent runtime 正在变成「系统软件」级别的工程问题。
arXiv · 本周

arXiv 2606.29315 HExA:主动实验学习 Agent,Claude Sonnet 4.6 成功率 2%→77%

Hierarchical Experimentalist Agents (HExA) / 通过主动实验学习(非检索/搜索) / 训练免费 + 兼容任何黑盒模型 / Interphyre benchmark:Claude Sonnet 4.6 从 2% 提升到 77% 成功率 / 跨层级复用技能

HExA 的反直觉之处在于:让 LLM 在陌生领域「做实验」而不是「查资料」。在 2D 物理环境 Interphyre 上,把 Claude Sonnet 4.6 从 2% 拉到 77% ——这种量级的提升来自「学习可组合的技能库」而非「更多训练数据」。Agent 路线正从「RAG + 工具调用」转向「在环境中自己造经验」,这可能才是 AGI 的真正切入点。