VOL · 24

把今天的 AI
一杯咖啡读完

每日精选 · 一手源优先 · 看见 AI 浪潮的真实方向

2026 / 06 / 18 · 周四

大 模 型
Shazeer OpenAI
Reuters · 今日

Transformer 奠基人 Shazeer 离开 Google 加盟 OpenAI

《Attention Is All You Need》合著者、Gemini 联合负责人 Noam Shazeer 宣布加入 OpenAI 任架构研究负责人 / 2021 年离开 Google 创立 Character.AI / 2024 年随 27 亿美元交易重返 DeepMind / 不到 2 年再次转身

Transformer 八子之一去了 OpenAI,这不是普通的人事变动——是 AI 底层架构研究的话语权之争。Shazeer 在 Google 不到两年二度出走,暗示大厂内部的模型路线之争可能比外界想象更激烈。OpenAI 拿到了"造出下一个 Transformer 的人",但让 Gemini 联合负责人离开的 Google,内部到底发生了什么?
政 策
ChatGPT Identity Verification
OpenAI Help Center · 今日

ChatGPT 消费端刷脸验证上线,AI 匿名时代终结

OpenAI 消费端用户收到 3D 活体检测弹窗(上传证件+实时自拍)/ Anthropic 6月10日通知 7月8日起 Claude 启用身份验证 / OpenAI 1月静默上线年龄预测模型 / API 端去年4月已要求证件验证 / 参议院 GUARD 法案要求全美 AI 聊天用户实名

两大巨头不约而同走向实名,背后的推力不是安全而是 Agent——当 AI 开始替人订机票、改文件、操作银行账户,"谁在下指令"就变成了法律问题。刷脸只是起点,终点是每个 AI 操作都有法律主体可追溯。匿名使用最强 AI 的窗口正在关闭。
财联社 · 今日

上交所发布大模型企业科创板上市指引:至少一个产品规模化应用

《指引第10号》共15条 / 适用科创板第五套上市标准 / 要求至少一个大模型产品已完成上线发布并实现规模化应用 / 支持通用大模型和行业专用模型 / 需取得资深专业机构投资者投资入股 / 明确"硬科技"属性要求

监管层第一次给大模型企业上市画路线图。"至少一个产品规模化应用"直接堵死纯 PPT 融资——没有真实用户的模型不上算。但"资深专业机构投资入股"这一条,等于给一级市场加了入场券,可能让中小机构更难参与早期投资。
A G E N T
OpenAI 官方 · 今日

ChatGPT 定时任务功能上线,14 天后 Pulse 正式下线

全新 Scheduled Tasks 系统 / 侧边栏专属页面统一管理 / 精确时间或宽泛时段 / 监测类任务联网检索+读取绑定应用数据+条件推送 / 每小时最多运行一次 / 无人值守任务自动暂停 / 替代 Pulse / Plus/Pro/Business/Enterprise 可用

从 Pulse 到 Scheduled Tasks,ChatGPT 正在从"你问我答"变成"我帮你盯着"。定时任务+条件推送的本质是让 AI 拥有时间维度——不是你找它,是它主动找你。但"无人值守自动暂停"说明 OpenAI 对 Agent 长时间自主运行仍非常谨慎。
WeChat AI Card
QQ新闻 · 今日

微信支付 AI 专属卡正式发布:Agent 消费钱包与主账户隔离

AI 专属卡与主账户隔离 / 卡内余额由用户转入转出 / Agent 场景消费仅限专属卡余额 / 每笔订单仍需用户本人最终授权确认 / AI 不能直接动用主账户资金

"AI 不能动你的钱"是这条产品的核心卖点,也是 Agent 商业化必须跨越的信任门槛。专属卡逻辑清晰:给 AI 一个有限预算的沙箱,而非全权委托。这与 Visa+ChatGPT 的 AI 代理支付走了不同路线——微信选择了更保守但更可解释的方式。
融 资
摩根士丹利 · 今日

全球 AI 债务融资达 2360 亿美元,四倍于去年同期

摩根士丹利报告:截至5月底全球AI相关债务融资规模2360亿美元 / 约为去年同期4倍 / 资金主要投向数据中心、光通信、电力配套 / AI产业正从轻资产走向重资产

股权融资讲的是未来故事,债务融资讲的是还钱故事。2360亿债务意味着 AI 产业必须在有限周期内把算力投入变成经营性现金流——否则就是杠杆反噬。数据中心、光模块、电源,这些"卖铲人"看似需求确定,但如果下游需求不及预期,折旧和产能利用率会变成真正的绞肉机。
前 沿 技 术

Frontier · GitHub & arXiv 周边

VoxCPM
GitHub · 今日

VoxCPM:无 Tokenizer 的多语言 TTS,30.4K Stars

OpenBMB 出品 / 无 Tokenizer 架构,直接从语音到语音 / 多语言 TTS 生成+创意语音设计+逼真语音克隆 / 今日 +418 Stars / 总 30,478 Stars / 开源

"无 Tokenizer"是语音生成领域一个重要的架构转向——跳过文本中间表示,让模型直接在声学空间工作。这意味着可以处理没有文字的语言、方言和情感表达。TTS 的"去文本化"类比于 LLM 的"去分词器化",都是让模型更贴近原始信号。
OpenMontage
GitHub · 今日

OpenMontage:开源 Agent 视频制作系统,12 管线 52 工具

全球首个开源智能体视频制作系统 / 12 条流水线+52 个工具+500+ Agent 技能 / 将 AI 编码助手变成完整视频制作工作室 / 今日 +98 Stars / 总 5,377 Stars / 开源

Agent 的"杀手级应用"不一定是编程或搜索——OpenMontage 证明视频制作可能是一个被低估的赛道。12 条管线、52 个工具、500+ 技能的规模说明:真正复杂的创作任务需要多 Agent 协作,而视频是天然的多步骤、多模态工作流。
arXiv · 本周

APEX:三层自进化 Agent 框架,健康分数 +90%

三层协同进化:L1 harness 补丁+L2 行为原则蒸馏+L3 工作流拓扑选择 / 在 Joe 生产级 Agent 上实测 / Health Score 0.570(基线 0.300,+90%)/ 仅需 4 次 LLM 调用(≈270s)在本地 32B 模型上运行 / 产出 6 条可复用原则

之前 Self-Harness 只优化 harness 层,APEX 证明三个维度必须同时进化——完美的 harness 配上糟糕的工作流照样失败。4 次 LLM 调用就完成一轮进化,成本极低,这让持续自进化在生产环境变得可行。Agent 的未来不是"一次调好",而是"一直在变"。