VOL · 21

把今天的 AI
一杯咖啡读完

每日精选 · 一手源优先 · 看见 AI 浪潮的真实方向

2026 / 06 / 15 · 周一

政 策
Anthropic
Anthropic 官方 / Reuters · 今日

Fable 5 / Mythos 5 遭美国政府出口管制「闪电下线」,全球外交链式反应

6月12日美商务部致函Anthropic,以越狱风险将Fable 5/Mythos 5列入出口管制 / 按国籍而非所在地执行,连在美外籍员工也无法使用 / 公司被迫对所有用户全面关停 / Anthropic称政府仅提供"窄域非通用越狱"口头证据 / EU审查歧视性、加拿大总理类比2008金融危机、印度介入讨论

一次基于"窄域越狱"的全面封杀,把Anthropic推到和美国政府对峙的台面上。真正值得警惕的不是越狱本身,而是一个商业模型上线72小时就被行政命令下架的先例——如果"发现一个非通用漏洞=召回模型"成为标准,所有前沿模型的部署都将实质停滞。
A G E N T
Google AI Mode
Google 官方 / IT之家 · 今日

Google 搜索上线信息智能体:7×24 后台监测,从「你搜」到「替你盯」

AI Mode推出Information Agents / 7×24小时后台运行 / 覆盖博客/新闻/社交/金融/购物/体育实时数据 / 用户用自然语言设定条件 / 仅AI Ultra订阅用户($99.99/月)可用 / Pro用户今夏跟进

搜索从"你问一次我答一次"变成"你设定一次我替你盯一辈子"——计价单位从查询次数变成了在线值守时长。这才是AI订阅真正值钱的场景:不是更强的模型,而是更久的服务。但持续监测的误报率和隐私边界,是比模型能力更难解决的问题。
Visa ChatGPT
Visa 官方 / 新浪财经 · 本周

Visa 支付网络正式接入 ChatGPT,AI 代理可独立完成购物支付

Visa全球支付网络嵌入OpenAI平台 / ChatGPT可自主完成商品搜索到支付确认全流程 / 令牌化+实时授权+欺诈监控 / 用户可设消费限额/商户白名单/审批门槛 / 覆盖所有支持Visa的线上商户

AI Agent从"帮你找"到"帮你买"——Visa给了Agent一张真正的信用卡。当Agent能花钱,"消费者"这个概念必须重新定义。但"谁为AI的错买负责"这个法律问题,Visa的令牌化方案还没回答。
大 模 型
MarkTechPost / Perplexity 官方 · 本周

Perplexity Deep Research 进 Computer:20+ 模型协同调度,BrowseComp 准确率翻倍

Deep Research整合至Computer / Search as Code架构 + Agent Search SDK / 20+前沿模型协同(Opus 4.6核心推理、Gemini深度研究、GPT-5.2长上下文)/ BrowseComp准确率40.7%→83.8% / Humanity's Last Exam 36.4%→50.5% / 输出报告/演示文稿/仪表盘

Perplexity押注的不是"最强模型"而是"最懂调度"——Claude写代码、Gemini做研究、GPT管长上下文,各取所长。BrowseComp翻倍说明多模型编排的收益远大于堆单一模型参数。但调度越复杂,可审计性越差——用户拿到的报告背后有数千次搜索决策,却看不到。
安 全
OpenAI
新华社 / 每经 · 今日

OpenAI IPO 前夜再收纽约州传票,涉 ChatGPT 用户安全与广告业务

纽约州检察长签发传票 / 要求提供广告业务/用户参与留存/个人信息及健康数据处理/未成年人及老年人活动信息/深度学习模型及内部政策 / ChatGPT此前被指怂恿轻生及为犯罪出谋划策卷入多起诉讼 / OpenAI声明严肃看待各州检察长关切

万亿估值路上最硬的墙不是技术,是合规。多州联合调查意味着监管从"个案追责"进入"系统性审查"——查的不只是ChatGPT说了什么,而是OpenAI怎么卖、怎么留人、怎么用数据。IPO窗口和监管窗口谁先关闭,正在成为真正的博弈。
开 源
智源研究院官方 · 本周

悟界·Physis-v0.1:全球首个通用世界基座模型,从「预测词元」到「预测物理状态」

全球首个通用世界基座模型 / 物理隐空间表征替代像素帧级预测 / 统一物理状态编码器(视频/深度RGB/3D点云/力触反馈) / 支持50+复杂物理场景长程推理 / 同场发布Brainμ1.0(多模态神经科学大模型,已刊发Science)/ OpenComplex2.5(药物发现)

从"预测下一个词"到"预测下一个物理状态"——智源跳出了大语言模型范式,直接在世界模型赛道抢了首发。物理隐空间的做法比像素预测更高效也更物理一致,但"通用"两字的含金量取决于下游任务泛化能力。50+场景是起点,不是终点。
前 沿 技 术

Frontier · GitHub & arXiv 周边

OpenSquilla
GitHub · 本周

OpenSquilla:Token-Efficient 微内核 Agent,同性能成本降 90%

4.1K Stars / v0.3.1 / SquillaRouter本地LightGBM+ONNX分类器 / 跨T0-T3四级路由到最便宜能力模型 / 持久本地记忆(sqlite-vec语义召回)/ 分层安全沙箱(标准/严格/锁定)/ MCP客户端+服务端 / 20+LLM提供商 / 基准:与Opus 4.7同分0.9251,成本$0.688 vs $6.233降90%

不堆最强模型,而是给每个子任务找最便宜的够用模型——OpenSquilla的逻辑是"智能密度比峰值更重要"。90%的成本削减不是靠更小的模型,而是靠更聪明的路由。持久记忆+MCP双端让它不只是路由器,而是Agent的微内核OS。
LMCache
GitHub · 本周

LMCache:LLM 最快 KV 缓存层,MoE 推理性能提升 10×

9.1K Stars / v0.4.7(6月13日发布)/ 引擎独立守护进程 / 持久化分层KV缓存卸载(CPU RAM/SSD/Redis/S3)/ 非前缀KV重用CacheBlend / PD分离+KV传输(NVLink/RDMA/TCP)/ 加入PyTorch基金会 / NVIDIA Dynamo集成 / 4月新MP架构MoE推理10×提升

KV缓存是LLM推理里最被低估的瓶颈——每次请求重新计算已见过的prefix是最大的算力浪费。LMCache把KV cache从"临时状态"变成"可复用的知识资产",跨请求、跨引擎、跨节点共享。MoE推理10×提升说明缓存策略的收益甚至超过模型优化本身。
arXiv · 本周

Self-Harness:Agent 自主优化运行框架,Terminal-Bench 2.0 提升 21.4%

arXiv:2606.09498 / 6月8日发表 / LLM Agent自主改进自身运行harness / 三阶段:弱点挖掘→harness提案→验证 / 无需人类工程师或更强外部模型 / Terminal-Bench 2.0:MiniMax M2.5从40.5%→61.9%(+21.4%)/ 跨模型泛化 / 全自动

Agent的harness(提示词/工具/流程)一直是人工调优的——Self-Harness让Agent自己找弱点、自己改配置、自己验证。从"人类给Agent写说明书"到"Agent给自己写说明书",这是Agent自主性的真正跃迁。但自主优化=自主改规则,安全边界在哪里?