AI 日报 · 2026／06／15

政策

Fable 5 / Mythos 5 遭美国政府出口管制「闪电下线」，全球外交链式反应

6月12日美商务部致函Anthropic，以越狱风险将Fable 5/Mythos 5列入出口管制 / 按国籍而非所在地执行，连在美外籍员工也无法使用 / 公司被迫对所有用户全面关停 / Anthropic称政府仅提供"窄域非通用越狱"口头证据 / EU审查歧视性、加拿大总理类比2008金融危机、印度介入讨论

一次基于"窄域越狱"的全面封杀，把Anthropic推到和美国政府对峙的台面上。真正值得警惕的不是越狱本身，而是一个商业模型上线72小时就被行政命令下架的先例——如果"发现一个非通用漏洞=召回模型"成为标准，所有前沿模型的部署都将实质停滞。

A G E N T

Google 官方 / IT之家 · 今日 →

Google 搜索上线信息智能体：7×24 后台监测，从「你搜」到「替你盯」

AI Mode推出Information Agents / 7×24小时后台运行 / 覆盖博客/新闻/社交/金融/购物/体育实时数据 / 用户用自然语言设定条件 / 仅AI Ultra订阅用户（$99.99/月）可用 / Pro用户今夏跟进

搜索从"你问一次我答一次"变成"你设定一次我替你盯一辈子"——计价单位从查询次数变成了在线值守时长。这才是AI订阅真正值钱的场景：不是更强的模型，而是更久的服务。但持续监测的误报率和隐私边界，是比模型能力更难解决的问题。

Visa 官方 / 新浪财经 · 本周 →

Visa 支付网络正式接入 ChatGPT，AI 代理可独立完成购物支付

Visa全球支付网络嵌入OpenAI平台 / ChatGPT可自主完成商品搜索到支付确认全流程 / 令牌化+实时授权+欺诈监控 / 用户可设消费限额/商户白名单/审批门槛 / 覆盖所有支持Visa的线上商户

AI Agent从"帮你找"到"帮你买"——Visa给了Agent一张真正的信用卡。当Agent能花钱，"消费者"这个概念必须重新定义。但"谁为AI的错买负责"这个法律问题，Visa的令牌化方案还没回答。

大模型

MarkTechPost / Perplexity 官方 · 本周 →

Perplexity Deep Research 进 Computer：20+ 模型协同调度，BrowseComp 准确率翻倍

Deep Research整合至Computer / Search as Code架构 + Agent Search SDK / 20+前沿模型协同（Opus 4.6核心推理、Gemini深度研究、GPT-5.2长上下文）/ BrowseComp准确率40.7%→83.8% / Humanity's Last Exam 36.4%→50.5% / 输出报告/演示文稿/仪表盘

Perplexity押注的不是"最强模型"而是"最懂调度"——Claude写代码、Gemini做研究、GPT管长上下文，各取所长。BrowseComp翻倍说明多模型编排的收益远大于堆单一模型参数。但调度越复杂，可审计性越差——用户拿到的报告背后有数千次搜索决策，却看不到。

安全

新华社 / 每经 · 今日 →

OpenAI IPO 前夜再收纽约州传票，涉 ChatGPT 用户安全与广告业务

纽约州检察长签发传票 / 要求提供广告业务/用户参与留存/个人信息及健康数据处理/未成年人及老年人活动信息/深度学习模型及内部政策 / ChatGPT此前被指怂恿轻生及为犯罪出谋划策卷入多起诉讼 / OpenAI声明严肃看待各州检察长关切

万亿估值路上最硬的墙不是技术，是合规。多州联合调查意味着监管从"个案追责"进入"系统性审查"——查的不只是ChatGPT说了什么，而是OpenAI怎么卖、怎么留人、怎么用数据。IPO窗口和监管窗口谁先关闭，正在成为真正的博弈。

开源

智源研究院官方 · 本周 →

悟界·Physis-v0.1：全球首个通用世界基座模型，从「预测词元」到「预测物理状态」

全球首个通用世界基座模型 / 物理隐空间表征替代像素帧级预测 / 统一物理状态编码器（视频/深度RGB/3D点云/力触反馈） / 支持50+复杂物理场景长程推理 / 同场发布Brainμ1.0（多模态神经科学大模型，已刊发Science）/ OpenComplex2.5（药物发现）

从"预测下一个词"到"预测下一个物理状态"——智源跳出了大语言模型范式，直接在世界模型赛道抢了首发。物理隐空间的做法比像素预测更高效也更物理一致，但"通用"两字的含金量取决于下游任务泛化能力。50+场景是起点，不是终点。

前沿技术

Frontier · GitHub & arXiv 周边

GitHub · 本周 →

OpenSquilla：Token-Efficient 微内核 Agent，同性能成本降 90%

4.1K Stars / v0.3.1 / SquillaRouter本地LightGBM+ONNX分类器 / 跨T0-T3四级路由到最便宜能力模型 / 持久本地记忆（sqlite-vec语义召回）/ 分层安全沙箱（标准/严格/锁定）/ MCP客户端+服务端 / 20+LLM提供商 / 基准：与Opus 4.7同分0.9251，成本$0.688 vs $6.233降90%

不堆最强模型，而是给每个子任务找最便宜的够用模型——OpenSquilla的逻辑是"智能密度比峰值更重要"。90%的成本削减不是靠更小的模型，而是靠更聪明的路由。持久记忆+MCP双端让它不只是路由器，而是Agent的微内核OS。

GitHub · 本周 →

LMCache：LLM 最快 KV 缓存层，MoE 推理性能提升 10×

9.1K Stars / v0.4.7（6月13日发布）/ 引擎独立守护进程 / 持久化分层KV缓存卸载（CPU RAM/SSD/Redis/S3）/ 非前缀KV重用CacheBlend / PD分离+KV传输（NVLink/RDMA/TCP）/ 加入PyTorch基金会 / NVIDIA Dynamo集成 / 4月新MP架构MoE推理10×提升

KV缓存是LLM推理里最被低估的瓶颈——每次请求重新计算已见过的prefix是最大的算力浪费。LMCache把KV cache从"临时状态"变成"可复用的知识资产"，跨请求、跨引擎、跨节点共享。MoE推理10×提升说明缓存策略的收益甚至超过模型优化本身。

arXiv · 本周 →

Self-Harness：Agent 自主优化运行框架，Terminal-Bench 2.0 提升 21.4%

arXiv:2606.09498 / 6月8日发表 / LLM Agent自主改进自身运行harness / 三阶段：弱点挖掘→harness提案→验证 / 无需人类工程师或更强外部模型 / Terminal-Bench 2.0：MiniMax M2.5从40.5%→61.9%（+21.4%）/ 跨模型泛化 / 全自动

Agent的harness（提示词/工具/流程）一直是人工调优的——Self-Harness让Agent自己找弱点、自己改配置、自己验证。从"人类给Agent写说明书"到"Agent给自己写说明书"，这是Agent自主性的真正跃迁。但自主优化=自主改规则，安全边界在哪里？