VOL · 6

把今天的 AI
一杯咖啡读完

每日精选 · 一手源优先 · 看见 AI 浪潮的真实方向

2026 / 05 / 25 · 周日

大 模 型
DeepSeek V4-Pro 永久降价
每日经济新闻 · 今日

DeepSeek V4-Pro 永久降至原价 1/4,全球大模型 API 价格新低

5月31日结束2.5折优惠后永久降至原定价1/4 / 每百万tokens输入(缓存命中)0.025元 / 输入(缓存未命中)3元 / 输出6元 / 创全球大模型API价格新低

从"限时优惠"到"永久折扣",DeepSeek在价格战里打了最难的一张牌——不是打折,是改价。V4-Pro竞争力本就不弱,降价更多是抢开发者生态而非保生存。代价是毛利率:纯靠规模效应能否覆盖?这是每一家中国大模型公司都要回答的问题。
Google Gemini Science
Google 官方博客 · 本周

Google Gemini 一日两登 Nature,AI 科学家覆盖假设到实验全链路

ERA 系统自动编写专家级科学软件 / Co-Scientist 多智能体架构持续生成+批判科研假设 / 测试时计算量扩展假设质量持续提升 / 两篇Nature同日上线 / Gemini for Science工具集同步发布

Google的打法很清晰:用Nature同行评审给工具链做信用背书。ERA解决"实验怎么跑",Co-Scientist解决"问题怎么问",恰好覆盖科研链条两端。但AI科学的真正瓶颈不在假设生成,在验证——Nature论文能不能被独立复现,才是试金石。
GPT-5.6 Sonnet 4.8
QQ 新闻综合 · 今日

GPT-5.6 与 Claude Sonnet 4.8 或6月同台,多模型密集更新窗口将至

Claude Code npm更新意外泄露Sonnet 4.8引用(约512000行内部调试source map)/ GPT-5.6出现iris-alpha/ember-alpha/beacon-alpha多变体标签 / Sonnet 4.8重点升级视觉+代码+指令遵循 / Gemini 3.5 Pro同期窗口

模型发布节奏从"各自为王"变成"默契同台"——头部厂商的发布时间越来越像手机厂商的发布会撞期。Sonnet 4.8跳过4.7直接升级,说明Anthropic在Agent场景上开始激进;GPT-5.6多变体暗示OpenAI在拆分推理和生成路径。6月会是今年第二个密集发布窗口。
A G E N T
Claude 双记忆系统
36氪 · 今日

Claude 双记忆系统首次曝光:文件记忆 + Conway 永续 Agent

双模记忆系统(经典记忆+文件记忆Memory Files)/ Dreams预览版自动整理记忆 / Conway Agent 7×24h永续运行 / 记忆架构上线以来最大规模翻新

从"无状态聊天"到"有记忆的助手"到"永不下线的Agent"——Anthropic三步跳的关键一跃。文件记忆把Claude从"对话"拉到"工作流",Conway把Agent从"被调用"变成"一直在线"。但永不下线也意味着持续消耗Token,账单逻辑从"按次"变成"按月"——对企业是习惯改变,对个人是成本考验。
推 理 优 化
华为 AI 数据中心
Huawei 官方 · 今日

华为发布 AI 数据中心全栈方案:行业首推 KV Cache 存储卡,TTFT 降 90%

Paris IDI Forum 2026发布 / 行业首个异构计算Context Memory Storage (CMS) / PB级共享KV cache池 / TTFT降低90% / 推理准确率提升30% / 3+1 AI数据平台 / xPU 1:10细粒度分片 / Nexent Agent平台自然语言生成Agent / 开发时间缩短80%

华为的路径和其他云厂商不同——从存储和芯片层往上打,而非从模型层往下。CMS本质上是把KV cache从GPU显存卸载到专用存储,解决长上下文推理的显存瓶颈。1:10 xPU分片意味着一张卡可以服务多个推理任务,资源利用率大幅提升。这不是模型层的创新,是基础设施层的创新——而基础设施层的壁垒往往比模型层更持久。
融 资
智东西 / The Information · 昨日

宁德时代拟参投 DeepSeek 首轮,100 亿美元估值 450 亿

融资规模约100亿美元(约700亿人民币)/ 投前估值约450亿美元 / 宁德时代计划参与 / 京东、网易也在洽谈 / 国家大基金、腾讯、IDG均在商议 / 梁文锋承诺继续开发开源模型 / 预计6月内完成

宁德时代出现在AI融资方名单里,信号比金额更值得关注——电池厂投大模型,本质是锁定算力基础设施的能源需求。450亿美元估值vs开源路线:不卖模型卖推理,靠规模效应和成本优势换市场。宁德时代的参与说明AI产业链的上下游整合已经开始——不只是"做模型的"和"用模型的",还有"给模型供电的"。
前 沿 技 术

Frontier · GitHub & arXiv 周边

ruflo
GitHub · 本周

ruflo:Claude 多智能体编排平台,49.5K Stars,Swarm 自学习

Agent编排平台 / 多智能体Swarm部署+自学习群体智能 / RAG集成 / 原生Claude Code + Codex集成 / 5月新增17,886 Stars / 企业级架构 / 开源

Agent从"单兵作战"到"蜂群协作"——ruflo代表的是多智能体编排的工程化方向。自学习群体智能是亮点:Swarm不是简单并行,而是Agent之间互相优化。但多Agent系统的调试和可观测性仍是行业痛点,49K Stars说明了需求,不代表问题已解决。
pentest-ai
GitHub · 本周

pentest-ai:205 工具安全渗透 MCP Server,v0.15.1 加固生产级安全

205个安全工具wrapper + 17个专项Agent + 60个OWASP Top 10探针 / v0.15.1新增strict_scope/intensity=safe/rate_limit/bearer auth / Juice Shop 63.24%捕获率(43/68) / CLI+MCP双模式 / 本地运行无云依赖

把渗透测试变成MCP服务——安全工具正式进入Agent工具链。200+工具暴露给LLM也意味着攻击面成倍放大,strict_scope和intensity=safe恰好说明这个矛盾的尖锐性。这不是"AI做安全",是"AI操作安全工具"——边界在哪里,v0.15.1的三个新安全选项已经在回答。
arXiv · 本周

SkillMaster:LLM Agent 自主技能掌握,ALFWorld +8.8% / WebShop +9.3%

反事实效用评估技能编辑决策 / DualAdv-GRPO分别估计任务+技能编辑优势 / ALFWorld成功率+8.8% / WebShop +9.3% / 从"使用技能"到"自主创建+修改+选择技能" / 5月9日提交arXiv

现有Agent框架的技能都是人工设计或外部注入的,SkillMaster让Agent自己创建、修改和选择技能——本质上是Agent的元学习能力。反事实评估是关键创新:不只问"这个技能有没有用",而问"如果没有这个技能会怎样"。从tool-use到self-improving,这是Agent路线上必须跨越的一步。