AI 日报 · 2026 年 5 月 25 日

大模型

每日经济新闻 · 今日 →

DeepSeek V4-Pro 永久降至原价 1/4，全球大模型 API 价格新低

5月31日结束2.5折优惠后永久降至原定价1/4 / 每百万tokens输入(缓存命中)0.025元 / 输入(缓存未命中)3元 / 输出6元 / 创全球大模型API价格新低

从"限时优惠"到"永久折扣"，DeepSeek在价格战里打了最难的一张牌——不是打折，是改价。V4-Pro竞争力本就不弱，降价更多是抢开发者生态而非保生存。代价是毛利率：纯靠规模效应能否覆盖？这是每一家中国大模型公司都要回答的问题。

Google 官方博客 · 本周 →

Google Gemini 一日两登 Nature，AI 科学家覆盖假设到实验全链路

ERA 系统自动编写专家级科学软件 / Co-Scientist 多智能体架构持续生成+批判科研假设 / 测试时计算量扩展假设质量持续提升 / 两篇Nature同日上线 / Gemini for Science工具集同步发布

Google的打法很清晰：用Nature同行评审给工具链做信用背书。ERA解决"实验怎么跑"，Co-Scientist解决"问题怎么问"，恰好覆盖科研链条两端。但AI科学的真正瓶颈不在假设生成，在验证——Nature论文能不能被独立复现，才是试金石。

QQ 新闻综合 · 今日 →

GPT-5.6 与 Claude Sonnet 4.8 或6月同台，多模型密集更新窗口将至

Claude Code npm更新意外泄露Sonnet 4.8引用（约512000行内部调试source map）/ GPT-5.6出现iris-alpha/ember-alpha/beacon-alpha多变体标签 / Sonnet 4.8重点升级视觉+代码+指令遵循 / Gemini 3.5 Pro同期窗口

模型发布节奏从"各自为王"变成"默契同台"——头部厂商的发布时间越来越像手机厂商的发布会撞期。Sonnet 4.8跳过4.7直接升级，说明Anthropic在Agent场景上开始激进；GPT-5.6多变体暗示OpenAI在拆分推理和生成路径。6月会是今年第二个密集发布窗口。

A G E N T

36氪 · 今日 →

Claude 双记忆系统首次曝光：文件记忆 + Conway 永续 Agent

双模记忆系统（经典记忆+文件记忆Memory Files）/ Dreams预览版自动整理记忆 / Conway Agent 7×24h永续运行 / 记忆架构上线以来最大规模翻新

从"无状态聊天"到"有记忆的助手"到"永不下线的Agent"——Anthropic三步跳的关键一跃。文件记忆把Claude从"对话"拉到"工作流"，Conway把Agent从"被调用"变成"一直在线"。但永不下线也意味着持续消耗Token，账单逻辑从"按次"变成"按月"——对企业是习惯改变，对个人是成本考验。

推理优化

Huawei 官方 · 今日 →

华为发布 AI 数据中心全栈方案：行业首推 KV Cache 存储卡，TTFT 降 90%

Paris IDI Forum 2026发布 / 行业首个异构计算Context Memory Storage (CMS) / PB级共享KV cache池 / TTFT降低90% / 推理准确率提升30% / 3+1 AI数据平台 / xPU 1:10细粒度分片 / Nexent Agent平台自然语言生成Agent / 开发时间缩短80%

华为的路径和其他云厂商不同——从存储和芯片层往上打，而非从模型层往下。CMS本质上是把KV cache从GPU显存卸载到专用存储，解决长上下文推理的显存瓶颈。1:10 xPU分片意味着一张卡可以服务多个推理任务，资源利用率大幅提升。这不是模型层的创新，是基础设施层的创新——而基础设施层的壁垒往往比模型层更持久。

融资

智东西 / The Information · 昨日 →

宁德时代拟参投 DeepSeek 首轮，100 亿美元估值 450 亿

融资规模约100亿美元（约700亿人民币）/ 投前估值约450亿美元 / 宁德时代计划参与 / 京东、网易也在洽谈 / 国家大基金、腾讯、IDG均在商议 / 梁文锋承诺继续开发开源模型 / 预计6月内完成

宁德时代出现在AI融资方名单里，信号比金额更值得关注——电池厂投大模型，本质是锁定算力基础设施的能源需求。450亿美元估值vs开源路线：不卖模型卖推理，靠规模效应和成本优势换市场。宁德时代的参与说明AI产业链的上下游整合已经开始——不只是"做模型的"和"用模型的"，还有"给模型供电的"。

前沿技术

Frontier · GitHub & arXiv 周边

GitHub · 本周 →

ruflo：Claude 多智能体编排平台，49.5K Stars，Swarm 自学习

Agent编排平台 / 多智能体Swarm部署+自学习群体智能 / RAG集成 / 原生Claude Code + Codex集成 / 5月新增17,886 Stars / 企业级架构 / 开源

Agent从"单兵作战"到"蜂群协作"——ruflo代表的是多智能体编排的工程化方向。自学习群体智能是亮点：Swarm不是简单并行，而是Agent之间互相优化。但多Agent系统的调试和可观测性仍是行业痛点，49K Stars说明了需求，不代表问题已解决。

GitHub · 本周 →

pentest-ai：205 工具安全渗透 MCP Server，v0.15.1 加固生产级安全

205个安全工具wrapper + 17个专项Agent + 60个OWASP Top 10探针 / v0.15.1新增strict_scope/intensity=safe/rate_limit/bearer auth / Juice Shop 63.24%捕获率(43/68) / CLI+MCP双模式 / 本地运行无云依赖

把渗透测试变成MCP服务——安全工具正式进入Agent工具链。200+工具暴露给LLM也意味着攻击面成倍放大，strict_scope和intensity=safe恰好说明这个矛盾的尖锐性。这不是"AI做安全"，是"AI操作安全工具"——边界在哪里，v0.15.1的三个新安全选项已经在回答。

arXiv · 本周 →

SkillMaster：LLM Agent 自主技能掌握，ALFWorld +8.8% / WebShop +9.3%

反事实效用评估技能编辑决策 / DualAdv-GRPO分别估计任务+技能编辑优势 / ALFWorld成功率+8.8% / WebShop +9.3% / 从"使用技能"到"自主创建+修改+选择技能" / 5月9日提交arXiv

现有Agent框架的技能都是人工设计或外部注入的，SkillMaster让Agent自己创建、修改和选择技能——本质上是Agent的元学习能力。反事实评估是关键创新：不只问"这个技能有没有用"，而问"如果没有这个技能会怎样"。从tool-use到self-improving，这是Agent路线上必须跨越的一步。