AI 日报 · 2026/05/27

大模型

AlphaProof Nexus

Google DeepMind · arXiv · 今日 →

DeepMind AlphaProof Nexus 连破9道悬置56年数学难题

Gemini 驱动4层智能体架构（LLM + Lean形式化验证 + 进化算法） / 353个Erdős开放问题中解决9个 / OEIS 44个猜想获证 / 每题推理成本仅数百美元 / 证明代码全开源GitHub

从AlphaGo到AlphaProof，DeepMind的路线很一致：选一个人类引以为傲的认知领域，然后正面强攻。这次的关键不是"AI算得快"，而是Lean编译器锁死了幻觉——每一步推理都过形式化验证，证明即正确。当数学证明的成本从"天才数十年"降到"模型几百美元"，数学研究的经济学被改写了。

OpenAI CEO 演讲 · 今日 →

Altman 公开承认：AI 就业末日判断大错特错

视频出席澳大利亚联邦银行悉尼会议 / "我原以为AI会淘汰更多初级白领职位，但实际并未发生" / 尝试用AI代回Slack和邮件，AI回复"这是Sam的AI"后深感人类互动不可替代 / "不会出现业内部分公司所鼓吹的就业末日"

OpenAI CEO自己打自己的脸，比任何第三方反驳都更有分量。但话要说全：汇丰、渣打、亚马逊确实在因AI裁减部分岗位，Altman的修正更多是"末日没那么快"而非"末日不存在"。真正值得注意的是他承认"高阶人工监管仍将是关键"——这不是乐观，是换了一种焦虑。

科创板日报 · 今日 →

Qwen3.7-Max 编程全球第二，阿里云 QwenCloud + MuleRun 出海

CodeArena 得分1541全球第二（仅次于Claude） / 可持续运行35小时 + 1000次工具调用 / QwenCloud 海外官网 + Agent产品MuleRun + Qoder编程平台 + QoderWork桌面智能体 / 阿里云CTO李飞飞：Agent爆发让模型调用量指数级增长

阿里这步棋的看点不在模型本身，而在"云 + Agent + 出海"的组合拳。Qwen3.7-Max的CodeArena第二是技术证明，MuleRun是Agent编排层，QwenCloud是海外分发渠道。三层叠加，阿里在做的不只是卖模型API，是在搭Agent时代的云计算基础设施。

A G E N T

Alipay AI Payment

中新社 / 上海证券报 · 今日 →

支付宝 AI 支付破3亿笔，发布全球首个 TokenPay 与 AI 钱包

3亿笔AI智能体支付 / 支持95%通用智能体框架（千问 / Claude Code / Hermes Agent等） / 全球首个TokenPay服务 + AI钱包 / AI付 + AI收 + TokenPay + AI钱包四件套 / MiniMax、阶跃星辰深度合作

3亿笔不是演示，是真实交易量——Agent已经在一个消费级支付网络里跑起来了。TokenPay的思路值得细看：Token作为AI服务的计量单位，支付从"人按按钮"变成"Agent消耗Token"。这把AI商业化的账本从"订阅制"推到了"流量计费制"。

开源

MiniCPM5-1B

GitHub / 面壁智能 · 今日 →

MiniCPM5-1B 开源：1B参数超所有2B模型，0.5GB跑在手机上

AA-Index得分17.9超越所有2B以下模型 / INT4量化后仅0.5GB / MMLU-Pro 48.85 / MATH-500 91.60 / LCB-Pro 22.68 / 自研ForgeTrain AI训练框架 / 权重 + 数据集 + 部署方案全开源

智能密度定律的又一个注脚：3.5个月前2B参数的SOTA，现在1B就能超越。0.5GB跑在浏览器里，意味着端侧AI不再需要"先下载再等"——打开即用，才是AI桌宠能活下来的前提。但1B模型的天花板也很明显，工具调用和长上下文场景依然受限。

推理优化

MiMo V2.5

新浪科技 · 今日 →

小米 MiMo V2.5 Pro 降价99%，Token量翻5-8倍对标 DeepSeek

API永久降价最高99% / 不再区分上下文窗口长度 / 同等价格下Token用量提升5-8倍 / 与DeepSeek V4 Pro同价位 / 小米Q1研发投入90亿元同比增33.4%

昨天DeepSeek V4-Pro降价，今天小米MiMo跟进——API价格战已从"谁先降"进入"谁敢降得更深"。小米的底气来自手机生态：MiMo跑在端侧不需要云端推理成本，API降价是在用硬件利润补贴软件定价。但纯API玩家没有这层缓冲，利润挤压下能撑多久是个问号。

前沿技术

Frontier · GitHub & arXiv 周边

Cybersecurity Skills

GitHub · 本周 →

Anthropic Cybersecurity Skills：754个AI Agent安全技能，覆盖5大框架

10.2K Stars / 754个结构化网络安全技能 / 映射到5大安全框架 / 兼容Claude Code / Copilot / Codex CLI / Cursor / Gemini CLI等20+平台 / Python / 今日+880 Stars

把安全知识从"人读文档"变成"Agent可调用技能"——这是Agent从"能干活"到"能干安全活"的关键一步。754个技能覆盖5大框架，Agent不需要安全团队逐条写规则，而是直接从技能库按需取用。但安全是对抗性领域，昨天的技能明天可能就过时，技能库的维护节奏才是真正的考验。

dograh

GitHub · 本周 →

dograh：MCP原生语音AI平台，自托管替代 Vapi 和 Retell

3.3K Stars（+399 today） / 开源语音AI平台 / 自托管替代Vapi / Retell / 支持Speech-to-Speech和LLM / STT / TTS组合 / 可视化工作流构建器 / MCP原生 + 电话系统集成

语音AI的痛点从来不是模型能力，是部署成本和集成复杂度。dograh把语音pipeline做成MCP原生，意味着Agent可以直接"开口说话"而不需要单独对接语音服务。自托管对隐私敏感场景是刚需，但语音实时性的SLA保障在自托管环境下是个不小挑战。

arXiv · 本周 →

Skill Programs：让 LLM Agent 从过往经验中提取可复用技能

arXiv 2605.17734 / 从Agent历史交互中自动提取可复用技能程序（Skill Programs） / 技能以程序化形式存储，可跨任务调用 / 解决长链条任务中Agent重复犯同样错误的问题 / 新加坡南洋理工大学

现有Agent的技能要么是人工设计，要么靠in-context learning临时凑合。Skill Programs让Agent把"踩过的坑"沉淀成可执行的程序——本质上是Agent的元学习能力。从tool-use到skill-creation，这是Agent路线从"用工具"到"造工具"的必经之路。