VOL · 8

把今天的 AI
一杯咖啡读完

每日精选 · 一手源优先 · 看见 AI 浪潮的真实方向

2026 / 05 / 27 · 周二

大 模 型
AlphaProof Nexus
Google DeepMind · arXiv · 今日

DeepMind AlphaProof Nexus 连破9道悬置56年数学难题

Gemini 驱动4层智能体架构(LLM + Lean形式化验证 + 进化算法) / 353个Erdős开放问题中解决9个 / OEIS 44个猜想获证 / 每题推理成本仅数百美元 / 证明代码全开源GitHub

从AlphaGo到AlphaProof,DeepMind的路线很一致:选一个人类引以为傲的认知领域,然后正面强攻。这次的关键不是"AI算得快",而是Lean编译器锁死了幻觉——每一步推理都过形式化验证,证明即正确。当数学证明的成本从"天才数十年"降到"模型几百美元",数学研究的经济学被改写了。
OpenAI CEO 演讲 · 今日

Altman 公开承认:AI 就业末日判断大错特错

视频出席澳大利亚联邦银行悉尼会议 / "我原以为AI会淘汰更多初级白领职位,但实际并未发生" / 尝试用AI代回Slack和邮件,AI回复"这是Sam的AI"后深感人类互动不可替代 / "不会出现业内部分公司所鼓吹的就业末日"

OpenAI CEO自己打自己的脸,比任何第三方反驳都更有分量。但话要说全:汇丰、渣打、亚马逊确实在因AI裁减部分岗位,Altman的修正更多是"末日没那么快"而非"末日不存在"。真正值得注意的是他承认"高阶人工监管仍将是关键"——这不是乐观,是换了一种焦虑。
科创板日报 · 今日

Qwen3.7-Max 编程全球第二,阿里云 QwenCloud + MuleRun 出海

CodeArena 得分1541全球第二(仅次于Claude) / 可持续运行35小时 + 1000次工具调用 / QwenCloud 海外官网 + Agent产品MuleRun + Qoder编程平台 + QoderWork桌面智能体 / 阿里云CTO李飞飞:Agent爆发让模型调用量指数级增长

阿里这步棋的看点不在模型本身,而在"云 + Agent + 出海"的组合拳。Qwen3.7-Max的CodeArena第二是技术证明,MuleRun是Agent编排层,QwenCloud是海外分发渠道。三层叠加,阿里在做的不只是卖模型API,是在搭Agent时代的云计算基础设施。
A G E N T
Alipay AI Payment
中新社 / 上海证券报 · 今日

支付宝 AI 支付破3亿笔,发布全球首个 TokenPay 与 AI 钱包

3亿笔AI智能体支付 / 支持95%通用智能体框架(千问 / Claude Code / Hermes Agent等) / 全球首个TokenPay服务 + AI钱包 / AI付 + AI收 + TokenPay + AI钱包四件套 / MiniMax、阶跃星辰深度合作

3亿笔不是演示,是真实交易量——Agent已经在一个消费级支付网络里跑起来了。TokenPay的思路值得细看:Token作为AI服务的计量单位,支付从"人按按钮"变成"Agent消耗Token"。这把AI商业化的账本从"订阅制"推到了"流量计费制"。
开 源
MiniCPM5-1B
GitHub / 面壁智能 · 今日

MiniCPM5-1B 开源:1B参数超所有2B模型,0.5GB跑在手机上

AA-Index得分17.9超越所有2B以下模型 / INT4量化后仅0.5GB / MMLU-Pro 48.85 / MATH-500 91.60 / LCB-Pro 22.68 / 自研ForgeTrain AI训练框架 / 权重 + 数据集 + 部署方案全开源

智能密度定律的又一个注脚:3.5个月前2B参数的SOTA,现在1B就能超越。0.5GB跑在浏览器里,意味着端侧AI不再需要"先下载再等"——打开即用,才是AI桌宠能活下来的前提。但1B模型的天花板也很明显,工具调用和长上下文场景依然受限。
推 理 优 化
MiMo V2.5
新浪科技 · 今日

小米 MiMo V2.5 Pro 降价99%,Token量翻5-8倍对标 DeepSeek

API永久降价最高99% / 不再区分上下文窗口长度 / 同等价格下Token用量提升5-8倍 / 与DeepSeek V4 Pro同价位 / 小米Q1研发投入90亿元同比增33.4%

昨天DeepSeek V4-Pro降价,今天小米MiMo跟进——API价格战已从"谁先降"进入"谁敢降得更深"。小米的底气来自手机生态:MiMo跑在端侧不需要云端推理成本,API降价是在用硬件利润补贴软件定价。但纯API玩家没有这层缓冲,利润挤压下能撑多久是个问号。
前 沿 技 术

Frontier · GitHub & arXiv 周边

Cybersecurity Skills
GitHub · 本周

Anthropic Cybersecurity Skills:754个AI Agent安全技能,覆盖5大框架

10.2K Stars / 754个结构化网络安全技能 / 映射到5大安全框架 / 兼容Claude Code / Copilot / Codex CLI / Cursor / Gemini CLI等20+平台 / Python / 今日+880 Stars

把安全知识从"人读文档"变成"Agent可调用技能"——这是Agent从"能干活"到"能干安全活"的关键一步。754个技能覆盖5大框架,Agent不需要安全团队逐条写规则,而是直接从技能库按需取用。但安全是对抗性领域,昨天的技能明天可能就过时,技能库的维护节奏才是真正的考验。
dograh
GitHub · 本周

dograh:MCP原生语音AI平台,自托管替代 Vapi 和 Retell

3.3K Stars(+399 today) / 开源语音AI平台 / 自托管替代Vapi / Retell / 支持Speech-to-Speech和LLM / STT / TTS组合 / 可视化工作流构建器 / MCP原生 + 电话系统集成

语音AI的痛点从来不是模型能力,是部署成本和集成复杂度。dograh把语音pipeline做成MCP原生,意味着Agent可以直接"开口说话"而不需要单独对接语音服务。自托管对隐私敏感场景是刚需,但语音实时性的SLA保障在自托管环境下是个不小挑战。
arXiv · 本周

Skill Programs:让 LLM Agent 从过往经验中提取可复用技能

arXiv 2605.17734 / 从Agent历史交互中自动提取可复用技能程序(Skill Programs) / 技能以程序化形式存储,可跨任务调用 / 解决长链条任务中Agent重复犯同样错误的问题 / 新加坡南洋理工大学

现有Agent的技能要么是人工设计,要么靠in-context learning临时凑合。Skill Programs让Agent把"踩过的坑"沉淀成可执行的程序——本质上是Agent的元学习能力。从tool-use到skill-creation,这是Agent路线从"用工具"到"造工具"的必经之路。