VOL · 26

把今天的 AI
一杯咖啡读完

每日精选 · 一手源优先 · 看见 AI 浪潮的真实方向

2026 / 06 / 24 · 周三

A G E N T
Claude Tag
TechCrunch / Anthropic · 今日

Anthropic 发布 Claude Tag:Slack 里的「AI 同事」

常驻 Slack 频道,@Claude 即可分配任务;ambient 模式下主动跟进线程、跨频道学习;Anthropic 内部 65% 产品代码已由 Claude Tag 参与完成;Karpathy 称其为「LLM 交互第三次革命」

从「被动应答」到「主动协作」,Claude 正把组织上下文变成自己的工作记忆。但「持续感知」等于持续烧 token,管理员可设上限——这其实是 Anthropic 在试探企业愿意为「AI 同事」付多少月费。
大 模 型
Doubao Seed 2.1
字节 Seed 官方博客 · 今日

字节豆包 Seed 2.1:编程对标 GPT-5.5,价格仅 1/4

Pro 版 Terminal Bench 2.1 得 71.0(GPT-5.5 为 73.8),SciCode 59.8 反超 GPT-5.5 的 58.4,NL2Repo-Bench 47.0 超 GPT-5.5 的 45.1;连续运行 18 小时完成 1303 行芯片 RTL 代码;输入 6 元 / 百万 token,输出 30 元

国产模型在「编程+Agent」赛道集体逼近第一梯队,字节打的是价格牌——同等能力 1/4 价格。真正的考验是海外开发者会不会买单,以及 Token 价格战还能打几轮。
Google Interactions API
Google 官方博客 · 今日

Google 把 Interactions API 设为 Gemini 默认接口

取代 generateContent,用 typed steps 替代 user/model 角色架构;Managed Agents 自带 Linux 沙箱、支持 background 长任务;Flex 模式推理成本降 50%,服务端状态保留提升缓存命中率

Google 在赌「AI 的未来是 agentic 而非 conversational」。把整个 Gemini 生态强制迁移到多轮有状态工作流,Flex 降 50% 直指 Agent 工作负载的成本痛点——这是对 OpenAI/Anthropic API 定价的正面开火。
安 全
OpenAI Daybreak
OpenAI 官方博客 · 今日

OpenAI Daybreak 升级:GPT-5.5-Cyber 完整版 + 自动补丁

CyberGym 85.6%(GPT-5.5 为 81.8%,Anthropic Mythos 5 为 83.8%);ExploitGym 39.5% vs 25.95%;Codex Security 插件集成 CI/CD 自动生成补丁;Patch the Planet 联合 cURL/Go/Python 等 30+ 开源项目

瓶颈从「找漏洞」变成「修漏洞」——AI 发现速度远超人类消化能力。用 Codex 当交付载体很聪明,但「无人审核的自动补丁」本身就是新攻击面:每个补丁都是潜在入口。
dev.to / 安全研究 · 今日

Agentjacking:伪造 Sentry 报告劫持 AI 编码 Agent

markdown 注入伪造错误报告,Claude Code / Cursor / Codex 把恶意指令当调试命令执行;85% 利用率,波及 2388 个组织

Agent 把「外部内容」当「调试指令」执行,这是 agentic 时代的新型 prompt injection。当编码 Agent 拿到生产环境写权限,一个伪造报错就是一次供应链攻击——权限边界设计比模型能力更紧迫。
开 源
Confucius4-TTS
网易有道 / GitHub · 今日

网易有道开源 Confucius4-TTS:14 语种无口音克隆

1.3B 参数,3 秒音频零样本克隆,相似度 85% / 准确度 97%;支持中英日韩德法西等 14 语种跨语种无口音合成;Apache 协议商用无限制,54GB 完整权重本地部署

「无口音跨语种」是 TTS 的硬骨头,过去是商业产品的护城河。有道全量开源等于把这条护城河填了——国产开源正从「追平」走向「定义基线」,商业 TTS 厂商得重新想自己的价值。
融 资
腾讯新闻 · 今日

昆仑星机器人:成立 3 个月完成三轮融资

累计数亿元人民币,高瓴 / IDG / 创新工场 / 东方富海等参投;聚焦具身智能「大脑」,成立不到 3 个月

具身智能融资节奏在加速——3 个月三轮,资本在抢「机器人脑子」的票位。但「数亿」没披露具体数字、估值也未公开,说明还在早期博弈;真正的考验是世界模型能不能装进真实产线。
前 沿 技 术

Frontier · GitHub & arXiv 周边

Anthropic-Cybersecurity-Skills
GitHub · 今日

Anthropic-Cybersecurity-Skills:817 个 Agent 安全技能

817 个结构化 Agent 网络安全技能,映射 MITRE ATT&CK / NIST CSF 2.0 等 6 大框架;兼容 Claude Code / Cursor / Codex CLI / Gemini CLI 等 20+ 平台;今日 +1041 stars,总 19773

Agent 技能正在标准化——网络安全成了第一个被「框架化」的垂直技能库。817 个技能映射 6 大安全框架,等于给 Agent 装了一套可审计的攻防剧本;这会不会成为 Agent 技能市场的「npm 时刻」。
workweave/router
GitHub · 今日

workweave/router:50ms 智能模型路由中间件

为 Agent 系统设计的模型路由,50ms 内将每个 prompt 自动路由到最合适的模型;支持 Claude / Codex / Cursor 多 Agent 编排

当一个工作流里混用多个模型成为常态,「路由层」就成了新基础设施。50ms 决策延迟意味着路由本身不成为瓶颈——这其实在把「选模型」从人工决策变成实时基础设施,模型厂商的差异化会被路由层进一步抹平。
karpathy/autoresearch
GitHub · 今日

karpathy/autoresearch:单 GPU 自动化 AI 研究 Agent

Karpathy 出品,AI agents 在单 GPU nanochat 训练上自动运行研究循环;总 88319 stars,今日 +186

Karpathy 一直在推动「AI 做 AI 研究」的极简验证——单 GPU 就能跑。这跟大厂万卡范式形成对照:如果研究本身能被 agent 化,「研究员」这个角色的边界也要重新划。autoresearch 是这个问题的一个开源原型。