AI 日报 · VOL·26 · 2026-06-24

A G E N T

Claude Tag

TechCrunch / Anthropic · 今日 →

Anthropic 发布 Claude Tag：Slack 里的「AI 同事」

常驻 Slack 频道，@Claude 即可分配任务；ambient 模式下主动跟进线程、跨频道学习；Anthropic 内部 65% 产品代码已由 Claude Tag 参与完成；Karpathy 称其为「LLM 交互第三次革命」

从「被动应答」到「主动协作」，Claude 正把组织上下文变成自己的工作记忆。但「持续感知」等于持续烧 token，管理员可设上限——这其实是 Anthropic 在试探企业愿意为「AI 同事」付多少月费。

大模型

Doubao Seed 2.1

字节 Seed 官方博客 · 今日 →

字节豆包 Seed 2.1：编程对标 GPT-5.5，价格仅 1/4

Pro 版 Terminal Bench 2.1 得 71.0（GPT-5.5 为 73.8），SciCode 59.8 反超 GPT-5.5 的 58.4，NL2Repo-Bench 47.0 超 GPT-5.5 的 45.1；连续运行 18 小时完成 1303 行芯片 RTL 代码；输入 6 元 / 百万 token，输出 30 元

国产模型在「编程+Agent」赛道集体逼近第一梯队，字节打的是价格牌——同等能力 1/4 价格。真正的考验是海外开发者会不会买单，以及 Token 价格战还能打几轮。

Google Interactions API

Google 官方博客 · 今日 →

Google 把 Interactions API 设为 Gemini 默认接口

取代 generateContent，用 typed steps 替代 user/model 角色架构；Managed Agents 自带 Linux 沙箱、支持 background 长任务；Flex 模式推理成本降 50%，服务端状态保留提升缓存命中率

Google 在赌「AI 的未来是 agentic 而非 conversational」。把整个 Gemini 生态强制迁移到多轮有状态工作流，Flex 降 50% 直指 Agent 工作负载的成本痛点——这是对 OpenAI/Anthropic API 定价的正面开火。

安全

OpenAI Daybreak

OpenAI 官方博客 · 今日 →

OpenAI Daybreak 升级：GPT-5.5-Cyber 完整版 + 自动补丁

CyberGym 85.6%（GPT-5.5 为 81.8%，Anthropic Mythos 5 为 83.8%）；ExploitGym 39.5% vs 25.95%；Codex Security 插件集成 CI/CD 自动生成补丁；Patch the Planet 联合 cURL/Go/Python 等 30+ 开源项目

瓶颈从「找漏洞」变成「修漏洞」——AI 发现速度远超人类消化能力。用 Codex 当交付载体很聪明，但「无人审核的自动补丁」本身就是新攻击面：每个补丁都是潜在入口。

dev.to / 安全研究 · 今日 →

Agentjacking：伪造 Sentry 报告劫持 AI 编码 Agent

markdown 注入伪造错误报告，Claude Code / Cursor / Codex 把恶意指令当调试命令执行；85% 利用率，波及 2388 个组织

Agent 把「外部内容」当「调试指令」执行，这是 agentic 时代的新型 prompt injection。当编码 Agent 拿到生产环境写权限，一个伪造报错就是一次供应链攻击——权限边界设计比模型能力更紧迫。

开源

Confucius4-TTS

网易有道 / GitHub · 今日 →

网易有道开源 Confucius4-TTS：14 语种无口音克隆

1.3B 参数，3 秒音频零样本克隆，相似度 85% / 准确度 97%；支持中英日韩德法西等 14 语种跨语种无口音合成；Apache 协议商用无限制，54GB 完整权重本地部署

「无口音跨语种」是 TTS 的硬骨头，过去是商业产品的护城河。有道全量开源等于把这条护城河填了——国产开源正从「追平」走向「定义基线」，商业 TTS 厂商得重新想自己的价值。

融资

腾讯新闻 · 今日 →

昆仑星机器人：成立 3 个月完成三轮融资

累计数亿元人民币，高瓴 / IDG / 创新工场 / 东方富海等参投；聚焦具身智能「大脑」，成立不到 3 个月

具身智能融资节奏在加速——3 个月三轮，资本在抢「机器人脑子」的票位。但「数亿」没披露具体数字、估值也未公开，说明还在早期博弈；真正的考验是世界模型能不能装进真实产线。

前沿技术

Frontier · GitHub & arXiv 周边

Anthropic-Cybersecurity-Skills

GitHub · 今日 →

Anthropic-Cybersecurity-Skills：817 个 Agent 安全技能

817 个结构化 Agent 网络安全技能，映射 MITRE ATT&CK / NIST CSF 2.0 等 6 大框架；兼容 Claude Code / Cursor / Codex CLI / Gemini CLI 等 20+ 平台；今日 +1041 stars，总 19773

Agent 技能正在标准化——网络安全成了第一个被「框架化」的垂直技能库。817 个技能映射 6 大安全框架，等于给 Agent 装了一套可审计的攻防剧本；这会不会成为 Agent 技能市场的「npm 时刻」。

workweave/router

GitHub · 今日 →

workweave/router：50ms 智能模型路由中间件

为 Agent 系统设计的模型路由，50ms 内将每个 prompt 自动路由到最合适的模型；支持 Claude / Codex / Cursor 多 Agent 编排

当一个工作流里混用多个模型成为常态，「路由层」就成了新基础设施。50ms 决策延迟意味着路由本身不成为瓶颈——这其实在把「选模型」从人工决策变成实时基础设施，模型厂商的差异化会被路由层进一步抹平。

karpathy/autoresearch

GitHub · 今日 →

karpathy/autoresearch：单 GPU 自动化 AI 研究 Agent

Karpathy 出品，AI agents 在单 GPU nanochat 训练上自动运行研究循环；总 88319 stars，今日 +186

Karpathy 一直在推动「AI 做 AI 研究」的极简验证——单 GPU 就能跑。这跟大厂万卡范式形成对照：如果研究本身能被 agent 化，「研究员」这个角色的边界也要重新划。autoresearch 是这个问题的一个开源原型。