AI 日报 · 2026-07-01

大模型

Claude Sonnet 5 落地：Opus 能力腰斩价，tokenizer 暗涨 35%

6-30 发布，定位「便宜版 Opus」/ 能力逼近 Opus 4.8 / API 首发价输入 2 美元/输出 10 美元(每百万 token) / 9-1 恢复 3/15 美元 / 新 tokenizer 同文本比 4.6 多 1.0–1.35 倍 token / 默认开启网络安全防护

Sonnet 5 的真问题不是"价格香不香"，是"实际账单降不降"。新 tokenizer 让同样的输入多烧 30% 起步，缓存命中不命中的差距会进一步放大。Anthropic 把 Opus 能力下放看似诚意，但配合 IPO 前夜的收入冲刺，更像是把开发者从 Opus 试验田迁徙到 Sonnet 商业化的转化漏斗。

Anthropic 官方 · 昨日 →

Claude Science 科研工作台：60+ 预置连接器，原生渲染 3D 蛋白

6-30 同日发布，AI 工作流产品而非新模型 / 60+ 科学技能连接器(基因组/蛋白质组/结构生物学等) / 原生渲染 3D 蛋白结构+基因组浏览器+化学结构 / 可审计历史(代码+环境+消息记录) / 最多 50 个 AI for Science 项目每项 3 万美元 credits

Claude Science 表面是「AI for Science」的情怀，本质是 Anthropic 在 IPO 前争夺高 LTV 客户：药企/医院/UCSF 等机构对可审计性、复现性、数据驻留的支付意愿，是普通 API 客户的几十倍。把 Cursor 之类的「写代码副驾驶」做到科研垂直版本，路径和 Notion 抢 Confluence 一致。

新华网 · 昨日 →

美团 LongCat-2.0：5 万国产卡训出 1.6T MoE，OpenRouter 全球前三

6-30 发布 MoE 1.6T 总参/激活 48B(动态 33-56B) / 原生 1M 上下文 LSA 稀疏注意力 / SWE-bench Pro 59.5 超过 GPT-5.5(58.6) / OpenRouter 总调用量全球前三 / 5 万张国产算力卡训练峰值，零 NVIDIA GPU

美团的 "匿名 Owl Alpha 先上线两个月再亮身份" 是大模型发布学的漂亮案例——靠真实调用量证明产品力，远比刷分 benchmark 难。但真正值得关注的是 "5 万国产卡训出万亿参数" 这件事本身：模芯协同的工程能力终于在公开 benchmark 上过线，下一步是看推理成本能否压到商业化水位。

A G E N T

环球市场播报 · 昨日 →

AWS 砸 10 亿美元设前线派驻工程部，正面硬刚 OpenAI/Anthropic

6-30 AWS 宣布成立前线派驻工程部(FDE) / 10 亿美元投入 / FDE 直接驻场客户企业做 AI 落地 / OpenAI/Anthropic 此前已联合银行/PE/咨询机构布局同类业务 / 概念源自军工软件 Palantir 十余年前

FDE 这个岗位被 Palantir 验证了十几年，最近被三家云厂 + 两家头部模型厂同时抢，本质是 AI 落地的"最后一公里"问题——客户买到的不是模型，是"把模型塞进自己工作流的能力"。AWS 这 10 亿美元不是砸模型，是砸"驻场"——卖的不是云资源，是解决方案。这条赛道最后会变成咨询公司还是新的 SaaS 形态，取决于谁能先把交付标准化。

融资

财联社 · 昨日 →

Etched 隐身结束：8 亿融资 + 10 亿订单，Transformer 芯片 20× H100

6-30 结束隐身，融资累计 8 亿美元(12 月那轮 5 亿估值 50 亿) / 客户合同超 10 亿美元 / 投资方：Jane Street(累计 1 亿+)/Hudson River Trading/Thiel/Hinton/李飞飞/卡帕西 / Sohu 芯片台积电 N4P 一次性 A0 流片成功 / 单 8 卡服务器 Llama 70B 50 万 token/秒，H100 同配置仅 2.5 万

Etched 的赌注清晰到极致：把 transformer 写死进硅里。GPU 在 transformer 上 30-40% 的利用率，专用 ASIC 90%，20× 性能差距听起来夸张，本质是 "把通用计算变成 ASIC" 这个老故事在 AI 时代的重演。问题是它跑不了 DeepSeek V4 和 Qwen3-235B-Moe，赌的是 "transformer 永远赢"——一个合理但不便宜的赌注。

前沿技术

Frontier · GitHub & arXiv 周边

GitHub · 昨日 +515 ⭐ →

Strix：AI Agent 渗透测试，Docker 沙箱 + 真实 PoC，OWASP Top10 覆盖

usestrix/strix GitHub Trending / Apache 2.0 / 28K+ Stars 昨日 +515 / 多代理 Graph of Agents(侦察/漏洞利用/后期) / HTTP 拦截代理+浏览器自动化+Python 沙箱 / 覆盖 OWASP Top10 + 业务逻辑缺陷 / PR 阶段拦截 + 自动生成可合并修复 PR

传统 SAST 工具的"扫描+误报+人工复审"三段式正在被 Agent 颠覆。Strix 真正在意的不是检测率，是"能不能跑出可工作的 PoC"——这恰好是 LLM 擅长的事(理解代码逻辑+生成 exploit)，也是传统规则引擎永远做不到的事。但安全工具的双刃性也明显：开源 + 易用 = 任何人都能拿去做黑盒测试，法律和伦理边界是项目方明确写了但很难真正守住的。

GitHub · 今日 +387 ⭐ →

OmniRoute：231+ AI 服务统一网关，MCP/A2A 协议原生支持

diegosouzapw/OmniRoute / 8.5K Stars 今日 +387 / 统一端点接入 231+ AI 服务商(50+ 免费) / 支持 MCP(模型上下文协议)+A2A(智能体间通信)双协议 / RTK+Caveman 堆叠压缩节省 15-95% token / 17 种自动组合策略含熔断器+智能回退

OpenRouter 的开源版 + MCP/A2A 双协议适配，定位很清晰：解决"AI 工具链碎片化"。50+ 免费服务 + 智能回退对个人开发者是福音，但对企业来说更值得看的是"统一网关"这个抽象——如果未来企业内部 AI Agent 必须同时调用内部 API + 外部 SaaS，这种 gateway 模式会变成标准件。OmniRoute 现在是开源版 OpenRouter，三年内可能变成开源版 Kong for AI。

arXiv · 2 天前 →

Neural Procedural Memory：训练免费框架，Agent 用激活向量取代 RAG

arXiv 2606.29824 / 中科院信工所/北大 6-29 提交 / 隐式激活引导(Implicit Activation Steering) 框架 / 用 steering vectors 在激活空间编码程序性技能 / 训练免费，对比显式文本指令有互补优势 / 4 个 Agent benchmark 验证

RAG 是把"记忆"塞进 prompt，NPM 是把"技能"刻进模型激活层。两条路径本质都在解决 LLM Agent 的"长期记忆"问题，但 NPM 的优势是规避了 RAG 的 "text-action disconnect"（文本指令激活不了正确神经通路）。如果验证可靠，未来 Agent 不再需要外挂知识库，直接靠内化技能就能执行复杂任务——这是 Agent 路线从"工具调用"到"技能内化"的关键一步。