DeepSeek 与小米联手开创

发表时间：2026-06-06 23:40

国产大模型 API 定价战迎来爆发式高潮。继阿里 Qwen 团队宣布为旗舰模型 Qwen3.7-Max 开启最高减免 80% 输入成本的隐式缓存后，小米更直接宣布永久性降价，将自研大模型 MiMo-V2.5 系列（含 Pro 与标准版）的 API 定价与大模型领域的「价格屠夫」 DeepSeek V4 全系列进行了分毫不差的像素级对齐。

在旗舰型号上，输入缓存命中价格同为每百万 tokens 0.0036 美元，输入缓存未命中同为 0.435 美元，输出同为 0.87 美元。如此针尖对麦芒的定价动作，旨在拦截被 DeepSeek 极低成本吸引走的全球开发者流量，也彻底点燃了智能体 Agent 场景下的夺客大战。

流量版图的剧变源于 DeepSeek V4 凭借极致性价比对开发者市场的虹吸。在 4 月 24 日发布后的一个月里，DeepSeek V4 Flash 以 7.99 万亿 tokens 的消耗量直接登顶 OpenRouter 月度排行榜首，V4 Pro 也迅速跻身前十。极低的价格让开发者实现了 Token 自由，高频调用账单大幅下降。多位开发者晒出账单表明，在 Cursor 与 Claude Code 等高频读取代码库的 Agent 编程场景下，得益于 99% 的超高前缀缓存率，使用 Pro 模型运行两个多小时消耗 8000 万 tokens 仅需 4 元人民币，使用 Flash 模型单日消耗 278 亿 tokens 也仅需 160 美元。

面对流量流失，国内大厂的跟牌策略出现了分化。阿里 Qwen3.7-Max 虽推出自动隐式缓存，但缓存命中仅能提供 80% 的折扣，显式缓存也伴随 125% 的首次创建溢价与仅有 5 分钟的超短生命周期。虽然 Qwen3.7-Max 具体架构未完全公开，但高额创建溢价与短暂的驻留周期，在技术上暗示了系统缓存构建与保留开销较高，单位 Token 计算负荷与 KV 缓存显存占用限制了让利空间。

小米 MiMo-V2.5-Pro 能够直接对齐 DeepSeek 价格却不亏本，完全得益于先进的 MoE 降本堆栈。小米采用极致稀疏的混合专家网络 MoE 架构，旗舰级编程模型 MiMo-V2.5-Pro 在 1.02T 总参数中仅激活 42B，激活参数占比低至 4.1%，将计算负荷牢牢锁定在轻量级激活范围内。在注意力层，小米将 128-token 窗口的滑动窗口注意力 SWA 与全局注意力 GA 按 6:1 比例交错堆叠，使长上下文 KV 缓存开销降低近 7 倍，再配合多 Token 预测 MTP 模块将输出吞吐量提升约 3 倍，最终实现了极低的推理成本结构。

大模型进入长文本与智能体时代，成本已从单纯的显存限制演变为复杂的算法与系统协同工程。在 100 万 (1M) tokens 的长文本推理中，DeepSeek-V4 依靠压缩稀疏注意力 CSA 与强压缩注意力 HCA 双轨设计，将长文本推理算力 FLOPs 压低至上一代旗舰模型 V3.2 的 27 %，KV 缓存空间降至上一代模型的 10 %。

相较于坚持在所有层采用传统全注意力与 GQA 架构的模型，DeepSeek-V4 将原本需要多张 A100 显卡才能承载的百 GB 级单会话 KV 缓存，直接压缩至 2 GB 以内的消费级显存级别，空间降幅更是达到惊人的百倍以上。

小米则通过超低激活率 MoE（4.1% 激活率）、层间 6:1 窗口截断与 MTP 吞吐加速实现降本。两套工程方案均在算法层面实现了数量级的资源压榨，也宣告了智能体应用低成本普及时代的正式到来。