DeepSeek 与小米联手开创
国产大模型 API 定价战迎来爆发式高潮。继阿里 Qwen 团队宣布为旗舰模型 Qwen3.7-Max 开启最高减免 80% 输入成本的隐式缓存后,小米更直接宣布永久性降价,将自研大模型 MiMo-V2.5 系列(含 Pro 与标准版)的 API 定价与大模型领域的「价格屠夫」 DeepSeek V4 全系列进行了分毫不差的像素级对齐。
在旗舰型号上,输入缓存命中价格同为每百万 tokens 0.0036 美元,输入缓存未命中同为 0.435 美元,输出同为 0.87 美元。如此针尖对麦芒的定价动作,旨在拦截被 DeepSeek 极低成本吸引走的全球开发者流量,也彻底点燃了智能体 Agent 场景下的夺客大战。
流量版图的剧变源于 DeepSeek V4 凭借极致性价比对开发者市场的虹吸。在 4 月 24 日发布后的一个月里,DeepSeek V4 Flash 以 7.99 万亿 tokens 的消耗量直接登顶 OpenRouter 月度排行榜首,V4 Pro 也迅速跻身前十。极低的价格让开发者实现了 Token 自由,高频调用账单大幅下降。多位开发者晒出账单表明,在 Cursor 与 Claude Code 等高频读取代码库的 Agent 编程场景下,得益于 99% 的超高前缀缓存率,使用 Pro 模型运行两个多小时消耗 8000 万 tokens 仅需 4 元人民币,使用 Flash 模型单日消耗 278 亿 tokens 也仅需 160 美元。
面对流量流失,国内大厂的跟牌策略出现了分化。阿里 Qwen3.7-Max 虽推出自动隐式缓存,但缓存命中仅能提供 80% 的折扣,显式缓存也伴随 125% 的首次创建溢价与仅有 5 分钟的超短生命周期。虽然 Qwen3.7-Max 具体架构未完全公开,但高额创建溢价与短暂的驻留周期,在技术上暗示了系统缓存构建与保留开销较高,单位 Token 计算负荷与 KV 缓存显存占用限制了让利空间。
小米 MiMo-V2.5-Pro 能够直接对齐 DeepSeek 价格却不亏本,完全得益于先进的 MoE 降本堆栈。小米采用极致稀疏的混合专家网络 MoE 架构,旗舰级编程模型 MiMo-V2.5-Pro 在 1.02T 总参数中仅激活 42B,激活参数占比低至 4.1%,将计算负荷牢牢锁定在轻量级激活范围内。在注意力层,小米将 128-token 窗口的滑动窗口注意力 SWA 与全局注意力 GA 按 6:1 比例交错堆叠,使长上下文 KV 缓存开销降低近 7 倍,再配合多 Token 预测 MTP 模块将输出吞吐量提升约 3 倍,最终实现了极低的推理成本结构。
大模型进入长文本与智能体时代,成本已从单纯的显存限制演变为复杂的算法与系统协同工程。在 100 万 (1M) tokens 的长文本推理中,DeepSeek-V4 依靠压缩稀疏注意力 CSA 与强压缩注意力 HCA 双轨设计,将长文本推理算力 FLOPs 压低至上一代旗舰模型 V3.2 的 27 %,KV 缓存空间降至上一代模型的 10 %。
相较于坚持在所有层采用传统全注意力与 GQA 架构的模型,DeepSeek-V4 将原本需要多张 A100 显卡才能承载的百 GB 级单会话 KV 缓存,直接压缩至 2 GB 以内的消费级显存级别,空间降幅更是达到惊人的百倍以上。
小米则通过超低激活率 MoE(4.1% 激活率)、层间 6:1 窗口截断与 MTP 吞吐加速实现降本。两套工程方案均在算法层面实现了数量级的资源压榨,也宣告了智能体应用低成本普及时代的正式到来。

