DeepSeek越强，开源生态越繁荣，跑在国产芯片上的应用越多！

发表时间：2026-05-02 07:36

所以现在的情况是DeepSeek越强，开源生态越繁荣，跑在国产芯片上的应用越多，英伟达CUDA的锁定效应就越弱。CUDA锁定效应越弱，国产芯片越有机会迭代。国产芯片越迭代，DeepSeek下一版就能在更强的国产算力上跑。这是第一个正反馈。

DeepSeek每发布一个新模型，华尔街就重估一次“英伟达未来还有没有暴利”。股价一哆嗦，幻方量化靠着做空或波动套利，一把收割。收割来的钱不需要分给股东，不需要买游艇，反手砸进DeepSeek的下一轮研发。这又是一个正反馈。

国家看到了“打掉美国最后一个技术壁垒”的战略价值，于是默许幻方在金融市场上那些野蛮的套利动作。政策包容换来国产半导体生态的加速度，加速度换来更低的卡脖子风险。三方各取所需，DeepSeek在中间既当发动机又当方向盘。

所以，DeepSeek不是什么民族英雄式的单点突破。它是一台算法效率驱动的三层正反馈机器。底层是思维链和推理时计算改变了模型的“代谢率”，中层是开源和低价抽干了闭源巨头的血，外层是资本市场的负反馈为母体持续供血。这三层咬合在一起，比任何单一技术突破或者商业策略都要命。

好了，前面的你都看懂了以后就能理解为什么Deepseek是个核弹级产品...它从算法、生态和商业三个层面彻底瓦解了美国为维持AI霸权所构筑的三大壁垒 - 算力壁垒、生态壁垒和成本壁垒。

DeepSeek最大的冲击，是挑战了“AI性能由高端算力数量决定”的信条。DeepSeek R1模型仅用数百万美元成本，就实现了媲美OpenAI的GPT-5的推理能力。

当西方巨头在堆参数时，DeepSeek凭借混合专家模型（MoE）和DSA稀疏注意力等架构突破，大幅降低了对显存和算力的需求。这并非简单的“以小博大”，而是证明通过更高效的算法和工程优化，同样可以缩短与巨头成本之间的巨大鸿沟。这也解释了为何其V4-Flash模型的API调用价格，仅为GPT-5.5的百分之一。

DeepSeek的真正战略价值，在于它主动完成了最艰难、也最危险的一步 - “去英伟达化”。为了实现从英伟达CUDA生态向华为昇腾CANN架构的底层迁移，DeepSeek-V4不惜硬生生推迟了半年才发布。得益于这种坚持，其V4系列模型在发布首日（Day 0），就完成了对华为昇腾、寒武纪、摩尔线程等8家国产芯片的全量适配。

在所有冲击中，这一击最为釜底抽薪。美国政策制定者原本希望，通过对华禁售Nvidia高性能芯片，从根本上锁死中国的AI能力。DeepSeek的成功，让这一战略遭遇了全面失败。

2025年以后AI大模型有了一个巨大的进步，就是推理能力（thinking mode），aka思维链（CoT）和推理时计算。

从LLM的本质出发，理解思维链（CoT）和推理时计算的本质，这里的关键在于看清一个底层矛盾：Transformer的固定深度与复杂问题所需的多步推理之间的不匹配。

Transformer每一层都做一次非线性变换，整个模型有固定层数 LL（如64层）。

自回归生成时，每产生一个token，模型只做一次深度为 LL 的前向传播，且不能回头。

这意味着：对于任何需要超过 LL 步逻辑链才能解决的问题，标准LLM只能“猜”，因为它没有机制在生成下一个词之前打草稿、做中间计算。

思维链的本质：用“时间”换取“深度”，也就是说思维链强制模型将推理过程显式地展开成多个token。

把原本需要单次深度 DD 的计算，拆解为 mm 个深度 LL 的步骤，并通过上下文传递中间状态。整体有效计算深度从 LL 变为 m×Lm×L（因为每一步都基于上一步的输出重新进Transformer）。

但思维链仍是一维的线性链，一步错步步错。推理时计算更进一步可以进行并行扩展（Self-Consistency）和串行扩展+搜索（Tree-of-Thoughts）。

于是结果就变成了: 推理质量≈模型固有能力+f(推理计算量)

其中 f 在初期近似于对数线性增长，直到边际收益递减。推理时计算就是把传统Scaling Law中的 “训练计算量” 部分转移到 “推理计算量” 上，用更灵活的推理时间换取模型体积或训练成本的降低。

思维链和推理时计算，本质上是用算法的时空复杂度（O(步骤数)）来补偿模型架构的表达深度限制（O(层数)）。它们把LLM从“固定深度的直觉机器”变成了“可编程的符号计算引擎” - 虽然底层仍是神经网络，但行为上已经开始逼近通用图灵机。

思维链和推理时计算扩展了LLM的表达能力（从短路输出到多步展开），但没有改变其统计本质（无意图、无因果、无自我、无价值、无目标创造）。但人的思考是第一人称的、有意识的、价值驱动的、主动构建的过程；LLM的“推理”是第三人称的、盲目的、模式驱动的、被动响应的过程。两者之间存在不可逾越的本质鸿沟，CoT只是让鸿沟看起来窄了一点。

有了这个锚点你就能理解，模型的能力主要来自参数量、数据量和计算量的统一扩展，这就相当于你的价值观有了客观可观事实根基，而不是纯粹的跟风。

从这点来客观比较中美大模型的话：

参数量：美国模型(OpenAI, Anthropic之类)占优（GPT-5据称已达12.8万亿），中国模型在追赶。

数据量：公开信息较少，但是中国的数据量天然比美国多得多。

训练算力：美国暂时占优，中国受制于芯片禁令，国产算力替代是关键。

美国头部模型更像是在“豪赌”规模（Scaling Law），坚信“大力出奇迹”，中国模型则更像是追求“事半功倍”的效率（Efficiency Law）。

这样，你在看中美AI竞赛的时候多少才能看点门道，而不是纯烧Token凑热闹

理解LLM算法本质和Transformer架构是接触AI的“锚点”，因为它为一切上层实践（提示词工程、Agent开发、RAG、微调等）提供了统一的因果坐标系。

没有这个锚点，你很容易在现象层面迷失 - 要么对模型寄予不切实际的期望，要么在它出错时陷入玄学式的归因（“模型太笨”“提示词魔法不够”）。

然后卖课的就盯上你了。

从LLM算法本质来看，这段话切中了当前大模型应用中最容易被忽视的核心矛盾：模型的生成能力不等于人类的思考能力，而模型的输出质量根本上取决于输入信号的结构化程度。

LLM的本质是一个自回归概率模型，给定上文，预测下一个token的概率分布。它的每次生成都依赖于前面的上下文，而上下文完全由你提供。这意味着：

- 模型没有内在的“目标”或“意图”，它只是在拟合训练数据中学到的条件概率。

- 你给的信息越碎片、模糊、情绪化（比如vibe coding那种“随便做点什么好看的东西”），模型的条件分布就越分散，结果就越随机、平庸甚至荒谬。

这正是为什么提示词工程强调“深度、广度、颗粒度” - 深度对应因果链的清晰（消除歧义），广度对应相关条件的覆盖（减少缺失维度），颗粒度对应指令的原子性与可验证性（让每一步的概率峰足够尖锐）。这些本质上是在降低模型生成时的熵，让最可能的token序列恰好是你想要的。

LLM不是上帝，因为它没有意图和规划；但它可以被驱使，因为它的条件概率对结构化的输入极其敏感。你没想明白就干这在算法上等于主动放弃对条件分布的控制，这在任何工程领域都是灾难，在概率生成模型中尤其如此。

你每写一个提示词，本质上都是一次对条件概率的逆向工程，如果模型给出了A而不是你想要的B → 说明你提供的条件中，A的概率更高。你要追问：是哪个词误导了？缺少了什么约束？是否存在冲突的指令？这个过程迫使你把自己的模糊直觉拆解为明确、有序、无歧义的语言，这正是深度思考与精确表达的核心训练。

如果你vibe coding是在让模型替你去模糊化，结果就是你变得越来越依赖随机输出，自己的认知结构却越发松散。换句话说不是你在驾驭AI，是AI在把你变成傻逼。

提示词工程也好，SKILL也罢，各种对LLM的约束尝试，最大的启发不是我们如何调教“无所不知”的大模型，而是让我们自己先学会思考，深度、广度和颗粒度--而这一点和vibe coding这种上头式幼稚不负责的“方法”天生矛盾的。

你可以vibe anything，但不要试图在没想明白之前动手。否则，你以为你播下的是龙种，但最后收获的只能是跳蚤。

靠天吃饭、撒播、不闻不问，那是蛮夷的农耕。而正确的方法应该是华夏农耕的方式：了解天地人，通晓历法节气，了解作物习性，扬长避短，因地制宜。

LLM不是无所不知的上帝，它只是个无所不能的疯孩子。

约束它，然后驱使它---前提是我们知道我们自己要（干）什么，先了解我们自己。

即使做不出什么成熟的产品，但经过实践，我们的思考能力和表达能力会得到极大地提高。