明豪

注册日期:2025-12-10
访问总量:1648232次

menu网络日志正文menu

DeepSeek越强,开源生态越繁荣,跑在国产芯片上的应用越多!


发表时间:+-

所以现在的情况是DeepSeek越强,开源生态越繁荣,跑在国产芯片上的应用越多,英伟达CUDA的锁定效应就越弱。CUDA锁定效应越弱,国产芯片越有机会迭代。国产芯片越迭代,DeepSeek下一版就能在更强的国产算力上跑。这是第一个正反馈。

DeepSeek每发布一个新模型,华尔街就重估一次“英伟达未来还有没有暴利”。股价一哆嗦,幻方量化靠着做空或波动套利,一把收割。收割来的钱不需要分给股东,不需要买游艇,反手砸进DeepSeek的下一轮研发。这又是一个正反馈。

国家看到了“打掉美国最后一个技术壁垒”的战略价值,于是默许幻方在金融市场上那些野蛮的套利动作。政策包容换来国产半导体生态的加速度,加速度换来更低的卡脖子风险。三方各取所需,DeepSeek在中间既当发动机又当方向盘。

所以,DeepSeek不是什么民族英雄式的单点突破。它是一台算法效率驱动的三层正反馈机器。底层是思维链和推理时计算改变了模型的“代谢率”,中层是开源和低价抽干了闭源巨头的血,外层是资本市场的负反馈为母体持续供血。这三层咬合在一起,比任何单一技术突破或者商业策略都要命。

好了,前面的你都看懂了以后就能理解为什么Deepseek是个核弹级产品...它从算法、生态和商业三个层面彻底瓦解了美国为维持AI霸权所构筑的三大壁垒 - 算力壁垒、生态壁垒和成本壁垒。

DeepSeek最大的冲击,是挑战了“AI性能由高端算力数量决定”的信条。DeepSeek R1模型仅用数百万美元成本,就实现了媲美OpenAI的GPT-5的推理能力。

当西方巨头在堆参数时,DeepSeek凭借混合专家模型(MoE) 和DSA稀疏注意力等架构突破,大幅降低了对显存和算力的需求。这并非简单的“以小博大”,而是证明通过更高效的算法和工程优化,同样可以缩短与巨头成本之间的巨大鸿沟。这也解释了为何其V4-Flash模型的API调用价格,仅为GPT-5.5的百分之一。

DeepSeek的真正战略价值,在于它主动完成了最艰难、也最危险的一步 - “去英伟达化”。为了实现从英伟达CUDA生态向华为昇腾CANN架构的底层迁移,DeepSeek-V4不惜硬生生推迟了半年才发布。得益于这种坚持,其V4系列模型在发布首日(Day 0),就完成了对华为昇腾、寒武纪、摩尔线程等8家国产芯片的全量适配。

在所有冲击中,这一击最为釜底抽薪。美国政策制定者原本希望,通过对华禁售Nvidia高性能芯片,从根本上锁死中国的AI能力。DeepSeek的成功,让这一战略遭遇了全面失败。

2025年以后AI大模型有了一个巨大的进步,就是推理能力(thinking mode),aka思维链(CoT)和 推理时计算。

从LLM的本质出发,理解思维链(CoT)和推理时计算的本质,这里的关键在于看清一个底层矛盾:Transformer的固定深度与复杂问题所需的多步推理之间的不匹配。

Transformer每一层都做一次非线性变换,整个模型有固定层数 LL(如64层)。

自回归生成时,每产生一个token,模型只做一次深度为 LL 的前向传播,且不能回头。

这意味着:对于任何需要超过 LL 步逻辑链才能解决的问题,标准LLM只能“猜”,因为它没有机制在生成下一个词之前打草稿、做中间计算。

思维链的本质:用“时间”换取“深度”,也就是说思维链强制模型将推理过程显式地展开成多个token。

把原本需要单次深度 DD 的计算,拆解为 mm 个深度 LL 的步骤,并通过上下文传递中间状态。整体有效计算深度从 LL 变为 m×Lm×L(因为每一步都基于上一步的输出重新进Transformer)。

但思维链仍是一维的线性链,一步错步步错。推理时计算更进一步可以进行并行扩展(Self-Consistency)和串行扩展+搜索(Tree-of-Thoughts)。

于是结果就变成了: 推理质量≈模型固有能力+f(推理计算量)

其中 f 在初期近似于对数线性增长,直到边际收益递减。推理时计算就是把传统Scaling Law中的 “训练计算量” 部分转移到 “推理计算量” 上,用更灵活的推理时间换取模型体积或训练成本的降低。

思维链和推理时计算,本质上是用算法的时空复杂度(O(步骤数))来补偿模型架构的表达深度限制(O(层数))。它们把LLM从“固定深度的直觉机器”变成了“可编程的符号计算引擎” - 虽然底层仍是神经网络,但行为上已经开始逼近通用图灵机。

思维链和推理时计算扩展了LLM的表达能力(从短路输出到多步展开),但没有改变其统计本质(无意图、无因果、无自我、无价值、无目标创造)。但人的思考是第一人称的、有意识的、价值驱动的、主动构建的过程;LLM的“推理”是第三人称的、盲目的、模式驱动的、被动响应的过程。两者之间存在不可逾越的本质鸿沟,CoT只是让鸿沟看起来窄了一点。

有了这个锚点你就能理解,模型的能力主要来自参数量、数据量和计算量的统一扩展,这就相当于你的价值观有了客观可观事实根基,而不是纯粹的跟风。

从这点来客观比较中美大模型的话:

参数量:美国模型(OpenAI, Anthropic之类)占优(GPT-5据称已达12.8万亿),中国模型在追赶。

数据量:公开信息较少,但是中国的数据量天然比美国多得多。

训练算力:美国暂时占优,中国受制于芯片禁令,国产算力替代是关键。

美国头部模型更像是在“豪赌”规模(Scaling Law),坚信“大力出奇迹”,中国模型则更像是追求“事半功倍”的效率(Efficiency Law)。

这样,你在看中美AI竞赛的时候多少才能看点门道,而不是纯烧Token凑热闹

理解LLM算法本质和Transformer架构是接触AI的“锚点”,因为它为一切上层实践(提示词工程、Agent开发、RAG、微调等)提供了统一的因果坐标系。

没有这个锚点,你很容易在现象层面迷失 - 要么对模型寄予不切实际的期望,要么在它出错时陷入玄学式的归因(“模型太笨”“提示词魔法不够”)。

然后卖课的就盯上你了。


从LLM算法本质来看,这段话切中了当前大模型应用中最容易被忽视的核心矛盾:模型的生成能力不等于人类的思考能力,而模型的输出质量根本上取决于输入信号的结构化程度。

LLM的本质是一个自回归概率模型,给定上文,预测下一个token的概率分布。它的每次生成都依赖于前面的上下文,而上下文完全由你提供。这意味着:

- 模型没有内在的“目标”或“意图”,它只是在拟合训练数据中学到的条件概率。

- 你给的信息越碎片、模糊、情绪化(比如vibe coding那种“随便做点什么好看的东西”),模型的条件分布就越分散,结果就越随机、平庸甚至荒谬。

这正是为什么提示词工程强调“深度、广度、颗粒度” - 深度对应因果链的清晰(消除歧义),广度对应相关条件的覆盖(减少缺失维度),颗粒度对应指令的原子性与可验证性(让每一步的概率峰足够尖锐)。这些本质上是在降低模型生成时的熵,让最可能的token序列恰好是你想要的。

LLM不是上帝,因为它没有意图和规划;但它可以被驱使,因为它的条件概率对结构化的输入极其敏感。你没想明白就干这在算法上等于主动放弃对条件分布的控制,这在任何工程领域都是灾难,在概率生成模型中尤其如此。

你每写一个提示词,本质上都是一次对条件概率的逆向工程,如果模型给出了A而不是你想要的B → 说明你提供的条件中,A的概率更高。你要追问:是哪个词误导了?缺少了什么约束?是否存在冲突的指令?这个过程迫使你把自己的模糊直觉拆解为明确、有序、无歧义的语言,这正是深度思考与精确表达的核心训练。

如果你vibe coding是在让模型替你去模糊化,结果就是你变得越来越依赖随机输出,自己的认知结构却越发松散。换句话说不是你在驾驭AI,是AI在把你变成傻逼。

提示词工程也好,SKILL也罢,各种对LLM的约束尝试,最大的启发不是我们如何调教“无所不知”的大模型,而是让我们自己先学会思考,深度、广度和颗粒度--而这一点和vibe coding这种上头式幼稚不负责的“方法”天生矛盾的。

你可以vibe anything,但不要试图在没想明白之前动手。否则,你以为你播下的是龙种,但最后收获的只能是跳蚤。

靠天吃饭、撒播、不闻不问,那是蛮夷的农耕。而正确的方法应该是华夏农耕的方式:了解天地人,通晓历法节气,了解作物习性,扬长避短,因地制宜。

LLM不是无所不知的上帝,它只是个无所不能的疯孩子。

约束它,然后驱使它---前提是我们知道我们自己要(干)什么,先了解我们自己。

即使做不出什么成熟的产品,但经过实践,我们的思考能力和表达能力会得到极大地提高。




浏览(69)
thumb_up(0)
评论(0)
  • 当前共有0条评论