一文看懂中国DeepSeek！为何撼动硅谷科技股价

风传媒 2025-01-27 14:13

“Deepseek R1是我见过的最令人惊叹、最令人印象深刻的突破之一”、“这是AI的史普尼克（Sputnik）时刻。”引自川普的矽谷风险投资顾问马克·安德森（Marc Andreessen）

中国的人工智慧以及大型语言模型公司“深度求索”（DeepSeek）是2023年7月才由对冲基金“幻方量化”在浙江杭州创立的一间新创公司，不过这间公司去年底发表的DeepSeek-V3语言模型却技惊四座。因为该公司宣称，DeepSeek-V3的训练仅仅用了2048块辉达H800型GPU（针对中国市场的阉割低配版GPU）、运行55天变大功告成，训练耗资557.6万美元，评测成绩却能与GPT-4o、Claude 3.5-Sonnet等西方顶尖语言模型并驾齐驱，甚至在数学、程式码、自然语言推理等领域的性能超越了OpenAI o1正式版。

《华尔街日报》分析，这意味著美国政府的出口管制根本无法阻止中国AI技术的快速发展。

1月20日，DeepSeek推出了AI模型R1，这是一款为解决复杂问题而设计的专用模型。为川普（Trump）提供谘询的矽谷风险投资家马克·安德森（Marc Andreessen）在X上赞叹“这是最令人印象深刻的突破”。《纽时》认为，DeepSeek令矽谷赞叹与震动，不是因为这个中国的人工智慧语言模型干掉了西方或美国的语言模型，而是中国的AI公司使用了远少于西方AI公司的芯片数量进行研发，这甚至不是目前最先进的芯片，却能做出一个实力接近西方的AI模型。而且在某些情况下，甚至跳过了美国研发者认为不可或缺的步骤。

AI开发商Anthropic的首席执行官达里奥·阿莫代（Dario Amodei）去年曾表示，构建AI模型的成本在1亿至10亿美元之间，但DeepSeek只花了为560万美元，这个数字也不到科技巨头Meta训练其最新AI模型投入资金的十分之一。加上DeepSeek做的是开源模型，AI模型的软体程式码可免费获取。旧金山AI硬体公司Positron的联合创始人巴雷特·伍德赛德（Barrett Woodside）说，他和同事一直在热烈讨论DeepSeek，他们目前认为DeepSeek的唯一缺点是中国的言论管制，因为DeepSeek不会回答习近平的敏感问题，但由于程式完全开源，其他开发人员可以自由移除这项限制。

DeepSeek表示，无论最新的R1或者去年底发表的V3，表现都优于或接近西方领先的模型。截至上周六，这两个版本的DeepSeek在Chatbot Arena上均排名前十。Chatbot Arena是由加州大学伯克利分校（University of California, Berkeley）研究人员营运的评比平台，对聊天机器人的性能进行评级。目前位列第一的是Google的Gemini，DeepSeek的排名则超过了Anthropic的Claude以及伊隆·马斯克（Elon Musk）麾下xAI的Grok。

一文看懂中国DeepSeek！为何撼动硅谷科技股价

AI芯片目前被视为美中科技战的核心，所以辉达（Nvidia）才会那么炙手可热，美国政府也才会那么努力限制AI芯片的出口。但DeepSeek的表现美国的贸易限制显得如此无力，因为中国研究人员在被迫使用网上免费工具来发挥创造力，却仍能做出能力不亚于竞争对手表现的产品。风险投资公司Page One Ventures的投资人克里斯·尼科尔森（Chris Nicholson）说：“拥有600万美元资金的公司，在数量上远远多于有1亿美元或10亿美元资金的公司。”这也意味著，过去认为“只有掌握巨额资金、有本事大量购入AI尖端芯片的科技巨头才有能力发展AI”的观念，如今必须修正—即使是资源微不足道的组织或者企业，也能构建具有竞争力的系统。

DeepSeek的横空出世，也让日本芯片公司Disco Corp和辉达的合作伙伴爱德万测试（Advantest）27日分别下跌2.6%和8.8%，中国领先的芯片制造商中芯国际下跌2.9%。美国的隔夜交易显示，人工智慧风向球辉达（Nvidia）可能在周五收盘时开盘下跌。东京一位基金经理对日本科技股的突然下跌表示“肯定是DeepSeek的原因”，他对英国《金融时报》表示，市场正在重新调整观念，即人工智慧的硬体支出可能比目前的估计低得多。

虽然DeepSeek的旗舰模型是免费的，但用户将自己的应用程式连接到DeepSeek的模型需要收费，像是直接利用DeepSeek为客户提供AI答案的企业就要付费。《华尔街日报》指出，去年年初，DeepSeek将这项服务的定价降至远低于其他供应商的收费水准（毕竟他们不需要购买那么多昂贵的辉达AI芯片），在中国也拉开了大模型价格战的序幕。矽谷一家利用生成式AI预测财务回报的新创公司就表示，该公司去年9月从Anthropic的Claude模型跳槽DeepSeek后，发现两者性能相去不远，但DeepSeek的成本性能与Claude相似，但成本却只要四分之一。

《纽时》指出，研发AI模型的领先企业往往动用拥有1.6万个（甚至更多）芯片的超级电脑来训练AI，但DeepSeek只用了2000个次级阉割版芯片。乔治华盛顿大学助理教授杰佛瑞‧丁（Jeffrey Ding）表示，中国就是受到了芯片出口的严酷限制，迫使DeepSeek工程师“更有效地训练大模型，以让其仍有竞争力”。OpenAI前高管卡斯（Zack Kass）也表示，DeepSeek在美国限制下取得的进步，凸显了一个更广泛的教训：资源限制往往会激发创造力。

实用资讯