不出意料-美国开始找DeepSeek茬儿了
现在世界上人工智能界只剩下两大玩家,美国和中国,其他国家都已经出局。 法国不服气,前不久推出一款自己的AI模型,叫做 露茜(Lucie),虽然名字很浪漫,但这位法国美女明显胸比脑大,居然算不出 5 x(2+3)等于多少,还很认真地回答用户的调侃”Cow's egg"是什么东东。结果这款AI模型三天就狼狈下架。 欧洲其他国家和日韩连试一试的勇气都没有,只能仰视擂台上中美这两位泰森级选手互撕。
美国科技有七巨头,人们把它们叫做 Magnificent 7,. Alphabet、亚马逊、苹果、Meta、微软、英伟达和特斯拉,Mag 7 市值总共17万亿美元, 7个老板的个人财富总值8000亿美元。这几家公司研发的语言大模型(LLM) ,包括Google的Germini, 微软的OpenAi,Meta 的Llama, Anthropic的Cloud Sonnet等代表了最前沿的AI技术,可这些模型都是烧钱的祖宗,烧钱的速度连华尔街大佬都喊“吃不消”, 模型训练费用动辄几亿几十亿, 关键是虽然取得了惊人的发展,但依然停留在AI阶段,无法达到人类真正渴望的AGI的水平。AI和AGI的区别在于前者只能模仿人脑,后者AI能够生成人类不具有的智慧。
DeepSeek的出现彻底改变了AI的发展模式,DeepSeek推出的语言大模型 V3 和 推理大模型 R1的训练成本只占美国大模型训练成本的5%-10%,这就大大地降低了AI的门槛,把原本富国巨贾才玩得起的AI游戏变成了大家都可参与的科技竞赛。即使是华尔街对于DeepSeek的出现也持正面态度, DeepSeek让华尔街大佬有一种被被硅谷大佬戏弄的感觉,成了冤大头。DeepSeek R1刚刚出炉没有两天,有人就披露了一份Meta Llama研发部门的内部邮件,邮件说DeepSeek的整个学习成本和我们团队经理的薪水差不多,而我们团队这样薪水的经理有几十个。大家准备好,“变革”即将来临。傻瓜都知道,所谓的变革就是裁员。
DeepSeek掀起了一阵AI旋风,也激起了硅谷的仇恨。OpenAI公开指责DeepSeek涉嫌“蒸馏”ChatGPT知识,违背了该语言大模型的服务条款, 声称要配合美国司法部解决这个问题。 白宫数字货币和人工智能“沙皇” Sacks 表示:“......over the next few months is our leading AI companies taking steps to try and prevent distillation ... That would definitely slow down some of these copycat models。” Sacks把DeepSeek模型蔑称为“copycat"。福克斯经济节目支持人,极端仇中的Bartiromo在节目里嘲笑道:"DeepSeek所谓的500万学习成本完全是wildly made up.” 各种阴谋论也纷纷出笼,有的披露DeepSeek所属的杭州Quant量化公司其实储备了五万片英伟达最先进的H100芯片, 这些芯片无疑被用在DeepSeek的研发之中,而且成本没有被计算在内,有的说DeepSeek推出的初版即终极版的做法十分反常,国家操纵痕迹明显。。。
OpenAI CEO Sam Altman是个天才,ChatGPT就是由他领导的团队开发的,但他却是极具争议性的人物,有人说他什么都干得出来,他的妹妹指控少年时曾遭受过Altman的猥亵强奸,Altman完全否认这一指控,她正式提告法庭。提告背后的真实动机是什么我们不得而知,很可能是为了钱, 但妹妹指控哥哥性侵是非常严重的指控,即使在美国这样见怪不怪的国家也不常见。他现在带头攻击DeepSeek通过蒸馏技术窃取OpenAI模型知识说明他没有底线,语言大模型靠的就是公域数据,ChatGPT攫取各类文献,科学研究报告,政治经济研究分析数据时,也没有一家家去先征得作者或出版商的同意, ChatGPT反刍出来的AI报告就是这些公域数据的聚集。 现在你altman出来指责DeepSeek窃取了你的知识产权,等于是把公域数据当成自己的知识产权了,这有点儿搞笑。Altman指责DeepSeek后面的动机不言而喻,DeepSeek动了他的奶酪,投资者如果以DeepSeek的成本来衡量OpenAI,非但OpenAI的市值会立刻暴跌,整个AI业的泡沫也立刻被戳破。
所谓的蒸馏技术是指所谓的“学生小模型”通过提问向“老师大模型”汲取思维方式的学习过程,这种方法能够使得学生模型的智能无限地接近老师模型的智能,但却无法超越老师模型的智能,DeepSeek也许会通过对话获得其他大模型的思考模式,启动自己模型神经元的激活函数,但DeepSeek语言模式有其独特性和结构优化性,这才是它的验算和coding方面超越ChatGPT的根本原因,有AI学者表示两个大模型之间的data scrubbing 在技术上既不可行,也不划算。DeepSeek如果想全盘抄袭ChatGPT,就必须scrub ChatGPT的所有公域数据,这明显不是划算的买卖。
DeepSeek是开源模型,它的思考模式和验算过程是公开透明的,它的研究报告公开表明560万是模型训练成本,这可以通过token的使用量来验证,无法作假。至于它拥有的英伟达高阶H100芯片数量是个未证实的猜测,可能有,也可能没有。但这没有改变DeepSeek已经成为世界顶级语言模型的事实,法国没有受到制裁,可以任意使用高阶芯片创建大模型,"露茜小姐"就是英伟达H100芯片做成的,可却笨的出奇。
短短几天,网络上已经出现了几十个通过学习DeepSeek建成的语言模型,DeepSeek没有指责这些模型窃取自己的AI知识,这些学生模型恒可能将来会演变成和ChatGPT或DeepSeek一样的顶级模型,造福于人类,这是好事。通过打压对手来保持自己的优势只有在对手处于劣势之际才有效,如果对手和自己一样强大,打压只能延缓对手的鹊起,不能增强自己的优势。美国前商业部长雷蒙多在临下台之间这种做法称之为“a fool's errand." 雷蒙多本人就是打压中国的打手。
据说美国现任商业部长鲁特尼克正在考虑把对华芯片制裁范围扩大到H-20. H-20芯片的算力只有H-100的五分之一,是H-800 (DeepSeek模型使用的芯片)的四分之一。 如果真的如此,没准儿中国下一代语言模型会在H-20芯片上再创奇迹。