惊传中国爆红DeepSeek服务器“崩了”

世界新闻网 2025-01-26 10:04+-

  中国AI公司DeepSeek(深度求索)20日对外正式发表DeepSeek-R1模型,因性能与OpenAI最新的o1相媲美,引发轰动,传出连硅谷也震惊。 不过,“DeepSeek崩了”话题26日在中国社交媒体上引发讨论,有网友贴出屏幕截图显示,DeepSeek页面跳出“服务器)繁忙,请稍后再试”提示浮窗,直问:“是发生什么事了啊?”

  “DeepSeek崩了”话题26日下午登上微博热搜,众多网友分享DeepSeek屏幕截图,表示暂时无法使用服务。 网友留言纷纷提到服务器当机当下正在使用服务:“唉,我刚还在问股票啊”“服务器崩溃的时候,我还在让祂教我写诗。”也有网友不解表示,刚才还用的好好的。

  不过也有网友认为,DeepSeek本周因为评测结果追平美国硅谷企业OpenAI o1.但其开发成本却远远低于OpenAI、Google等所开发的模型,震惊AI业界,火爆全网,估计是使用人数过多,“访问人太多,服务器跟不上”“应该是全球访问太多了,超乎预期”“访问量太大了吧”。 也有网友黑色幽默地称,“被黑客攻击了吧,估计引起嫉妒了”“我没问什么敏感题啊”

  对于网友反映DeepSeek因服务器繁忙“崩了”,DeepSeek在26日下午回应证实此事,表示26日下午确实出现了局部服务波动,但问题在数分钟内得到解决。 DeepSeek并指,此次事件可能与新模型发布后的访问量激增有关,而官方状态页未将其标记为事故。

  DeepSeek-R1模型发布后,的确引发轰动。 新浪财经报道,截至26日下午近4点,DeepSeek在美区苹果App Store免费榜升至第六位,超越Google Gemini、Microsoft Copilot等美国科技公司的生成式AI产品。

  界面新闻指出,先前DeepSeek在美国地区榜单的排名并无特别突出表现,处于稳定上升阶段,但未进入前10名。 此次突然窜升,与其近期一系列突出表现有直接关系。

DeepSeek-R1模型发布后引发轰动,截至26日下午近4点,DeepSeek在美区苹果App Store免费榜升至第六位,超越Google Gemini、Microsoft Copilot等美国科技公司的生成式AI产品。 图/截自DeepSeek网站

  去年年底,DeepSeek推出开源模型DeepSeek-V3. 当时,聊天机器人竞技场(Chatbot Arena)数据显示,DeepSeek-V3在所有模型中排名第7.在开源模型中排第1.是全球前10个中性价比最高的模型。

  本月20日,DeepSeek又正式开源R1推理模型。 24日,DeepSeek-R1在Chatbot Arena综合榜单上排名第3.与OpenAI的顶尖推理模型o1并列。 在高难度提示词、代码和数学等技术性极强的领域,DeepSeek-R1拔得头筹; 在风格控制以及高难度提示词与风格控制结合的测试中,DeepSeek-R1均与o1 并列第1. 此外,Artificial-Analysis的初步基准测试结果显示,DeepSeek-R1在AI分析质量指数中取得第2高分,但价格却是o1的约三十分之一。

中国AI公司DeepSeek(深度求索)20日对外正式发表DeepSeek-R1模型后,引起轰动,但26日下午却传出服务器“崩了”而暂时无法使用,引起网友疯议。 图/取自微博

  • 最新评论
  • 破棉袄

    试用一下,感觉Deep Seek很不错, 问了一下Grok: DeepSeek是蒸馏,提取,浓缩其他现成的模型实现的吗? 回答: DeepSeek模型的开发确实涉及到蒸馏技术,但需要澄清的是,蒸馏并不是简单地提取或浓缩其他人的模型。以下是对DeepSeek模型蒸馏过程的解释: 1. 蒸馏技术:在机器学习中,模型蒸馏是一种从大型、复杂的“教师”模型中转移知识到较小、更简单的“学生”模型中的技术。DeepSeek使用这种方法,通过将来自更大、更复杂的DeepSeek-R1模型的知识转移到基于Qwen和Llama等开源模型的较小模型中,来创建高效且性能优异的模型。 2. 创新和应用:DeepSeek开创性地应用了强化学习(RL)来直接训练基础模型,而不仅仅依赖于监督微调(SFT)。然后,通过蒸馏技术,利用DeepSeek-R1生成的80万个样本来微调这些较小的开源模型,显著提升了这些小模型的推理能力。 3. 开源与创新:DeepSeek-R1及其蒸馏版本都是开源的,这意味着它们基于开源模型进行的改进和创新也是为了推动整个AI社区的发展,而不是简单地“提取”他人的工作。 因此,DeepSeek模型的开发是通过结合创新的训练方法和蒸馏技术来实现的,它不仅利用了其他模型的知识,还推进了这些模型在特定任务上的表现。然而,这个过程是基于对知识的转移和优化,而不是直接的提取或复制其他人的工作成果。

    屏蔽
  • 破棉袄

    我正在试DeepSeek,还能用,就是很慢。看来吹牛逼起到作用了,全球搞到不少用户,服务器计算资源不够了,扩容需要银子的。

    屏蔽
2