Open AI 是闭源的还是开源的?

发表时间：2025-01-31 11:15

刚刚查的，说Open AI是闭源的。这就有点懵了, 怎么说DeepSeek是偷它的，黑客进去的？

也不知查到的对还是不对。

当前共有3条评论
XYZ2012 回复四同：
12:22
如此看来，“最可能的情况是通过 API 蒸馏或从公开渠道收集 GPT 生成的数据来训练自己的模型”。如果是这样的话， OpenAI应该很清楚DeepSeek有没有购买它的 API 访问权限。至于公开渠道收集 GPT 生成的数据，如果属实就是属于吃相难看一点吧？
屏蔽举报回复
白草：
11:50
这个问题一直是开源软件的难题。全部开源不能挣钱，无法持续。openAI 早期也是开源，但后来要挣钱就把最新的成果改成封闭。elon musk 就因此而起诉sam altman。骂他是骗子。deepseek 现在也是开源挣了名声，也没有挣钱的可靠途径。
屏蔽举报回复
四同：
11:34
这里是CharGPT 对你问题的回答：
关于 DeepSeek 是否窃取 OpenAI 数据进行模型蒸馏的问题，目前并没有确凿证据证明 DeepSeek 直接盗取了 OpenAI 的数据或模型权重。
但是，有几种可能的方式可以让闭源模型（如 OpenAI 的 GPT）间接影响其他开源或闭源模型的训练：
1. 通过 API 进行模型蒸馏
DeepSeek 或其他团队可以合法购买 OpenAI 的 API 访问权限，然后利用蒸馏技术训练自己的模型。这通常通过以下方式进行：
让 GPT-4 生成大量高质量的对话、代码、推理数据；使用这些数据来训练自己的模型，使其模仿 GPT-4 的风格和能力。
如果 DeepSeek 采用了这种方式，而违反了 OpenAI 的使用条款（如用 API 数据来训练竞争产品），则可能涉及合约违约或法律风险，但并不一定是“偷窃”。
2. 通过用户反馈或“灰色手段”收集数据
某些公司可能会利用爬取社交媒体、论坛、代码库等公开数据，间接学习 GPT-4 的输出风格。例如：
用户在 Twitter、Reddit、知乎等平台分享与 ChatGPT 交互的内容；AI 竞赛、论文、社区项目可能泄露部分 GPT 生成的数据。
这种方式虽然属于灰色地带，但只要不是直接黑客攻击 OpenAI 的服务器，一般不会构成明确的法律犯罪。
3. 直接入侵或间接泄露（可能性极低）
如果 DeepSeek 或其他团队通过黑客手段获取 OpenAI 的权重或训练数据，那就是严重的黑客犯罪，但目前没有任何证据支持这一点。
总结
目前没有证据表明 DeepSeek 直接“偷取” OpenAI 的数据。最可能的情况是通过 API 蒸馏或从公开渠道收集 GPT 生成的数据来训练自己的模型。如果 OpenAI 发现 DeepSeek 违反了 API 使用条款，可能会采取法律行动，但这与真正的黑客攻击或数据窃取是不同的概念。

屏蔽举报回复