中国的研究人员在两个月内开发出一个ChatGPT的开源竞争对手

详情

DeepSeek-R1是中国研究人员开发的一种新的推理模型，它达成目标的熟练程度与OpenAI的o1相当，而成本只是前者的一小部分。

中国发布了一款廉价的开源软件，与OpenAI的ChatGPT竞争，这让一些科学家感到兴奋，也让硅谷感到担忧。

该创新背后的中国人工智能（AI）实验室DeepSeek于2024年12月底公布了其免费的大型语言模型（LLM） DeepSeek- V3，并声称该模型仅用558万美元在两个月内建成，这是硅谷竞争对手所需时间和成本的一小部分。

现在，R1在许多相同的测试中也超过了ChatGPT最新的o1型号。这种令人印象非常深刻的性能，其成本只是其他模型的一小部分，它的半开源性质，以及它在更少的图形处理单元（GPU）上的训练，让人工智能专家惊叹不已，并引发了中国人工智能模型超越美国同行的忧虑和恐慌。

1月22日，OpenAI的战略合作伙伴微软首席执行官萨蒂亚·纳德拉在瑞士达沃斯举行的世界经济论坛上表示：“我们该非常非常认真地对待中国的发展。”

人工智能系统使用从人类输入中获取的训练数据来进行学习，这使它们可以依据训练数据集中出现的不同模式的概率生成输出。

对于大型语言模型，这一些数据是文本。例如，OpenAI的GPT-3.5于2023年发布，它接受了来自存储库Common Crawl的大约570GB的文本数据的训练，这一些数据大约相当于3000亿个单词，来自书籍、在线文章、和其他网页。

推理模型，如R1和o1，是标准LLM的升级版本，使用一种称为“思维链”的方法来回溯和重新评估其逻辑，这使它们能够更准确地处理更复杂的任务。

这使得推理模型在那些希望将人工智能整合到工作中的科学家和工程师中很受欢迎。

但与ChatGPT的o1不同，DeepSeek是一个“开放权重”模型（尽管它的训练数据仍然是专有的），允许用户查看内部并修改其算法。同样重要的是，它为用户更好的提供的价格降低了27倍。

除了性能之外，围绕DeepSeek的炒作还来自于其成本效率；与竞争对手公司为培训花费的数千万至数亿美元相比，该模型的微薄预算微不足道。

此外，美国的出口管制限制了中国公司获得最好的AI计算芯片，迫使R1的研发人员构建更智能、更节能的算法，以弥补其计算能力的不足。据报道，ChatGPT需要1万个Nvidia GPU来处理训练数据，DeepSeek的工程师表示，他们只需要2000个GPU就能取得类似的结果。

这将在多大程度上转化为有用的科学和技术应用，或者DeepSeek是否只是训练了它的模型来通过基准测试，仍有待观察。科学家和人工智能投资者正在密切关注。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

马斯克的政府效率部：埃隆在DOGE的话题上继续保持克制谨慎；马斯克仍然在前往星辰大海寻找宇宙答案的途中

辛芷蕾的嘴唇，10年前长这样，薄唇变欲望唇，她到底动了哪里？

a friend of my fathers，一个双重所有格问题，引出的英语考点

努比亚红魔磁吸散热器 6 Pro 上架：可配磁吸/卡扣模块，239 元起