(北京19日讯)中国人工智能公司深度求索(DeepSeek)17日于《自然》期刊发表文章,首度公开其R1模型训练成本仅29.4万美元(约124万令吉),远低于美国同业,并坦承在美国出口管制后仍曾使用英伟达A100高性能芯片。
根据外媒报道,DeepSeek今年1月推出低成本AI系统后,一度引发投资人担忧,科技股遭抛售,但公司与创办人梁文峰随后鲜少公开露面,仅偶尔发布新产品。
这次论文由梁文峰共同署名,披露R1模型以推理为核心,训练时使用512颗英伟达H800芯片,历时约80小时。研究团队表示,在准备阶段确实动用过A100芯片,随后才转至H800芯片丛集进行正式训练。
文章指出,这个让AI聊天机器人能够顺利对话的大型语言模型,其“训练成本”是指花费数周或数月时间、用一整排强大的芯片处理大量文字与程式码所产生的费用。
美国AI聊天机器人母公司OpenAI总执行长奥特曼在2023年曾表示,基础模型的训练成本“远高于”1亿美元(约4.23亿美元),但并未公布详细的数字。

美国自2022年起禁止英伟达向中国出售A100、H100等高端AI芯片,仅允许销售特规的H800。美国官员先前指DeepSeek仍取得H100,但英伟达强调仅出售H800。DeepSeek文章则首次承认确实拥有A100,并用于早期小规模实验。
外界亦曾质疑DeepSeek“蒸馏”OpenAI模型。蒸馏技术是指从更成熟模型提炼知识,降低新模型训练成本。DeepSeek文章未正面回应,但承认V3模型的训练数据包含大量由OpenAI生成的内容,或使模型间接吸收其知识,强调这属“附带结果”,并非刻意。
DeepSeek目前已推出多版本语言模型,包括基础版V3、满血版R1及蒸馏版R1-Distill,并确认使用过Meta的开源Llama模型进行蒸馏。此次发表被视为该公司对成本优势与外界质疑的首次公开回应。
DeepSeek推出过多种版本的语言模型,分别是基础版的「V3」、满血版的「R1」,和蒸馏版的「R1-Distill」。DeepSeek在1月曾表示,它确实使用过Meta的开 Llama AI模型,来建立自家蒸馏版的模型。
