(北京15日讯)中国人工智能公司深度求索(DeepSeek)推迟了新模型的发布。《金融时报》披露,原因是DeepSeek在使用华为昇腾芯片训练新模型时屡遭技术问题,最终不得不改用英伟达(NVIDIA)芯片进行训练,这突显了中国在替代美国技术上的局限。
据报道,三位知情人士透露,今年1月推出R1模型后,DeepSeek在中国政府的鼓励下,选择使用华为昇腾(Ascend)芯片,而非英伟达芯片。但在R2模型的训练过程中,昇腾芯片不断出现技术故障,最终只能用英伟达芯片完成训练,推理阶段才切换至华为芯片。一位熟悉内情的人士表示,这正是R2模型原定5月发布却延期的主要原因。

《金融时报》解释,训练是指让模型通过大量数据集进行学习;推理则是指模型完成训练后,用于预测或生成回应,例如聊天机器人回答用户问题。DeepSeek的困境显示,中国芯片在关键任务上仍落后于美国竞争对手,也凸显了中国在实现科技自主方面面临的挑战。
本周稍早,《金融时报》曾报道称,中国政府要求国内科技企业说明采购英伟达H20芯片的理由,意在推动它们改用华为、寒武纪等国产替代品。但业内人士表示,中国芯片存在稳定性不足、芯片间连接速度较慢以及配套软件落后于英伟达等问题。
两位知情人士透露,华为曾派出工程师团队前往DeepSeek办公地,协助其用昇腾芯片开发R2模型,但仍未能在昇腾芯片上成功完成一次完整训练。DeepSeek仍与华为合作,努力让该模型在推理阶段能兼容昇腾芯片。
美国加州大学伯克利分校AI研究员古普塔(Ritwik Gupta)表示,模型本身是一种容易被替换的商品。目前许多开发者使用阿里巴巴的“通义千问3”(Qwen3),该模型功能强大、灵活度高,并借鉴了DeepSeek的核心理念,例如赋予模型推理能力的训练算法,但在使用效率上表现更佳。
古普塔补充,虽然目前尚未看到顶尖模型使用华为芯片进行训练,但这并不意味着未来不会出现这种情况。
新闻来源:今日新闻
