st
指数
快讯
分享

DeepSeek新模型延后发表 外媒曝因用华为弃英伟达

- 文 +

(北京15日讯)中国公司深度求索()推迟了新模型的发布。《金融时报》披露,原因是在使用昇腾训练新模型时屡遭技术问题,最终不得不改用(NVIDIA)进行训练,这突显了中国在替代美国技术上的局限。

据报道,三位知情人士透露,今年1月推出R1模型后,在中国政府的鼓励下,选择使用昇腾(Ascend),而非。但在R2模型的训练过程中,昇腾不断出现技术故障,最终只能用完成训练,推理阶段才切换至。一位熟悉内情的人士表示,这正是R2模型原定5月发布却延期的主要原因。

DeepSeek
(新华社)

《金融时报》解释,训练是指让模型通过大量数据集进行学习;推理则是指模型完成训练后,用于预测或生成回应,例如聊天机器人回答用户问题。的困境显示,中国在关键任务上仍落后于美国竞争对手,也凸显了中国在实现科技自主方面面临的挑战。

本周稍早,《金融时报》曾报道称,中国政府要求国内科技企业说明采购H20的理由,意在推动它们改用、寒武纪等国产替代品。但业内人士表示,中国存在稳定性不足、间连接速度较慢以及配套软件落后于等问题。

两位知情人士透露,曾派出工程师团队前往办公地,协助其用昇腾开发R2模型,但仍未能在昇腾上成功完成一次完整训练。仍与合作,努力让该模型在推理阶段能兼容昇腾

美国加州大学伯克利分校AI研究员古普塔(Ritwik Gupta)表示,模型本身是一种容易被替换的商品。目前许多开发者使用阿里巴巴的“通义千问3”(Qwen3),该模型功能强大、灵活度高,并借鉴了的核心理念,例如赋予模型推理能力的训练算法,但在使用效率上表现更佳。

古普塔补充,虽然目前尚未看到顶尖模型使用进行训练,但这并不意味着未来不会出现这种情况。

新闻来源:今日新闻

相关新闻

DeepSeek
人工智能
华为
芯片
英伟达
Sabah Election 2025