中国AI少女罗福莉传奇 DeepSeek比肩西方大模型

2025年1月15日

Published January 15, 2025, 8:00 AM

亚洲周刊专区

罗福莉

DeepSeek

作者：锺晴彤

95后罗福莉被誉为“AI天才少女”，作为中国大模型DeepSeek-V3的核心研究员爆火，她带领团队以极低的成本，训练出世界顶尖水平的AI大模型，成为中国优秀AI工程师代表。

人工智能领域最近热点频出。这边谷歌旗下公司DeepMind才推出视频生成器Veo 2，生成分辨率高达4K，惊艳全球，而OpenAI总执行长萨姆—阿尔特曼宣称，2025年将看到首个AGI（通用人工智能）案例，颠覆性将远超预期；那边马斯克宣布旗下X.AI公司的Grok 3大模型即将推出，将是世界上最强大模型……

中国也没有缺席这场AI大竞赛。2024年12月26日，中国大模型公司DeepSeek发布全新系列模型DeepSeek-v3，性能直逼世界顶尖的闭源模型GPT-4o以及 Claude-3.5-Sonnet。

然而，更让国外AI界震惊的是，该模型的训练用时不过两个月，训练成本也只有600万美元。

DeepSeek一战成名，也让参与开发的天才少女罗福莉成为AI明星，最近更因小米创始人雷军以千万年薪挖角而引发广泛关注。

小米重金挖罗福莉

小米在AI大模型上起步较晚，2023年才成立AI部门，因此在AI人才挖掘上不遗余力，这次就希望重金挖来罗福莉，让她领导大模型团队。不过，《亚洲周刊》了解到，对于小米抛来的橄榄枝，她尚未作最后的决定。

实际上，罗福莉早在2019年就已经出名，当时还在读研究生二年级的她，在自然语言处理领域顶级会议ACL 2019上发表了8篇论文，其中两篇为一作。于是，当时在知乎网站上就曾有人发问：“如何看待北大硕士生在自然语言处理顶级会议ACL2019上发表8篇论文？”

当时罗福莉在知乎发文回应称，当年ACL她投了一长一短两篇文章，都中了，其他论文都只是部分参与了实验室同学的研究。罗还表示，其朋友圈不乏ACL中了两篇一作长文的人。这次网友称她为“天才少女”，她谦虚地表示“都是虚名，而且过誉了”。

罗福莉高中毕业于四川省宜宾市第一中学。据其高中班主任李波表示，罗福莉尽管在班级中并非最高分，但在班上始终表现优秀，学习努力。当时她对电脑领域并没有特别的接触，她在个人公众号中提到，自己是误打误撞进入北京师范大学的电脑专业。

在大学初期，她感到迷茫，成绩也处于靠后的位置。

然而大二时，她开始专注于学习，逐渐提升了自己的学术水平。

北京大学电脑语言学专业

转折点出现在她研究生阶段，罗福莉成功保研至北京大学计算语言学专业。在此期间，她在国际顶级会议ACL上发表了前述的8篇论文，让她迅速走红，并被誉为“AI天才少女”。她在研究生期间不仅展现出卓越的科研能力，还积极参与了多个重要项目，奠定了她在AI领域的基础。

在北京大学的学习期间，罗福莉表现出色。她的研究重点集中在自然语言处理领域，并参与了多个前沿项目。罗福莉在学术界的成就为她后来的职业发展打下了坚实基础。

毕业后，她选择进入阿里达摩院进行人工智能研究，并迅速成为核心研发人员。她在该院期间负责多个重要项目，展现出强大的技术能力和创新思维。她主导开发的多语言预训练模型VECO在阿里达摩院内得到了广泛应用，日均调用量达到50亿次。此外，她还参与了AliceMind开源项目，为AI发展贡献了重要力量。

2022年，罗福莉离开阿里达摩院，转战知名私募公司幻方量化，从事深度学习相关策略建模和算法研究；幻方量化是2015年在宁波成立的一家私募基金，依靠数学与AI在股票上进行量化投资；2019年成立幻方人工智能基础研究有限公司，即幻方AI，并自研幻方“萤火一号”AI集群，2021年升级为“萤火二号”，搭载约一万张英伟达A100显卡。

以GPU规模来看，幻方AI无疑是当时中国最大的人工智能公司。

事实上，幻方AI的研发实力也很强大，在2023年4月创立DeepSeek，便迅速成为中国AI大模型的黑马。成立之初，罗福莉从幻方加入DeepSeek公司，参与研发MoE大模型。

小米创始人雷军以千万年薪招揽DeepSeek-V2关键开发者之一罗福莉，领导小米AI大模型团队。（中新社）

AI界拼多多

2024年5月，成立仅一年的DeepSeek推出MoE大模型DeepSeek-V2，在性能上比肩GPT-4 Turbo，价格却只有GPT-4的1%，让DeepSeek收获了“AI界拼多多”之称。但DeepSeek并不是简单拼价格，而是以创新技术来提高效率，异军突起。

DeepSeek性能优异、算力需求减少的原因在于两大关键算法。如今风靡全球的生成式AI大模型，技术原理是2017年谷歌工程师推出的Transformer架构，但作为技术核心的多头注意力机制非常消耗算力，因此训练成本居高不下。

然而DeepSeek团队在Transformer架构的基础上，提出了一种新型注意力MLA，替代了传统的多头注意力，大幅减少了计算量和推理显存。这就使得幻方的大模型在一年之内获得突破。

此外，在强化学习中，DeepSeek-V2放弃了critic模型，提出了创新算法“组相对策略优化”GRPO，不仅显著减少了训练资源的需求，而且增强了数学推理能力，同时优化了PPO的内存使用。

2024年2月，DeepSeek在公开发表的论文中指出，DeepSeekMath在没有依赖外部工具包和投票技术的情况下，在竞赛级MATH基准测试中取得了51.7%的分数，接近Gemini-Ultra和GPT-4水平，令人印象深刻。要知道，OpenAI的GPT-4这时候发布还不到一年。

DeepSeek-V3的进展则更惊人，其参数量达到671B，激活参数为37B，使用的预训练token量高达14.8兆。这一系列模型不仅在性能上超越了阿里Qwen2.5-72B和Meta的Llama-3.1-405B等开源模型，还与全球顶尖闭源模型如GPT-4o和Claude-3.5-Sonnet不相上下。

多个实测表明，在数学基准(MATH 500)和AIME 2024测试方面，DeepSeek V3超越了当前国际主流大模型Llama 3.1-405B、Claude-3.5-Sonnet和GPT-4o；代码能力比国外主流大模型高出约30分；软件工程(SWE-bench Verified)和知识问答方面略逊于Claude- 3.5-Sonnet。更重要的是，后者训练成本以数亿美元计，而V3仅花了600万美元。

Open AI总执行长萨姆—阿尔特曼隐晦地表达了对DeepSeek的担忧，不少美国技术专家则表示，美国在“零到一”领域投入巨大，但是中国凭藉在工程技术与市场应用上的优势，实现“一到一百”的迅速崛起，甚至实现超越，对美国科技发展带来越来越大的压力。

中国优秀工程师大增

美国还有一个更大的压力，那就是中国优秀的AI工程师越来越多。DeepSeek用人不拘一格，从博士到本科实习生都会考虑，其组织形态与文化最接近硅谷的OpenAI。罗福莉这样的天才少女只是众多优秀AI工程师中间的一个。

如果说，中国未来有一家AI公司能与美国相竞争，那一定是DeepSeek。