
作者:锺晴彤
95后罗福莉被誉为“AI天才少女”,作为中国大模型DeepSeek-V3的核心研究员爆火,她带领团队以极低的成本,训练出世界顶尖水平的AI大模型,成为中国优秀AI工程师代表。
人工智能领域最近热点频出。这边谷歌旗下公司DeepMind才推出视频生成器Veo 2,生成分辨率高达4K,惊艳全球,而OpenAI总执行长萨姆—阿尔特曼宣称,2025年将看到首个AGI(通用人工智能)案例,颠覆性将远超预期;那边马斯克宣布旗下X.AI公司的Grok 3大模型即将推出,将是世界上最强大模型……
中国也没有缺席这场AI大竞赛。2024年12月26日,中国大模型公司DeepSeek发布全新系列模型DeepSeek-v3,性能直逼世界顶尖的闭源模型GPT-4o以及 Claude-3.5-Sonnet。
然而,更让国外AI界震惊的是,该模型的训练用时不过两个月,训练成本也只有600万美元。
DeepSeek一战成名,也让参与开发的天才少女罗福莉成为AI明星,最近更因小米创始人雷军以千万年薪挖角而引发广泛关注。
小米重金挖罗福莉
小米在AI大模型上起步较晚,2023年才成立AI部门,因此在AI人才挖掘上不遗余力,这次就希望重金挖来罗福莉,让她领导大模型团队。不过,《亚洲周刊》了解到,对于小米抛来的橄榄枝,她尚未作最后的决定。
实际上,罗福莉早在2019年就已经出名,当时还在读研究生二年级的她,在自然语言处理领域顶级会议ACL 2019上发表了8篇论文,其中两篇为一作。于是,当时在知乎网站上就曾有人发问:“如何看待北大硕士生在自然语言处理顶级会议ACL2019上发表8篇论文?”
当时罗福莉在知乎发文回应称,当年ACL她投了一长一短两篇文章,都中了,其他论文都只是部分参与了实验室同学的研究。罗还表示,其朋友圈不乏ACL中了两篇一作长文的人。这次网友称她为“天才少女”,她谦虚地表示“都是虚名,而且过誉了”。
罗福莉高中毕业于四川省宜宾市第一中学。据其高中班主任李波表示,罗福莉尽管在班级中并非最高分,但在班上始终表现优秀,学习努力。当时她对电脑领域并没有特别的接触,她在个人公众号中提到,自己是误打误撞进入北京师范大学的电脑专业。
在大学初期,她感到迷茫,成绩也处于靠后的位置。
然而大二时,她开始专注于学习,逐渐提升了自己的学术水平。
北京大学电脑语言学专业
转折点出现在她研究生阶段,罗福莉成功保研至北京大学计算语言学专业。在此期间,她在国际顶级会议ACL上发表了前述的8篇论文,让她迅速走红,并被誉为“AI天才少女”。她在研究生期间不仅展现出卓越的科研能力,还积极参与了多个重要项目,奠定了她在AI领域的基础。
在北京大学的学习期间,罗福莉表现出色。她的研究重点集中在自然语言处理领域,并参与了多个前沿项目。罗福莉在学术界的成就为她后来的职业发展打下了坚实基础。
毕业后,她选择进入阿里达摩院进行人工智能研究,并迅速成为核心研发人员。她在该院期间负责多个重要项目,展现出强大的技术能力和创新思维。她主导开发的多语言预训练模型VECO在阿里达摩院内得到了广泛应用,日均调用量达到50亿次。此外,她还参与了AliceMind开源项目,为AI发展贡献了重要力量。
2022年,罗福莉离开阿里达摩院,转战知名私募公司幻方量化,从事深度学习相关策略建模和算法研究;幻方量化是2015年在宁波成立的一家私募基金,依靠数学与AI在股票上进行量化投资;2019年成立幻方人工智能基础研究有限公司,即幻方AI,并自研幻方“萤火一号”AI集群,2021年升级为“萤火二号”,搭载约一万张英伟达A100显卡。
以GPU规模来看,幻方AI无疑是当时中国最大的人工智能公司。
事实上,幻方AI的研发实力也很强大,在2023年4月创立DeepSeek,便迅速成为中国AI大模型的黑马。成立之初,罗福莉从幻方加入DeepSeek公司,参与研发MoE大模型。

AI界拼多多
2024年5月,成立仅一年的DeepSeek推出MoE大模型DeepSeek-V2,在性能上比肩GPT-4 Turbo,价格却只有GPT-4的1%,让DeepSeek收获了“AI界拼多多”之称。但DeepSeek并不是简单拼价格,而是以创新技术来提高效率,异军突起。
DeepSeek性能优异、算力需求减少的原因在于两大关键算法。如今风靡全球的生成式AI大模型,技术原理是2017年谷歌工程师推出的Transformer架构,但作为技术核心的多头注意力机制非常消耗算力,因此训练成本居高不下。
然而DeepSeek团队在Transformer架构的基础上,提出了一种新型注意力MLA,替代了传统的多头注意力,大幅减少了计算量和推理显存。这就使得幻方的大模型在一年之内获得突破。
此外,在强化学习中,DeepSeek-V2放弃了critic模型,提出了创新算法“组相对策略优化”GRPO,不仅显著减少了训练资源的需求,而且增强了数学推理能力,同时优化了PPO的内存使用。
2024年2月,DeepSeek在公开发表的论文中指出,DeepSeekMath在没有依赖外部工具包和投票技术的情况下,在竞赛级MATH基准测试中取得了51.7%的分数,接近Gemini-Ultra和GPT-4水平,令人印象深刻。要知道,OpenAI的GPT-4这时候发布还不到一年。
DeepSeek-V3的进展则更惊人,其参数量达到671B,激活参数为37B,使用的预训练token量高达14.8兆。这一系列模型不仅在性能上超越了阿里Qwen2.5-72B和Meta的Llama-3.1-405B等开源模型,还与全球顶尖闭源模型如GPT-4o和Claude-3.5-Sonnet不相上下。
多个实测表明,在数学基准(MATH 500)和AIME 2024测试方面,DeepSeek V3超越了当前国际主流大模型Llama 3.1-405B、Claude-3.5-Sonnet和GPT-4o;代码能力比国外主流大模型高出约30分;软件工程(SWE-bench Verified)和知识问答方面略逊于Claude- 3.5-Sonnet。更重要的是,后者训练成本以数亿美元计,而V3仅花了600万美元。
Open AI总执行长萨姆—阿尔特曼隐晦地表达了对DeepSeek的担忧,不少美国技术专家则表示,美国在“零到一”领域投入巨大,但是中国凭藉在工程技术与市场应用上的优势,实现“一到一百”的迅速崛起,甚至实现超越,对美国科技发展带来越来越大的压力。
中国优秀工程师大增
美国还有一个更大的压力,那就是中国优秀的AI工程师越来越多。DeepSeek用人不拘一格,从博士到本科实习生都会考虑,其组织形态与文化最接近硅谷的OpenAI。罗福莉这样的天才少女只是众多优秀AI工程师中间的一个。
如果说,中国未来有一家AI公司能与美国相竞争,那一定是DeepSeek。
罗福莉小档案:
95后,生于四川宜宾,本科北京师范大学,硕士毕业于北京大学。研二时因在AI顶尖国际会议ACL发表8篇论文走红,2019年进入阿里达摩院。2022年进入幻方量化,后加入DeepSeek公司参与大模型研发,获雷军千万年薪挖角。
新闻来源:亚洲周刊
视频推荐: