用一句话来形容我的第一感受:莫名其妙!不是说 DeepSeek 不好,而是一个之前名不见经传的小厂突然冒出来,甚至成为了家里人春节的谈资,这件事确实很不正常。
向不认识我的读者简单介绍一下,在撰写这篇文章的时候(2025年2月初),我即将毕业于成都某985院校,硕士期间研究方向是大语言模型高效监督微调方法,目前有一篇共一被 VLDB 录用、一篇一作 arXiv 有 30+ 引用,在成都某 AIDC 初创公司担任大模型技术研发骨干。
春节回来之后,公司立马掀起了对 DeepSeek 的研究热潮。我也给董事长写了一篇简要的报告,主要的结论如下:
- DeepSeek 的成功建立在对成熟技术的二次精准创新、大胆的试错和实践上,整体的方法论上超越国内大多数同行,挺直了国人的腰杆,值得我们借鉴和学习;
- DeepSeek 在纯粹的技术角度上在国内属于第一梯队,但并不是领头羊。从长远的角度来看,国内的同行们都还在同一起跑线上;
- 产品、技术的创新需要有良好的市场和宣传部门配合,才能更好地触及更广阔的用户群体。在这方面 DeepSeek 是同行中目前做的最好的;
- 之前大家都在思考,如何为大模型训练的海量开销买单。DeepSeek 的实践告诉我们,资本化的运作能产生远大于纯粹销售的价值;
- DeepSeek 并未摆脱对 NVIDIA 成熟生态的依赖,但开了好头。未来在 DeepSeek 的引领下,市场会逐渐培育出更充分竞争的局面,而不是现在的一家独大。
怎么说呢?作为一个国内较早开始研究 MoE、PEFT、DPO 等技术的学术牛马,DeepSeek V3 的模型结构和算法并不能让我眼前一亮,就算是 R1 也没带来什么新鲜的东西。听到这句话的人,肯定会觉得我这个年轻人太自负,只是多看了点论文就开始大放厥词。如果我说,GPT 也没太多新鲜东西呢?搞 NLP 的人都知道,Transformer 架构最早在 2017 年就出现了,Google 更是早在 2019 年就搞出来了 T5,最高参数量达到了 11B,可以说距离 ChatGPT 等大模型的涌现只差临门一脚。这说明一件什么事情呢?
就算强如 Google(Deep Learning 和 Transformer 的发明者),当与竞争对手的技术拉不开代差的时候,会被实践更激进的对手(OpenAI)在最终产品上拉开一个身位
但这个结论会很容易被喷事后诸葛亮,尤其是 DeepSeek 没从石头蛋子里蹦出来之前。但 DeepSeek 的异军突起再次证明了我的判断。在国内,曾经的技术领军者是通义。在我们接触的客户中发现,通义已经成为某种程度上的事实性标准,很多成熟的商业化应用产品都是在通义的基础上通过 RAG 或监督微调搭建起来的。或许就是因为阿里活得太滋润了(就像当年的 Google 一样),开始想躺在功劳簿上数钱,在 Reasoning 模型这个路线上玩得并不是特别积极,自从发布 QwQ 表情包模型之后就再没啥动静了,结果被 R1 这个家伙打了个措手不及。究其根本,阿里的通义系列模型就是在 Mistral 的基础上进行了一些微调,而 Mistral 又是在 LLaMA 的基础上做微调得来的,都属于 LLaMA 家族的模型。而 LLaMA 的架构从第一代开始就没出现大的调整,除了第二代开始加入了 GQA,第三代引入了 Scaling RoPE,基本上属于修修补补,性能的提升主要来源于训练数据质量的提升。通义也有稀疏 MoE 模型,和 V3/R1 都是差不多的类型(共享 Expert + Top-K)。
反观 DeepSeek,敢在这么大规模的预训练模型上使用 MLA 这种非主流 Attention 算法是非常冒险的。但这种冒险也给 DeepSeek 带来了丰厚的回报,也就是成本的下降。相对于预训练开销的下降,我们当时看到 DeepSeek 的推理报价都惊了。你说作为一个研究大模型算法的人,看到国内能有公司这么愿意给年轻人舞台、资源、算力去做风险这么大的实验,不羡慕是假的。这和羡慕马斯克拿发射火箭当放二踢脚一样,所有丰厚的回报都是靠前期大量投入换来的。
夸的话都说完了,不愿意看的人也已经关掉页面了,该说点心里话了。我个人认为,DeepSeek 目前的名气,有六到七分都是营销出来的。你说不应该吧?好像也没啥毛病,人家投入几百万训练出来一个牛逼的模型,换作我也得到处吹吹牛。但我觉得,狂欢过后,还是应该冷静对待这件事情。DeepSeek 今天能成功,不代表这套方法论就能撑到他们一直成功。我看到的是,DeepSeek 当前有下面这些危机:
- DeepSeek 训练的数据积累很可能不如传统大厂,如阿里、字节等。一旦大厂通过进一步优化数据质量,通过微调 DeepSeek 目前的模型结构,有一定的可能会在短期内超越 DeepSeek;
- DeepSeek 在人才的积累和算法的研究经验上,依旧是个后来者,如何保持这种领先的地位是个 Critical Challenge。没有说罗福莉不好,和人家比我就是个菜鸡。但她也只是发了几篇 ACL,而这个会议的质量怎么样是学术牛马们心知肚明的;
- 树大招风。DeepSeek 这么高调,引来美国人的注意,这到底是好事还是坏事很难在当前评判。就算把手里的 A100 盘出包浆,也难以抵消美国人目前在算力上断崖式的优势;
- 长期的收支平衡。虽然 V3 的训练成本已经很低了,但很难说前面到底经历过多少次烧钱的实验才跑出来现在的最优情况。OpenAI 后面站着的是家大业大的巨硬,DeepSeek 烧钱能烧得过 OpenAI 吗?更何况,OpenAI 好歹还有 MaaS 服务回点本,DeepSeek 直接开源了,这是直接冲着掀桌子玩的。
总的来说,这些问题都不关键,就看掌舵人如何在风浪中克服困难、冲向光明了。我个人还是希望中国多一些 DeepSeek,多一些对研发、技术、开源的重视,少一些短视的唯盈利论、唯产品论。我们可以看到,在 DeepSeek 之前,中国的同行们大多都处于跟随的状态,是 DeepSeek 第一个从石头里蹦出来,喊出那句响亮的“俺老孙来也”,对跟在美国后面被处处打压的国人来说,属实是个扬眉吐气的事情。