Redis作者发声:中国大模型崛起,不该被简单扣上“蒸馏抄袭”的帽子
文章目录Redis 大神亲自下场说中国模型靠蒸馏美国这锅我们不背antirez 是谁他说的话值几个钱API 蒸馏你当是熬中药呢软蒸馏 vs 硬蒸馏一个抄思路一个抄答案软蒸馏白盒硬蒸馏黑盒DeepSeek 是蒸出来的你蒸一个我看看那中国模型到底靠什么聪明的蒸 vs 粗暴的蒸所以别再用蒸馏当遮羞布了P.S. 目前国内还是很缺AI人才的希望更多人能真正加入到AI行业共同促进行业进步增强我国的AI竞争力。想要系统学习AI知识的朋友可以看看我精心打磨的教程 http://blog.csdn.net/jiangjunshow教程通俗易懂高中生都能看懂还有各种段子风趣幽默从深度学习基础原理到各领域实战应用都有讲解我22年的AI积累全在里面了。注意教程仅限真正想入门AI的朋友否则看看零散的博文就够了。Redis 大神亲自下场说中国模型靠蒸馏美国这锅我们不背最近 AI 圈有个段子说中国大模型之所以强是因为偷偷拿 GPT 和 Claude 的 API 做蒸馏。这逻辑就相当于你邻居考了清华你把他作业本借来抄了一遍然后你也考上了清华。你觉得清华招生办是瞎的吗更离谱的是这话居然是从一些美国实验室嘴里说出来的。我干了 22 年 AI第一次见有人把营销话术包装成机器学习原理的这手艺不去卖保健品可惜了。antirez 是谁他说的话值几个钱先介绍一下这位老哥。Salvatore Sanfilippo江湖人称 antirezRedis 的作者。就是那个你面试必被问、工作中天天用、出了 bug 你骂娘的数据库的作者。这人在技术圈的地位大概相当于相声界的郭德纲——你说他不懂行那你先写个 Redis 出来我看看antirez 最近连发好几条推文核心就一句话说中国模型靠 API 蒸馏美国模型才变强的要么是不懂机器学习要么是在给自家实验室打广告。我翻译一下你们这说法在数学上属于科幻小说范畴。API 蒸馏你当是熬中药呢好咱们先搞清楚什么叫蒸馏。很多人理解的蒸馏我调用 GPT-4 的 API让它生成一堆答案然后把这些答案喂给我的小模型小模型就学会了。就像熬中药把精华熬出来。antirez 说你熬个锤子。真正的蒸馏需要拿到老师模型的完整概率分布——也就是 logits还有思维链的内部轨迹。这些东西 API 根本不给你。他打了个比方API 蒸馏就像你在一个复杂曲面上看到几个点就想复刻整个曲面。这在数学上接近科幻。我换个更接地气的说法你去看了一场周杰伦的演唱会录了几段视频然后回家宣称自己会写歌了。你录的那点东西连人家和弦走向都听不全你还想复刻《七里香》API 给你的就是最终文本相当于周杰伦唱完了告诉你这首歌叫《七里香》。然后呢旋律呢编曲呢和声呢你啥都没有就学会了一个歌名。软蒸馏 vs 硬蒸馏一个抄思路一个抄答案这里必须科普一下很多人把两种完全不同的技术混为一谈都叫蒸馏这就跟把茅台和茅台镇混为一谈一样。软蒸馏白盒软蒸馏需要白盒访问老师不仅给答案还给完整的思考过程和信心指数“这道题我选 A 的概率是 85%选 B 是 10%选 C 是 5%因为……”学生学到的是暗知识——老师为什么犹豫为什么排除其他选项。这就像学霸不仅给你看答案还给你看他的草稿纸。问题是GPT-4 的草稿纸你看得见吗API 给你看吗不给。所以软蒸馏在闭源 API 上根本玩不了。硬蒸馏黑盒硬蒸馏就是只拿老师生成的最终文本当成标准答案来训练自己的模型。Alpaca 和 Vicuna 就是这么干的。这相当于学霸把作业写完了你拿过来抄。你能抄对答案但你不知道他是怎么想的。考试换个题型你立马抓瞎。antirez 的原话是硬蒸馏最多只能调整风格或者填补非常小的知识缺口。想靠这个造出 frontier-level 的通用能力做梦。我补充一句硬蒸馏刷榜单可以实战该拉胯还是拉胯。就像你背了 100 道真题考试正好考到原题你得了高分。但换个新题你的真实水平就暴露了。**划重点**软蒸馏 抄思路需要看草稿纸→ API 做不到硬蒸馏 抄答案只看最终答案→ 能做但效果有限造不出真·大模型。DeepSeek 是蒸出来的你蒸一个我看看有人说那 DeepSeek 怎么解释它不也是靠蒸馏吗antirez 直接甩脸DeepSeek 把预训练、SFT、RL 的全流程细节都公开了结果甚至能被复现。你宁愿相信飞猴传说也不相信可复现的公开结果我干了 22 年见过太多神秘东方力量的叙事。但 DeepSeek 的论文是公开的代码是开源的训练细节是透明的。你要说这都是蒸出来的那你先把论文里的数学推导蒸出来给我看看更何况很多中国前沿模型已经开源了欧洲那么多实验室拿着完整模型去蒸馏也没见谁蒸馏出一个对齐水平的模型来。这就像你把茅台酒的配方公开了全世界酒厂照着做也没几家能酿出茅台。工艺是工艺手艺是手艺不是给你配方你就能行的。那中国模型到底靠什么antirez 很诚实他不否认中国模型目前和美国有差距。但他认为真正的差距不是技术抄袭而是算力获取限制。这就说到点子上了。你让一个学生做奥数题他脑子很好使但你只给他一支铅笔和一张草稿纸对面学生有计算器、电脑、还有三个助教。你让他怎么赢中国模型的问题不是没本事是没算力。H100 被禁运A100 受限大家拿着阉割版的显卡搞研发这相当于让博尔特穿着拖鞋跑百米。但即便如此DeepSeek 们还是在拖鞋里跑出了世界记录。你说这是靠蒸馏那美国实验室怎么不蒸馏一个出来他们不是有最先进的芯片吗**灵魂拷问**如果 API 蒸馏真这么管用那美国实验室自己为什么不蒸馏一个比 GPT-4 更强的模型出来他们不是有 API 吗他们不是有芯片吗“聪明的蒸” vs “粗暴的蒸”当然硬蒸馏不是完全没用。姚顺宇大佬就说过关键看你怎么蒸。粗暴的蒸拿 GPT-4 当数据打印机疯狂生成 token一股脑塞进自己模型里。大佬评价“商业上不道德治理上很愚蠢。”这就像你去米其林餐厅吃饭不学习人家的烹饪理念而是把人家厨房里的剩菜打包回家热一热就当自己做的。你吃得再饱也变不成米其林大厨。聪明的蒸把强模型当辅助工具和评价者有策略地融入训练系统。比如用 teacher 做 reward model、做多智能体协作生成数据、真实数据和合成数据混合、迭代式自我改进。这就像你去米其林餐厅不是偷剩菜而是请主厨当你的顾问。他告诉你哪里火候过了哪里盐放多了你慢慢练出自己的手艺。但即便是聪明的蒸也只是训练 pipeline 里的一环。真正强大的底层能力来自万亿 token 级别的预训练来自巨大的算力投入来自研究团队对数据工程和训练策略的深刻理解。蒸馏是锦上添花不是无中生有。你不能靠蒸馏蒸出一个爱因斯坦你只能蒸馏出一个说话像爱因斯坦的鹦鹉。所以别再用蒸馏当遮羞布了antirez 这番话其实是给整个 AI 圈提了个醒蒸馏这个词已经被严重滥用和误解了。很多人一听到中国模型强第一反应就是肯定是抄的这跟当年看到中国高铁快就说肯定是偷德国技术一样属于一种思维懒惰。你承认别人有真本事就这么难吗中国模型确实有差距主要在算力上。但把人家的进步简单归因于蒸馏既违反机器学习的基本原理也低估了构建强模型的真实难度。这就像你看人家跑马拉松跑了第一名你不说人家训练刻苦非说人家吃了兴奋剂。问题是兴奋剂检测是阴性的人家的训练日志是公开的你倒是拿出证据来啊antirez 最后留了一个灵魂拷问你说模型从 Y 来源学到了 X 能力那请出示信息路径。预训练需要数万亿 token。蒸馏API 给不了你 logits。那你告诉我这能力是怎么蒸出来的答不上来那就别瞎说了。**最后说两句**干了 22 年 AI我见过太多神秘化和妖魔化。技术就是技术有就是有没有就是没有。API 蒸馏做不出 DeepSeek就像抄作业抄不出诺贝尔奖。中国模型的进步靠的是真金白银的投入、实打实的工程能力、以及在算力受限下的极限创新。这锅蒸馏不背。P.S. 目前国内还是很缺AI人才的希望更多人能真正加入到AI行业共同促进行业进步增强我国的AI竞争力。想要系统学习AI知识的朋友可以看看我精心打磨的教程 http://blog.csdn.net/jiangjunshow教程通俗易懂高中生都能看懂还有各种段子风趣幽默从深度学习基础原理到各领域实战应用都有讲解我22年的AI积累全在里面了。注意教程仅限真正想入门AI的朋友否则看看零散的博文就够了。