从AIG保险工程师到北大AI教授:一个“业余爱好者“如何用10年登上强化学习顶峰
从AIG保险工程师到北大AI教授一个业余爱好者如何用10年登上强化学习顶峰导语他在保险公司写风险定价模型时以爱好者身份跑到深度学习研讨会上蹭课请教他首创的平均场博弈强化学习算法让百万级智能体系统的计算复杂度从不可能变为可能他在ChatGPT发布两个月后就带领团队成为国内最早复现RLHF的学者他指导学生完成多智能体强化学习领域华人首篇Nature Machine Intelligence他从纯算法的舒适区跳进硬件的深坑只因相信双手才是人类智慧的终端。他是杨耀东北京大学人工智能研究院助理教授、灵初智能首席科学家一个自称从业余起步的80后学者。一、中科大→帝国理工→UCL一个蹭课爱好者的逆袭杨耀东的学术起点是中国科学技术大学电子工程与信息科学系。2009年入学2013年本科毕业后他来到帝国理工学院攻读生物统计硕士。这段经历看似和强化学习无关却给了他扎实的数学功底和跨学科视野。硕士毕业后他没有继续走学术道路而是加入了美国国际集团AIG科学部担任高级研发经理开发机器学习风险定价模型。如果故事到这里结束杨耀东可能会成为一个优秀的金融科技工程师拿着高薪过着安稳的生活。但他内心深处对深度学习有着极强的热情。2015年AIG资助了一个在爱丁堡大学主办的深度学习研讨会杨耀东以爱好者的身份跑去参加。“他当时对深度学习极有热情以爱好者的身份请教最新技术动态。”在会上他结识了张伟楠后来成为上海交大教授两人聊得很投机。张伟楠觉得这个年轻人虽然业余但功底扎实、热情 infectious就把他推荐给了自己在**伦敦大学学院UCL**的导师——汪军教授。汪军是现代深度强化学习的发源地UCL的核心人物培养了中国强化学习领域的半壁江山。他收下了这个半路出家的学生。一个保险公司的工程师因为对深度学习的热爱蹭了一节课改变了自己的人生轨迹。二、UCL岁月首创平均场博弈RL导师说他比我知道的paper还多进入UCL后杨耀东的第一篇论文就展现了他独特的研究品味。他没有选择当时热门的单智能体强化学习而是探索如何用RL和多智能体系统模拟自然界捕食者与猎物的动态关系——比如狼群追捕兔群的周期性循环。与传统依赖微分方程的方法不同他通过RL让智能体自主决策仿真自然行为轨迹。这项工作让他深刻体会到RL的魅力从决策角度逼近真实人类社会。但真正让他一战成名的是接下来的突破。在完成第一篇论文后杨耀东和导师汪军讨论新课题时发现少量智能体的情况较为简单但若数量增加到成百上千甚至上万后系统将变得极其复杂——没有一个C位角色能主导全局。面对这个问题杨耀东提出了一个大胆的想法引入平均场博弈Mean Field Game理论。以股票市场为例每个投资者的行为复杂且相互影响但通过平均场方法可以将所有投资者视为一个整体计算群体的统计行为并假设个体行为受群体行为影响。杨耀东成为第一个将平均场博弈引入机器学习的学者首创平均场论RL算法Mean Field MARL。通过将大规模智能体系统百万级简化为群体行为模型他成功降低了计算复杂度为处理超大规模多智能体系统提供了新的理论框架和实用工具。这项创新中了顶会ICML 2018的OralOral录用率通常不到5%震惊了整个多智能体强化学习领域。他的导师汪军曾这样评价他“杨耀东反应敏捷、掌握的知识非常丰富很少有不知道的paper有时比我知道的还多。”一个业余出身的学生用3年时间站在了多智能体强化学习的世界之巅。三、从AIG到华为到KCL产业与学术的双重淬炼博士期间杨耀东并没有把自己关在象牙塔里。2019-2021年他在华为英国有限公司·伦敦研究院担任主任研究员继续从事RL研究。2020年他获得了华为年度最佳技术突破奖年度唯一。这段经历给了他两个重要认知第一工业界的问题比学术界的benchmark复杂100倍。在学术界你在标准化环境里跑分在工业界你要面对真实世界的噪声、不确定性和极端corner case。第二强化学习不只是游戏AI。在华为他看到了RL在通信优化、资源调度、芯片设计等领域的巨大潜力。博士毕业后2021年他短暂地在伦敦国王学院KCL担任助理教授随后于2022年1月回国加入北京大学人工智能研究院。这个选择意味深长。当时国内AI圈正在经历大模型的狂热很多人劝他继续做纯算法的方向。但杨耀东有自己的判断“只将RL应用于游戏并非智能的最终形态无法推动行业发展。”他做出了一个让同行惊讶的决定跳出纯算法的舒适区All in具身智能。四、跳出舒适区从算法天才到硬件玩家2022年回国后杨耀东牵头了北京市科委资助的**《基于认知推理的具身智能可泛化灵巧操作技术研究》**项目。他与同年龄段的北大助理教授朱毅鑫、董豪、王鹤一起探索类人灵巧双手操作。这个转型有多难他之前所有的研究都在虚拟环境里——游戏、仿真、数学模型。现在他要把算法部署到真实的机械手上让AI控制高自由度的硬件在物理世界里完成精细操作。莫拉维克悖论说机器人处理复杂任务如下棋容易执行简单日常动作如叠衣服却极其困难。杨耀东偏偏要挑战这个悖论。半年后团队实现了第一个双手抛接球demo。杨耀东立刻给远在伦敦的导师汪军发了一条微信分享这份喜悦“让AI控制高自由度的机械手达到人的灵巧度十分不容易。”彼时距离智元机器人和银河通用的正式成立还有一年多时间用RL实现灵巧手操作尚未成为产业共识。杨耀东又一次走到了时代的前面。2022年他带领华人团队获得了NeurIPS 2022具身灵巧操作竞赛冠军。同年他指导学生完成了多智能体强化学习领域华人首篇Nature Machine Intelligence。五、ChatGPT的RL信徒国内最早复现RLHF的团队2022年11月ChatGPT横空出世。当所有人都在惊叹大模型的语言能力时杨耀东看到了更深层次的东西“他对ChatGPT的RLHF技术感到十分惊艳。”RLHFReinforcement Learning from Human Feedback人类反馈强化学习正是强化学习与大模型结合的关键技术。杨耀东做出了一个果断的决定只留下一个多智能体方向的博士生其余所有人All in强化学习的对齐方向。这使他成为国内最早做RLHF对齐研究的学者之一。ChatGPT发布仅两个月后杨耀东团队就首先复现了RLHF模型后训练对齐的效果。随后他与当时尚未成立百川智能的王小川一同探讨。两位RL信徒迅速达成共识RLHF是通向AGI的重要环节。三年后OpenAI O3、DeepSeek R1的诞生印证了他们的判断。这段经历让杨耀东深刻意识到“AI浪潮发生在业界而非学界。”一颗创业的种子悄然埋下。六、给学生的两句话带不走代码但能带走品味和道德杨耀东不仅是一位顶尖科学家也是一位深受学生爱戴的导师。他常对博士生说这样一句话“五年后你们带不走任何算法代码唯有两样东西真正属于你们——辨别研究方向的学术品味以及决定学术生命长度的学术道德和规范。”这句话出自他的导师汪军。汪军是他科研和为人处世上的领路人而自己成为导师后杨耀东希望把这份知行合一的学术基因传递下去。在他的指导下学生陈源培——一个00后对机器人痴迷的少年——成长为全球首位在真实环境中用强化学习同时控制双臂双手多技能操作的研究者后来成为斯坦福李飞飞的访问学生最终与杨耀东一起联合创立了灵初智能。七、杨耀东给技术人的3条成长启示1. 业余不是劣势热爱是最好的敲门砖杨耀东从AIG保险公司蹭课起步以爱好者身份进入UCL读博。他没有正统的CS博士背景但凭借对深度学习的热爱最终站在了强化学习的世界之巅。不要被专业对口束缚。真正的热爱和自驱力比一纸文凭更有说服力。2. 敢于清空自己才能抓住下一个范式从多智能体博弈到具身智能硬件从游戏AI到RLHF对齐杨耀东每一次都在鼎盛期主动切换赛道。他说“只将RL应用于游戏并非智能的最终形态。”最大的风险不是失败而是在一个即将过气的范式上耗尽青春。3. 学术品味和道德是你唯一能带走的东西代码会过时模型会被淘汰公司会倒闭。但辨别研究方向的能力和坚守学术底线的品格将伴随你一生。短期的聪明让人发表论文长期的品味让人定义方向。八、写在最后从业余爱好者到定义方向的人杨耀东的故事是一个典型的非典型成功路径。他没有清华北大的本科光环没有一毕业就进顶级实验室的正统履历。他在保险公司写过程序以爱好者身份蹭过课半路出家读了博士。但正是这份业余出身让他没有学术圈的思维包袱正是产业界的淬炼让他的研究始终扎根于真实问题正是对强化学习近乎信仰的坚持让他在每一次范式更迭中都站到了浪尖。从首创平均场博弈RL算法到带领华人团队首登Nature Machine Intelligence从国内最早复现RLHF到跳出舒适区投身具身智能——杨耀东用10年时间完成了从爱好者到定义方向者的蜕变。而他最珍贵的也许不是那些论文和奖项而是他传递给学生的那个信念代码带不走带得走的是你看待世界的方式。