推荐系统20个核心技术
1.协同过滤推荐2.基于内容推荐3.混合推荐4.矩阵分解算法5.因子分解机FM6.深度学习推荐7.神经网络推荐8.用户画像构建9.物品特征工程10.冷启动技术11.召回算法12.排序算法13.个性化推荐14.上下文感知推荐15.序列推荐技术16.强化学习推荐17.注意力机制推荐18.embedding嵌入技术19.推荐评估技术20.实时推荐技术第一、地基——数据怎么“喂”给机器#8, #9, #18#8 用户画像构建不是画个星座图而是把用户变成“标签集合”。比如{男25岁程序员喜欢黑色}。第一性原理统计学。把用户的历史行为统计成固定标签。#9 物品特征工程把商品变成标签集合。比如{手机黑色6000元参数高}。第一性原理属性拆解。把非结构化的文本/图片变成结构化的数字。#18 Embedding嵌入技术重点这是现代推荐的“万金油”。标签太硬了“苹果”是水果还是手机。Embedding是把万物变成一串小数向量。比如“男人”[0.1, 0.9]“女人”[0.9, 0.1]。第一性原理降维与语义映射——让机器在高维空间里算出“距离”相似度。第二、经典匹配——怎么找到“像”的东西#1, #2, #4, #5最朴素的匹配逻辑#1 协同过滤Collaborative Filtering“物以类聚人以群分”。第一性原理集体智慧。不看你是什么人只看你和谁行为一致。你买了A和你一样的人也买了B那就推B给你。工作中这是“保底”算法简单有效。#2 基于内容推荐“看人下菜碟”。只根据用户画像和物品画像的标签匹配比如用户喜欢“科幻”物品是“科幻”就推。第一性原理属性同构。#4 矩阵分解MF协同过滤的进阶。用户和商品太多矩阵太稀疏。第一性原理矩阵降维。 把“用户-物品”大矩阵拆成“用户-隐因子”和“物品-隐因子”两个小矩阵。这里的“隐因子”机器自己学人类看不懂。#5 因子分解机FM矩阵分解的“大聪明”版。第一性原理特征交叉。 它不仅看用户和物品还能自动把“性别男”“双十一期间”这两个特征组合起来看权重。工作中处理稀疏特征比如One-hot编码的神器。第三、工业界流水线——怎么从大海里捞针#11, #12, #3工业界数据太大必须分两步走这是工作里的核心架构。#11 召回算法第一性原理粗筛穷举变Top-N。 从1000万个物品里快速捞出500个候选。不在乎精度在乎速度和覆盖面。协同过滤、Embedding双塔模型通常干这个活。#12 排序算法第一性原理精排优中选优。 把召回的500个用复杂的模型如深度学习算出精准的点击率CTR按分数从高到低排。工作中召回负责“量”排序负责“质”。#3 混合推荐第一性原理加权集成。 既然没有一种算法是万能的那就把#1、#2、#11的结果按权重比如0.40.6合并。工作中这是策略产品经理最常干的调权重解决业务冷启动或多样性问题。第四、大脑升级——怎么理解“先后”和“注意力”#6, #7, #15, #17解决“协同过滤”解决不了的序列和关联问题。#6 #7 深度学习/神经网络推荐第一性原理非线性拟合。 传统算法只能画直线深度学习能画任何曲线。它能学到“买了尿布的人很可能买啤酒”这种诡异关联。工作中这是大厂的核心效果最好但解释性差。#15 序列推荐技术第一性原理时序依赖马尔可夫链。 购物车是有顺序的先买手机再买手机壳不会先买手机壳再买手机。它关注“下一个”是什么。#17 注意力机制推荐第一性原理权重聚焦人脑的视觉焦点。 用户过去有10个行为哪个行为对“当下”最重要注意力机制会动态给这10个行为打分最近买的或最贵的商品权重最高。工作中做“猜你喜欢”必用。第五、现实难题——没有数据怎么办环境变了怎么办#10, #14, #16, #20这是从“实验室”走向“业务线”的关键。#10 冷启动技术第一性原理利用先验信息人口统计学/热门。 新用户没行为就问他年龄性别#8或者推全网热门#2。工作中做新客策略必考。#14 上下文感知推荐第一性原理环境变量影响决策。 早中晚、下雨天、WiFi环境推荐完全不同。工作中加入“时间衰减”和“LBS地理位置”特征。#16 强化学习推荐第一性原理延迟奖励与试错Bandit算法。 它不仅仅是预测你点不点而是探索你的未知兴趣。哪怕你有90%概率不爱看鬼片它有10%的概率推给你试一次。工作中解决“信息茧房”和“探索利用困境”。#20 实时推荐技术第一性原理即时反馈驱动。 你在看球鞋详情页首页立刻出现球鞋。基于Flink/Storm流计算。工作中做活动大促时必配。第六、怎么验证我干得好不好#13, #19#19 推荐评估技术第一性原理离线指标 在线指标。 离线看Recall召回率和AUC排序能力在线看CTR点击率和GMV成交额。工作中AB测试是金标准离线的分再高上线不行就是不行。#13 个性化推荐这不是一个单独算法而是最终目的。第一性原理去平均化。 全员推荐“热门”是0级个性化基于#8和#1给千人千面是终极目标。工作中衡量个性化的指标叫“多样性”和“覆盖率”。给小白的工作锦囊要记住落地三句话业务上遇到问题先问“我有用户行为数据吗”有 - 用协同过滤/深度学习没有 - 用内容推荐/冷启动。架构上任何推荐系统死记硬背“召回 - 排序 - 重排”三板斧。优化上如果老板让你提升效果第一优先级永远是“特征工程”#9和“实时性”#20换算法带来的收益远没有加特征来得快和稳。最后用一个“找对象”的比喻收尾推荐系统就是月老。协同过滤#1是“闺蜜介绍”朋友的朋友内容推荐#2是“按征婚简历筛选”矩阵分解#4是“看气质隐因子”冷启动#10是“刚注册没资料先按大众喜欢的推”强化学习#16是“偶尔给你介绍个不靠谱的看看你反应拓宽你眼界”。姑苏城外寒山寺夜半钟声到客船。——张继《枫桥夜泊》