news 2026/4/16 15:02:04

推荐系统为啥都长一个样?聊聊「离线训练 + 在线召回 + 排序」这套大数据架构

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
推荐系统为啥都长一个样?聊聊「离线训练 + 在线召回 + 排序」这套大数据架构

推荐系统为啥都长一个样?聊聊「离线训练 + 在线召回 + 排序」这套大数据架构


如果你干过推荐系统,不管是内容推荐、电商、广告、资讯、短视频,大概率都会发现一件事:

架构看起来都差不多,但效果差距却能差出一个银河系。

我这些年看过、拆过、踩过的推荐系统不算少,越到后面越有一个感受:

推荐系统拼到最后,真不是算法多高级,而是架构是不是“拧得顺”。

今天我们就掰开揉碎,聊聊这套最经典、也最现实的推荐系统架构:

离线训练 + 在线召回 + 在线排序


一、先说结论:为啥推荐系统一定要拆成三段?

一句话总结:

不是为了优雅,而是为了活命。

推荐系统天然就有三大矛盾:

  1. 数据量巨大(全量用户 × 全量物品)
  2. 实时性要求极高(几十毫秒内给结果)
  3. 模型又想越复杂越好

这三件事,你想一锅端,结果只有一个:
👉系统崩、效果差、老板不开心

所以业界最终形成了一个非常“工程味”的共识架构:

离线:负责“想清楚” 在线:负责“跑得快”

拆开来看,就是三段:

  1. 离线训练:用大数据慢慢算
  2. 在线召回:快速缩小候选集
  3. 在线排序:精排出最终结果

二、离线训练:推荐系统真正“聪明”的地方

1️⃣ 离线训练到底在干嘛?

说人话版本:

用昨天甚至更早的数据,训练一个“大概靠谱”的模型。

典型离线任务包括:

  • 用户画像构建
  • 物品画像生成
  • Embedding 训练(user / item 向量)
  • 召回模型、排序模型训练

这一层的关键词只有一个:

全量 + 稳定 + 不着急

所以技术选型一般是:

  • Spark / Flink Batch
  • Hive / HDFS / Lakehouse
  • TensorFlow / PyTorch 离线训练

2️⃣ 一个很真实的例子:Embedding 离线训练

比如用户-物品 Embedding,离线训练完之后:

# 伪代码:离线训练 user/item embeddingmodel=MatrixFactorization(user_cnt=num_users,item_cnt=num_items,dim=128)model.fit(user_item_interactions)# 训练完成后导出 embeddinguser_embeddings=model.get_user_embedding()item_embeddings=model.get_item_embedding()

关键点不是代码,而是输出物:

  • user_id → 向量
  • item_id → 向量

👉这些向量,是后面在线召回和排序的“弹药库”。


三、在线召回:推荐系统的“第一道生死线”

1️⃣ 为啥一定要有召回?

你想象一个极端情况:

  • 1 亿用户
  • 1 千万内容

你如果在线直接算:

1 个用户 × 1000 万内容 = 1000 万次打分

老板会很冷静地告诉你一句话:

“你这是在做压力测试,不是在做推荐。”

所以召回的核心目标只有一个:

从海量内容中,秒级挑出几十到几百个“可能有戏”的候选。

2️⃣ 常见的召回方式(不追求多,只追求稳)

现实项目里,召回基本都是多路并行

  • 协同过滤召回
  • Embedding 向量召回
  • 热门 / 新品 / 活跃召回
  • 规则召回(关注、订阅、地理位置)

比如一个非常典型的向量召回:

defrecall_by_embedding(user_embedding,item_index,top_k=200):# ANN 检索(FAISS / HNSW)item_ids=item_index.search(user_embedding,top_k)returnitem_ids

召回层最大的 KPI 不是“准”,而是“不漏”。

这句话很重要。

很多新人一上来就追求召回精准度,结果把后面排序的空间全杀死了。


四、在线排序:真正决定“点不点”的地方

1️⃣ 排序模型才是离用户最近的“刀锋”

召回只是“候选”,排序才是:

谁在第 1 位,谁直接凉。

排序模型的输入,通常是:

  • 用户特征
  • 物品特征
  • 上下文特征(时间、设备、位置)
  • 用户 × 物品的交叉特征

一个极简示意:

defrank(user,candidates):features=build_features(user,candidates)scores=ranking_model.predict(features)returnsorted(candidates,key=lambdax:scores[x],reverse=True)

2️⃣ 为什么排序一定是在线的?

因为排序要用的东西太“新”了:

  • 刚点过什么
  • 当前时间段
  • 最近几分钟行为
  • 实时上下文

这些东西:

等你离线算完,用户都下一个 App 了。

所以排序模型一定是:

  • 轻量
  • 可快速推理
  • 延迟可控

五、这套架构真正的难点,其实不在算法

说点掏心窝子的。

我见过太多团队:

  • 模型写得很漂亮
  • 论文指标很好看
  • 线上效果却一塌糊涂

问题往往出在这几件事上:

1️⃣ 离线和在线特征不一致

离线训练用 A 特征,在线服务用 B 特征

这是推荐系统里最经典、也最隐蔽的坑。

解决思路只有一个:

  • 特征工程平台化
  • 一套代码,多端复用

2️⃣ 召回太“保守”

怕脏、怕噪声、怕误点,结果:

召回池里全是“老熟人”,系统越来越无聊。

我个人非常认同一句话:

推荐系统一定要“允许犯错”,否则永远不会进化。


3️⃣ 架构不是越复杂越好

不是所有团队都需要:

  • 10 路召回
  • 3 层排序
  • 强化学习在线调参

很多时候:

一套干净、可解释、稳定的架构,胜过一堆花活。


六、写在最后:推荐系统其实很“人性化”

做久了你会发现,推荐系统不像传统算法那么“冷”。

它更像一个人:

  • 离线训练 = 复盘昨天
  • 在线召回 = 快速想起可能的选项
  • 在线排序 = 临场判断

真正好的推荐系统,不是“算得最准”,而是:

在算力、延迟、业务目标之间,找到那个最现实的平衡点。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 9:22:07

【绩效域】核心考点汇总

内容来自高级:信息系统项目管理师第4版官方教材第18章:项目绩效域,核心考点汇总若你正在备考高项信息系统项目管理师,第18章:项目绩效域,请你一定不要陌生,现在的高项论文命题趋势真是越来越“活…

作者头像 李华
网站建设 2026/4/16 12:59:26

供应 日置 HIOKI 3275 AC/DC钳式电流探头 带箱子

日置3275钳式电流探头 是一款适用于DC~2MHz宽频带的电流测量设备,最大可测量500A的电流,峰值可达700A‌‌ 该探头可以直接连接到示波器的BNC端子,方便在存储记录仪上观测波形,并且可以使用选件的专用电源提供除示波器以…

作者头像 李华
网站建设 2026/4/16 10:58:36

宏智树 AI:AI5.0 驱动的全流程学术创作智能解决方案平台

在学术研究的赛道上,无数研究者、学子常陷入选题迷茫、文献繁杂、数据难析、查重焦虑等困境。而宏智树 AI 的出现,正以尖端智能技术打破这些学术创作壁垒。作为由 ChatGPT 学术版模型驱动、搭载 AI5.0 技术架构的学术智能解决方案平台,它为全…

作者头像 李华
网站建设 2026/4/16 16:08:20

实测封神|农产品AI检测,速度快3倍+,漏检率直降

此前,维视智造「端子与连接器检测」行业解决方案系列已为大家带来了十四期深度的案例解析。从各类精密连接器到汽车核心部件,我们见证了机器视觉如何攻克微小尺寸、复杂背景下的检测难题。从本期开始,维视智造将带您走出工厂车间,…

作者头像 李华
网站建设 2026/4/16 10:47:45

huggingface-cli

huggingface-cli 安装: pip install transformers4.36.0 huggingface-cli login

作者头像 李华
网站建设 2026/4/16 19:25:13

进程级沙箱隔离与WebGL指纹抗识别:指纹浏览器核心技术难点与工程落地

摘要进程级沙箱隔离与 WebGL 指纹抗识别,是决定指纹浏览器环境独立性与抗识别能力的两大核心技术。本文从底层架构设计出发,拆解进程级沙箱的隔离原理、WebGL 指纹的抗识别机制,深入分析技术难点与工程落地痛点,结合实际研发案例&…

作者头像 李华