1. 项目概述:当推荐系统不再依赖显式ID
在推荐系统领域,我们早已习惯了“用户ID”和“物品ID”的存在。无论是协同过滤的经典公式,还是深度学习的Embedding层,ID特征就像推荐引擎的“身份证”,是构建用户画像和物品画像最直接、最稳定的锚点。然而,一个正在悄然兴起的研究方向,正试图挑战这个看似不言自明的基石:构建不依赖任何显式ID特征的推荐系统。
这个名为“Recommendation Systems without Explicit ID Features: A Literature Review”的项目,正是对这一前沿领域的系统性梳理。它探讨的核心问题是:当我们无法获取或不愿使用用户和物品的明确标识符时,推荐系统该如何工作?这并非一个纯粹的学术猜想,而是源于日益严峻的现实挑战。随着数据隐私法规(如GDPR、CCPA)的收紧,平台对用户匿名化处理的要求越来越高,直接存储和使用用户ID变得敏感且合规成本高昂。在新用户冷启动、新物品上架、跨域推荐以及联邦学习等场景下,ID的缺失或不可用更是常态。这个项目综述,就是为这些“无ID”的困境,寻找一套可行的技术地图。
对我而言,深入这个领域就像是在为推荐系统寻找“第二曲线”。当那条最熟悉、最平坦的ID大道因为隐私围墙或数据稀疏而变得崎岖难行时,我们必须学会观察路边的风景——用户的行为序列、文本内容、图像信息、时空上下文,这些非ID的“弱信号”能否被编织成一条同样坚固,甚至更具泛化能力的绳索?这不仅关乎技术方案的丰富性,更关乎推荐系统在下一个十年能否在保护用户隐私的前提下,持续提供精准、个性化的服务。接下来,我将结合这篇综述的核心脉络,以及我个人在相关技术落地中的实践经验,为你拆解“无ID推荐”的四大核心路径、关键技术细节以及那些只有踩过坑才知道的实操要点。
2. 核心范式解析:四大主流技术路径
脱离ID的推荐,本质上是将建模的核心从“谁”和“什么”,转向“如何”和“在什么情境下”。根据对用户和物品信息的利用方式,当前主流研究大致可归纳为四类范式,每种范式都对应着不同的假设条件和应用场景。
2.1 基于内容的推荐:从物品本质出发
这是最直观的“无ID”方案。既然没有ID来标识物品,那就用物品自身的属性来描述它。对于一篇文章,我们可以用其标题、摘要、正文的TF-IDF向量或BERT等预训练模型生成的文本向量来表示。对于一件商品,可以用其品类、品牌、价格、颜色、材质等结构化属性,以及主图通过CNN提取的视觉特征来表征。
核心逻辑:通过计算用户历史交互过的物品内容特征(如点击过的文章向量)的聚合(如平均池化),得到一个“内容偏好向量”。然后,计算该偏好向量与候选物品内容特征之间的相似度(如余弦相似度),进行排序推荐。
优势与局限:
- 优势:完全规避了ID需求,天然解决物品冷启动问题。可解释性强(“因为您喜欢科技类文章,所以推荐这篇”)。
- 局限:严重依赖高质量、丰富的物品内容特征。容易陷入“信息茧房”,推荐多样性不足,难以发现用户潜在的新兴趣。更重要的是,它本质上并非完全“无用户ID”,因为它仍然需要将用户的历史行为序列绑定到某个匿名但持久的标识上(如设备ID、Cookie),以构建用户画像。它解决的是“物品侧无ID”,而非彻底的“双边无ID”。
实操心得:在内容特征工程上,不要迷信单一模型。我们曾在一个新闻推荐项目中,将文章的标题BERT向量、正文LDA主题分布以及人工打上的几个关键标签(如“突发”、“深度分析”)进行多模态融合,效果远好于仅使用BERT。关键在于,不同特征捕获了不同粒度的信息。
2.2 基于行为的序列建模:时间是新的ID
当明确的用户ID缺失时,用户的行为序列本身成为了其身份的“动态指纹”。这一范式认为,用户短期内的连续行为(如点击、观看、购买序列)比一个静态的ID更能反映其即时兴趣和意图。
核心技术:循环神经网络(RNN/LSTM/GRU)、Transformer(如BERT4Rec、SASRec)等序列模型。模型将用户的行为序列(由物品的内容特征向量或匿名物品索引组成)作为输入,预测下一个可能交互的物品。
核心假设:用户的下一个行为,主要受其近期行为序列的影响,而非一个全局、静态的用户ID表征。
优势与局限:
- 优势:能有效捕捉动态兴趣漂移,在会话推荐(Session-based Recommendation)场景下表现卓越。无需长期用户画像,对匿名用户友好。
- 局限:对于行为序列非常短(如全新用户)或非常稀疏的用户,建模效果会大打折扣。它依然需要一个会话ID(Session ID)来界定序列的范围,并未完全摆脱“标识符”。
2.3 基于自监督学习的对比学习:创造代理任务
这是近年来最火热的方向。既然没有ID作为监督信号,我们就自己构造监督信号。对比学习的核心思想是,通过数据增强创造同一用户(或物品)的不同“视图”(views),然后拉近这些正样本视图的表征距离,同时拉远与其他用户(负样本)视图的距离。
常见代理任务:
- 行为序列增强:对用户的行为序列进行随机掩码、重排、裁剪或添加噪声,生成两个增强版本。模型学习让这两个版本的表征尽可能相似。
- 多视图对比:利用用户的多模态数据(如点击序列、搜索词、地理位置)作为不同的视图,进行跨模态对比学习。
- 图结构增强:在用户-物品交互图上,对边或节点进行随机丢弃(DropEdge/DropNode),生成不同的子图进行对比。
通过完成这些代理任务,模型能够学习到高质量、信息丰富的用户和物品表征,而无需依赖ID标签。
优势与局限:
- 优势:能充分利用海量无标签数据,学习到对数据噪声和稀疏性更鲁棒的表征。泛化能力强,特别适合冷启动场景。
- 局限:数据增强策略的设计需要大量领域知识和调参。负样本的选择策略对效果影响巨大,不当的负样本可能导致模型坍塌或学习到平凡解。
2.4 基于联邦学习与差分隐私:从集中式到分布式建模
这是一种从系统架构层面回应隐私挑战的范式。联邦学习允许模型在用户设备本地进行训练,只上传模型更新(梯度)而非原始数据(包括行为序列),从而在理论上避免中央服务器收集能关联到具体用户ID的敏感数据。差分隐私则通过在数据或梯度中加入精心设计的噪声,使得攻击者无法从发布的模型或统计信息中推断出任何单个用户的参与。
在无ID推荐中的角色:联邦学习使得平台可以在不集中存储用户行为数据(自然也就无需用中央ID关联这些数据)的情况下,训练一个全局推荐模型。每个本地设备上的用户,用自己的匿名化行为数据参与训练。
优势与局限:
- 优势:从源头保护隐私,符合最严格的合规要求。是解决“数据孤岛”问题、进行跨平台联合推荐的有力工具。
- 局限:通信开销大,对设备算力和网络稳定性有要求。非独立同分布(Non-IID)的用户数据会严重影响联邦模型的收敛和效果。目前性能与中心化训练相比仍有差距。
3. 关键技术细节与模型架构剖析
理解了宏观范式,我们深入到几个关键模型的内部,看看它们是如何具体实现“无ID”推荐的。这里我选择两个最具代表性的架构进行拆解。
3.1 SASRec:基于Transformer的纯序列模型
SASRec(Self-Attentive Sequential Recommendation)是会话推荐领域的里程碑工作。它完全摒弃了用户ID和物品ID的Embedding,仅使用物品在序列中的位置信息(Positional Encoding)和物品本身的Embedding(可以是随机初始化,也可以由内容特征初始化)。
模型工作流程:
- 输入层:对于一个长度为n的行为序列
[item1, item2, ..., itemn],为每个物品查找其对应的d维Embedding,得到一个n x d的矩阵。 - 位置编码:为序列中每个位置生成一个独特的d维位置向量,与物品Embedding相加,以注入顺序信息。
- Transformer编码层:核心是多头自注意力机制。它允许序列中的每个物品“关注”序列中的所有其他物品,自适应地学习到哪些历史行为对预测下一个行为更重要。例如,在预测用户看完一部科幻片后要看什么时,模型可能会更关注他最近看过的另一部科幻片,而不是一周前看的一部纪录片。
- 输出层:取最后一个时间步的隐藏状态(代表了融合了整个序列信息的上下文向量),与所有候选物品的Embedding做内积,得到分数并进行排序。
为什么有效?Transformer的自注意力机制赋予了模型强大的序列建模能力,能够捕捉长期依赖关系。它不关心用户是谁(没有用户ID),只关心用户刚刚做了什么以及做的顺序。这非常符合许多实际场景,比如用户在未登录状态下的单次购物会话或新闻浏览。
注意事项:SASRec对序列长度敏感。过短的序列信息不足,过长的序列则可能受限于计算复杂度,且早期不重要的行为会产生噪声。实践中,我们通常截取最近50-100个交互作为序列。另外,物品Embedding的初始化至关重要,如果能有预训练的内容特征向量作为初始化,效果通常会比随机初始化好很多。
3.2 SimCLR在推荐中的应用:构建行为序列的对比视图
SimCLR(A Simple Framework for Contrastive Learning of Visual Representations)最初用于图像,但其思想被成功迁移到推荐中。这里以行为序列为例,阐述如何构建对比学习任务。
关键步骤:
- 数据增强:对于一个用户的行为序列,应用两种不同的随机增强变换,生成两个相关的视图。对于行为序列,有效的增强方式包括:
- 随机掩码:随机将序列中一定比例(如20%)的物品替换为特殊的
[MASK]标记。 - 随机裁剪:从原序列中随机截取一个连续的子序列。
- 重排:在局部窗口内轻微打乱物品顺序(需谨慎,可能破坏严格时序)。
- 物品特征噪声:在物品的Embedding上添加高斯噪声。
- 随机掩码:随机将序列中一定比例(如20%)的物品替换为特殊的
- 编码器:使用一个共享权重的序列编码器(如GRU或Transformer)分别处理两个增强后的序列,得到两个序列级别的表征向量
z_i和z_j。 - 投影头:将表征向量映射到一个更适用于对比学习的空间,得到
h_i和h_j。这是一个简单的多层感知机(MLP)。 - 对比损失:计算
h_i和h_j的相似度作为正样本对得分。对于一个批次(Batch)内的其他所有增强序列的表征,均视为负样本。使用InfoNCE损失函数,目标是最大化正样本对的相似度,同时最小化与所有负样本的相似度。
模型学到了什么?通过这个训练过程,模型被迫学会识别出那些经过各种“破坏”后仍然属于同一用户兴趣本质的序列。它学习到的序列表征z,对数据增强和噪声具有不变性,因此更加鲁棒和泛化。在推理时,我们可以直接使用这个鲁棒的表征z来寻找相似的用户(用于协同过滤)或与物品表征计算匹配度。
4. 实操流程:从零构建一个无ID新闻推荐原型
理论需要实践来检验。下面,我将以“基于内容与序列混合建模的无ID新闻推荐”为例,勾勒一个简化的实操流程。假设我们只有新闻的文本内容和用户的匿名点击日志。
4.1 数据准备与特征工程
物品(新闻)侧特征:
- 文本向量化:使用预训练的Sentence-BERT模型,为每篇新闻的标题和摘要生成768维的向量。将两者平均池化,得到最终的新闻内容向量
V_content。 - 类别标签:将新闻的人工分类(如“体育”、“科技”、“财经”)进行多热编码(Multi-hot Encoding)。
- 融合特征:将
V_content和类别编码向量拼接,形成一个高维的新闻混合特征向量。随后通过一个全连接层进行降维和融合,得到最终的新闻表征E_item。
- 文本向量化:使用预训练的Sentence-BERT模型,为每篇新闻的标题和摘要生成768维的向量。将两者平均池化,得到最终的新闻内容向量
用户行为数据:
- 数据格式:
[anonymous_session_id, timestamp, news_id, ...]。这里没有user_id,只有每次会话的ID。 - 序列构建:按
anonymous_session_id分组,根据timestamp排序,得到每个会话的点击新闻序列。过滤掉长度小于3的会话。 - 序列向量化:将序列中的每个
news_id替换为其对应的新闻表征E_item。这样,一个序列就变成了一个矩阵[seq_len, embedding_dim]。
- 数据格式:
4.2 模型设计与训练
我们设计一个简单的双塔模型,结合了内容匹配和序列信息。
用户塔(序列塔):
- 输入:用户当前会话的新闻表征序列矩阵。
- 结构:使用一个单层Bi-LSTM或Transformer Encoder处理序列,取最后一个时间步的隐藏状态(或[CLS] token的状态)作为用户当前兴趣的会话表征
V_session。 - 意图:Bi-LSTM能同时捕捉前向和后向的依赖,对于浏览行为而言,用户可能因为看了后面的文章才对前面的文章有更深的理解,双向结构能捕获这种微妙的联系。
物品塔(候选新闻塔):
- 输入:候选新闻的表征
E_item。 - 结构:一个简单的MLP,用于将新闻表征映射到与用户表征相同的语义空间,得到
V_candidate。这里MLP的作用是进行特征变换和交互,让用户和物品表征在同一个空间里可比。
- 输入:候选新闻的表征
匹配与训练:
- 计算用户会话表征
V_session与候选新闻表征V_candidate的余弦相似度作为预测分数。 - 损失函数:使用交叉熵损失或更先进的Sampled Softmax损失。对于每个正样本(用户点击的下一篇新闻),在批次内随机采样若干负样本(用户未点击的新闻)。
- 训练技巧:引入In-batch Negative Sampling。即在一个训练批次中,其他样本的正样本物品,自动作为当前样本的负样本。这能高效地利用计算资源,增加负样本的多样性和难度。
- 计算用户会话表征
4.3 线上服务与推理
- 物品向量预计算:离线将所有新闻通过物品塔计算好
V_candidate,存入向量数据库(如Faiss, Milvus)。 - 用户向量实时计算:当匿名用户产生新的会话行为时,实时用用户塔(序列模型)根据其当前点击序列,计算出
V_session。 - 近似最近邻搜索:将
V_session发送到向量数据库,进行近似最近邻搜索,返回Top-K个最相似的V_candidate对应的新闻ID,完成推荐。
核心避坑点:线上推理的延迟至关重要。序列模型(尤其是Transformer)的实时计算可能成为瓶颈。常见的优化策略包括:1)使用更轻量的序列模型(如CNN或浅层LSTM);2)对用户向量进行缓存,在短时间(如几分钟)内同一会话的请求复用上次计算的向量;3)将用户塔的计算也部分离线化,定期(如每5分钟)根据用户最新行为更新其向量并缓存。
5. 挑战、对策与未来展望
无ID推荐并非银弹,它在落地过程中面临一系列独特挑战。
5.1 冷启动问题的两面性
- 物品冷启动:优势凸显。基于内容的方法天然解决新物品推荐问题,只要提取出新物品的内容特征,即可计算其与用户兴趣的匹配度。
- 用户冷启动:挑战严峻。对于完全没有历史行为的全新匿名用户(即“完全冷启动”),所有依赖历史行为的方法均失效。此时只能依赖:
- 非个性化推荐:热门榜、编辑推荐。
- 上下文信息:利用请求时的地理位置、时间、设备型号、来源渠道等进行粗粒度人群划分,实施“上下文感知”的推荐。
- 渐进式探索:在用户开始产生少量交互后,迅速切换到序列模型或对比学习模型,并可能结合Bandit等探索算法快速挖掘兴趣。
5.2 用户长期兴趣建模的困境
没有长期稳定的用户ID,意味着很难构建一个持续演进、积累的长期用户画像。用户换一个设备、清空Cookie,或者仅仅过了一段时间,就会被系统视为一个全新的“陌生人”。
应对策略:
- 隐式身份关联:尝试利用弱信号进行跨会话的用户关联,例如使用稳定的设备指纹(需谨慎合规)、登录邮箱的哈希值、或通过行为模式聚类。但这本身就是一个难题且涉及隐私。
- 兴趣迁移学习:将在一个领域(如已登录状态)学到的用户兴趣知识,迁移到匿名会话领域。这需要模型具备强大的泛化和领域适应能力。
- 强调短期与实时:接受“长期兴趣”建模的局限性,将工程和算法的重点极致地投入到对短期会话意图的捕捉和实时反馈上,做到“当下最优”。
5.3 评估指标的重新思考
在无ID场景下,传统的基于用户ID划分训练集/测试集,并评估每个用户整体推荐效果的方法可能不再适用。
- 更依赖会话级评估:评估指标应侧重于会话内预测精度,如Session-based MRR@20, NDCG@20。
- 重视“立即满足”:由于无法做长期留存分析,应更关注点击率(CTR)、转化率(CVR)、停留时长等即时反馈指标。
- A/B测试的复杂性:如何对匿名流量进行持续、一致的A/B测试分组是一个工程挑战。通常需要依赖更稳定的上下文标识(如首次访问生成的UUID)来实现。
5.4 未来可能的技术融合方向
在我看来,无ID推荐不会完全取代有ID推荐,而是会与之融合,形成分层、弹性的推荐体系。
- 混合系统:系统同时维护两套推荐逻辑。对于有登录ID的用户,使用强大的ID-based深度模型;对于匿名会话,则切换到轻快精准的无ID序列模型。两者可以共享底层的物品内容理解模块。
- 超图与元学习:利用超图(Hypergraph)对用户、物品、内容特征、上下文等多种异构关系进行统一建模,而不依赖于单一的用户-物品交互图。元学习(Meta-Learning)则可以帮助模型快速适应新用户或新会话,用极少的交互样本更新用户表征。
- 生成式推荐:随着大语言模型(LLM)的崛起,将其作为强大的内容理解和推理引擎,直接根据用户当前的会话历史(自然语言描述的形式)和候选物品的文本描述,生成推荐理由和排序,是一条极具潜力的新路径。LLM本身不依赖ID,而是依赖语义理解。
无ID推荐的研究与实践,正在推动推荐系统从“认人”走向“认事”,从依赖静态身份走向理解动态意图。这不仅是技术上的演进,更是产品理念和隐私伦理上的一次重要校准。作为一名从业者,我的体会是,拥抱这种变化不是选择,而是必然。它要求我们更深入地理解数据本身的内涵,更精巧地设计模型结构,在隐私保护与个性化体验之间,寻找那个动态的最优平衡点。这条路充满挑战,但也正因为如此,每一次有效的实践,都显得格外有价值。