MovieLens数据驱动的电影推荐实践：ItemCF与SVD双算法实现+完整论文+可运行代码-编程阁

本文还有配套的精品资源，点击获取

简介：用真实MovieLens评分数据（ratings.dat）跑通两个主流推荐算法——基于物品的协同过滤（ItemCF）和奇异值分解（SVD）矩阵分解。包里直接提供item_cf.py和svd.py两个Python脚本，输入标准格式评分文件，就能输出指定用户的Top-N电影推荐结果；附带requirements.txt确保环境一键复现。配套毕业论文《基于itemCF与SVD的电影推荐算法研究》覆盖问题建模、公式推导、邻居选取策略、隐因子维度设定、RMSE评估方法、覆盖率与多样性对比分析等全流程，不是空谈理论，所有结论都来自本地实测。文献综述.doc补充了协同过滤与矩阵分解领域的关键演进节点和经典引用。数据目录保留原始清洗逻辑，代码有清晰注释，论文章节结构完整（含摘要、引言、算法设计、实验设置、结果图表、总结建议），适合本科生课程设计快速上手，也适合作为毕设基础框架直接扩展。

1. 这不是“调个库跑个demo”，而是一套能写进简历的推荐系统实战闭环

我带过三届本科生毕设，也帮不少转行的朋友做过推荐系统入门项目。最常听到的一句话是：“老师/面试官让我做个推荐系统，我pip install surprise然后跑了个notebook，结果被问‘你为什么选k=20？邻居相似度用余弦还是皮尔逊？SVD隐因子维度怎么定的？RMSE下降0.03到底意味着什么？’——当场卡壳。”

这恰恰说明：推荐系统不是API调用大赛，而是建模思维、工程取舍与业务理解的综合体现。而这个MovieLens实践包，就是专为打破这种“黑盒幻觉”设计的——它不给你封装好的model.predict()，而是把ItemCF里每一步相似度计算的手动矩阵乘法、SVD中梯度下降每一轮的损失变化、用户冷启动时的fallback策略、甚至数据清洗时对稀疏评分矩阵的内存优化细节，全都摊开在代码注释和论文公式里。

关键词里写的“ItemCF”“SVD”“电影推荐系统”“协同过滤”“矩阵分解”，不是标签堆砌，而是五个必须亲手拧紧的螺丝：
-ItemCF解决的是“喜欢《盗梦空间》的人，大概率也会喜欢《星际穿越》”这类基于物品共现关系的推理；
-SVD则试图回答“用户A偏爱‘烧脑+科幻+高分’，用户B偏好‘温情+家庭+低分’，这些抽象偏好能否用几个数字（隐因子）量化？”；
-电影推荐系统是落地场景，决定了我们不能只看RMSE——用户刷到第5部全是同类型电影时的流失率，比模型多降0.01的误差更致命；
-协同过滤是方法论根基，提醒你所有结论都依赖“群体智慧”，一旦数据稀疏（比如新用户只评过2部电影），算法就会失灵；
-矩阵分解是数学骨架，它把原始的“用户×电影”稀疏评分矩阵，拆解成两个稠密小矩阵的乘积，既压缩存储，又挖掘潜在结构。

这个包适合谁？不是只适合计算机专业学生。如果你是信息管理专业，论文里的“覆盖率分析”能帮你解释清楚“为什么推荐列表里要有30%小众佳片”；如果你是统计学背景，SVD推导章节里对目标函数min∑(r_ui − q_i^T p_u)^2的拉格朗日乘子求解过程，就是现成的数学建模范例；如果你是产品岗转算法，附带的文献综述.doc里梳理的“从UserCF到Graph Neural CF”的演进脉络，能让你在需求评审时准确判断“这个场景该用规则兜底还是模型驱动”。

它不承诺“一键发顶会”，但保证你跑完一遍后，能对着简历上的“独立实现ItemCF+SVD双算法推荐系统”这一条，清晰说出：
- 为什么ItemCF在MovieLens上比UserCF更稳（用户评分稀疏，物品共现更可靠）；
- 为什么SVD的隐因子维度设为50而不是100（实测RMSE收敛平台期+训练耗时翻倍）；
- 为什么论文里特意对比了“Top-10推荐的题材多样性指数”，而不是只报准确率。

这才是工业界真正看重的——不是你会不会调参，而是你是否理解每个参数背后的物理意义，以及当模型在线上突然掉点时，你知道该去查用户行为日志、还是重采样训练集、还是检查特征时效性。

2. 算法选型不是拍脑袋：为什么是ItemCF + SVD，而不是其他组合？

2.1 ItemCF：在稀疏数据上站稳脚跟的“老派工匠”

MovieLens-1M数据集（即ratings.dat）包含约100万条评分记录，对应6000名用户和4000部电影。表面看数据量不小，但实际稀疏度高达98.3%——也就是说，平均每个用户只给不到17部电影打过分。在这种极端稀疏场景下，UserCF（基于用户的协同过滤）会遭遇“邻居难寻”的硬伤：随便挑一个用户，可能找不到另一个和他评分重合度超过5部的相似用户。而ItemCF把问题倒过来思考：“《阿凡达》被哪些用户喜欢？”这个问题的答案天然更稳定——一部热门电影往往有上千人打分，共现矩阵（item-item）远比用户相似度矩阵（user-user）稠密。

ItemCF的核心公式是：

预测评分 r̂ui = r̄_u + ∑{j∈N(i;u)} sim(i,j) × (r_uj − r̄u) / ∑{j∈N(i;u)} |sim(i,j)|

这里藏着三个关键决策点，论文里都做了实证：
-相似度计算：试过余弦相似度、调整余弦相似度（Adjusted Cosine）、皮尔逊相关系数。最终选调整余弦——它先对用户评分做中心化（减去该用户平均分），再计算余弦值，能消除用户打分习惯差异（比如用户A习惯打高分，B习惯打低分）。实测在MovieLens上比普通余弦提升1.2%的RMSE。
-邻居选择策略：不是简单取Top-K相似物品，而是设定相似度阈值（如sim>0.3）+数量上限（K=20）。原因很实在：强行塞满20个邻居，可能混入大量sim=0.15的噪声项，反而稀释预测精度。论文图3.2显示，当阈值从0.1升到0.3时，RMSE下降明显；再升到0.4，邻居数锐减导致覆盖率暴跌。
-冷启动处理：对新用户（无历史评分），ItemCF直接失效。代码里做了两层fallback：第一层用全局热门榜（按评分人数排序）；第二层若用户已评1部电影，则用该电影的Top-5相似物品作为初始推荐——这比纯热门榜的点击率高27%（见论文表4.5）。

提示：item_cf.py里第87行sim_matrix = cosine_similarity(item_ratings.T, item_ratings.T)看似简单，但.T转置是关键——它让输入变成“电影×用户”矩阵，确保相似度计算的是电影间关系，而非用户间关系。很多初学者在这里栽跟头，把矩阵搞反导致推荐结果完全随机。

2.2 SVD：用数学压缩“品味”的隐语义模型

如果说ItemCF是靠“找同类物品”做推荐，SVD则是尝试给每个用户和每部电影分配一组“隐因子向量”，比如：
- 用户向量p_u = [0.8, -0.2, 0.5, …] 可能表示“强偏好科幻、弱偏好爱情、中等偏好动作”；
- 电影向量q_i = [0.9, 0.1, 0.4, …] 可能表示“强科幻属性、弱爱情属性、中等动作属性”。

两者点积p_u^T q_i就预测出用户u对电影i的评分。这个思路的威力在于：它不依赖显式共现，而是通过优化目标函数自动学习潜在结构。

SVD实现的关键不在“分解”本身（numpy.linalg.svd可直接调用），而在于如何让分解结果真正服务于推荐任务。论文第3.3节详细拆解了这个过程：
-目标函数设计：基础SVD最小化平方误差∑(r_ui − q_i^T p_u)^2，但MovieLens存在大量缺失值（r_ui不存在），直接优化会导致过拟合已知评分。因此采用加权正则化SVD：

min ∑_{r_ui已知} (r_ui − q_i^T p_u)^2 + λ(∑||p_u||^2 + ∑||q_i||^2)

其中λ=0.01是通过网格搜索确定的——λ太小，模型记住了训练集噪声；λ太大，向量被过度压缩，丢失区分度。
-隐因子维度k的选择：代码默认k=50，但论文图4.1展示了k从10到100的RMSE曲线：k=30时RMSE快速下降，k=50后进入平缓区，k=80时训练时间增加3.2倍但RMSE仅改善0.002。这说明50是精度与效率的帕累托最优。
-缺失值填充策略：SVD需要完整矩阵，但原始数据是稀疏的。ItemCF用0填充会扭曲向量空间（把“未评分”等同于“评0分”）。代码采用均值填充：每行（用户）用该用户平均分填充，每列（电影）用该电影平均分填充，最后取二者平均——这个trick让SVD在稀疏数据上的表现提升显著。

注意：svd.py里第112行U, sigma, Vt = svds(R, k=k, which='LM')用的是scipy.sparse.linalg.svds，而非numpy.linalg.svd。因为MovieLens评分矩阵是稀疏的（98.3%零值），用稠密SVD会瞬间吃光16GB内存。svds专为稀疏矩阵优化，且which='LM'指定求最大特征值，正是我们需要的前k维主成分。

2.3 为什么不是ItemCF+ALS，或SVD+深度学习？

有人会问：现在主流不是用ALS（交替最小二乘）或神经协同过滤（NCF）吗？为什么不选？答案很务实：教学价值与工程可控性的平衡。

ALS虽比SVD收敛更快，但其迭代过程（固定p_u优化q_i，再固定q_i优化p_u）的数学推导复杂度陡增，本科生容易陷入“知道它快，但不懂为什么快”的困境。而SVD的梯度下降过程（论文附录A有完整推导）步骤清晰，每轮更新p_u ← p_u + γ(q_i(r_ui − q_i^T p_u) − λp_u)都能手动验算，是理解矩阵分解本质的最佳入口。
深度学习模型（如NCF）在MovieLens上RMSE可能低0.005，但需要GPU、调参经验、大量数据增强——而本项目强调“本地CPU可跑通”，所有实验在i5-8250U笔记本上完成，单次SVD训练耗时<90秒。

更重要的是，ItemCF+SVD构成了一组能力互补的基线模型：
- ItemCF响应快（实时计算相似度），但泛化弱（无法推荐用户从未接触过的类型）；
- SVD泛化强（隐因子可迁移），但响应慢（需全量重训练）。
论文第5章的对比实验，正是用这种互补性揭示了一个关键事实：在真实推荐场景中，“混合策略”比“单模型最优”更重要。比如，对活跃用户用SVD主推，对新用户用ItemCF+热门榜兜底——这种组合在覆盖率和多样性指标上全面超越单一模型。

3. 从数据到推荐：手把手复现全流程（含避坑指南）

3.1 环境准备：为什么requirements.txt里锁死了scikit-learn==1.0.2？

别跳过这一步！很多人直接pip install -r requirements.txt后报错，根源就在版本冲突。

requirements.txt内容如下：

numpy==1.21.6 scipy==1.7.3 scikit-learn==1.0.2 pandas==1.3.5 matplotlib==3.5.1

为什么锁死这些版本？实测发现：
- scikit-learn 1.1.0+ 版本中，cosine_similarity函数对稀疏矩阵的处理逻辑变更，导致ItemCF相似度矩阵计算结果偏差>15%；
- pandas 1.4.0+ 的read_csv默认启用新的引擎，在解析ratings.dat（无表头、::分隔）时会错误跳过首行；
- matplotlib 3.6.0+ 的绘图后端在无GUI环境（如服务器）下崩溃，而论文图表生成需稳定输出PNG。

正确操作流程：
1. 创建干净虚拟环境：python -m venv ml_env && source ml_env/bin/activate（Mac/Linux）或ml_env\Scripts\activate.bat（Windows）；
2. 逐条安装（避免pip自动升级）：pip install --no-deps numpy==1.21.6→pip install scipy==1.7.3→ …；
3. 验证环境：运行python -c "import sklearn; print(sklearn.__version__)"确认输出1.0.2。

提示：如果遇到ImportError: cannot import name 'svds' from 'scipy.sparse.linalg'，说明scipy版本不对。scipy 1.7.3是最后一个支持svds接口且兼容Python 3.8的版本，更高版本需改用scipy.sparse.linalg.svds新路径，但代码已适配旧路径。

3.2 数据预处理：ratings.dat不是“拿来就能用”的CSV

ratings.dat格式为：UserID::MovieID::Rating::Timestamp，共100万行。直接pd.read_csv('ratings.dat', sep='::')会失败——因为::是正则表达式特殊字符。正确做法是：

# data_loader.py 第12行 df = pd.read_csv('ratings.dat', sep='::', engine='python', names=['user_id', 'movie_id', 'rating', 'timestamp'])

engine='python'强制使用Python解析器，绕过pandas默认的C引擎对分隔符的限制。

更关键的是数据清洗逻辑（见data/clean_data.py）：
-过滤无效评分：删除rating不在1-5范围内的记录（MovieLens官方数据极少出错，但保险起见）；
-处理时间戳：原timestamp是Unix时间戳，转换为datetime后提取“星期几”“是否周末”作为后续特征扩展的预留字段；
-构建稀疏矩阵：核心操作是scipy.sparse.csr_matrix((ratings, (users, movies)), shape=(n_users, n_movies))。这里csr_matrix（压缩稀疏行）比csc_matrix（压缩稀疏列）更适合ItemCF——因为ItemCF计算时需频繁按列（电影）索引，CSR的列访问虽慢于CSC，但内存占用低40%，在4000×6000矩阵上节省近1.2GB内存。

注意：论文第2.2节提到“为降低内存峰值，清洗时丢弃评分次数<5的用户”。这不是随意决定——实测发现，保留这些用户会使ItemCF的相似度矩阵计算内存暴涨2.3倍，且对最终推荐质量无提升（见论文表2.1）。这是典型的“牺牲少量长尾用户，换取主干流程稳定性”的工程权衡。

3.3 ItemCF实操：从相似度矩阵到Top-N推荐的每一步

以用户ID=1为例，完整推荐流程如下（对应item_cf.py主函数）：
1.提取用户历史：user_ratings = train_matrix[1].toarray().flatten()→ 得到长度为4000的数组，非零值即该用户评过分的电影；
2.计算物品相似度：sim_matrix = cosine_similarity(train_matrix.T)→ 注意.T，得到4000×4000相似度矩阵；
3.筛选邻居：对用户评过的每部电影i，取sim_matrix[i]行，过滤出sim>0.3且不在用户历史中的电影j，按sim降序取Top-20；
4.加权预测：对候选电影j，遍历其所有相似物品i（i∈用户历史），累加sim(i,j) × (r_ui − r̄_u)，最后除以相似度绝对值和；
5.生成Top-N：对所有未评分电影j的预测分排序，取Top-10。

关键细节在代码第156行：

# 对每个候选电影j，只考虑与其相似度>0.3的已评电影i neighbor_items = np.where(sim_matrix[j] > 0.3)[0] valid_neighbors = np.intersect1d(neighbor_items, user_rated_items) if len(valid_neighbors) == 0: pred_score = global_popularity[j] # fallback to popularity else: # 加权平均，分子分母分别计算 numerator = sum(sim_matrix[j, i] * (train_matrix[user_id, i] - user_mean) for i in valid_neighbors) denominator = sum(abs(sim_matrix[j, i]) for i in valid_neighbors) pred_score = user_mean + numerator / denominator if denominator != 0 else user_mean

这里global_popularity[j]是全局热门榜（按电影被评分次数排序），不是简单按平均分——因为《泰坦尼克号》平均分高但年代久远，而《寄生虫》评分次数多且近期热度高，后者更能反映当前用户兴趣。

实操心得：我在调试时发现，若直接对所有4000部电影计算预测分再排序，单次推荐耗时>8秒。优化方案是：先用np.argsort(sim_matrix[j])[::-1][:50]快速找到与j最相似的50部电影，再从中筛选用户已评过的作为邻居——这样耗时降至0.3秒。论文第4.3节的性能对比表，正是基于此优化后的数据。

3.4 SVD实操：从矩阵分解到隐因子向量的物理意义

SVD流程比ItemCF更“数学”，但代码异常简洁（svd.py仅120行）：
1.构造评分矩阵R：同ItemCF，但填充策略不同——对每行（用户）用user_mean填充，每列（电影）用movie_mean填充，最终矩阵R_filled = (R_user_filled + R_movie_filled) / 2；
2.执行SVD分解：U, sigma, Vt = svds(R_filled, k=50)→ 得到U（n_users×50）、sigma（50×50对角阵）、Vt（50×n_movies）；
3.重构用户/物品向量：P = U * np.sqrt(sigma)（用户隐因子），Q = (np.sqrt(sigma) * Vt).T（物品隐因子）；
4.预测评分：pred = P[user_id].dot(Q[movie_id])；
5.生成推荐：对用户未评分的所有电影，计算pred并排序。

最关键的洞察在论文第3.4节：隐因子维度k=50的物理含义是什么？我们可视化了前5个隐因子的电影权重（见论文图3.5）：
- 因子1：权重最高的是《黑客帝国》《盗梦空间》《降临》，负向最高是《泰坦尼克号》《傲慢与偏见》→ 命名为“硬核科幻倾向”；
- 因子2：正向《玩具总动员》《海底总动员》，负向《七宗罪》《搏击俱乐部》→ “合家欢vs成人向”；
- 因子3：正向《阿甘正传》《肖申克的救赎》，负向《宿醉》《美国派》→ “经典励志vs美式喜剧”。

这证明SVD学到的不是随机数字，而是可解释的用户偏好维度。当你看到用户向量P[1]在因子1上得分0.92，在因子2上得分-0.35，就能直观判断：“用户1极度偏好硬核科幻，且不太喜欢合家欢电影”。

4. 论文与实验：那些没写在代码里的关键决策

4.1 评估指标为什么选RMSE、覆盖率、多样性，而不是准确率/召回率？

推荐系统评估常陷入误区：把分类问题的指标（准确率）直接搬来用。但电影推荐不是“预测用户是否点击”，而是“预测用户会给多少分”。RMSE（均方根误差）直接衡量预测分与真实分的偏差，物理意义明确：RMSE=0.87意味着平均预测误差不到1分，这对5分制评分体系是合理水平。

但只看RMSE会掩盖问题。论文第4.2节设计了两个补充指标：
-覆盖率（Coverage）：推荐列表中出现的不同电影数 / 总电影数。ItemCF覆盖率仅62.3%，因为它的推荐高度集中于热门电影；SVD达89.7%，因隐因子能挖掘小众佳片（如因子1高分的《湮灭》虽评分人数少，但被精准匹配给硬核科幻用户）。
-多样性（Diversity）：计算Top-10推荐电影两两间的题材距离（基于IMDb题材标签），取平均值。ItemCF多样性指数0.41（推荐多为科幻），SVD达0.68（科幻+剧情+惊悚混合）。

表4.3 实验结果对比（MovieLens-1M测试集）
| 指标 | ItemCF | SVD | 混合（50%+50%） |
|--------------|--------|-------|----------------|
| RMSE | 0.872 | 0.851 |0.849|
| 覆盖率 | 62.3% | 89.7% |91.2%|
| 多样性指数 | 0.41 | 0.68 |0.73|
| 单次推荐耗时 | 0.32s | 1.87s | 1.05s |

混合策略（ItemCF预测分×0.5 + SVD预测分×0.5）在所有指标上均占优，印证了“没有银弹模型，只有合适组合”的工程哲学。

4.2 文献综述.doc的价值：不是罗列论文，而是画清技术演进坐标系

这份文档常被忽略，但它解决了“我该往哪个方向深挖”的根本问题。它用三张图厘清脉络：
-图1：协同过滤演进树：从1992年GroupLens的UserCF雏形 → 2001年Sarwar提出ItemCF → 2006年Koren将矩阵分解引入推荐 → 2017年He提出NCF。标注了每个节点解决的核心痛点（如ItemCF解决UserCF的稀疏性问题）。
-图2：矩阵分解家族谱：SVD → SVD++（加入隐式反馈） → TimeSVD++（加入时间衰减） → FPMC（融合马尔可夫链）。指出MovieLens数据无隐式反馈（如点击、停留时长），故SVD是合理起点。
-图3：评估指标适用场景：RMSE适用于评分预测；Precision@K/Recall@K适用于Top-N推荐；ILS（Intra-List Similarity）衡量多样性。提醒读者：你的业务目标决定评估方式——若目标是提升用户停留时长，多样性可能比RMSE更重要。

实操建议：读文献综述时，重点看“未解决问题”部分。例如，它指出“SVD无法处理冷启动用户”，这直接启发你在代码中实现fallback策略（见item_cf.py第203行if user_id not in user_to_idx:分支）。

4.3 论文写作陷阱：如何避免“公式堆砌，结论空洞”

很多毕设论文败在“推导很全，但没说清为什么”。这篇论文的亮点在于：
-每个公式后紧跟代码行号：如“公式3.2：SVD目标函数”后注明“对应svd.py第89-92行”；
-每个实验结论必带归因分析：如“SVD RMSE更低，是因为隐因子捕获了用户未表达的偏好（见图3.5因子1解释）”；
-主动暴露局限性：在“总结建议”章节直言：“本实现未集成实时反馈，若线上部署需加入流式更新机制；SVD的隐因子维度k=50在MovieLens上最优，但在短视频场景可能需k=200，因品类更细碎”。

这种写法让答辩老师一眼看出：作者不仅会跑代码，更理解代码背后的因果链。

5. 常见问题与排查技巧实录：那些深夜调试时踩过的坑

5.1 “ItemCF推荐结果全是0分！”——相似度矩阵计算错误

现象：运行item_cf.py后，所有预测分都是0或极小值（如1e-10）。
排查路径：
1. 检查相似度矩阵是否全零：print(sim_matrix.max(), sim_matrix.min())→ 若输出0.0 0.0，说明计算失败；
2. 定位问题：cosine_similarity输入必须是二维数组，但新手常传入一维向量。正确应为：
```python
# 错误：传入一维
cosine_similarity(item_ratings[0], item_ratings[1]) # 返回标量

# 正确：传入二维（即使只有一行）
cosine_similarity(item_ratings[0].reshape(1, -1),
item_ratings[1].reshape(1, -1)) # 返回1×1矩阵
`` 3. 根源：ItemCF代码中cosine_similarity(item_ratings.T)的.T确保输入是“电影×用户”二维矩阵，若忘记.T，item_ratings`是“用户×电影”矩阵，相似度计算对象变成用户而非电影。

经验：在item_cf.py第78行添加断言：assert sim_matrix.shape[0] == n_items，可提前捕获维度错误。

5.2 “SVD训练时内存溢出（MemoryError）”

现象：运行svd.py卡在svds(R_filled, k=50)，报MemoryError。
根本原因：R_filled被转为稠密矩阵（dense array），4000×6000×8字节≈192MB，但svds内部会创建临时矩阵，峰值内存超1GB。
解决方案：
-强制保持稀疏性：不要用pd.DataFrame.fillna()，改用scipy.sparse.csr_matrix的sum(axis=1)计算行均值，再用scipy.sparse.diags构造填充矩阵；
-降维预处理：在data/clean_data.py中，过滤掉评分次数<10的电影（减少列数），实测可降内存40%且RMSE影响<0.002；
-终极方案：改用implicit库的als.AlternatingLeastSquares，它专为稀疏矩阵优化，内存占用仅为svds的1/5。

提示：论文第2.4节“内存优化策略”表格中，对比了三种填充方式的内存峰值，推荐使用“行均值+列均值”混合填充，它在精度与内存间取得最佳平衡。

5.3 “推荐结果和热门榜一模一样！”

现象：无论用户历史如何，Top-10推荐总是《阿凡达》《泰坦尼克号》《侏罗纪公园》。
原因分析：
- ItemCF中，相似度阈值设得过高（如0.5），导致邻居为空，全部fallback到热门榜；
- SVD中，隐因子维度k过小（如k=5），模型欠拟合，只能学出“全局热门”模式；
- 数据清洗时，错误地将所有缺失值填为0，导致SVD把“未评分”当作“厌恶”，向量学习严重偏差。

验证方法：
1. 检查ItemCF邻居数：print(len(valid_neighbors))→ 若常为0，调低相似度阈值；
2. 检查SVD预测分分布：pred_scores = P[user_id].dot(Q.T); print(np.percentile(pred_scores, [0, 25, 50, 75, 100]))→ 若25%和75%分位数接近，说明区分度不足，需增大k；
3. 检查填充值：print(R_filled.data.min(), R_filled.data.max())→ 若含0值，说明填充逻辑有误。

实操心得：我在调试时发现，MovieLens数据中约0.3%的评分是0分（非缺失），但fillna(0)会污染数据。正确做法是：先用mask = (R != 0)标记真实缺失，再对mask为True的位置填充。

5.4 “论文图表不显示中文，全是方块”

现象：运行plot_results.py生成的PDF图表，标题和坐标轴显示为□□□。
解决方案：在matplotlib代码开头添加：

import matplotlib matplotlib.rcParams['font.sans-serif'] = ['SimHei', 'Arial Unicode MS', 'DejaVu Sans'] matplotlib.rcParams['axes.unicode_minus'] = False # 解决负号显示为方块

根源：Linux/Mac默认字体不支持中文，而论文要求图表嵌入中文标题。SimHei（黑体）是Windows常用字体，Arial Unicode MS是Mac系统字体，DejaVu Sans是Linux通用字体，三者覆盖全平台。

注意：此配置需放在import matplotlib.pyplot as plt之前，否则无效。论文附录B的“图表生成规范”对此有详细说明。

6. 后续可扩展方向：从课程设计到真实项目的跃迁路径

这个包不是终点，而是起点。根据你的时间和目标，可选择不同深度的扩展：

轻量级（1天内完成）：
-增加时间衰减：在ItemCF相似度计算中，给近期评分更高权重。修改item_cf.py第142行：weight = np.exp(-(current_time - timestamp_j)/3600/24/30)（按月衰减）；
-接入IMDb API：用电影ID调用IMDb获取题材标签，替换论文中人工标注的题材距离，使多样性计算更客观。

中量级（3-5天）：
-实现在线学习：当新评分到达时，不重训全量模型，而是用implicit库增量更新SVD向量。这需要修改svd.py，将svds替换为ALS.fit()，并维护用户/物品向量缓存；
-AB测试框架：在main.py中添加分流逻辑，对50%用户返回ItemCF结果，50%返回SVD结果，记录点击率、观看时长等业务指标。

重量级（毕设深度）：
-冷启动专项优化：对新用户，用注册信息（年龄、性别）训练一个小型MLP，预测其在各隐因子上的初始值，替代SVD的随机初始化。这需要扩展数据目录，加入用户画像CSV；
-可解释性增强：在推荐结果旁显示理由，如“推荐《湮灭》因为您喜欢《降临》（相似度0.82）”。这需在ItemCF中保存邻居溯源信息，修改推荐函数返回元组(movie_id, score, reason)。

我个人在实际项目中发现，最值得投入的扩展不是算法本身，而是评估闭环。比如，在论文基础上增加“用户满意度问卷”模块：每次推荐后弹出1题：“本次推荐的10部电影中，您感兴趣的数量是？① 0-3部 ② 4-7部 ③ 8-10部”。将问卷结果与RMSE对比，你会发现：RMSE下降0.02时，用户满意度可能毫无变化——这提醒你，技术指标必须与业务目标对齐。

这个MovieLens实践包的价值，不在于它多完美，而在于它把推荐系统的“黑箱”彻底打开：从数据清洗的每一行代码，到论文公式的每一个符号，再到深夜调试时的每一个报错，全都真实可触。当你亲手跑通ItemCF的相似度矩阵，亲手推导出SVD的梯度更新式，亲手修复内存溢出的bug，你就不再是一个调包者，而是一个真正的推荐系统实践者。

本文还有配套的精品资源，点击获取