news 2026/4/16 14:09:58

推荐大模型系列-NoteLLM-2: Multimodal Large Representation Models for Recommendation(三)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
推荐大模型系列-NoteLLM-2: Multimodal Large Representation Models for Recommendation(三)

目录

一、训练细节

二、端到端MLRM细节

三、Qwen-VL-Chat的显著性分数分析

传统MLLMs与MLRMs的适配问题

四、零样本多模态表示性能

五、长查询 与 目标对 模型性能评估


上一篇文章:推荐大模型系列-NoteLLM-2: Multimodal Large Representation Models for Recommendation(二)

一、训练细节

所有基于大语言模型(LLM)的模型,其详细训练超参数均列于表8中。此外,训练过程中采用DeepSpeed [37]及零冗余优化器(ZeRO)[38]的第三阶段技术。

二、端到端MLRM细节

表9提供了端到端MLRM的详细信息。同时,为便于理解Tomato模型的特性,此处详述其持续预训练细节。Tomato基于LLaMA 2 [47]架构,原模型仅支持英文。由于目标平台面向中文市场,需增强LLaMA 2的中文理解能力,因此在持续预训练中进行了以下改进:

  • 词表扩展:将原始词表从32,000个词元扩展至49,216个,新增的17,216个词元主要为中文词汇。
  • 预训练数据:数据来源包含三部分:中文语料、英文语料及平台专有数据。中文语料采用开源数据集如万卷[18]和悟道[53],总量约2T词元;为保持英文能力,引入RedPajama[9]数据;此外,整合了平台内高质量笔记数据30B词元,以更好地学习平台数据特性。

Tomato在提升中文理解能力的同时,英文能力与原始LLaMA 2模型相当。需说明的是,预训练细节与本文贡献无关,本文方法基于持续预训练后的模型实现。这也体现了NoteLLM-2方法的优势:在微调前可针对不同模态对基座模型进行个性化增强。

三、Qwen-VL-Chat的显著性分数分析

在Qwen-VL-Chat中观察到独特的显著性分数模式(如图6所示)。该模型的主要信息流为文本形式,所有层的数值均高于0.8。这一现象源于大量视觉嵌入(Qwen-VL-Chat中为256维)输入到大型语言模型(LLMs),导致图像信息流的平均显著性降低。

传统MLLMs与MLRMs的适配问题

上述结果表明,传统多模态大语言模型(MLLMs)无法直接适用于多模态大规模表征模型(MLRMs)。为适配MLRMs,需通过增加信息流密度的方式调整MLLMs的结构设计。

四、零样本多模态表示性能

本节以零样本方式探索多模态大语言模型(MLLMs)在多模态I2I推荐任务中的表示能力。实验选取了四种主流MLLMs:BLIP-2 [27]、LLaVA-1.5 [30]、Qwen-VL [3]和Qwen-VL-Chat [3],同时对比了基线方法BM25 [39]、Qwen-Chat [2]以及基于LLaMA 2 [47]持续预训练的纯文本模型Tomato(该模型缺乏视觉感知能力,但使用了平台数据训练)。模型细节见表7。为分析MLLMs对不同模态的表示能力,测试时分别独立输入图像和文本。

实验结果见表10,主要发现如下:现有MLLMs的零样本表示性能均逊于BM25,表明尽管MLLMs具备优秀的视觉理解能力,但其零样本多模态表示能力仍有不足,原因在于MLLMs采用语言建模损失训练,与表示任务目标不匹配,因此需要额外训练以实现任务对齐。

多数情况下,MLLMs对多模态输入的表示效果优于单模态,证明其能有效提取并融合多模态信息。同时,大多数MLLMs对文本信息的表示能力优于图像信息,这与模型参数主要源于纯文本LLMs有关,且实验场景中文本笔记比图像更具区分性。

值得注意的是,纯文本LLMs在不接收任何图像输入时,性能仍可与MLLMs相当。

五、长查询 与 目标对 模型性能评估

为全面评估方法的有效性,针对长查询与长目标对进行了测试。长文本定义为超过165个标记(约占测试文本的10%)的样本。测试数据集包含2,228个长查询对和2,177个长目标对。结果如表11所示。

由于大语言模型(LLMs)出色的长上下文理解能力,长文本对的性能显著优于整体数据,因长文本提供了更丰富的信息。此外,相比基础方法,所提方法在长文本对上进一步提升了效果,这表明增强对视觉信息的关注对长文本处理同样重要。


好啦,关于notellm-2这篇文章已经基本完成讲解,之后会已这篇多模态大模型展开,去调研相关paper,并进行路径整理,敬请期待~

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 7:21:52

Day35 PythonStudy

浙大疏锦行 特性函数装饰器类装饰器作用对象函数类传入参数接收函数作为参数接收类作为参数返回值返回包装后的函数返回修改后的类常见用途修改函数行为修改类的结构核心逻辑用闭包包裹函数,在不修改函数代码的前提下扩展功能直接修改类的定义 特性类内部定义方法…

作者头像 李华
网站建设 2026/4/16 7:38:30

2026中专生不想做客服,如何提升自己?

🫧毕业季来临,不少中专生发现自己的求职列表里,客服岗占了大半——重复的接线应答、琐碎的投诉处理、有限的薪资涨幅,再加上狭窄的晋升空间,让很多人望而却步。关键在于跳出“低门槛、高重复”的客服赛道,打…

作者头像 李华
网站建设 2026/4/15 16:23:09

DAY 23 常见的特征筛选算法

前言: 在昨天我们提到了如何利用聚类方法来获得新的、信息量更多的特征以此来提升模型的各项性能指标,本文将采用相反的思路,通过一些常见的特征筛选方法减少部分特征以筛选出真正有信息的特征,进而减少计算量、提升模型的精度&am…

作者头像 李华
网站建设 2026/4/15 22:27:59

【Java毕设全套源码+文档】基于springboot的闲置物品共享平台设计与实现(丰富项目+远程调试+讲解+定制)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华
网站建设 2026/4/16 9:02:14

TinyMCE5支持pdf书签目录结构导入

企业级富文本编辑器Word粘贴与导入功能解决方案评估报告 一、需求背景分析 作为江苏某集团企业的项目负责人,我们近期在企业网站后台管理系统的文章发布模块中面临以下核心需求: 增加Word粘贴功能:支持从Word复制内容直接粘贴到编辑器&…

作者头像 李华