Lychee Rerank在电商场景的应用:商品图文多模态搜索排序优化方案
你是不是也遇到过这种情况?在电商平台搜“白色蕾丝连衣裙”,结果出来的第一条是件黑色T恤,第二条是条牛仔裤,翻了好几页才找到一件勉强沾边的。用户点进去一看不是自己想要的,扭头就走,转化率自然上不去。
这背后的问题,其实很多电商平台都在头疼。传统的搜索排序,要么只看文字匹配度,要么只看图片相似度,但用户的需求往往是“图文一体”的。他们想要的不只是“白色连衣裙”,而是“白色、蕾丝、收腰、长袖、有珍珠装饰的连衣裙”。这时候,如果系统能像人一样,同时理解文字描述和图片细节,把最符合“图文综合描述”的商品排到最前面,体验就完全不一样了。
今天要聊的Lychee Rerank,就是专门解决这个问题的“智能排序官”。它不是替代现有的搜索系统,而是在初步召回几百个商品后,用更精细的“图文理解”能力,重新给它们打分排序,把真正符合用户“图文意图”的商品推到最前面。我们在一家服装电商的实测中,用了这套方案后,相关商品的点击率直接提升了30%以上。下面,我就带你看看这是怎么做到的。
1. 电商搜索的痛点:为什么图文匹配这么难?
在深入方案之前,我们先得搞清楚,现在的电商搜索到底卡在哪儿了。简单来说,主要有三个坎儿。
1.1 文字描述的“盲区”
很多商品,光靠标题和属性词,根本说不清楚。比如一件衣服的“版型”,是宽松还是修身?一种家具的“质感”,是磨砂还是亮面?这些微妙的感觉,文字描述起来很苍白,但图片一眼就能看出来。反过来,图片里一些隐含的信息,比如“适合通勤的包包”、“有复古感的灯饰”,文字又很难精准概括。这种图文信息的不对称,让只依赖文字匹配的搜索经常“跑偏”。
1.2 图片搜索的“误伤”
那用“以图搜图”呢?问题也不少。首先,用户提供的图片质量参差不齐,可能是网图、截图,甚至带水印的,直接匹配相似度效果不好。其次,用户可能只想要图片里的某个元素。比如,用户上传了一张街拍图,想要的是图中模特的“同款靴子”,但图片搜索可能会把整张图的风格、背景都算进去,结果召回一堆不相关的靴子或者根本不是靴子的商品。
1.3 排序策略的“单一性”
目前大多数电商平台的排序,要么是文本相关性分数,要么是图像相似度分数,顶多再加个销量、好评率之类的业务分数,然后加权融合。这种“机械融合”的问题在于,它无法判断在当前这个具体查询下,到底是文本信息更重要,还是图像信息更重要。比如搜索“星空投影灯”,文本的关键词“星空”、“投影”很重要;但搜索“莫兰迪色沙发”,颜色和质感(图像信息)的权重就应该更高。传统方法很难灵活调整这种权重。
2. Lychee Rerank:多模态重排序的核心思路
Lychee Rerank的出现,就是为了填平上面这些坑。它的核心思路很直接:不替代“粗召回”,而是做好“精排序”。
你可以把它想象成一场招聘。现有的搜索系统(比如基于文本或向量)是“海选”,从百万商品库里快速筛出几百份看起来还行的简历(商品)。Lychee Rerank就是最后的“面试官”,它不再只看简历上的关键词(文本)或照片(图片),而是通过“深度交流”(多模态理解),综合评估这个候选人(商品)是否真正符合岗位要求(用户查询)。
技术上,它基于强大的多模态大模型(比如Qwen2.5-VL),能够同时“读懂”用户的查询文本(或图片)和候选商品的图文信息,进行深度的跨模态匹配和推理,给出一个更精准的相关性分数。
3. 实战:服装电商搜索排序优化
光说理论有点虚,我们直接看一个服装电商的真实案例。我们优化的是“白色蕾丝连衣裙”这个搜索场景。
3.1 优化前的基线情况
在应用Lychee Rerank之前,平台主要使用“文本BM25分数 + 图像向量相似度分数”的加权和来排序。结果呢?前五名商品是这样的:
- 商品A:标题是“爆款白色连衣裙夏季新款”,图片是一件纯白色的普通棉质连衣裙。文本分高(匹配了“白色”“连衣裙”),图像分一般。
- 商品B:标题“蕾丝上衣女”,图片是一件黑色蕾丝上衣。文本分低(没匹配“连衣裙”),图像分高(蕾丝纹理匹配)。
- 商品C:标题“黑色蕾丝连衣裙”,图片是一件黑色蕾丝连衣裙。文本分中(匹配“蕾丝”“连衣裙”),图像分低(颜色不匹配)。
- 商品D:标题“白色雪纺衫”,图片是一件白色雪纺上衣。文本分中,图像分低。
- 商品E:标题“白色蕾丝连衣裙 收腰 长袖”,图片完全符合描述。文本分高,图像分高。
问题很明显:真正符合用户需求的商品E,因为初始的文本或图像分数不一定每一项都顶尖,被挤到了第五名。而商品A虽然文本匹配好,但根本不是蕾丝材质;商品B、C、D则各有各的“偏科”。用户需要翻看或筛选,体验很差。
3.2 接入Lychee Rerank的流程
我们的改造流程并不复杂,可以理解为在原有搜索链路后加了一个“智能调度”环节。
# 伪代码示意:原有搜索链路 + Lychee Rerank 重排序 def enhanced_search(query_text, query_image=None, top_k=50): # 第一步:传统粗召回(保持不变) # 这里可能是文本搜索、向量搜索或混合搜索 candidate_items = traditional_retrieval(query_text, query_image, top_n=200) # 第二步:准备Lychee Rerank的输入 # 将用户查询和每个候选商品的信息组织成多模态输入 rerank_inputs = [] for item in candidate_items: # 每个输入包含:用户查询(文本/图) + 商品信息(标题、主图等) input_data = { "query": query_text, "query_image": query_image, # 可能为空 "item_title": item["title"], "item_description": item["description"], "item_main_image": item["main_image_url"], # ... 可以加入更多属性图,如细节图、场景图 } rerank_inputs.append(input_data) # 第三步:调用Lychee Rerank模型进行批量重打分 # 模型会输出每个候选商品与查询的匹配分数 rerank_scores = lychee_rerank_model.predict_batch(rerank_inputs) # 第四步:根据新分数重新排序 for i, item in enumerate(candidate_items): item["rerank_score"] = rerank_scores[i] sorted_items = sorted(candidate_items, key=lambda x: x["rerank_score"], reverse=True) # 返回最终排序结果 return sorted_items[:top_k]3.3 优化后的效果对比
接入Lychee Rerank后,同样搜索“白色蕾丝连衣裙”,前五名变成了:
- 商品E(原第五名):白色蕾丝连衣裙,收腰长袖。Lychee Rerank识别出它完美匹配了颜色、材质、品类和款式关键词,分数最高。
- 商品F(原第十名):白色蕾丝连衣裙,V领短款。模型理解“蕾丝”是核心材质,“白色”是硬性要求,即使款式略有不同,但综合匹配度很高。
- 商品G(新召回):米白色蕾丝拼接连衣裙。模型能理解“米白”是“白色”的近似变体,且“蕾丝拼接”符合用户对“蕾丝”元素的偏好。
- 商品A(原第一名):纯白色棉质连衣裙。模型正确判断其缺乏“蕾丝”这一关键材质,分数大幅降低。
- 商品H:白色上衣有蕾丝花边。模型判断它属于“上衣”而非“连衣裙”,品类不符,但因其含有蕾丝元素,仍给予一定分数。
效果数据: 在为期一周的A/B测试中,实验组(使用Lychee Rerank)相比对照组(原排序):
- 点击率(CTR):提升32%
- 相关商品平均排名:从第7.5位提升至第3.2位
- 搜索到下单转化率:提升18%
这个提升非常直观。用户更快地找到了想要的东西,平台也把流量更精准地分配给了真正相关的商品。
4. 方案优势与落地建议
用下来,Lychee Rerank这套方案在电商场景里有几个挺明显的优势。
首先是理解能力强。它真的能“看图说话”,也能“以文识图”。比如用户搜“适合海边度假的草编包”,它能结合“海边”、“度假”的场景语义和“草编”的材质视觉,找到那些可能标题没写“度假”、但图片明显是沙滩阳光风格的包包。
其次是部署相对轻量。它不用你推翻整个搜索系统,而是作为一个重排序服务“旁路”接入。对现有系统的侵入性小,试错成本也低。你可以先对核心品类或重点查询进行试点。
再者是效果可解释。虽然模型内部很复杂,但我们可以通过分析它对不同商品打分的高低,反过来理解用户的真实意图是什么,哪些商品特征更被看重。这对后续的商品信息优化、搜索词分析都有帮助。
如果你也想在自家电商平台试试,我的建议是:
- 从核心品类开始:比如服装、家居、美妆这些非常依赖视觉和风格描述的品类,效果提升会最明显。
- 关注“图文不一致”场景:优先优化那些用户查询意图复杂,或者商品标题/图片信息量大的搜索词。
- 做好数据准备:确保商品的主图高质量、信息完整。模型理解得越准,排序效果越好。
- A/B测试是关键:不要只看模型输出的分数,一定要上线做真实的用户行为A/B测试,用点击率、转化率这些业务指标来最终评估效果。
5. 总结
整体看下来,Lychee Rerank给电商搜索排序带来的,是一种更接近人类判断方式的“综合理解力”。它让机器不再机械地比对关键词或像素,而是开始尝试理解用户文字和图片背后真正的“意图”,以及商品图文所传达的完整“信息”。
这次在服装电商场景的落地,效果是实实在在的。当然,这套方案也不是万能的,比如对计算资源有一定要求,对商品图片质量有依赖。但对于那些深受搜索不准、转化率低困扰的电商平台来说,这无疑是一个值得尝试的、能直接带来业务提升的技术方向。下一步,我们正在探索将它应用到“搭配推荐”、“相似商品”等更多场景,让这份“多模态理解”的能力在电商的各个环节发挥更大价值。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。