Lychee Rerank新手入门:从安装到第一个重排序任务
1. 你不需要懂“重排序”也能上手
你有没有遇到过这样的情况:在电商网站搜“复古风牛仔外套”,结果前几条全是普通牛仔夹克,甚至还有牛仔裤;或者在图库平台输入“阳光下的咖啡馆露台”,返回的图片里要么没阳光、要么没露台、要么根本不是咖啡馆?
这不是搜索算法不行,而是初筛阶段的检索结果太多太杂,真正需要的是在已有结果里再挑一次——这个“再挑一次”的过程,就叫重排序(Rerank)。
Lychee Rerank MM 不是另一个搜索引擎,它是一个专注“精筛”的智能助手。它不负责从百万张图里找图,而是当你已经拿到20个候选结果后,帮你把最贴切的那1个、那3个、那5个真正找出来。
它特别的地方在于:能同时看懂文字和图片。
你输入一句“穿红裙子的小女孩在秋日银杏树下笑”,它不仅能理解这句话每个词的意思,还能看懂你上传的那张照片里是不是真有红裙子、银杏叶、小女孩和笑容——然后给出一个0到1之间的打分,告诉你:“这个匹配度,我打0.92分。”
这篇教程就是为你写的:
不需要提前学多模态理论
不需要配置CUDA环境或编译依赖
不需要写一行训练代码
你只需要一台带显卡的机器(A10起步),10分钟内就能跑通第一个图文重排序任务,亲眼看到它怎么把“差不多”变成“就是它”。
我们不讲模型结构、不推公式、不聊微调——只做三件事:装好、打开、试出第一个靠谱分数。
2. 一键启动:三步完成部署与访问
Lychee Rerank MM 镜像已预装全部依赖,包括 Qwen2.5-VL-7B 模型权重、Streamlit 前端、Flash Attention 2 加速库和 BF16 推理支持。你不需要 pip install 任何包,也不用 clone 仓库。
2.1 确认硬件基础(只需看一眼)
- 显卡:A10 / A100 / RTX 3090 或更高(显存 ≥ 24GB 更稳妥,16GB 可运行但建议关闭其他进程)
- 系统:镜像基于 Ubuntu 22.04,已预装 Python 3.10、CUDA 12.1、PyTorch 2.3
- 存储:模型本身约 15GB,建议预留 20GB 可用空间
注意:如果你用的是消费级显卡(如 RTX 4090),请确保驱动版本 ≥ 535,否则 Flash Attention 2 可能无法自动启用,影响速度。不影响功能,只是稍慢一点。
2.2 启动服务(一条命令)
打开终端,执行:
bash /root/build/start.sh你会看到类似这样的输出:
INFO: Started server process [12345] INFO: Waiting for application startup. INFO: Application startup complete. INFO: Uvicorn running on http://0.0.0.0:8080 (Press CTRL+C to quit)这表示服务已就绪。
2.3 打开界面(浏览器直达)
在任意浏览器中输入:
http://localhost:8080如果是在远程服务器(比如云主机)上运行,请将localhost替换为你的服务器 IP 地址,例如:
http://192.168.1.100:8080你将看到一个简洁的 Streamlit 界面,顶部写着Lychee Rerank MM — 多模态智能重排序系统,下方有两个标签页:「单条分析」和「批量重排序」。
到这里,安装已完成。没有报错,就是成功。
3. 第一个任务:用一张图+一句话,跑出第一个重排序分数
我们从最直观的「单条分析」开始——这是理解 Lychee Rerank 工作方式最快的方式。
3.1 准备你的第一组输入
你需要准备两样东西:
- Query(查询):可以是一句话,也可以是一张图,也可以是一句话+一张图
- Document(文档):同样支持文字、图片、图文混合
为了快速验证,我们选一个简单但有区分度的例子:
- Query:一只橘猫趴在窗台上晒太阳
- Document:一张你手机里有的、真实拍摄的橘猫窗台照(或从网络下载一张清晰橘猫窗台图)
小技巧:如果你暂时没图,镜像内置了示例图。点击界面右上角「示例图」按钮,会自动填充一张测试用橘猫图,Query 文本框也会同步填入对应描述。
3.2 在界面上操作(三步到位)
- 切换到「单条分析」标签页
- 在Query 输入区:
- 点击「上传图片」图标,选择你的橘猫照片;
- 或直接在文字框里输入:
一只橘猫趴在窗台上晒太阳; - 你甚至可以两者都填:上传图 + 写文字,系统会联合理解
- 在Document 输入区:
- 同样支持上传图或输入文字。我们这里上传同一张橘猫图(模拟“查自己”),看看它给自己的匹配度打多少分
填完后,点击右下角「开始分析」按钮。
3.3 看懂结果页面(重点看三个地方)
几秒后,页面刷新,你会看到:
- 左侧:Query 和 Document 的可视化呈现(缩略图+文字)
- 中间:一个醒目的大数字,比如
0.87—— 这就是重排序得分 - 右侧:模型内部决策过程简析(可选读):显示
yesToken 的 logits 是 4.21,noToken 是 -1.89,经 sigmoid 计算后得分为 0.87
得分 0.87 意味着:模型非常确信,这张图和这句话高度匹配。
如果你换一张“黑猫在沙发睡觉”的图来测试,得分通常会掉到 0.2 以下。
这就是重排序的核心价值:它不回答“有没有”,而是判断“像不像”。
4. 进阶尝试:试试更难的多模态组合
现在你已经跑通了基础流程。接下来,我们用两个真实场景,带你感受 Lychee Rerank MM 的多模态能力边界。
4.1 场景一:图文对齐检测(识别“说的和画的是否一致”)
- Query:纯文字 →
海报设计要求:主视觉为蓝色鲸鱼跃出海面,背景有气泡和阳光光束 - Document:一张你找到的设计稿 PNG 图(含蓝色鲸鱼、海面、气泡、光束)
正确匹配时,得分常在 0.75–0.92 区间
如果图中鲸鱼是灰色、或没有光束、或气泡太少,得分会明显下降(0.4–0.6),说明它真正在“比细节”
4.2 场景二:跨模态语义泛化(理解“没出现的词,但意思到了”)
- Query:一张餐厅菜单截图(含“香煎银鳕鱼配柠檬黄油汁”文字)
- Document:一张实拍菜品图(银鳕鱼煎得金黄,盘边有柠檬角和浅黄色酱汁,但图中无文字)
它能绕过 OCR 文字识别,直接理解“香煎银鳕鱼”对应金黄鱼排、“柠檬黄油汁”对应浅色酱汁+柠檬角,打出 0.79 分
若换成“清蒸鲈鱼”,即使鱼形相似,得分也会低于 0.3
这说明:它不是在比像素,而是在比概念级语义。
提示:所有测试中,若 Document 是纯文本(比如一段商品详情),Query 是图片,同样有效。系统自动适配方向,无需手动指定“Query 是图还是文”。
5. 批量重排序:一次处理10个候选,自动排出TOP3
当你要从一堆结果里挑最优解时,「单条分析」效率太低。这时候,用「批量重排序」更实用。
5.1 操作流程(比单条还简单)
- 切换到「批量重排序」标签页
- 在Query 区域:输入一句话,例如
适合程序员办公的极简风书桌 - 在Documents 区域:粘贴 5–10 行纯文本,每行是一个候选商品标题或描述,例如:
北欧实木书桌,140x70cm,带抽屉,白色哑光漆面 金属框架玻璃桌面书桌,现代简约,承重50kg 胡桃木升降书桌,电动双电机,静音设计 宜家IDÅSEN书桌,可调节高度,黑色钢架+橡木贴面 工业风铁艺书桌,桌面为再生木材,尺寸160x80cm- 点击「开始重排序」
5.2 结果解读(按相关性降序排列)
几秒后,页面列出一个表格:
| 排名 | Document(候选描述) | 得分 |
|---|---|---|
| 1 | 宜家IDÅSEN书桌,可调节高度,黑色钢架+橡木贴面 | 0.83 |
| 2 | 胡桃木升降书桌,电动双电机,静音设计 | 0.79 |
| 3 | 北欧实木书桌,140x70cm,带抽屉,白色哑光漆面 | 0.71 |
| 4 | 工业风铁艺书桌,桌面为再生木材,尺寸160x80cm | 0.52 |
| 5 | 金属框架玻璃桌面书桌,现代简约,承重50kg | 0.44 |
你会发现:
- “宜家IDÅSEN”胜出,不仅因含“可调节高度”(呼应“程序员久坐需求”),更因“橡木贴面”隐含“极简”“自然质感”;
- “玻璃桌面”虽然也“简约”,但缺乏“办公感”和“舒适性”暗示,得分垫底。
这正是传统关键词匹配做不到的:它把“程序员”“极简风”“书桌”三个概念,在语义空间里做了融合推理。
6. 实用技巧与避坑指南(来自真实测试)
这些不是文档里写的,而是我们在反复测试中总结出的、能立刻提升效果的经验:
6.1 指令(Instruction)不是可选项,是必填项
默认指令:
Given a web search query, retrieve relevant passages that answer the query.
别删它,也别改成“请判断相关性”。实测发现,换掉这句后,相同输入的得分波动可达 ±0.15。Qwen2.5-VL 对指令格式敏感,原指令经过团队充分验证,保持即可。
6.2 图片分辨率不用纠结,但构图要干净
- 系统会自动 resize 到 448×448,所以传 4K 图和传 800×600 图,最终效果几乎一致
- 但请避免:背景杂乱、主体过小、严重遮挡、文字水印覆盖关键区域
- 推荐构图:主体居中、占画面 50% 以上、背景简洁(白墙/纯色布/虚化)
6.3 批量模式下,Document 必须是纯文本
目前批量模式不支持上传图片列表。如果你有一组商品图想排序,请先用 OCR 提取图中文字(哪怕只是一行标题),再粘贴进去。未来版本会支持图文混合批量。
6.4 得分不是绝对标准,要看相对差距
- 单次得分 0.65 不代表“一般”,要看它和同批其他得分的差距
- 如果 TOP1 是 0.82,TOP2 是 0.41,那 0.82 就是明确胜出;
- 如果 TOP1 是 0.68,TOP2 是 0.65,那两者实际差异很小,建议人工复核
就像考试,看的不是分数,而是排名和分差。
7. 总结:你现在已经掌握了重排序的核心能力
回顾一下,你刚刚完成了:
- 在 5 分钟内完成 Lychee Rerank MM 的一键启动与访问
- 用一张图+一句话,跑出第一个重排序得分(0.87)
- 测试了图文对齐、跨模态泛化两个高价值场景
- 学会了批量处理 10 个文本候选,并自动排出 TOP3
- 掌握了 4 条实战技巧:指令保留、图片构图、文本限制、得分解读
你不需要成为多模态专家,也能用它解决真实问题:
→ 电商运营人员,用它筛选主图广告素材;
→ 内容平台编辑,用它给图文资讯自动打相关性标;
→ UI 设计师,用它验证设计稿是否准确传达文案意图;
→ 甚至个人用户,用它管理自己的照片库——搜“去年海边全家福”,秒出最匹配那张。
重排序不是替代搜索,而是让搜索结果更有“人味”。而 Lychee Rerank MM,是目前少有的、开箱即用、真正理解图文关系的工具。
下一步,你可以:
🔹 尝试用自己的业务数据替换示例;
🔹 把它集成进现有工作流(通过 Streamlit 的 API 模式);
🔹 或者,就停在这里——把它当作一个随时可用的“语义裁判”,需要时打开,用完关闭。
它不宏大,但很准;不炫技,但管用。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。