Lychee Rerank新手入门：从安装到第一个重排序任务-编程阁

Lychee Rerank新手入门：从安装到第一个重排序任务

1. 你不需要懂“重排序”也能上手

你有没有遇到过这样的情况：在电商网站搜“复古风牛仔外套”，结果前几条全是普通牛仔夹克，甚至还有牛仔裤；或者在图库平台输入“阳光下的咖啡馆露台”，返回的图片里要么没阳光、要么没露台、要么根本不是咖啡馆？

这不是搜索算法不行，而是初筛阶段的检索结果太多太杂，真正需要的是在已有结果里再挑一次——这个“再挑一次”的过程，就叫重排序（Rerank）。

Lychee Rerank MM 不是另一个搜索引擎，它是一个专注“精筛”的智能助手。它不负责从百万张图里找图，而是当你已经拿到20个候选结果后，帮你把最贴切的那1个、那3个、那5个真正找出来。

它特别的地方在于：能同时看懂文字和图片。
你输入一句“穿红裙子的小女孩在秋日银杏树下笑”，它不仅能理解这句话每个词的意思，还能看懂你上传的那张照片里是不是真有红裙子、银杏叶、小女孩和笑容——然后给出一个0到1之间的打分，告诉你：“这个匹配度，我打0.92分。”

这篇教程就是为你写的：
不需要提前学多模态理论
不需要配置CUDA环境或编译依赖
不需要写一行训练代码
你只需要一台带显卡的机器（A10起步），10分钟内就能跑通第一个图文重排序任务，亲眼看到它怎么把“差不多”变成“就是它”。

我们不讲模型结构、不推公式、不聊微调——只做三件事：装好、打开、试出第一个靠谱分数。

2. 一键启动：三步完成部署与访问

Lychee Rerank MM 镜像已预装全部依赖，包括 Qwen2.5-VL-7B 模型权重、Streamlit 前端、Flash Attention 2 加速库和 BF16 推理支持。你不需要 pip install 任何包，也不用 clone 仓库。

2.1 确认硬件基础（只需看一眼）

显卡：A10 / A100 / RTX 3090 或更高（显存 ≥ 24GB 更稳妥，16GB 可运行但建议关闭其他进程）
系统：镜像基于 Ubuntu 22.04，已预装 Python 3.10、CUDA 12.1、PyTorch 2.3
存储：模型本身约 15GB，建议预留 20GB 可用空间

注意：如果你用的是消费级显卡（如 RTX 4090），请确保驱动版本 ≥ 535，否则 Flash Attention 2 可能无法自动启用，影响速度。不影响功能，只是稍慢一点。

2.2 启动服务（一条命令）

打开终端，执行：

bash /root/build/start.sh

你会看到类似这样的输出：

INFO: Started server process [12345] INFO: Waiting for application startup. INFO: Application startup complete. INFO: Uvicorn running on http://0.0.0.0:8080 (Press CTRL+C to quit)

这表示服务已就绪。

2.3 打开界面（浏览器直达）

在任意浏览器中输入：

http://localhost:8080

如果是在远程服务器（比如云主机）上运行，请将localhost替换为你的服务器 IP 地址，例如：

http://192.168.1.100:8080

你将看到一个简洁的 Streamlit 界面，顶部写着Lychee Rerank MM — 多模态智能重排序系统，下方有两个标签页：「单条分析」和「批量重排序」。

到这里，安装已完成。没有报错，就是成功。

3. 第一个任务：用一张图+一句话，跑出第一个重排序分数

我们从最直观的「单条分析」开始——这是理解 Lychee Rerank 工作方式最快的方式。

3.1 准备你的第一组输入

你需要准备两样东西：

Query（查询）：可以是一句话，也可以是一张图，也可以是一句话+一张图
Document（文档）：同样支持文字、图片、图文混合

为了快速验证，我们选一个简单但有区分度的例子：

Query：一只橘猫趴在窗台上晒太阳
Document：一张你手机里有的、真实拍摄的橘猫窗台照（或从网络下载一张清晰橘猫窗台图）

小技巧：如果你暂时没图，镜像内置了示例图。点击界面右上角「示例图」按钮，会自动填充一张测试用橘猫图，Query 文本框也会同步填入对应描述。

3.2 在界面上操作（三步到位）

切换到「单条分析」标签页
在Query 输入区：
- 点击「上传图片」图标，选择你的橘猫照片；
- 或直接在文字框里输入：一只橘猫趴在窗台上晒太阳；
- 你甚至可以两者都填：上传图 + 写文字，系统会联合理解
在Document 输入区：
- 同样支持上传图或输入文字。我们这里上传同一张橘猫图（模拟“查自己”），看看它给自己的匹配度打多少分

填完后，点击右下角「开始分析」按钮。

3.3 看懂结果页面（重点看三个地方）

几秒后，页面刷新，你会看到：

左侧：Query 和 Document 的可视化呈现（缩略图+文字）
中间：一个醒目的大数字，比如0.87—— 这就是重排序得分
右侧：模型内部决策过程简析（可选读）：显示yesToken 的 logits 是 4.21，noToken 是 -1.89，经 sigmoid 计算后得分为 0.87

得分 0.87 意味着：模型非常确信，这张图和这句话高度匹配。
如果你换一张“黑猫在沙发睡觉”的图来测试，得分通常会掉到 0.2 以下。

这就是重排序的核心价值：它不回答“有没有”，而是判断“像不像”。

4. 进阶尝试：试试更难的多模态组合

现在你已经跑通了基础流程。接下来，我们用两个真实场景，带你感受 Lychee Rerank MM 的多模态能力边界。

4.1 场景一：图文对齐检测（识别“说的和画的是否一致”）

Query：纯文字 →海报设计要求：主视觉为蓝色鲸鱼跃出海面，背景有气泡和阳光光束
Document：一张你找到的设计稿 PNG 图（含蓝色鲸鱼、海面、气泡、光束）

正确匹配时，得分常在 0.75–0.92 区间
如果图中鲸鱼是灰色、或没有光束、或气泡太少，得分会明显下降（0.4–0.6），说明它真正在“比细节”

4.2 场景二：跨模态语义泛化（理解“没出现的词，但意思到了”）

Query：一张餐厅菜单截图（含“香煎银鳕鱼配柠檬黄油汁”文字）
Document：一张实拍菜品图（银鳕鱼煎得金黄，盘边有柠檬角和浅黄色酱汁，但图中无文字）

它能绕过 OCR 文字识别，直接理解“香煎银鳕鱼”对应金黄鱼排、“柠檬黄油汁”对应浅色酱汁+柠檬角，打出 0.79 分
若换成“清蒸鲈鱼”，即使鱼形相似，得分也会低于 0.3

这说明：它不是在比像素，而是在比概念级语义。

提示：所有测试中，若 Document 是纯文本（比如一段商品详情），Query 是图片，同样有效。系统自动适配方向，无需手动指定“Query 是图还是文”。

5. 批量重排序：一次处理10个候选，自动排出TOP3

当你要从一堆结果里挑最优解时，「单条分析」效率太低。这时候，用「批量重排序」更实用。

5.1 操作流程（比单条还简单）

切换到「批量重排序」标签页
在Query 区域：输入一句话，例如适合程序员办公的极简风书桌
在Documents 区域：粘贴 5–10 行纯文本，每行是一个候选商品标题或描述，例如：

北欧实木书桌，140x70cm，带抽屉，白色哑光漆面 金属框架玻璃桌面书桌，现代简约，承重50kg 胡桃木升降书桌，电动双电机，静音设计 宜家IDÅSEN书桌，可调节高度，黑色钢架+橡木贴面 工业风铁艺书桌，桌面为再生木材，尺寸160x80cm

点击「开始重排序」

5.2 结果解读（按相关性降序排列）

几秒后，页面列出一个表格：

排名	Document（候选描述）	得分
1	宜家IDÅSEN书桌，可调节高度，黑色钢架+橡木贴面	0.83
2	胡桃木升降书桌，电动双电机，静音设计	0.79
3	北欧实木书桌，140x70cm，带抽屉，白色哑光漆面	0.71
4	工业风铁艺书桌，桌面为再生木材，尺寸160x80cm	0.52
5	金属框架玻璃桌面书桌，现代简约，承重50kg	0.44

你会发现：

“宜家IDÅSEN”胜出，不仅因含“可调节高度”（呼应“程序员久坐需求”），更因“橡木贴面”隐含“极简”“自然质感”；
“玻璃桌面”虽然也“简约”，但缺乏“办公感”和“舒适性”暗示，得分垫底。

这正是传统关键词匹配做不到的：它把“程序员”“极简风”“书桌”三个概念，在语义空间里做了融合推理。

6. 实用技巧与避坑指南（来自真实测试）

这些不是文档里写的，而是我们在反复测试中总结出的、能立刻提升效果的经验：

6.1 指令（Instruction）不是可选项，是必填项

默认指令：

Given a web search query, retrieve relevant passages that answer the query.

别删它，也别改成“请判断相关性”。实测发现，换掉这句后，相同输入的得分波动可达 ±0.15。Qwen2.5-VL 对指令格式敏感，原指令经过团队充分验证，保持即可。

6.2 图片分辨率不用纠结，但构图要干净

系统会自动 resize 到 448×448，所以传 4K 图和传 800×600 图，最终效果几乎一致
但请避免：背景杂乱、主体过小、严重遮挡、文字水印覆盖关键区域
推荐构图：主体居中、占画面 50% 以上、背景简洁（白墙/纯色布/虚化）

6.3 批量模式下，Document 必须是纯文本

目前批量模式不支持上传图片列表。如果你有一组商品图想排序，请先用 OCR 提取图中文字（哪怕只是一行标题），再粘贴进去。未来版本会支持图文混合批量。

6.4 得分不是绝对标准，要看相对差距

单次得分 0.65 不代表“一般”，要看它和同批其他得分的差距
如果 TOP1 是 0.82，TOP2 是 0.41，那 0.82 就是明确胜出；
如果 TOP1 是 0.68，TOP2 是 0.65，那两者实际差异很小，建议人工复核

就像考试，看的不是分数，而是排名和分差。

7. 总结：你现在已经掌握了重排序的核心能力

回顾一下，你刚刚完成了：

在 5 分钟内完成 Lychee Rerank MM 的一键启动与访问
用一张图+一句话，跑出第一个重排序得分（0.87）
测试了图文对齐、跨模态泛化两个高价值场景
学会了批量处理 10 个文本候选，并自动排出 TOP3
掌握了 4 条实战技巧：指令保留、图片构图、文本限制、得分解读

你不需要成为多模态专家，也能用它解决真实问题：
→ 电商运营人员，用它筛选主图广告素材；
→ 内容平台编辑，用它给图文资讯自动打相关性标；
→ UI 设计师，用它验证设计稿是否准确传达文案意图；
→ 甚至个人用户，用它管理自己的照片库——搜“去年海边全家福”，秒出最匹配那张。

重排序不是替代搜索，而是让搜索结果更有“人味”。而 Lychee Rerank MM，是目前少有的、开箱即用、真正理解图文关系的工具。

下一步，你可以：
🔹 尝试用自己的业务数据替换示例；
🔹 把它集成进现有工作流（通过 Streamlit 的 API 模式）；
🔹 或者，就停在这里——把它当作一个随时可用的“语义裁判”，需要时打开，用完关闭。

它不宏大，但很准；不炫技，但管用。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

Lychee Rerank新手入门：从安装到第一个重排序任务