Qwen3-VL-0.6B？Reyes轻量化折腾：一个从0到1开始训练的0.6B参数量的多模态大模型-编程阁

标题一次，非Qwen3-VL-0.6B官方。最近手里有一台昇腾910B的服务器，顺便摸索下国产芯片的训练都有哪些坑，笔者时隔一年对Reyes《【多模态&LLM】Reyes：一个从0到1开始训练的多模态大模型（技术报告）》进行了改造，原本的Reyes由8B的参数构成（InternViT-300M-448px-V2_5+Qwen2.5-7B-Instruct），随着端侧模型的发展与手里资源的限制，最终笔者将Reyes参数量设置成0.6B，训练了一个轻量化的多模态模型，最终在MMMU-benchmark取得了38.7的得分。

权重开源：https://modelscope.cn/models/yujunhuinlp/Reyes-0.6B
github：https://github.com/yujunhuics/Reyes

模型架构

得益于开源社区优秀的开源模型（qwenvl、smolvlm等）在模型、代码、训练等提供的思路，Reyes-0.6B整体结构遵循经典的Vit+两层MLP+LLM架构：

vit视觉编码器：SigLIP2-Base-Patch16-512
LLM：qwen3-0.6B

优化trick

原生分辨率支持

在上个版本Reyes-8B中，主要采用了动态分辨率对图像进行预处理，包括归一化、缩放、裁剪、根据宽高比动态处理等操作。

在《多模态大模型中不同分辨率策略研究与原生分辨率的有效性评估》和现有多个VLMs（如qwenvl、keye-vl等）中都使用了原生分辨率。

因此本次Reyes-0.6B模型也增加了原生分辨率的支持，通过适配集成 2D Rotary Position Embeddings（2D-RoPE）和双三次插值适配位置嵌入实现。

像素洗牌（Pixel Shuffle）支持

在《开源的轻量化VLM-SmolVLM模型架构、数据策略及其衍生物PDF解析模型SmolDocling》提到，像素洗牌通过重新排列编码图像，以增加通道深度为代价换取空间分辨率。这减少了视觉标记数量，同时保持信息密度。

训练

训练数据得益于开源社区的快速发展，如FineVision、《多模态视觉语言模型：Molmo2训练数据、训练配方》提到的若干优质的数据集，结合一些筛选和净化手段。

训练整体分预训练和SFT两阶段：

预训练：训练模型的对齐能力，由VQA+OCR+caption数据构成。1024x1024低分辨率训练。
SFT：训练模型的多模态理解能力，由纯文本+VQA的混合数据进行训练，2048x2048高分辨率训练。

推理代码

import torch from transformers import AutoModel, AutoTokenizer, CLIPImageProcessor model_dir = "模型权重" model = AutoModel.from_pretrained(model_dir, trust_remote_code=True, torch_dtype=torch.bfloat16) tokenizer = AutoTokenizer.from_pretrained(model_dir, trust_remote_code=True) image_processor = CLIPImageProcessor.from_pretrained(model_dir, trust_remote_code=True) messages = [ { "role": "user", "content": [ {"type": "text", "text": "描述一下这张图片。"}, { "type": "image_url", "image_url": { "url": "test.png" }, } ], }, ] res = model.chat(messages, tokenizer, image_processor, max_new_tokens=1024, do_sample=True, temperature=0.6) print(res)

一些case

VQA：

prompt：描述一下这张图片。
输出：这张图片展示了一只威尔士柯基犬，它正坐在一条灰色的石板路上。狗狗的毛色主要是棕色和白色相间的，面部和胸部有明显的白色部分。它的耳朵竖立，眼睛半闭，嘴巴微微张开，露出一点粉色的舌头，看起来非常开心和活泼。背景中可以看到一些树木和草地，表明这只狗可能在一个公园或类似的户外环境中。整体上，这张照片给人一种轻松愉快的感觉，体现了狗狗的活力和亲近人心的一面。

OCR：

prompt：识别图片中的文字，输出markdown格式。
输出：

尾注：本次仅记录训练Reyes-0.6B的过程和一些trick的验证。

Google 地图叠加层：功能、应用与未来展望

Google 地图叠加层：功能、应用与未来展望引言 Google 地图作为全球最受欢迎的地图服务之一，凭借其强大的功能和丰富的数据资源，已经成为人们日常生活中不可或缺的工具。其中，Google 地图叠加层（Layers）功能为用户提供了更加灵活和个性化的地图体验。本文将详细介绍Goo…

李华

Spring 核心原理深度解析：Bean 作用域、生命周期与 Spring Boot 自动配置

目录前言一、Bean 的作用域：控制 Bean 的创建与复用规则 1.1 作用域的核心概念 1.2 Spring 的 6 种 Bean 作用域关键区别说明： 1.3 作用域的代码实现与测试 1.3.1 定义不同作用域的 Bean 1.3.2 测试不同作用域的 Bean 特性 1.4 作用域选择原…

李华

告别条码错误：信创RFID资产管理系统如何实现零失误管理

条码管理瓶颈凸显，资产管控亟需技术升级企业资产管理中，条码识别曾是主流方案，但在高频流转、批量盘点等场景中，固有缺陷逐渐成为效率与准确性的桎梏。条码识别依赖光学扫描，需满足“视线可见”“近距离对准”双重条件…

李华

Bootstrap5 轮播

Bootstrap5 轮播 Bootstrap 是一个流行的前端框架，它简化了网页设计和开发。Bootstrap5 作为其最新版本，提供了丰富的组件和工具，其中轮播组件（Carousel）是网页设计中常见的功能。本文将详细介绍 Bootstrap5 的轮播组件，包括其基本用法、配置选项以及如何自定义轮播效果…

李华

Web 标准

Web 标准引言随着互联网技术的飞速发展，Web 标准（Web Standard）已经成为互联网领域的基础和核心。本文将详细介绍Web标准的概念、重要性以及在我国的发展现状。一、Web 标准的概念 Web标准是指一系列用于构建互联网内容的规范，包括HTML、CSS、JavaScript等技术规范。…

李华