智谱AI重磅发布GLM-4.1V-Thinking：90亿参数多模态推理大模型，性能越级挑战GPT-4o-编程阁

2025年7月2日，智谱AI与清华大学KEG实验室联合推出新一代多模态推理大模型GLM-4.1V-Thinking。这款90亿参数的开源模型通过创新的强化学习训练框架，将多模态理解能力提升至接近720亿参数的Qwen2.5-VL-72B水平，在数学推理、代码生成等复杂任务上展现出媲美闭源标杆GPT-4o的性能。作为MIT协议开源的商用解决方案，该模型支持消费级显卡部署，为多模态AI的产业化应用开辟了全新路径。

【免费下载链接】GLM-4.1V-9B-Base项目地址: https://ai.gitcode.com/zai-org/GLM-4.1V-9B-Base

双版本协同发布：基础模型与推理增强版同步开源

此次发布包含两个技术路线的核心模型：基础版GLM-4.1V-9B-Base与推理增强版GLM-4.1V-9B-Thinking。这种"基座+增强"的双模型策略，构建了从基础能力到专业推理的完整技术链条。开发者可直接调用推理增强版实现复杂任务处理，也能基于基础模型进行定制化训练，极大降低了多模态技术的应用门槛。

基础模型GLM-4.1V-9B-Base采用深度优化的视觉语言架构，在大规模图文语料上完成预训练，形成扎实的多模态理解基座。而推理增强版则通过精细化的指令对齐与强化学习训练，重点强化了逻辑推理、数学运算、长文档理解等高级能力。这种分阶段的能力构建方式，既保证了基础能力的稳定性，又实现了专业场景的性能突破。

四大技术突破：重新定义开源多模态模型能力边界

跨维度通用推理架构

GLM-4.1V-Thinking在科学推理（STEM）领域展现出显著优势，能够处理复杂数学公式推导、物理问题求解和工程设计分析。在长文档理解任务中，模型可精准提取百页PDF中的关键信息并生成结构化摘要；图形用户界面（GUI）交互测试显示，其完成操作系统指令的成功率较同量级模型提升40%；多模态代码生成功能支持根据UI设计稿自动生成前端代码，实现从视觉到逻辑的跨模态转换。

参数效率革命：90亿参数挑战千亿级性能

在权威评测体系中，这款90亿参数模型在28项多模态基准测试中，有18项指标超越或持平8倍参数量的Qwen2.5-VL-72B。特别在数学推理专项评测中，WeMath得分63.8分，超过Qwen2.5-VL-72B达17.8分；ChartQAPro图表理解任务中以59.5分领先第二名12.8分。更令人瞩目的是，在MMStar综合评测中获得72.9分，不仅超越Qwen2.5-VL-72B 2分，更领先GPT-4o 6.7分，展现出在特定推理场景的绝对优势。

三段式训练框架：从潜力到能力的系统转化

模型创新性地构建了"大规模预训练→指令精调对齐→强化学习激发"的三阶训练体系。预训练阶段采用400亿图文对构建基础能力；指令精调阶段使用500万高质量多模态指令数据优化输出格式；强化学习阶段则通过动态课程学习机制重点提升推理能力。这种系统化训练框架有效解决了开源模型普遍存在的"能力碎片化"问题，使模型在保持通用能力的同时，实现专业场景的性能飞跃。

全链条开源生态：从模型到工具的完整支持

作为MIT协议开源项目，GLM-4.1V系列提供完整的训练代码、推理工具和部署教程。模型权重已在GitCode平台开放下载（仓库地址：https://gitcode.com/zai-org/GLM-4.1V-9B-Base），配套提供量化部署脚本，支持18GB显存以上显卡运行。社区还发布了可视化推理工具、多模态数据处理库和行业应用模板，形成从技术研究到产业落地的全链条支持体系。

权威评测验证：28项基准测试中的越级表现

在横跨8大任务类别的28项主流评测中，GLM-4.1V-Thinking展现出全面领先的性能表现。通用视觉问答（VQA）领域，MMBench-V1.1英文版本获得85.8分，超越同量级模型3-14分；中文版本84.7分的成绩，较Qwen2.5-VL 7B提升4.6分。数学推理专项的MathVista测试中，模型以80.7分刷新开源模型纪录，超过Qwen2.5-VL 72B达5.9分，甚至领先GPT-4o 16.7分。

长文档理解任务呈现显著优势，MMLongBench-Doc评测获得42.4分，较Qwen2.5-VL 72B提升7.2分，接近GPT-4o的41.0分。GUI智能体测试中，WebVoyageSom任务得分69.0分，远超同类模型最高得分40.4分，展现出在人机交互场景的实用价值。代码生成领域的Design2Code测试中，64.7分的成绩较第二名高出22.8分，验证了多模态到代码逻辑的转化能力。

技术创新解密：可扩展强化学习与课程采样（RLCS）

强化学习的必要性论证

传统监督微调（SFT）模型在处理多步骤推理问题时，常出现"中间步骤跳跃"或"结论矛盾"现象。智谱AI研究团队发现，SFT仅能优化模型的输出格式对齐，无法有效提升逻辑推理能力。通过引入强化学习（RL），模型可在多轮试错中学习最优推理路径，在数学推理任务中实现+7.3%的准确率提升，复杂问题解决率提高近一倍。

动态课程学习机制

RLCS机制的核心创新在于实时难度评估与采样策略调整。系统通过评估模型对每个样本的解题概率，动态划分"已掌握（>90%正确率）"、"学习区（60-90%正确率）"和"待提升（<60%正确率）"三个区间。训练过程中自动提升"学习区"样本权重至60%，降低"已掌握"样本权重至10%，实现计算资源的精准投放。这种动态调整使单位算力的学习效率提升3倍，模型收敛速度加快50%。

训练效率与性能平衡

技术报告显示，RLCS框架在保持训练成本不变的情况下，使模型在20项关键任务上的平均准确率提升5.8%。特别是在MMMU-Pro（专业级多模态理解）评测中，从SFT阶段的51.2分提升至RL阶段的57.1分，实现11.5%的相对提升。这种效率与性能的平衡，为开源模型突破性能瓶颈提供了全新技术范式。

开源部署与商业应用：从实验室到产业界的无缝衔接

GLM-4.1V-Thinking采用MIT开源协议，允许商业应用场景免费使用，彻底消除了多模态技术的知识产权壁垒。模型支持INT4/INT8量化部署，在18GB显存的消费级显卡上即可运行，较同类模型显存需求降低40%。社区已发布Windows、Linux和Docker多平台部署方案，配合可视化推理工具，开发者可在30分钟内完成本地化部署。

在行业应用方面，模型已在智能教育、医疗影像分析、工业质检等领域开展试点。教育场景中，模型可自动批改数学作业并生成个性化错题解析；医疗领域实现医学影像与报告的双向转换；工业场景则通过GUI交互控制检测设备，缺陷识别准确率达98.3%。这些案例验证了开源多模态模型在产业落地的可行性与经济性。