news 2026/4/16 15:48:13

【程序员必看】GLM-4.6V图文混排原理解析与复刻实践:收藏级多模态Agent实战教程

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【程序员必看】GLM-4.6V图文混排原理解析与复刻实践:收藏级多模态Agent实战教程

GLM-4.6V多模态模型能将PDF论文转换为图文混排解读文章,模型可精确识别图片位置(千分位坐标),一次性处理大量图片并支持持续优化。作者通过逆向工程复刻了该功能,展示了GLM-4.6V作为原生Agent的"看"信息能力,为构建AI智能体提供了新思路。


上周是智谱的多模态开源周,从GLM 4.6v到Autoglm…

看到官方的博客,第一眼比较吸引我的,不是模型本身,是他们给的一个使用场景 -图文并排

上传一份 PDF 论文,它能生成一篇图文混排的解读文章,而且效果非常好。图片位置精准,上下文衔接自然,完全不像是机械拼接的。

过去我们想做图文混排,都是预定义一些图片,让多模态大模型生成描述,再让LLM在写文章时结合图片描述,选择合适的图片url。

流程繁琐,效果一般(主要是模型看不到这些图)。

太久没用过多模态大模型了,感觉时代似乎变了~

Z.ai 已经上线了这个能力,所以我逆向了一下原理,复刻了一下,有不少收获,给家人们分享一下。

GLM 4.6V 是一个多模态原生智能体

我们可以看一下下边的视频。大概的步骤是,模型会先生成一个带工具槽位的初版,然后进行图片引用,调用裁剪工具,捞回来图片,最后完成终稿的撰写。

其实从Z.ai 服务请求日志,也可以看到具体的工具调用信息。

相当于类似一个ReAct Agent,调用工具截图相当于获取到observation,然后进行下一步的Action。

如果想做一个自由度没这么高的一个架构,类似下图:

基于这个模式,我复刻了一套代码。结果跟ZAI跑出来的结果基本一致。重点是复刻过程中,我发现了几个非常有意思的点,后文会详细介绍一下。

跑一篇20页的论文,大概消耗1毛5的样子。如果用量比较多,可以考虑智谱的GLM Coding Plan,20 元包月起,用量是同价位 Claude Code 的三倍。而且官方提供了一系列适配4.6v的MCP, 使用起来会更顺手。

三个有意思的能力

模型知道图片的精确位置

这是Glm4.6V 最让我惊讶的能力。模型不仅能理解图片内容,还能输出图片在页面上的坐标,比如前面调用图片裁剪工具,我让模型输出的格式如下:

[页码, [[x1, y1, x2, y2]], "图片标题"]

需要注意的是:模型的输出坐标是千分位坐标(0-999 范围),需要按比例转换成像素坐标。 当然如果用官方mcp tools没这个烦恼。

def thousandth_to_pixel(coord, image_width, image_height): """千分位坐标转像素坐标""" x1 = int(coord[0] / 1000 * image_width) y1 = int(coord[1] / 1000 * image_height) x2 = int(coord[2] / 1000 * image_width) y2 = int(coord[3] / 1000 * image_height) return [x1, y1, x2, y2]

为什么是千分位?因为不同分辨率的图片,像素坐标会变,但千分位坐标是相对的,更具通用性。

一次输入几十张图片

一篇 20 页的 PDF,转成图片后全部塞进去,模型能完整理解,128k确实不是吹的。

这让我想起不久前智谱的另一个工作Glyph:把文本渲染成图片,让视觉 token 承载更多信息。

传统的 token 扩展方式已经走到算力成本的天花板。与其硬扛百万级token的计算压力,不如让 AI看文字,而不是读文字。

所以过去我们头痛的解析、分块等操作,随着多模态模型的变强,似乎迎刃而解了。

可以基于裁剪结果持续迭代

获取到裁剪后的图片之后,如果只是简单的字符串替换,直接正则就够了。

但如果用VLM,在第二轮可以验证裁剪是不是正确,可以调整图片周围的文字,可以优化图文的排版位置。

GLM-4.6V 就是一个原生的 Agent。

AI大模型从0到精通全套学习大礼包

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

只要你是真心想学AI大模型,我这份资料就可以无偿共享给你学习。大模型行业确实也需要更多的有志之士加入进来,我也真心希望帮助大家学好这门技术,如果日后有什么学习上的问题,欢迎找我交流,有技术上面的问题,我是很愿意去帮助大家的!

如果你也想通过学大模型技术去帮助就业和转行,可以扫描下方链接👇👇
大模型重磅福利:入门进阶全套104G学习资源包免费分享!

01.从入门到精通的全套视频教程

包含提示词工程、RAG、Agent等技术点

02.AI大模型学习路线图(还有视频解说)

全过程AI大模型学习路线


03.学习电子书籍和技术文档

市面上的大模型书籍确实太多了,这些是我精选出来的


04.大模型面试题目详解

05.这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理,鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位,在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利,同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频由智泊AI老师录制,且资料与智泊AI共享,相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。


智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌,通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌,构建起"前沿课程+智能实训+精准就业"的高效培养体系。

课堂上不光教理论,还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事‌!


如果说你是以下人群中的其中一类,都可以来智泊AI学习人工智能,找到高薪工作,一次小小的“投资”换来的是终身受益!

应届毕业生‌:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。

零基础转型‌:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型‌。

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/11 14:37:34

多模态大模型工作原理详解:视觉与语言信息如何在MLLMs中融合与传播?

本研究首次系统性分析多模态大语言模型内部跨模态信息流动机制,通过注意力屏蔽方法发现视觉信息通过三阶段传播:低层整合全局视觉特征,中层提取问题相关视觉信息,高层进行最终预测。这一发现揭示了LLaVA系列模型中信息流动的一致模…

作者头像 李华
网站建设 2026/4/16 11:14:08

一文搞定多级标题自动编号

在撰写长文档或技术报告时,多级标题的自动编号往往让人头疼。尤其是当需求超过 4 级,涉及到 1.1.1.1、(1)、1) 甚至 ① 的混合排版时,手动输入不仅效率低,还极易出错。 本文将带你彻底搞定 Word 和 WPS 中的多级列表排版&#xf…

作者头像 李华
网站建设 2026/4/16 14:21:36

拒绝 CRUD 搬砖:我如何用脚本 + 模板把重复工作降到 10%

一、真实痛点引入:我们是工程师,还是“高级打字员”? 回想一下你最近接的一个需求:“给后台增加一个商品分类管理功能”。 逻辑极其简单:增删改查(CRUD)。但你需要做哪些动作? 设…

作者头像 李华
网站建设 2026/4/13 6:15:33

2026毕设ssm+vue旅行网的设计与实现论文+程序

本系统(程序源码)带文档lw万字以上 文末可获取一份本项目的java源码和数据库参考。 系统程序文件列表 开题报告内容 一、选题背景 关于旅游信息化管理问题的研究,现有研究主要以传统OTA平台(在线旅游代理)的整体架构…

作者头像 李华
网站建设 2026/4/16 12:28:56

气动式定尺飞锯机设计

2气动式定尺飞锯机整体设计 2.1功能分析 气动式定尺飞行锯机应用的领域广泛,例如锯切焊接管,钢筋,轻铝管和大多合金管。显着的特征是由于其高的切割力和可切割管道的大直径范围,以及由于空气床装置保证了气动技术的高压力性&#…

作者头像 李华