news 2026/4/16 9:11:36

多模态-3 BLIP

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
多模态-3 BLIP

这篇文章介绍多模态模型-BLIP

Transformer基础介绍可以看:深度学习基础-5 注意力机制和Transformer

多模态基础知识点可以看:多模态-1 基础理论

ViT相关介绍可以看:计算机视觉Transformer-1 基础结构

CLIP相关介绍可以看:多模态-2 CLIP

BLIP原论文:《BLIP: Bootstrapping Language-Image Pre-training for

Unified Vision-Language Understanding and Generation》

一 网络结构

基于多任务学习构建了一个兼顾图像理解与生成的多模态模型BLIP,具体结构如下:

整体包含四部分:

1)图像编码器:上图中最左侧部分,论文中使用的是ViT模型,负责对输入的图像进行特征编码

2)ITC(Image-Text Contrastive)任务:图像编码表示、文本编码表示对比学习组件,利用类似CLIP的对比学习方法,构建全局粒度的图像特征、文本特征语义对齐

3)ITM(Image-Text Matching)任务:判断图像编码表示、文本编码表示是否匹配,二分类任务,构建局部细粒度的图像特征、文本特征语义对齐

4)LM(Language Modeling)任务:文本生成组件,负责根据输入的图像编码表示、文本编码表示,生成输入图像对应的文本描述

BLIP不同学习任务不是完全独立的模型层,而是采用共享模型层的策略,减少模型整体体积的同时,提高BLIP整体性能。

二 训练过程

1.从训练数据集中获取一个batch的<图像,图像文本描述>训练数据

2.利用图像编码器获取图像的特征编码表示

3.将图像文本描述输入到ITC、ITM、LM中进行特征提取,其中ITM、LM中利用cross attention将图像的编码表示作为K、V,图像文本描述的编码表示作为Q,进行图像-文本编码特征语义对齐

4.ITC计算当前batch内所有图像编码表示、文本编码表示的相似度矩阵

5.ITM需要根据当前batch的训练数据构造负样本,因为输入的都是匹配的<图像,图像文本描述>对,如果都用这些匹配的正样本训练ITM,效果会不好,所以需要构造出负样本输入到ITM中进行训练,ITM根据最终融合图像编码表示的文本编码特征进行二分类判断,判断输入的<图像,图像文本描述>是否匹配

6.LM采取的是标准Transformer的Decoder流程,根据图像编码表示、文本编码表示,解码出图像对应的文本描述

7.计算ITC、ITM、LM三部分的损失,反向传播训练整个BLIP

三 数据集构建过程

基于已经训练完毕的BLIP模型,构建高质量的多模态训练数据集,整体流程如下:

四 实验结果

五 细节问题

1 模型、训练过程

1.对于ViT的图像编码输出,ITC使用的是ViT的[cls]嵌入向量,ITM、LM使用的是ViT的全部输出结果

2.BLIP使用了动量编码器方法增加ITC训练的稳定性

3.BLIP的ITM任务构建负样本时,会优先选择ITC匹配错误的样本对作为难样本来构建负样本,提升模型的效果

2 数据集处理

3 实验评测指标计算

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/15 7:54:48

DownKyi全能解析:7大突破让B站视频下载效率提升300%

DownKyi全能解析&#xff1a;7大突破让B站视频下载效率提升300% 【免费下载链接】downkyi 哔哩下载姬downkyi&#xff0c;哔哩哔哩网站视频下载工具&#xff0c;支持批量下载&#xff0c;支持8K、HDR、杜比视界&#xff0c;提供工具箱&#xff08;音视频提取、去水印等&#xf…

作者头像 李华
网站建设 2026/3/21 18:33:38

百度网盘提取码智能解析工具深度评测:效率提升与技术解析

百度网盘提取码智能解析工具深度评测&#xff1a;效率提升与技术解析 【免费下载链接】baidupankey 项目地址: https://gitcode.com/gh_mirrors/ba/baidupankey 一、资源获取的现实困境&#xff1a;提取码机制下的效率瓶颈 在当前的数字化协作环境中&#xff0c;百度网…

作者头像 李华
网站建设 2026/4/4 16:49:28

如何突破游戏语言障碍?这款工具让你畅玩全球游戏

如何突破游戏语言障碍&#xff1f;这款工具让你畅玩全球游戏 【免费下载链接】XUnity.AutoTranslator 项目地址: https://gitcode.com/gh_mirrors/xu/XUnity.AutoTranslator 你是否曾因语言障碍而错过一款优秀的外文游戏&#xff1f;是否曾在游玩过程中因看不懂剧情对话…

作者头像 李华
网站建设 2026/4/15 11:01:33

一文说清硬件电路设计基础:电阻电容应用要点

以下是对您提供的博文《一文说清硬件电路设计基础&#xff1a;电阻电容应用要点——深度技术分析》的 全面润色与重构版本 。本次优化严格遵循您的全部要求&#xff1a; ✅ 彻底去除AI痕迹&#xff0c;代之以资深硬件工程师第一人称视角的真实表达 ✅ 摒弃模板化标题&#…

作者头像 李华
网站建设 2026/4/15 8:22:16

如何联系科哥技术支持?unet开发者沟通渠道指南

如何联系科哥技术支持&#xff1f;UNet人像卡通化工具开发者沟通渠道指南 你刚用上这款基于UNet架构的人像卡通化工具&#xff0c;界面清爽、操作简单&#xff0c;上传一张照片&#xff0c;几秒就生成一张风格鲜明的卡通头像——但突然遇到模型加载失败、批量处理卡在87%、或者…

作者头像 李华