小伙伴们好,我是小嬛。专注于人工智能、计算机视觉、AI大模型领域相关分享研究。【目标检测、图像分类、图像分割、目标跟踪等项目都可做,相关领域论文辅导也可以找我;需要的可联系(备注来意)】
-------正文开始--------
Transformer这块又有新突破了!麻省理工学院何恺明团队发布了一项颠覆性研究JiT(见下文解析),重塑了扩散模型的生成范式,无需tokenizer、无需预训练、也无需额外的损失函数即可成为强大的生成模型!
究其原理,这项成果是Transformer在视觉生成领域的功能性改进与应用创新,属于Transformer两大主流创新思路中的改良派,还是那种直指问题根源的根本性反思类,给我们提供了一个非常好的创新切入点示范!
因此,在大多数人都在做加法、堆叠更复杂的模块时,建议你也可以试试在主流任务中针对关键瓶颈进行深度改进。当然为了帮助你快速找到灵感
我已备好23-25年的经典论文和写作技巧与创新点结合,有需要的朋友可以加我小助理,发送:(977C) 领取
Back to Basics: Let Denoising Generative Models Denoise
方法:论文提出JiT方法,创新性地让Transformer直接预测干净图像而非噪声或含噪量,依托流形假设仅保留低维数据信息,无需预训练、分词器或额外损失,通过大尺寸图像块处理和瓶颈结构设计,在高分辨率像素空间实现高效生成,践行Diffusion+Transformer的通用自包含范式。
创新点:
让Transformer直接预测干净图像而非噪声或含噪量,契合流形假设,降低高维空间建模难度。
采用“Just Image Transformers”极简设计,无需预训练、分词器及额外损失,实现自包含的扩散生成。
通过大尺寸图像块处理与瓶颈结构,在高分辨率像素空间高效生成,践行通用“Diffusion + Transformer”范式。
The Scalability of Simplicity: Empirical Analysis of Vision-Language Learning with a Single Transformer
方法:论文提出 SAIL 方法,创新地采用单一 Transformer 统一架构,摒弃独立视觉编码器,通过混合注意力机制(图像块双向注意力 + 文本因果注意力)与多模态旋转位置编码,端到端学习视觉 - 语言交互,无需额外模块或预训练视觉组件,实现兼具强跨模态性能与优质视觉表征能力的高效建模。
创新点:
采用单一Transformer架构统一处理图像与文本,摒弃传统独立视觉编码器及对齐模块,实现端到端跨模态建模。
设计混合注意力机制与多模态旋转位置编码,适配图像2D空间特性与文本1D序列特性,强化跨模态对齐。
无需预训练视觉组件,仅通过两阶段预训练与数据/模型缩放,同时具备强视觉-语言任务性能和优质视觉表征能力。
Hallo3: Highly Dynamic and Realistic Portrait Image Animation with Video Diffusion Transformer
方法:论文提出 Hallo3 方法,创新地将预训练 Transformer-based 视频扩散模型应用于肖像图像动画,通过设计含因果 3D VAE 与堆叠 Transformer 层的身份参考网络、跨注意力机制融合音频条件、运动帧辅助长视频外推的方案,解决非正面视角、动态前景 / 背景等难题,实现高动态、高真实度且身份一致的肖像动画生成。
创新点:
首次将预训练DiT-based视频扩散模型应用于肖像动画,突破传统U-Net架构局限,适配非正面视角、动态场景等复杂需求。
设计含因果3D VAE与堆叠Transformer层的身份参考网络,通过自注意力机制注入身份特征,保障长视频序列中面部身份一致性。
采用跨注意力机制融合音频嵌入实现精准唇同步,结合运动帧条件机制,支持长时长视频外推生成。
Dita:Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy
方法:论文提出 Dita 方法,创新地采用基于 Transformer 的扩散架构,通过上下文内条件机制让 Transformer 直接对连续动作序列去噪,融合语言指令、视觉观测与时间步嵌入,无需独立扩散头或动作离散化,实现跨多机器人数据集的高效迁移,仅需 10-shot 微调即可适配复杂长时任务与真实机器人场景。
创新点:
采用基于Transformer的扩散架构,通过上下文内条件机制直接对连续动作序列去噪,无需独立扩散头或动作离散化。
融合语言指令、视觉观测与时间步嵌入为统一令牌序列,让模型捕捉历史视觉观测中的动作细微变化。
依托Transformer的可扩展性适配跨机器人数据集,仅需10-shot微调即可迁移至复杂长时任务与真实机器人场景。
感谢各位观众的观看和支持,祝大家的论文早日accept!!
希望论文一路绿灯的朋友可以找我,我有团队,有资源,有背景,一条龙服务~~~~