近期加州大学圣克鲁兹分校的研究团队提出了MiniGPT-5

发布时间：2023-10-12 11:00:05 所属栏目：外闻来源：转载

导读： 　　加州大学圣克鲁兹分校的研究团队最近展示了一种名为“MiniGPT-5”的技术，它基于“生成式voken”概念，开创了一种新的交错视觉语言生成方式。

　　大型视觉

　　加州大学圣克鲁兹分校的研究团队最近展示了一种名为“MiniGPT-5”的技术，它基于“生成式voken”概念，开创了一种新的交错视觉语言生成方式。

　　大型视觉和语言模型的最新发展中，多模态特征的集成不仅是不断发展的趋势，而且是一个关键的进步，从多模态对话到尖端内容创建工具，最终构成广泛的应用程序，比如它促进了虚拟现实，媒体和电子商务等等各个领域的互动。从本质上讲，此次研究的主要任务是，使模型能够使用视觉和文本方式相结合，识别和响应，并协调信息流。

　　我想以这样的研究结果，在这些技术方法上，通过使用ViT和Qformer以及大型语言模型，研究团队将多模态输入转换为生成式voken，且与高分辨率的Stable Diffusion2.1无缝配对，以实现上下文感知图像生成。MiniGPT-5与CLIP约束等模型相匹配，很好的将扩散型与MiniGPT-4结合在一起，最重要的是，本文的研究策略可以利用多模态视觉语言基础模型的进步，为增强多模态生成能力提供新的方向。

　　而这项研究的价值贡献体现在以下几个方面：

　　研究团队建议使用多模态编码器，它是一种可通用的新颖技术，有效证明该技术比LLM更有效，还可以反转生成Vokens，并将其与稳定的扩散相结合，以生成交流的视觉和语言输出（多模态生成的的多模态语言模型）。

　　重点介绍了一种新的两阶段训练策略，用于无描述的多模态生成。单模态对齐阶段从大型文本图像对中获取高质量文本一致性视觉特征。多模态学习阶段包括一项新颖的训练任务，促使上下文生成，确保视觉效果和文本提示可以很好地协调生成。在训练阶段，加入了无分类器指导，进一步提高生成质量。也就是说Prompt语境生成，确保视觉和文本Prompt能够更好地协调生成大家想要的内容。

　　与其他多模式生成模型相比，MiniGPT-5在CC3M数据集上实现了最先进的性能。MiniGPT-5还在Vist和Mmdialog在内的著名的数据集上建立了前所未有的基准。

　　研究方法

　　为了赋予人工智能大型语言模型一个具有多模态生成框架的功能，该领域的研究团队引入了一个高级的结构化模型生成框架，该框架集成了预验证的多模态大型语言模型和文本到图像生成模型。为了解决跨模型域的差异，研究团队还引入了特殊的视觉令牌（即“生成vokens”） - 能够在原始图像上进行直接训练。此外，还采用了两阶段的训练方法，再加上无分类器的指导策略，以进一步提高生成质量。

　　多模态输入阶段

　　多模态大语言模型（例如MiniGPT-4）的最新进展主要集中在多模态理解上，从而使图像作为顺序输入进行处理。为了将其功能扩展到多模态生成，研究团队引入了旨在输出视觉特征的生成Vokens。此外，研究团队在多模态输出学习的大语言模型（LLM）框架内采用尖端，参数有效的微调技术，用来多模态输出学习。

　　如上面的MiniGPT-5管道图的概述结构。研究团队利用验证的多模态大语言模型（MiniGPT-4）和文本对图像生成模型来创建统一的多模态生成管道。输入图像编码器，还有MiniGPT-4预测的VIT，Qformer和线性层。橙色块是可学习的参数，而蓝色块在训练过程中是固定的。

　　多模态输出生成

　　为了将生成式token与生成模型准确地对齐，研究团队还制定了一个紧凑的映射模块，以匹配维度，并结合了几种监督损失，包括文本空间丢失和潜在扩散模型损失。文本空间损失有助于模型学习token的正确定位，而潜在扩散损失将token与适当的视觉特征保持一致。由于生成的Vokens的特征是由图像直接指导的，因此我们的方法不需要对图像全面描述，从而导致无描述学习。

　　训练策略

　　鉴于文本和图像域之间的不可忽略的域移动，我们观察到在有限的交织文本和图像数据集上进行直接训练可能导致未对准和图像质量降低。因此，研究团队采用两种不同的培训策略来减轻此问题。第一个策略包括了无分类器引导技术的结合，该技术扩大了整个扩散过程中生成token的有效性。第二种策略分为两个阶段展开：初始训练阶段，侧重于粗糙的特征对齐，然后是专门针对复杂特征学习的微调阶段。我们可以看到，这两种策略都是基于一个简单的模型，但是它们的优势在于，它们能够快速学习，并且可以很容易地进行调整。

（编辑：武汉站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!