参数小，性能强！开源多模态模型—TinyGPT-V

安徽工程大学、南洋理工大学和理海大学的研究人员开源了多模态大模型——TinyGPT-V。

TinyGPT-V以微软开源的Phi-2作为基础大语言模型，同时使用了视觉模型EVA实现多模态能力。尽管TinyGPT-V只有28亿参数，但其性能可以媲美上百亿参数的模型。

此外，TinyGPT-V训练只需要24G GPU就能完成，不需要A100、H100那些高端显卡来训练。

所以，非常适用于中小型企业和个人开发者，同时可以部署在手机、笔记本等移动设备上。

开源地址:https://github.com/DLYuanGod/TinyGPT-V

论文地址:https://arxiv.org/abs/2312.16862

参数小，性能强！开源多模态模型—TinyGPT-V

TinyGPT-V主要架构

TinyGPT-V主要由大语言模型Phi-2、视觉编码器和线性投影层三大块组成。

开发人员选择了微软最新开源的Phi-2，作为TinyGPT-V的基础大语言模型。Phi-2只有27亿参数，但理解和推理能力非常强，在多项复杂基准测试中体现出与大130亿参数模型接近或者超过的效果。

视觉编码器采用了与MiniGPT-v2相同的架构，基于ViT的EVA模型。这是一个预训练好的视觉基础模型，在整个TinyGPT-V的训练过程中保持冻结状态。

参数小，性能强！开源多模态模型—TinyGPT-V

线性投影层的作用则是，将视觉编码器提取的图像特征嵌入到大语言模型中，使大语言模型能够理解图像信息。

TinyGPT-V中的第一层线性投影层采用了来自BLIP-2的Q-Former结构，这样可以最大程度复用BLIP-2的预训练成果。

第二层线性投影层用新的高斯分布初始化，目的是弥补前一层输出和语言模型嵌入层之间的维度差距。

TinyGPT-V训练流程

TinyGPT-V的训练经过了四个阶段，每个阶段所使用的数据集及实验流程各不相同。

第一阶段是热身训练，目的是使Phi-2模型适应图像模式的输入。这个阶段使用的训练数据包含Conceptual Caption、SBU和LAION三个数据集，总计约500万幅图像和对应的描述文本。

第二阶段进行预训练，目的是进一步减少图像文本对上的损失。这个阶段同样使用第一阶段的Conceptual Caption、SBU和LAION数据集。实验设置了4个阶段，每个阶段有5000个迭代。

参数小，性能强！开源多模态模型—TinyGPT-V

第三阶段进行指令调优，使用MiniGPT-4和LLaVA的一些带指令的图像文本对进行模型训练，如“描述这张图片的内容”。

第四阶段进行多任务调优。这一阶段使用了更为复杂和丰富的多模态数据集，如LLaVA中复杂语义对齐的句子、Flickr30K中的物体解析数据集、多任务混合语料、纯文本语料等。

同时采用了与第二阶段类似的学习率策略，最终使得损失从2.720下降到了1.399。

为了测试TinyGPT-V的性能，研究人员从多个角度评估了在视觉问答、视空间推理、图片字幕生成等多个视觉语言任务上的表现。

参数小，性能强！开源多模态模型—TinyGPT-V

结果显示，TinyGPT-V的参数很小，性能却非常强悍，例如，在VSR空间推理任务上，以53.2%的准确率，超过所有参与测试的模型。

声明：内容来源公开的各类媒体平台，若收录的内容侵犯了您的权益，请联系邮箱，本站将第一时间处理。

参数小，性能强！开源多模态模型—TinyGPT-V

IDC报告：到2027年，生成式AI将取代 30% 的营销任务

用ChatGPT搜索电商产品！全球最大超市-沃尔玛与微软合作

AI微博

AI应用

5000+AI应用！每日更新

1AICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai抖音

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

1ai微信

每天五分钟

一年变大神

扫码关注

相关内容：

IDC报告：到2027年，生成式AI将取代 30% 的营销任务

用ChatGPT搜索电商产品！全球最大超市-沃尔玛与微软合作

华中科技大学开源多模态大模型Monkey

智谱开源新一代多模态大模型CogVLM2

李开复旗下 AI 公司零一万物宣布开源 Yi-9B 模型，号称同系列代码、数学能力最强

DeepSeek开源DeepSeek-V2-Chat-0628模型 代码、数学推理能力提升

请输入验证码

....支付确认中....

AI应用

5000+AI应用！每日更新

1AICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

每天五分钟

一年变大神

扫码关注

DeepSeek开源DeepSeek-V2-Chat-0628模型代码、数学推理能力提升