首页 > 资讯
华科大AI大模型“Monkey”发布 “看图说话”能力世界领先
CVer、华中科技大学软件学院2023-12-18
GPT-4因其展示的强大多模态能力而引发了对多模态大语言模型(MLLM)的研究热潮。多模态大语言模型是整合了文本和视觉处理能力的先进人工智能系统,旨在模仿人类的感知方式,结合图像和语言进行理解和推理,被认为是向通用人工智能迈进的关键步骤之一。11月,院长白翔教授团队发布了新的多模态大模型——Monkey。该模型能够实现对世界的“观察”,对图片进行深入的问答交流和精确描述。

image.png

模型地址:https://wisemodel.cn/models/HUST-VLRLab/Monkey

一、Monkey模型概述

Monkey模型提出了一种有效地提高输入分辨率的方法,最高可达 896 x 1344 像素,而无需从零开始进行预训练。针对复杂场景描述、问答和叙述,Monkey模型采用了一种无需预训练即可提高输入分辨率的架构和一种多层级详细描述生成方法。这两个设计确保了模型能够从生成的数据中进行更有效的学习,更高的分辨率可以更详尽地捕捉视觉特征,这反过来又提高了详细描述的有效性。

在18个不同的数据集上进行测试的结果表明,Monkey在图像描述生成、场景问答、以场景文本为中心的视觉问答和面向文档的视觉问答等任务中表现出有竞争力的性能。特别是,在以密集文本问答为主的定性评估中,与GPT4V相比,Monkey展现出了亮眼的结果。

图片
二、方法使用

 1. 增大输入分辨率

将原始输入图片裁剪成多个图片块,再将这些图片块和原始输入图片统一到448*448的尺寸。每个图片块经过视觉编码时会加入一个专属的Lora以此更好地提取图片块的局部视觉特征,训练时仅训练Lora部分,而原始的输入图像则用于提取全局特征,以此方法达到增大输入分辨率的目的。   

 

image.png  

2. 多级特征融合的详细描述生成方法生成高质量图文数据

主要分为五个步骤:第一步,使用BLIP2对整张图生成全局描述;第二步用 GRIT生成区域框,并提供区域中对象的名称和详细描述,同时使用PPOCR提取区域的文本框坐标和文本内容;第三步使用SAM进行分割,并送入BLIP2生成对各个物体及其组成部分的详细描述;第四步使用BLIP-2 评估过滤掉低分匹配;最后使用ChatGPT 对上述得到的描述进行总结从而得到图像的详细描述。

image.png 

下图为使用使用多级特征融合的详细描述生成方法后得到的标注与原始CC3M标注的对比,不难看出,两种标注之间存在着较大的差距,生成的详细标注尽可能地包含了图片中的各种细节,而不像是CC3M地原始标注那样一句带过。利用这样高质量的图文数据进行训练,使得Monkey能够更好地把握图文之间的关系。   

image.png

更多的可视化对比结果与展示:

通过下图展示的Monkey在QA任务上与多种大模型的对比结果,从中我们能够更加直观地感受到Monkey强大的问答能力,能够准确地把握住问题并给出正确的回答,尤其是在密集文本问答任务上,目前的大模型或多或少都面临着一定的问题,Monkey为解决这一难题提供了一条可行的出路。

image.png

三、总结

Monkey提出了一种训练高效的方法,无需预训练即可有效地提高模型的输入分辨率,最高可达896 x 1344像素。为了弥补简单文本标签和高分辨率输入之间的差距,Monkey提出了一种多级特征融合的详细描述生成方法,它可以自动提供丰富的信息,以引导模型学习图像中各个物体的属性及其联系。通过这两种设计的协同作用,Monkey在多个基准测试中取得了出色的结果。通过与包括GPT4V在内的各种多模态模型进行比较,Monkey在详细描述生成,场景问答,以场景文本为中心的视觉问答和面向文档的视觉问答方面表现出色,刷新多项SOTA,特别是Monkey甚至完成GPT4V都发愁的密集文本问答任务。

 
 
 

 

 

阅读:
分享
用微信扫描二维码分享
请点击右上角分享给微信朋友或朋友圈