Monkey:华中科技大学开源的多模态大模型

2个月前发布 12 00

Monkey 是华中科技大学与金山软件联合推出的一种高性能多模态大模型,通过提高输入分辨率和引入多级描述生成方法,解决了现有模型在复杂场景和视觉细节处理方面的挑战。Monkey 可...

收录时间:
2024-09-11
Monkey:华中科技大学开源的多模态大模型Monkey:华中科技大学开源的多模态大模型
Monkey:华中科技大学开源的多模态大模型

Monkey 是华中科技大学与金山软件联合推出的一种高性能多模态大模型,通过提高输入分辨率和引入多级描述生成方法,解决了现有模型在复杂场景和视觉细节处理方面的挑战。Monkey 可以基于现有视觉编辑器进行构建,无需从0预训练,大大提高了研发效率。

Monkey 的多级描述生成方法可以为模型提供丰富的上下文信息,指导模型学习场景和对象之间的关联。通过在16个不同的数据集上进行测试,Monkey 在图像字幕、视觉问答、文档分类等多模态任务上取得了出色的成绩。Monkey 展现了超强的细微视觉信息感知和复杂场景理解能力,具有广泛的应用空间。

Monkey:华中科技大学开源的多模态大模型

Monkey 的训练数据集质量是其能力提升的关键,研究人员生成了数十万条高质量的图像描述数据,并利用多个模型自动生成文字描述,并将不同模型的输出融合起来,提升了大模型对图像细节的理解能力。

在模型选择方面,Monkey 采用了开源模型 Qwen-VL 作为语言解码器,以及20亿参数的 ViT-BigHuge 作为视觉编码器,避免了重复预训练的资源浪费。为了提升 Monkey 的识别能力和输入分辨率,以及生成更丰富的图像描述和对复杂场景的理解能力,采用了多级描述生成、高分辨率编码和多任务训练三个训练阶段。

Monkey 在16个不同的数据集上进行了全面验证,包括图像字幕、通用视觉问答和文档导向问答等任务。在通用视觉问答任务上,Monkey 在多个数据集上都显示出明显的优势。在图像字幕任务上,Monkey 在 TextCaps 数据集上也表现出色,证明了其对图片中文本元素的多模态理解能力。

Monkey:华中科技大学开源的多模态大模型

在文档导向问答任务上,Monkey 在多个文档图像理解数据集上取得了不错的成绩。研究人员表示,Monkey 在医学影像、卫星图像等领域具有广泛的应用空间,并将继续优化 Monkey 模型的感知、联想、推理和泛化能力。

综上所述,Monkey 是一种高性能多模态大模型,通过提高输入分辨率和引入多级描述生成方法,解决了复杂场景和视觉细节处理的挑战。Monkey 无需从0预训练,可以基于现有视觉编辑器进行构建,具有高效率和广泛的应用空间。通过在多个数据集上进行测试,Monkey 在多模态任务上取得了出色的成绩,展现了超强的视觉信息感知和场景理解能力。未来,Monkey 将继续优化模型的感知、联想、推理和泛化能力,进一步提升其在各领域的应用价值。

数据统计

相关导航

天工SkyMusic-昆仑万维推出的AI音乐生成大模型

天工SkyMusic-昆仑万维推出的AI音乐生成大模型

「天工SkyMusic」是昆仑万维推出的AI音乐生成大模型,基于昆仑万维「天工3.0」超级大模型打造,是目前国内唯一公开可用的AI音乐生成大模型。具备高质量音乐制作、逼真人声合成、精准歌词控制、多元风格适应及复杂歌唱技巧学习等五大特点。该模型基于先进的Transformer技术,能够根据用户输入生成具有丰富情感表达的音乐作品,旨在推动音乐创作的创新和个性化发展。,「天工SkyMusic」是昆仑万维推出的AI音乐生成大模型,基于昆仑万维「天工3.0」超级大模型打造,是目前国内唯一公开可用的AI音乐生成大模型。具备高质量音乐制作、逼真人声合成、精准歌词控制、多元风…
Ferret-UI:苹果公司推出的多模态AI模型

Ferret-UI:苹果公司推出的多模态AI模型

Ferret-UI是苹果公司与哥伦比亚大学研究团队联合发布的一个多模态模型。它是专门为了增强对移动端用户界面(UI)屏幕的理解而定制的,配备了引用、定位和推理功能。该模型能够“看懂”手机屏幕上的内容并执行任务,聚焦于移动端、关注用户交互。,Ferret-UI是苹果公司与哥伦比亚大学研究团队联合发布的一个多模态模型。它是专门为了增强对移动端用户界面(UI)屏幕的理解而定制的,配备了引用、定位和推理功能。该模型能够“看懂”手机屏幕上的内容并…
ModelScope魔搭-阿里机器学习模型平台

ModelScope魔搭-阿里机器学习模型平台

ModelScope是阿里达摩院发布的汇聚各领域先进的机器学习模型的平台,提供模型探索体验、推理、训练、部署和应用的一站式服务。在这里,你可以共建模型开源社区,发现、学习、定制和分享你心仪的模型。,ModelScope是阿里达摩院发布的汇聚各领域先进的机器学习模型的平台,提供模型探索体验、推理、训练、部署和应用的一站式服务。在这里,你可以共建模型开源社区,发现、学习、定制和分享你心仪的模型。
Open-Sora: Colossal-AI开源的类Sora架构视频生成模型

Open-Sora: Colossal-AI开源的类Sora架构视频生成模型

Open-Sora是一个开源Sora复现方案,旨在帮助用户构建类似于OpenAI Sora的视频生成模型。它提供了一个完整的开发流程,包括数据处理、模型训练和部署,支持动态分辨率和多种模型结构。,Open-Sora是一个开源Sora复现方案,旨在帮助用户构建类似于OpenAI Sora的视频生成模型。它提供了一个完整的开发流程,包括数据处理、模型训练和部署,支持动态分辨率和多种模型结构。
天擎-美亚柏科旗下公共安全大模型

天擎-美亚柏科旗下公共安全大模型

天擎是美亚柏科发布的国内首个公共安全大模型。它在2023年的美亚柏科“智会”生态合作大会上正式发布。这个大模型拥有丰富的公共安全行业知识,具备强大的警务意图识别、警务情报分析、案情推理等业务理解和推理能力。,天擎是美亚柏科发布的国内首个公共安全大模型。它在2023年的美亚柏科“智会”生态合作大会上正式发布。这个大模型拥有丰富的公共安全行业知识,具备强大的警务意图识别、警务情报分析、案情推理等业务理解和推理…