Monkey：华中科技大学开源的多模态大模型

2年前发布 303 0 0

Monkey 是华中科技大学与金山软件联合推出的一种高性能多模态大模型，通过提高输入分辨率和引入多级描述生成方法，解决了现有模型在复杂场景和视觉细节处理方面的挑战。Monkey 可以基于现有视觉编辑器进行构建，无需从0预训练，大大提高了研发效率。,Monkey 是华中科技大学与金山软件联合推出的一种高性能多模态大模型，通过提高输入分辨率和...

收录时间：

2024-09-11

手机查看

Monkey：华中科技大学开源的多模态大模型

打开网站

Monkey 是华中科技大学与金山软件联合推出的一种高性能多模态大模型，通过提高输入分辨率和引入多级描述生成方法，解决了现有模型在复杂场景和视觉细节处理方面的挑战。Monkey 可以基于现有视觉编辑器进行构建，无需从0预训练，大大提高了研发效率。

Monkey 的多级描述生成方法可以为模型提供丰富的上下文信息，指导模型学习场景和对象之间的关联。通过在16个不同的数据集上进行测试，Monkey 在图像字幕、视觉问答、文档分类等多模态任务上取得了出色的成绩。Monkey 展现了超强的细微视觉信息感知和复杂场景理解能力，具有广泛的应用空间。

开源地址：https://github.com/Yuliang-Liu/Monkey
论文地址：https://arxiv.org/abs/2311.06607v1
在线体验demo：http://27.17.184.224:7680/

Monkey：华中科技大学开源的多模态大模型

Monkey 的训练数据集质量是其能力提升的关键，研究人员生成了数十万条高质量的图像描述数据，并利用多个模型自动生成文字描述，并将不同模型的输出融合起来，提升了大模型对图像细节的理解能力。

在模型选择方面，Monkey 采用了开源模型 Qwen-VL 作为语言解码器，以及20亿参数的 ViT-BigHuge 作为视觉编码器，避免了重复预训练的资源浪费。为了提升 Monkey 的识别能力和输入分辨率，以及生成更丰富的图像描述和对复杂场景的理解能力，采用了多级描述生成、高分辨率编码和多任务训练三个训练阶段。

Monkey 在16个不同的数据集上进行了全面验证，包括图像字幕、通用视觉问答和文档导向问答等任务。在通用视觉问答任务上，Monkey 在多个数据集上都显示出明显的优势。在图像字幕任务上，Monkey 在 TextCaps 数据集上也表现出色，证明了其对图片中文本元素的多模态理解能力。

Monkey：华中科技大学开源的多模态大模型

在文档导向问答任务上，Monkey 在多个文档图像理解数据集上取得了不错的成绩。研究人员表示，Monkey 在医学影像、卫星图像等领域具有广泛的应用空间，并将继续优化 Monkey 模型的感知、联想、推理和泛化能力。

综上所述，Monkey 是一种高性能多模态大模型，通过提高输入分辨率和引入多级描述生成方法，解决了复杂场景和视觉细节处理的挑战。Monkey 无需从0预训练，可以基于现有视觉编辑器进行构建，具有高效率和广泛的应用空间。通过在多个数据集上进行测试，Monkey 在多模态任务上取得了出色的成绩，展现了超强的视觉信息感知和场景理解能力。未来，Monkey 将继续优化模型的感知、联想、推理和泛化能力，进一步提升其在各领域的应用价值。

数据统计

云知声-山海大模型

Scale AI

AI机器学习标注训练平台

腾讯混元大模型

腾讯混元大模型是由腾讯自主研发的大语言模型，拥有超千亿参数规模，预训练语料超2万亿tokens，具有强大的中文理解与创作能力、逻辑推理能力，以及可靠的任务执行能力。

彭博社-BloombergGPT金融大模型

由彭博社推出的专门用于金融领域的LLM,由彭博社推出的专门用于金融领域的LLM

CodeGemma-Google推出的开源代码大模型

CodeGemma是功能强大的轻量级模型集合，可以执行各种编码任务，例如填充中间代码补全、代码生成、自然语言理解、数学推理和指令遵循。,CodeGemma是功能强大的轻量级模型集合，可以执行各种编码任务，例如填充中间代码补全、代码生成、自然语言理解、数学推理和指令遵循。

Monkey：华中科技大学开源的多模态大模型

数据统计

相关导航

Coze

Lamini

天壤小白

云知声-山海大模型

Scale AI

腾讯混元大模型

彭博社-BloombergGPT金融大模型

CodeGemma-Google推出的开源代码大模型

加入收藏夹

设为首页

网址

FeedAIback

AI Girlfriend

Website Builder Hub

976.ai

Pixelfy

讯飞医疗大模型

Monkey：华中科技大学开源的多模态大模型

数据统计

相关导航

Coze

Lamini

天壤小白

云知声-山海大模型

Scale AI

腾讯混元大模型

彭博社-BloombergGPT金融大模型

CodeGemma-Google推出的开源代码大模型

加入收藏夹

设为首页

网址

FeedAIback

AI Girlfriend

Website Builder Hub

976.ai

Pixelfy

讯飞医疗大模型

标签云