浦语灵笔-上海AI实验室开源图文混合创作大模型

2个月前发布 15 00

浦语灵笔是上海人工智能实验室推出的首个图文混合创作大模型,该模型能够根据用户提供的主题或图片,自动创作出图文并茂的文章,为大模型落地应用提供更多可能。,浦语灵笔是上海人...

收录时间:
2024-09-11
浦语灵笔-上海AI实验室开源图文混合创作大模型浦语灵笔-上海AI实验室开源图文混合创作大模型
浦语灵笔-上海AI实验室开源图文混合创作大模型

浦语灵笔是什么?

上海人工智能实验室(上海AI实验室)近日推出了首个图文混合创作大模型书生·浦语灵笔(InternLM-XComposer),该模型能够根据用户提供的主题或图片,自动创作出图文并茂的文章,为大模型落地应用提供更多可能。

浦语灵笔是基于书生·浦语大语言模型(InternLM)的多模态扩展,书生·浦语是上海AI实验室今年7月以来陆续开源的7B(InterLM-7B)及20B(InternLM-20B)版本的大语言模型,为业界提供了完整的大模型研发与应用基座,以及全链条工具体系。

浦语灵笔-上海AI实验室开源图文混合创作大模型

项目地址:https://github.com/InternLM/InternLM-XComposer

浦语灵笔能做什么?

浦语灵笔不仅能够进行流利的中英文图文对话,准确理解图像内容,还具备了图文并茂文章创作的全新能力。

用户仅需提供主题或图片,便可一键生成涵盖历史沿革、主要景点文物介绍等方面的长篇文章,并在适当位置自动插入与文字信息对应的图片。除自动配图能力外,浦语灵笔还提供了配图推荐和更换功能,根据用户实际需求定制图文内容。

目前,浦语灵笔已支持科普文稿、营销广告、新闻稿件、影视评论、生活指南等类型文章的图文并茂生成,并将逐渐开放更多能力,适应更多样化任务需求。

浦语灵笔为图文文章创作设计了“三步走”的算法流程:

  • 首先,根据用户输入的主题或图片,浦语灵笔利用其强大的写作能力,创作出文采斐然的文章。
  • 其次,浦语灵笔自动分析文章内容和段落布局,规划需要插图图片的位置,并生成对图片内容需求的描述。
  • 最后,采用从粗筛到精选的配图策略,利用多模态大模型强大的图像理解能力,从海量图库中选择出最符合文章上下文内容和整体图像风格的图片,完成文章的自动配图。

浦语灵笔出色的图文创作效果,得益于其多任务预训练模型(InternLM-XComposer-VL-7B)强大的多模态理解能力。

研究人员采用5个主流的多模态大模型评测对InternLM-XComposer-VL-7B进行了详细测试,包括MME Benchmark、MMBench、MMBench-CN、Seed-Bench和CCBench等中英文评测。

评测结果显示,在上述5项评测中,浦语灵笔均体现出卓越性能,尤其是在中国文化理解方面,表现出深厚的知识积淀。

如何使用浦语灵笔?

浦语灵笔现已开源,同时上线GitHub、Hugging Face及魔搭社区(ModelScope),欢迎开发者下载试用。

项目地址:https://github.com/InternLM/InternLM-XComposer

数据统计

相关导航

Ferret-UI:苹果公司推出的多模态AI模型

Ferret-UI:苹果公司推出的多模态AI模型

Ferret-UI是苹果公司与哥伦比亚大学研究团队联合发布的一个多模态模型。它是专门为了增强对移动端用户界面(UI)屏幕的理解而定制的,配备了引用、定位和推理功能。该模型能够“看懂”手机屏幕上的内容并执行任务,聚焦于移动端、关注用户交互。,Ferret-UI是苹果公司与哥伦比亚大学研究团队联合发布的一个多模态模型。它是专门为了增强对移动端用户界面(UI)屏幕的理解而定制的,配备了引用、定位和推理功能。该模型能够“看懂”手机屏幕上的内容并…
Qwen2-Math:阿里巴巴最新开源的数学推理大模型

Qwen2-Math:阿里巴巴最新开源的数学推理大模型

Qwen2-Math是阿里巴巴最新开源的数学推理大模型,是基于 Qwen2 LLM 构建的专门用于数学解题的一系列语言模型。Qwen2-Math 提供了基础和指令微调两种版本,分别有1.5B(15亿)、7B(79亿)和72B(720亿)三种参数规模,以适应不同的应用需求。,Qwen2-Math是阿里巴巴最新开源的数学推理大模型,是基于 Qwen2 LLM 构建的专门用于数学解题的一系列语言模型。Qwen2-Math 提供了基础和指令微调两种版本,分别有1.5B(15亿)…
昆仑万维-天工AI大模型

昆仑万维-天工AI大模型

天工作为一款大型语言模型,拥有强大的自然语言处理和智能交互能力,能够实现智能问答、聊天互动、文本生成等多种应用场景,并且具有丰富的知识储备,涵盖科学、技术、文化、艺术、历史等领域。,天工作为一款大型语言模型,拥有强大的自然语言处理和智能交互能力,能够实现智能问答、聊天互动、文本生成等多种应用场景,并且具有丰富的知识储备,涵盖科学、技术、文化、艺术、历史等领域。
GPT-4o mini:OpenAI最新推出的AI模型,更快更便宜更智能

GPT-4o mini:OpenAI最新推出的AI模型,更快更便宜更智能

GPT-4o mini是由OpenAI推出的一款高性价比小型模型,具有成本低、性能强、功能多样和安全可靠等特点。它在多项评测中表现优异,在 MMLU 上得分 82%,目前优于 GPT-4,比 GPT-3.5 Turbo 便宜 60% 以上。目前支持文本和视觉,未来将支持更多形式。,GPT-4o mini是由OpenAI推出的一款高性价比小型模型,具有成本低、性能强、功能多样和安全可靠等特点。它在多项评测中表现优异,在 MMLU 上得分 82%,目前优于 GPT-4,比 GPT-…
云知声-山海大模型

云知声-山海大模型

山海大模型是最新一代认知智能大模型,拥有丰富的知识储备,涵盖科学、技术、文化、艺术、医疗、通识等领域。与她对话即可获取信息、知识和灵感,是人类的良师益友,也是灵动强大的智能助理。,山海大模型是最新一代认知智能大模型,拥有丰富的知识储备,涵盖科学、技术、文化、艺术、医疗、通识等领域。与她对话即可获取信息、知识和灵感,是人类的良师益友,也是灵动强大的智能助理。