浦语灵笔-上海AI实验室开源图文混合创作大模型

6个月前更新 106 0 0

浦语灵笔是上海人工智能实验室推出的首个图文混合创作大模型,该模型能够根据用户提供的主题或图片,自动创作出图文并茂的文章,为大模型落地应用提供更多可能。,浦语灵笔是上海人工智能实验室推出的首个图文混合创作大模型,该模型能够根据用户提供的主题或图片,自动创作出图文并茂的文章,为大模型落地应用提供更多可能。

收录时间:
2024-09-11
浦语灵笔-上海AI实验室开源图文混合创作大模型浦语灵笔-上海AI实验室开源图文混合创作大模型

浦语灵笔是什么?

上海人工智能实验室(上海AI实验室)近日推出了首个图文混合创作大模型书生·浦语灵笔(InternLM-XComposer),该模型能够根据用户提供的主题或图片,自动创作出图文并茂的文章,为大模型落地应用提供更多可能。

浦语灵笔是基于书生·浦语大语言模型(InternLM)的多模态扩展,书生·浦语是上海AI实验室今年7月以来陆续开源的7B(InterLM-7B)及20B(InternLM-20B)版本的大语言模型,为业界提供了完整的大模型研发与应用基座,以及全链条工具体系。

浦语灵笔-上海AI实验室开源图文混合创作大模型

项目地址:https://github.com/InternLM/InternLM-XComposer

浦语灵笔能做什么?

浦语灵笔不仅能够进行流利的中英文图文对话,准确理解图像内容,还具备了图文并茂文章创作的全新能力。

用户仅需提供主题或图片,便可一键生成涵盖历史沿革、主要景点文物介绍等方面的长篇文章,并在适当位置自动插入与文字信息对应的图片。除自动配图能力外,浦语灵笔还提供了配图推荐和更换功能,根据用户实际需求定制图文内容。

目前,浦语灵笔已支持科普文稿、营销广告、新闻稿件、影视评论、生活指南等类型文章的图文并茂生成,并将逐渐开放更多能力,适应更多样化任务需求。

浦语灵笔为图文文章创作设计了“三步走”的算法流程:

  • 首先,根据用户输入的主题或图片,浦语灵笔利用其强大的写作能力,创作出文采斐然的文章。
  • 其次,浦语灵笔自动分析文章内容和段落布局,规划需要插图图片的位置,并生成对图片内容需求的描述。
  • 最后,采用从粗筛到精选的配图策略,利用多模态大模型强大的图像理解能力,从海量图库中选择出最符合文章上下文内容和整体图像风格的图片,完成文章的自动配图。

浦语灵笔出色的图文创作效果,得益于其多任务预训练模型(InternLM-XComposer-VL-7B)强大的多模态理解能力。

研究人员采用5个主流的多模态大模型评测对InternLM-XComposer-VL-7B进行了详细测试,包括MME Benchmark、MMBench、MMBench-CN、Seed-Bench和CCBench等中英文评测。

评测结果显示,在上述5项评测中,浦语灵笔均体现出卓越性能,尤其是在中国文化理解方面,表现出深厚的知识积淀。

如何使用浦语灵笔?

浦语灵笔现已开源,同时上线GitHub、Hugging Face及魔搭社区(ModelScope),欢迎开发者下载试用。

项目地址:https://github.com/InternLM/InternLM-XComposer

数据统计

相关导航

讯飞星火语音大模型

讯飞星火语音大模型

讯飞星火认知大模型是科大讯飞推出的AI大语言模型,专注于提供高精度的语音识别和超拟人化的语音合成服务。它支持多种语言和方言,具备自动语种判断和智能标点功能,能够实现流畅的语音转文字和自然口语的语音输出。该模型适用于语音搜索、聊天输入、游戏娱乐、人机交互、智能客服等多个场景,为企业和开发者提供了强大的语音交互解决方案。,讯飞星火认知大模型是科大讯飞推出的AI大语言模型,专注于提供高精度的语音识别和超拟人化的语音合成服务。它支持多种语言和方言,具备自动语种判断和智能标点功能,能够实现流畅的语音转文字和自然口语的语音输出…
昆仑万维-天工AI大模型

昆仑万维-天工AI大模型

天工作为一款大型语言模型,拥有强大的自然语言处理和智能交互能力,能够实现智能问答、聊天互动、文本生成等多种应用场景,并且具有丰富的知识储备,涵盖科学、技术、文化、艺术、历史等领域。,天工作为一款大型语言模型,拥有强大的自然语言处理和智能交互能力,能够实现智能问答、聊天互动、文本生成等多种应用场景,并且具有丰富的知识储备,涵盖科学、技术、文化、艺术、历史等领域。
GPT-4-OpenAI旗下AI大模型

GPT-4-OpenAI旗下AI大模型

GPT-4是OpenAI的大型语言模型的最新版本。它在各种各样的互联网文本上进行了训练,但也从其他各种来源学习。因此,它能够以对话的方式生成富有创造性、连贯性和与上下文相关的句子。,GPT-4是OpenAI的大型语言模型的最新版本。它在各种各样的互联网文本上进行了训练,但也从其他各种来源学习。因此,它能够以对话的方式生成富有创造性、连贯性和与上下文相关的句子。