CogVideoX-智谱推出的开源AI视频生成模型

4个月前发布 25 00

CogVideoX是由智谱AI开发的视频生成大模型,具备强大的视频生成能力、只需输入文本或图片就可以轻松完成视频制作。此次开源的是CogVideoX-2B,20亿参数规格的模型,是CogVideoX 系列视频生成模型中的第一个模型,与智谱推出的AI视频生成产品清影同源。,CogVideoX是由智谱AI开发的视频生成大模型,具备强大的视频生...

收录时间:
2024-09-11
CogVideoX-智谱推出的开源AI视频生成模型CogVideoX-智谱推出的开源AI视频生成模型
CogVideoX-智谱推出的开源AI视频生成模型

CogVideoX是什么?

CogVideoX是由智谱AI开发的视频生成大模型,具备强大的视频生成能力、只需输入文本或图片就可以轻松完成视频制作。此次开源的是CogVideoX-2B,20亿参数规格的模型,是CogVideoX 系列视频生成模型中的第一个模型,与智谱推出的AI视频生成产品清影同源。功能更强大、参数更大的模型即将推出。

CogVideoX-2B支持以英语输入最长226个tokens的提示词,消耗36GB显存,生成分辨率为720*480的6秒视频。

CogVideoX-智谱推出的开源AI视频生成模型
CogVideoX-智谱推出的开源AI视频生成模型

CogVideoX的核心技术

  • 三维变分自编码器结构(3D VAE):智谱AI自主研发的这一结构能将原始视频数据压缩至原始大小的2%,降低训练成本和难度。结合3D RoPE位置编码模块,提升了时间维度上帧间关系的捕捉能力,建立视频中的长期依赖关系。
  • 端到端视频理解模型:增强了模型对文本的理解和对指令的遵循能力,确保生成的视频更符合用户需求,能处理超长且复杂的prompt指令。
  • 文本、时间、空间三维一体融合的transformer架构:创新性设计了Expert Block实现文本与视频模态空间的对齐,并通过Full Attention机制优化模态间交互效果。

CogVideoX的生成案例

生成该视频的提示词:

A detailed wooden toy ship with intricately carved masts and sails is seen gliding smoothly over a plush, blue carpet that mimics the waves of the sea. The ship’s hull is painted a rich brown, with tiny windows. The carpet, soft and textured, provides a perfect backdrop, resembling an oceanic expanse. Surrounding the ship are various other toys and children’s items, hinting at a playful environment. The scene captures the innocence and imagination of childhood, with the toy ship’s journey symbolizing endless adventures in a whimsical, indoor setting.
一艘精致的木制玩具船,桅杆和船帆上雕刻着复杂的图案,在模拟海浪的蓝色长毛绒地毯上平稳地滑行。船身漆成浓郁的棕色,并带有小窗户。地毯柔软而有质感,提供了一个完美的背景,就像一片广阔的海洋。船的周围环绕着各种玩具和儿童用品,暗示着一个充满童趣的环境。这个场景捕捉到了童年的天真和想象力,玩具船的旅程象征着在异想天开的室内环境中的无尽冒险。

生成该视频的提示词:

The camera follows behind a white vintage SUV with a black roof rack as it speeds up a steep dirt road surrounded by pine trees on a steep mountain slope, dust kicks up from its tires, the sunlight shines on the SUV as it speeds along the dirt road, casting a warm glow over the scene. The dirt road curves gently into the distance, with no other cars or vehicles in sight. The trees on either side of the road are redwoods, with patches of greenery scattered throughout. The car is seen from the rear following the curve with ease, making it seem as if it is on a rugged drive through the rugged terrain. The dirt road itself is surrounded by steep hills and mountains, with a clear blue sky above with wispy clouds.
镜头跟在一辆带黑色车顶行李架的白色复古越野车后面,越野车在陡峭的山坡上沿着松树环绕的陡峭土路上飞驰,轮胎上的尘土飞扬,阳光照在越野车上,越野车在土路上飞驰,给整个场景投下了温暖的光辉。土路缓缓弯向远方,看不到其他车辆。道路两旁的树木都是红杉,还有零星的绿色植物。从后方看,汽车轻松地沿着弯道行驶,仿佛在崎岖的地形上行驶。土路本身被陡峭的丘陵和山脉环绕,头顶是晴朗的蓝天和飘渺的白云。

生成该视频的提示词:

A street artist, clad in a worn-out denim jacket and a colorful bandana, stands before a vast concrete wall in the heart, holding a can of spray paint, spray-painting a colorful bird on a mottled wall.
一位街头艺术家身着破旧的牛仔夹克,扎着彩色头巾,站在市中心一堵巨大的水泥墙前,手持一罐喷漆,在斑驳的墙面上喷绘着一只色彩斑斓的小鸟。

生成该视频的提示词:

In the haunting backdrop of a war-torn city, where ruins and crumbled walls tell a story of devastation, a poignant close-up frames a young girl. Her face is smudged with ash, a silent testament to the chaos around her. Her eyes glistening with a mix of sorrow and resilience, capturing the raw emotion of a world that has lost its innocence to the ravages of conflict.
在一个饱受战争蹂躏的城市,废墟和残垣断壁诉说着满目疮痍,在这个令人心碎的背景下,一个凄美的特写镜头定格了一个年轻的女孩。她的脸上沾满了灰烬,无声地证明着周围的混乱。她的眼睛里闪烁着悲伤和坚韧,捕捉到了这个因冲突而失去天真世界的原始情感。

如何使用CogVideoX?

CogVideoX已提供模型下载、在线体验和官方API服务。

1、模型和代码下载:

2、企业和开发者:通过智谱大模型开放平台bigmodel.cn调用API服务https://open.bigmodel.cn/dev/howuse/cogvideox

3、个人用户:CogVideoX模型已在智谱清言的PC端、移动应用端及小程序端上线,可通过清影免费体验。

数据统计

数据评估

CogVideoX-智谱推出的开源AI视频生成模型浏览人数已经达到25,如你需要查询该站的相关权重信息,可以点击"5118数据""爱站数据""Chinaz数据"进入;以目前的网站数据参考,建议大家请以爱站数据为准,更多网站价值评估因素如:CogVideoX-智谱推出的开源AI视频生成模型的访问速度、搜索引擎收录以及索引量、用户体验等;当然要评估一个站的价值,最主要还是需要根据您自身的需求以及需要,一些确切的数据则需要找CogVideoX-智谱推出的开源AI视频生成模型的站长进行洽谈提供。如该站的IP、PV、跳出率等!

关于CogVideoX-智谱推出的开源AI视频生成模型特别声明

本站AI导航站提供的CogVideoX-智谱推出的开源AI视频生成模型都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由AI导航站实际控制,在2024年9月11日 上午11:07收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,AI导航站不承担任何责任。

相关导航

SAM 2-Meta推出的图像和视频对象分割模型

SAM 2-Meta推出的图像和视频对象分割模型

SAM 2(Segment Anything Model 2)是由Meta推出的新一代AI分割模型,能够在图像和视频中实现高度精确、实时的对象分割。它在不需要定制适配的情况下,能够对任何未曾见过的对象进行分割,适用于各种视觉领域。这一模型在原有的Segment Anything Model (SAM)基础上进行了扩展和改进,支持更广泛的应用场景。,SAM 2(Segment Anything Model 2)是由Meta推出的新一代AI分割模型,能够在图像和视频中实现高度精确、实时的对象分割。它在不需要定制适配的情况下,能够对任何未曾见过的对象…
携程问道:首个旅游行业垂直AI大模型

携程问道:首个旅游行业垂直AI大模型

7 月 17 日,携程发布旅游行业首个垂直大模型“携程问道”。 据介绍,在大模型的基础上,“携程问道”筛选高质量非结构性旅游数据 200 亿,结合携程现有精确的实时数据进行了自研垂直模型的训练。 用户提出想法,问道可从地域、主题特色等维度,推荐旅行目的地、酒店、景点、行程规划和实时优惠的选项; 在用户需求相对明确时,提供智能查询结果,用户可用文字和语音以自然语言长句的形式进行复杂条件的机票和酒店产品的查询。 携程集团董事局主席梁建章表示,“希望用户从包括‘携程问道’在内的产品获得旅游行业‘可靠的内容,放心的推荐’。,7 月 17 日,携程发布旅游行业首个垂直大模型“携程问道”。 据介绍,在大模型的基础上,“携程问道”筛选高质量非结构性旅游数据 200 亿,结合携程现有精确的实时数据进行了自研垂直模型的训练。 用户…
CodeShell-北京大学开源的代码大模型

CodeShell-北京大学开源的代码大模型

CodeShell是北京大学知识计算实验室联合四川天府银行AI团队研发的多语言代码大模型基座。CodeShell具有70亿参数,在五千亿Tokens进行了训练,上下文窗口长度为8192。在权威的代码评估Benchmark(HumanEval与MBPP)上,CodeShell取得同等规模最好的性能。,CodeShell是北京大学知识计算实验室联合四川天府银行AI团队研发的多语言代码大模型基座。CodeShell具有70亿参数,在五千亿Tokens进行了训练,上下文窗口长度为8192。在权威的代码评…
云知声-山海大模型

云知声-山海大模型

山海大模型是最新一代认知智能大模型,拥有丰富的知识储备,涵盖科学、技术、文化、艺术、医疗、通识等领域。与她对话即可获取信息、知识和灵感,是人类的良师益友,也是灵动强大的智能助理。,山海大模型是最新一代认知智能大模型,拥有丰富的知识储备,涵盖科学、技术、文化、艺术、医疗、通识等领域。与她对话即可获取信息、知识和灵感,是人类的良师益友,也是灵动强大的智能助理。
LaVie:上海人工智能实验室开源的视频生成模型

LaVie:上海人工智能实验室开源的视频生成模型

LaVie是一个高质量视频生成项目,使用级联潜在扩散模型。这个项目是由Vchitect开发的官方PyTorch实现。LaVie是一个文本到视频(T2V)生成框架,是视频生成系统Vchitect的主要部分。它还包括一个针对图像到视频(I2V)模型SEINE的微调版本。,LaVie是一个高质量视频生成项目,使用级联潜在扩散模型。这个项目是由Vchitect开发的官方PyTorch实现。LaVie是一个文本到视频(T2V)生成框架,是视频生成系统Vchitect的主要部…