混元DiT-腾讯最新开源的文生图AI模型

AI训练模型7个月前发布 admin
2 00

混元DiT是什么?

混元DiT腾讯最新开源的文生图AI模型,采用了与Sora、Stable Diffusion 3相同的DiT(Diffusion With Transformer)架构,支持中英文双语输入及理解,参数量达到15亿。它是业界首个中文原生的DiT架构文生图开源模型,可以作为视频等多模态视觉生成的基础。

混元DiT-腾讯最新开源的文生图AI模型

混元DiT的主要特点

  1. 中英双语DiT架构:混元DiT采用了与Sora和Stable Diffusion 3相同的DiT架构,这是一种结合了扩散模型和Transformer架构的技术。扩散模型是一种生成模型,能够生成高保真度的图像,而Transformer架构则是一种在自然语言处理(NLP)领域非常成功的模型结构。
  2. 中文元素理解:混元DiT支持中文和英文的输入及理解,尤其对中文语言和文化元素有更好的理解和生成能力。
  3. 长文本理解:混元DiT能分析和理解长篇文本中的信息并生成相应艺术作品。
  4. 细粒度语义理解:混元DiT能捕捉文本中的细微之处,从而生成完美符合用户需要的图片。
  5. 多轮对话文生图:混元DiT可以在多轮对话中通过与用户持续协作,精炼并完善的创意构想。
  6. 开源和免费商用:模型已在Hugging Face平台及Github上发布,包含模型权重、推理代码、模型算法等,可供免费商用。
混元DiT-腾讯最新开源的文生图AI模型 混元DiT中文元素理解
混元DiT-腾讯最新开源的文生图AI模型 混元DiT长文本理解

混元DiT的性能表现

为了全面比较HunyuanDiT与其他模型的生成能力,研究团队构建了4个维度的测试集,包括文本图像一致性、排除AI伪影、主题清晰度、审美。超过50名专业评估人员进行评估。

评测数据显示,其效果超过现有的开源Stable Diffusion模型,属于国际领先水平。

混元DiT-腾讯最新开源的文生图AI模型

混元DiT的技术架构

混元DiT使用预训练的变分自编码器(VAE)将图像压缩到低维潜在空间中,并训练扩散模型以学习扩散模型的数据分布。混元DiT的扩散模型是用Transformer参数化的。为了对文本提示进行编码,混元DiT利用了预先训练的双语(英文和中文)CLIP和多语言T5编码器的组合。

混元DiT-腾讯最新开源的文生图AI模型
混元DiT-腾讯最新开源的文生图AI模型

如何使用混元DiT

目前,混元DiT已在 Hugging Face 平台及 Github 上发布,包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发者免费商用。

?混元DiT已上线到吐司AI绘画平台,欢迎使用:https://www.tusi.cn/

另外,腾讯也基于混元DiT开发了一个AI生图产品:腾讯混元生图,感兴趣的话,可以去体验下。

© 版权声明

Warning: Trying to access array offset on value of type bool in /www/wwwroot/ainvp.com/wp-content/themes/onenav/inc/clipimage.php on line 34

Warning: Trying to access array offset on value of type bool in /www/wwwroot/ainvp.com/wp-content/themes/onenav/inc/clipimage.php on line 34

Warning: Trying to access array offset on value of type bool in /www/wwwroot/ainvp.com/wp-content/themes/onenav/inc/clipimage.php on line 34

相关文章

SoraWebui是什么? SoraWebui 是一个开源项目,允许用户使用 OpenAI 的 Sora 模型使用文本在线生成视频,从而简化视频创建,并具有轻松的一键网站部署功能。 借助SoraWebui,任何人都可以通过简单输入文本来创建视频,使其成为专业人士和视频制作爱好者的可访问工具。 更多信息,请访问SoraWebui网站:https://sorawebui.com/  或GitHub地址:https://github.com/SoraWebui/SoraWebui 如何使用SoraWebui? 对于普通用户: 要使用SoraWebui,只需访问网站并按照提供的说明操作。 通常会找到一个用户友好的界面,您可以在其中输入要创建的视频的文本描述。 提交描述后,SoraWebui将使用OpenAI的Sora模型为您生成视频。 一旦视频准备就绪,您可以直接在网站上查看并下载以供使用或分享。 对于网站所有者或开发人员: 作为网站所有者或开发人员,您可以按照项目文档中提供的部署说明在自己的平台上部署SoraWebui。 部署后,您可以自定义界面以匹配您网站的品牌,并将其无缝集成到您的现有平台中。 您还可以探索SoraWebui提供的其他功能和功能,例如用于自动化视频生成的API集成或用于控制对服务的访问权限的用户管理工具。 总的来说,SoraWebui为增强您网站功能并为用户提供独特的视频创建体验提供了强大的工具。