Gemma-谷歌发布的最新开放模型,小尺寸可商用Gemma是什么? Gemma是谷歌最新发布的一款轻量级开放模型,它采用了与创建Gemini模型相同的研究和技术,是一个小尺寸的大语言模型。Gemma是由Google DeepMind和Google其...AI模型# Gemma# 开源模型# 谷歌5个月前30
TripoSR – 单张图片快速生成高质量3D模型TripoSR是什么? TripoSR是由Stability AI 和国内AI企业VAST合作开源的快速3D物体重建模型,能在1秒内从单张2D图像快速生成高质量的3D模型。 这项技术利用先进的人工智能...AI模型# 3D模型# TripoSR# 开源模型5个月前50
Grok-1:马斯克xAI发布的开源AI大模型,可商用Grok-1是什么? Grok-1是马斯克旗下AI公司xAI发布的开源AI大模型,其参数量达到了3140亿,远超OpenAI GPT-3.5的1750亿。这是迄今参数量最大的开源大语言模型,遵照Apa...AI模型# AI大模型# xAI# 开源模型5个月前30
语鲸大模型-深言科技推出的开源中英双语大语言模型AIHub 最新消息 12月26日,深言科技“语鲸大模型”正式通过《生成式人工智能服务管理暂行办法》备案,将陆续面向社会公众开放服务。那么语鲸大模型是什么,可以做什么,如何使用呢,一起来看看。 语鲸大...AI模型# AI大模型# LingoWhale# 开源模型5个月前50
DeepSeek-V2:深度求索发布的第二代开源MoE模型2024-05-07 16:08:33,DeepSeek-V2是什么? DeepSeek-V2是由杭州深度求索公司发布的第二代开源MoE模型,DeepSeek-V2 在中文综合能力与 GPT-4-Tu...ChatGPT# DeepSeek# 开源模型6个月前60
FLUX.1:Stable Diffusion原班人马推出的开源AI图像生成模型FLUX.1是什么? FLUX.1是由Black Forest Labs推出的全新开源AI图像生成模型,Black Forest Labs由Stable Diffusion原班人马和多位Stabili...AI训练模型# AI绘画模型# FLUX# 开源模型7个月前30
Gemma是什么? Gemma是谷歌最新发布的一款轻量级开放模型,它采用了与创建Gemini模型相同的研究和技术,是一个小尺寸的大语言模型。Gemma是由Google DeepMind和Google其他团队合作开发的,并用拉丁语中意为“宝石”的gemma为其命名。 Gemma共有两个版本:Gemma 2B(20亿参数)和Gemma 7B(70亿参数),每种规模都提供了预训练和指令微调版本。这些模型尺寸相对较小,应用成本也更低,适合各种规模的组织(无论规模大小)进行商用和分发。未来,Gemma这个系列还会发布更大尺寸的模型。 在训练数据上,Gemma主要在大量英文文本数据上进行训练的,这些数据主要来源于网络文档、数学和代码。具体来说,Gemma 2B模型训练了大约2万亿(2T)个token,而Gemma 7B模型则训练了大约6万亿(6T)个token。 不过,Gemma没有接受过处理图像或视频等非文本数据的训练,也没有专门针对多语言任务进行优化。 为了方便开发者,谷歌不仅开源模型,还附带开发套装,包括全新的“负责任生成式AI工具包”,为基于Gemma开发安全的人工智能应用程序提供了必要指导和工具,以及跨主流框架(如JAX、PyTorch及原生Keras 3.0下的TensorFlow)的推理和监督微调(SFT)工具链。 各种设备也已经适配好。谷歌已经基于英伟达的GPUs和谷歌云TPUs等多个AI硬件平台,对Gemma进行优化,让模型可以直接在笔记本电脑或台式机上运行。 Gemma官网入口:https://ai.google.dev/gemma Gemma的主要特点 以下是Gemma模型的一些主要特点: 模型大小:Gemma提供了两种大小的模型权重,分别是Gemma 2B和Gemma 7B,每种大小都有预训练和指令调整(instruction-tuned)的变体。 负责任的生成AI工具包:Google发布了一个新的工具包,提供指导和必要工具,帮助开发者使用Gemma创建更安全的AI应用。 工具链支持:Gemma模型支持在所有主要框架(JAX、PyTorch和TensorFlow通过原生Keras 3.0)上进行推理和监督式微调(SFT)。 易用性:提供了预制的Colab和Kaggle笔记本,以及与Hugging Face MaxText、NVIDIA NeMo TensorRT-LLM等流行工具的集成,使得开始使用Gemma变得容易。预训练和指令调整的Gemma模型可以在笔记本电脑、工作站或Google Cloud上运行,并且可以轻松部署在Vertex AI和Google Kubernetes Engine(GKE)上。 性能优化:Gemma模型在多个AI硬件平台上进行了优化,包括NVIDIA GPU和Google Cloud TPUs,确保了行业领先的性能。 负责任的设计:Gemma在设计时遵循了Google的AI原则。为了确保预训练模型的安全和可靠性,Google使用了自动化技术从训练集中过滤掉某些个人信息和其他敏感数据。此外,通过人类反馈的强化学习(RLHF)对指令调整模型进行了广泛的微调,以确保模型行为的负责任性。Google还进行了包括手动红队测试、自动化对抗性测试和模型能力评估在内的严格评估。 跨框架、工具和硬件优化:Gemma模型可以在多种工具和系统上进行微调,以适应特定应用需求,如摘要或检索增强生成(RAG)。Gemma支持多种工具和系统,包括跨设备兼容性和与NVIDIA GPU的优化。 免费资源:为了支持开发者和研究人员,Google提供了Kaggle的免费访问、Colab笔记本的免费层级,以及首次使用Google Cloud的300美元信用额度。研究人员还可以申请高达50万美元的Google Cloud信用额度以加速他们的项目。 Google期待随着Gemma模型家族的扩展,将引入更多针对不同应用的新变体,并在接下来的几周内提供连接、学习和与Gemma共同构建的活动和机会。 Gemma的评测结果 在Gemma的技术报告中,谷歌放出了大量训练细节,其中就包括Llama-2的测试对比结果图,大多数指标都超过了Llama-2。 Gemma与Llama-2的测试对比结果图 在测试中,Gemma模型在18个文本任务中的11个上超越了同样规模的开放模型。它在问答、常识推理、数学和科学以及编程等领域表现出色。Gemma 7B模型在70亿参数规模的语言模型中表现最佳,甚至超过了一些参数量更大的模型。 Gemma模型在18个文本任务中的评测结果 而最近风头正盛,号称要做“欧洲版OpenAI”的MistralAI是开源领域的新势力,旗下的Mistral 7B被誉为是“最强7B模型”。 在问答、推理、数学/科学、代码场景里,Gemma的表现同样领先。 Gemma与Mistral 7B的评测结果 如何使用Gemma? 1、个人用户体验地址:https://huggingface.co/chat,模型里选择Gemma即可体验。 2、开发者使用:Gemma提供了面向开发者的快速入门指南,开发者和研究人员可以通过ai.google.dev/gemma了解更多关于Gemma的信息,并获取快速入门指南。Gemma-谷歌发布的最新开放模型,小尺寸可商用ChatGPT# Gemma# 开源模型# 谷歌8个月前50
TripoSR是什么? TripoSR是由Stability AI 和国内AI企业VAST合作开源的快速3D物体重建模型,能在1秒内从单张2D图像快速生成高质量的3D模型。 这项技术利用先进的人工智能算法,通过分析图片内容,自动创建出相应的三维模型。TripoSR的目标是简化3D建模过程,使得用户即使没有专业的3D建模技能,也能够轻松地从现有的2D图像中创建出3D内容。 TripoSR的主要特性: TripoSR的主要功能是将单张2D图片转换成3D对象。以下是其核心功能: 3D对象生成:从用户提供的2D图片中自动创建三维模型。这包括识别图片中的对象、提取其形状和特征,并构建相应的3D几何结构。 快速转换:TripoSR能够迅速处理图像并生成3D模型,大大减少了传统3D建模所需的时间和资源。 用户友好的操作:简化了3D建模的复杂性,使得没有专业3D建模经验的用户也能轻松使用。 高质量渲染:尽管生成过程快速,但TripoSR仍然注重输出的3D模型质量,确保模型的细节和真实感。 广泛的应用场景:生成的3D对象可以应用于多种领域,如游戏开发、动画制作、虚拟现实(VR)、增强现实(AR)、电影特效、产品设计等。 适应多种图像:TripoSR能够处理各种类型的2D图片,包括静态图像和具有一定复杂性的图像。 易于集成:TripoSR可能提供API或其他接口,方便开发者将其集成到现有的工作流程或应用程序中。 这些功能使得TripoSR成为一个强大的工具,它不仅提高了3D内容创作的效率,也为那些需要快速生成3D模型的用户提供了便利。 TripoSR的应用场景 TripoSR的应用场景非常广泛,涵盖了多个行业和领域。以下是一些主要的应用场景: 游戏开发:游戏设计师可以使用TripoSR快速将概念艺术或参考图片转换成3D游戏资产,加速游戏开发过程。 电影和动画制作:电影制作人员可以利用TripoSR从静态图片创建3D角色、场景和道具,用于电影特效或动画制作。 建筑和城市规划:建筑师和城市规划者可以基于现有的2D蓝图或照片,快速生成3D建筑模型,用于可视化和模拟。 产品设计:设计师可以利用TripoSR将2D设计图转换成3D模型,用于产品原型制作、测试和展示。 虚拟现实(VR)和增强现实(AR):开发者可以创建3D虚拟对象和环境,用于VR游戏、教育应用或AR体验。 教育和培训:教师和培训师可以创建3D教学模型,用于科学、工程和医学等领域的教育。 电子商务:零售商可以使用TripoSR为产品创建3D展示,提供更加生动的在线购物体验。 艺术和创作:艺术家和创作者可以利用TripoSR将他们的2D作品转换成3D形式,探索新的艺术表达方式。 数据可视化:数据分析师和科学家可以创建3D图表和模型,用于更直观地展示和分析数据。 历史复原:历史学家和考古学家可以利用TripoSR从历史照片或绘画中重建古代建筑和文物的3D模型。 TripoSR的这些应用场景展示了其在简化3D建模流程和提高创作效率方面的潜力。随着技术的进步,未来可能会出现更多创新的应用方式。 如何使用TripoSR? TripoSR在低推理预算下运行,对没有GPU的用户完全可用。当在英伟达A100上测试时,它在大约0.5秒内生成草稿质量的3D输出(纹理网格),优于其他开放的图像转3D模型,如OpenLRM。在MIT许可下,TripoSR模型权重和源代码可下载,允许商业、个人和研究使用。 开源代码:https://github.com/VAST-AI-Research/TripoSR 模型权重:https://huggingface.co/stabilityai/TripoSR 技术报告:https://stability.ai/s/TripoSR_report.pdfTripoSR - 单张图片快速生成高质量3D模型ChatGPT# 3D模型# TripoSR# 开源模型8个月前30
Grok-1是什么? Grok-1是马斯克旗下AI公司xAI发布的开源AI大模型,其参数量达到了3140亿,远超OpenAI GPT-3.5的1750亿。这是迄今参数量最大的开源大语言模型,遵照Apache 2.0协议开放模型权重和架构。 Grok-1是一个混合专家(Mixture-of-Experts,MOE)大模型,这种MOE架构重点在于提高大模型的训练和推理效率,形象地理解,MOE就像把各个领域的“专家”集合到了一起,遇到任务派发给不同领域的专家,最后汇总结论,提升效率。决定每个专家做什么的是被称为“门控网络”的机制。 Grok-1模型的公开发布,为研究人员和开发者提供了一个新的大型语言模型资源。 Grok-1的主要特性 xAI还特别强调了Grok-1的几大特性: 首先,Grok-1是一个未针对特定任务进行微调的基础模型,它基于大量文本数据训练而成; 其次,作为一款基于混合专家技术构建的大语言模型,Grok-1拥有3140亿参数,在处理每个token时有25%的权重处于活跃状态; 最后,Grok-1是xAI团队使用JAX和Rust编程语言自定义训练栈从零开始训练的成果,训练完成于2023年10月。 Grok-1的技术参数 基础信息: 模型大小:3140亿参数,其中混合了8名专家(2名活跃)活动参数:860亿特色技术:使用旋转嵌入(Rotary Embeddings,简称#rope),而非固定位置嵌入 模型结构细节: 分词器词汇量:131,072(与GPT-4相似),即2^17嵌入尺寸:6,144(48*128)架构层数:64层变压器层每层结构:包含一个解码器层,具有多头注意力块和密集块键值大小:128 多头注意力块: 查询头数量:48键/值(KV)头数量:8KV大小:128密集块(Dense Block): 加宽系数:8隐藏层大小:32,768每个代币从8名专家中选择2名 旋转位置嵌入:尺寸:6,144,与模型的输入嵌入大小相同上下文长度:8,192个标记精度:bf16 如何使用Grok-1? xAI已经将Grok-1的权重和架构在GitHub上开源。 GitHub地址:https://github.com/xai-org/grok-1Grok-1:马斯克xAI发布的开源AI大模型,可商用ChatGPT# AI大模型# xAI# 开源模型8个月前20