SmolLM-HuggingFace发布的高性能小型语言模型

5个月前发布 36 00

SmolLM是由 Huggingface 最新发布的一组高性能的小型语言模型,参数分别为 1.35 亿、3.6 亿和 17 亿,训练数据来自高质量数据集 SmolLM-Corpus,其中包括 Cosmopedia v2、Python-Edu 和 FineWeb-Edu。SmolLM 模型在多种基准测试中表现不错, 适合跑在手机这种终端设备...

收录时间:
2024-09-11
SmolLM-HuggingFace发布的高性能小型语言模型SmolLM-HuggingFace发布的高性能小型语言模型
SmolLM-HuggingFace发布的高性能小型语言模型

SmolLM是什么?

SmolLM是由 Huggingface 最新发布的一系列最先进的小型语言模型,有三种规格:1.35亿、3.6亿和17亿个参数。这些模型建立在 Cosmo-Corpus 上,Cosmo-Corpus 是一个精心策划的高质量训练数据集。Cosmo-Corpus 包括 Cosmopedia v2(由 Mixtral 生成的 280 亿个合成教科书和故事词块)、Python-Edu(由 The Stack 提供的 40 亿个 Python 教育样本词块)和 FineWeb-Edu(由 FineWeb 提供的 2200 亿个重复教育网络样本词块)。

SmolLM模型适合需要在本地设备上运行语言模型的开发者和研究人员。它们特别适合那些需要在资源受限的环境中进行高效推理的应用场景,如智能手机、笔记本电脑等。

SmolLM-HuggingFace发布的高性能小型语言模型

SmolLM的测试结果

Hugging Face 团队将开发出的 SmolLM 模型与相同参数量的其他模型进行了基准测试,其中 SmolLM-135M 在多项测试中超越了小于 2 亿参数的其他模型;而 SmolLM-360M 的测试成绩优于所有小于 5 亿参数以下的模型,不过某些项目逊于 Meta 刚刚公布的 MobileLLM-350M;SmolLM-1.7B 模型则超越了所有参数量小于 20 亿参数的模型,包括微软 Phi-1.5、MobileLLM-1.5B 及 Qwen2。

SmolLM-HuggingFace发布的高性能小型语言模型
在不同的推理和常识基准上评估 SmolLM 模型


如何使用SmolLM?

数据统计

数据评估

SmolLM-HuggingFace发布的高性能小型语言模型浏览人数已经达到36,如你需要查询该站的相关权重信息,可以点击"5118数据""爱站数据""Chinaz数据"进入;以目前的网站数据参考,建议大家请以爱站数据为准,更多网站价值评估因素如:SmolLM-HuggingFace发布的高性能小型语言模型的访问速度、搜索引擎收录以及索引量、用户体验等;当然要评估一个站的价值,最主要还是需要根据您自身的需求以及需要,一些确切的数据则需要找SmolLM-HuggingFace发布的高性能小型语言模型的站长进行洽谈提供。如该站的IP、PV、跳出率等!

关于SmolLM-HuggingFace发布的高性能小型语言模型特别声明

本站AI导航站提供的SmolLM-HuggingFace发布的高性能小型语言模型都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由AI导航站实际控制,在2024年9月11日 下午12:08收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,AI导航站不承担任何责任。

相关导航

360智脑

360智脑

360智脑是一个由 360 公司开发的 AI 平台,旨在探索全新的人机协作模式,激活用户的创造力和想象力。它提供了一系列的 AI 工具和服务,包括 API 开放平台、360鸿图、360AI搜索、360AI浏览器、360智脑桌面版和企业数字员工等。,360智脑是一个由 360 公司开发的 AI 平台,旨在探索全新的人机协作模式,激活用户的创造力和想象力。它提供了一系列的 AI 工具和服务,包括 API 开放平台、360鸿图、360AI搜索、360…
阅文妙笔大模型:国内首个网文大模型

阅文妙笔大模型:国内首个网文大模型

在 7 月 19 日举行的阅文创作大会上,国内首个网文大模型“阅文妙笔”正式亮相。阅文集团 CEO 兼总裁侯晓楠表示,阅文妙笔是“最懂网文”的大模型,将以 AIGC 为创作生态和 IP 生态“全面赋能”。,在 7 月 19 日举行的阅文创作大会上,国内首个网文大模型“阅文妙笔”正式亮相。阅文集团 CEO 兼总裁侯晓楠表示,阅文妙笔是“最懂网文”的大模型,将以 AIGC 为创作生态和 IP 生态“全面赋能…
Qwen2-Math:阿里巴巴最新开源的数学推理大模型

Qwen2-Math:阿里巴巴最新开源的数学推理大模型

Qwen2-Math是阿里巴巴最新开源的数学推理大模型,是基于 Qwen2 LLM 构建的专门用于数学解题的一系列语言模型。Qwen2-Math 提供了基础和指令微调两种版本,分别有1.5B(15亿)、7B(79亿)和72B(720亿)三种参数规模,以适应不同的应用需求。,Qwen2-Math是阿里巴巴最新开源的数学推理大模型,是基于 Qwen2 LLM 构建的专门用于数学解题的一系列语言模型。Qwen2-Math 提供了基础和指令微调两种版本,分别有1.5B(15亿)…