语鲸大模型-深言科技推出的开源中英双语大语言模型

AI模型5个月前发布 admin
5 00

语鲸大模型-深言科技推出的开源中英双语大语言模型

AIHub 最新消息 12月26日,深言科技语鲸大模型”正式通过《生成式人工智能服务管理暂行办法》备案,将陆续面向社会公众开放服务。那么语鲸大模型是什么,可以做什么,如何使用呢,一起来看看。

语鲸大模型是什么?

LingoWhale-8B是由深言科技推出的语鲸系列大模型中首个开源的中英双语大语言模型,拥有约80亿参数,在数万亿token的高质量中英数据上进行预训练,具有强大的基础能力,在多个公开评测基准上均达到领先效果。在预训练阶段,模型使用8K的上下文长度进行训练,能够完成更长上下文的理解和生成任务。

语鲸大模型可以做什么?

“语鲸大模型”具备强大的语义理解与文本生成、代码理解与生成、逻辑推理等能力,提供文本创作、数学计算、代码补全等服务,在中文理解和生成能力上行业领先,做到了更懂中文,更懂中文使用场景。

以下是深言科技提供的测试样例:

语鲸大模型-深言科技推出的开源中英双语大语言模型
语鲸大模型-深言科技推出的开源中英双语大语言模型
语鲸大模型-深言科技推出的开源中英双语大语言模型

语鲸大模型测评结果

语鲸大模型在各种公开评测基准上进行了测试,比如 C-Eval、MMLU 和 CMMLU。这些评估基准提供了标准化的测试和度量,用于评估语言模型在不同任务和领域上的性能和能力。

语鲸大模型在多个公开评测基准上取得了领先效果。评测方法和测评结果如下表所示:

ModelC-EvalMMLUCMMLUGAOKAOHumanEvalGSM8KBBHAGIEval
5-shot5-shot5-shot5-shot0-shot8-shot3-shot5-shot
GPT-468.483.970.366.269.590.075.163.3
GPT-3.5 Turbo51.168.554.147.152.457.861.646.1
LLaMA2-7B28.945.731.426.012.816.239.226.5
ChatGLM2-6B*51.747.932.433.7
Baichuan2-7B-Base*54.054.257.147.518.324.541.642.7
Qwen-7B v1.1*63.558.262.229.951.745.0
LingoWhale-8B-base63.660.262.850.332.955.047.543.8

*表示其模型结果来自于官方, 所有的结果都精确到小数点后1位。

如何使用语鲸大模型?

语鲸大模型模型已经开源,供学术研究免费使用,商业用途需要通过申请获取授权。

开源模型权重的同时,语鲸大模型也提供了符合用户习惯的Huggingface推理接口以及LoRA等参数高效微调示例,便于开发者快速使用LingoWhale-8B模型。

开源地址:

若你期望将此源模型或其衍生品用作商业用途,请填写问卷进行申请,通过后即可免费商用

关于深言科技

深言科技官网:https://deeplang.ai/

深言科技(DeepLang AI)由清华大学计算机系自然语言处理实验室(THUNLP)与北京智源人工智能研究院(BAAI)共同孵化,是国内最早开展大模型研发与探索大模型落地的创业公司之一。

公司创始团队曾深度参与智源·悟道大模型的研发,目前已发布产品包括世界首个中文及跨语言反向词典WantWords、名句语义检索系统WantQuotes、智能写作工具深言达意等,已为超过800万用户提供智能文本信息处理服务。

公司成立以来已获得多项荣誉,包括入选《中国企业家》大模型新锐9名单、中国最具价值 AGI 创新机构 TOP 50、第十一届中国创新创业大赛(初创组)优秀企业等,并已入选北京市通用人工智能产业创新伙伴计划。

© 版权声明

Warning: Trying to access array offset on value of type bool in /www/wwwroot/ainvp.com/wp-content/themes/onenav/inc/clipimage.php on line 34

Warning: Trying to access array offset on value of type bool in /www/wwwroot/ainvp.com/wp-content/themes/onenav/inc/clipimage.php on line 34

相关文章

Grok-1是什么? Grok-1是马斯克旗下AI公司xAI发布的开源AI大模型,其参数量达到了3140亿,远超OpenAI GPT-3.5的1750亿。这是迄今参数量最大的开源大语言模型,遵照Apache 2.0协议开放模型权重和架构。 Grok-1是一个混合专家(Mixture-of-Experts,MOE)大模型,这种MOE架构重点在于提高大模型的训练和推理效率,形象地理解,MOE就像把各个领域的“专家”集合到了一起,遇到任务派发给不同领域的专家,最后汇总结论,提升效率。决定每个专家做什么的是被称为“门控网络”的机制。 Grok-1模型的公开发布,为研究人员和开发者提供了一个新的大型语言模型资源。 Grok-1的主要特性 xAI还特别强调了Grok-1的几大特性: 首先,Grok-1是一个未针对特定任务进行微调的基础模型,它基于大量文本数据训练而成; 其次,作为一款基于混合专家技术构建的大语言模型,Grok-1拥有3140亿参数,在处理每个token时有25%的权重处于活跃状态; 最后,Grok-1是xAI团队使用JAX和Rust编程语言自定义训练栈从零开始训练的成果,训练完成于2023年10月。 Grok-1的技术参数 基础信息: 模型大小:3140亿参数,其中混合了8名专家(2名活跃)活动参数:860亿特色技术:使用旋转嵌入(Rotary Embeddings,简称#rope),而非固定位置嵌入 模型结构细节: 分词器词汇量:131,072(与GPT-4相似),即2^17嵌入尺寸:6,144(48*128)架构层数:64层变压器层每层结构:包含一个解码器层,具有多头注意力块和密集块键值大小:128 多头注意力块: 查询头数量:48键/值(KV)头数量:8KV大小:128密集块(Dense Block): 加宽系数:8隐藏层大小:32,768每个代币从8名专家中选择2名 旋转位置嵌入:尺寸:6,144,与模型的输入嵌入大小相同上下文长度:8,192个标记精度:bf16 如何使用Grok-1? xAI已经将Grok-1的权重和架构在GitHub上开源。 GitHub地址:https://github.com/xai-org/grok-1

Grok-1是什么? Grok-1是马斯克旗下AI公司xAI发布的开源AI大模型,其参数量达到了3140亿,远超OpenAI GPT-3.5的1750亿。这是迄今参数量最大的开源大语言模型,遵照Apache 2.0协议开放模型权重和架构。 Grok-1是一个混合专家(Mixture-of-Experts,MOE)大模型,这种MOE架构重点在于提高大模型的训练和推理效率,形象地理解,MOE就像把各个领域的“专家”集合到了一起,遇到任务派发给不同领域的专家,最后汇总结论,提升效率。决定每个专家做什么的是被称为“门控网络”的机制。 Grok-1模型的公开发布,为研究人员和开发者提供了一个新的大型语言模型资源。 Grok-1的主要特性 xAI还特别强调了Grok-1的几大特性: 首先,Grok-1是一个未针对特定任务进行微调的基础模型,它基于大量文本数据训练而成; 其次,作为一款基于混合专家技术构建的大语言模型,Grok-1拥有3140亿参数,在处理每个token时有25%的权重处于活跃状态; 最后,Grok-1是xAI团队使用JAX和Rust编程语言自定义训练栈从零开始训练的成果,训练完成于2023年10月。 Grok-1的技术参数 基础信息: 模型大小:3140亿参数,其中混合了8名专家(2名活跃)活动参数:860亿特色技术:使用旋转嵌入(Rotary Embeddings,简称#rope),而非固定位置嵌入 模型结构细节: 分词器词汇量:131,072(与GPT-4相似),即2^17嵌入尺寸:6,144(48*128)架构层数:64层变压器层每层结构:包含一个解码器层,具有多头注意力块和密集块键值大小:128 多头注意力块: 查询头数量:48键/值(KV)头数量:8KV大小:128密集块(Dense Block): 加宽系数:8隐藏层大小:32,768每个代币从8名专家中选择2名 旋转位置嵌入:尺寸:6,144,与模型的输入嵌入大小相同上下文长度:8,192个标记精度:bf16 如何使用Grok-1? xAI已经将Grok-1的权重和架构在GitHub上开源。 GitHub地址:https://github.com/xai-org/grok-1