Qwen2-Math:阿里巴巴最新开源的数学推理大模型

2个月前发布 13 00

Qwen2-Math是阿里巴巴最新开源的数学推理大模型,是基于 Qwen2 LLM 构建的专门用于数学解题的一系列语言模型。Qwen2-Math 提供了基础和指令微调两种版本,分别有1.5B(15亿)、7B...

收录时间:
2024-09-11
Qwen2-Math:阿里巴巴最新开源的数学推理大模型Qwen2-Math:阿里巴巴最新开源的数学推理大模型
Qwen2-Math:阿里巴巴最新开源的数学推理大模型

Qwen2-Math是什么?

Qwen2-Math是阿里巴巴最新开源的数学推理大模型,是基于 Qwen2 LLM 构建的专门用于数学解题的一系列语言模型。Qwen2-Math 提供了基础和指令微调两种版本,分别有1.5B(15亿)、7B(79亿)和72B(720亿)三种参数规模,以适应不同的应用需求。

在多项数学基准测试中,Qwen2-Math展现出卓越的性能,超越了包括GPT-4o、Claude-3.5-Sonnet和Gemini-1.5 Pro在内的当前市场上一些领先的开闭源模型,跻身全球顶尖数学推理模型行列。

虽然Qwen2-Math目前仅支持英文,但阿里巴巴已宣布即将推出中英双语版本,这将助力更广泛的用户群体开发和利用生成式AI应用。

Qwen2-Math:阿里巴巴最新开源的数学推理大模型

Qwen2-Math的主要特性

  • 支持多版本: Qwen2-Math 提供了基础和指令微调两种版本,分别有1.5B、7B和72B三种参数规模,适应不同的应用需求。
  • 卓越的数学推理能力: 该模型在多个数学基准测试上表现出色,包括 GSM8K、Math、MMLU-STEM 以及中国的高考数学题目,尤其是在数学竞赛题目的解答上表现优异。
  • 先进的训练方法: Qwen2-Math 在高质量的数学专用语料库上进行预训练,并结合密集的奖励信号与二元信号进行微调优化,确保模型的高准确性和自我校正能力。
  • 去污染处理: 为了确保测试结果的公正性,模型在训练和微调过程中对重叠样本进行了去污染处理,特别是清除了与知名基准测试数据集有重叠的污染样本。
  • 未来发展: 目前,Qwen2-Math 仅支持英文版本,阿里巴巴计划很快推出中英双语版本,以支持更多用户开发生成式 AI 应用。

Qwen2-Math的性能评测

在一系列数学基准评测上评估了我们的数学专用模型 Qwen2-Math。在 Math 上的评测结果表明,我们最大的数学专用模型 Qwen2-Math-72B-Instruct 超越了最先进的模型,包括 GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro 和 Llama-3.1-405B。

Qwen2-Math:阿里巴巴最新开源的数学推理大模型

如何使用Qwen2-Math?

目前,Qwen2-Math模型仅支持英文,但阿里表示会很快推出中英双语版本,并且多语言模型也在开发之中。

数据统计

相关导航

GPT-4-OpenAI旗下AI大模型

GPT-4-OpenAI旗下AI大模型

GPT-4是OpenAI的大型语言模型的最新版本。它在各种各样的互联网文本上进行了训练,但也从其他各种来源学习。因此,它能够以对话的方式生成富有创造性、连贯性和与上下文相关的句子。,GPT-4是OpenAI的大型语言模型的最新版本。它在各种各样的互联网文本上进行了训练,但也从其他各种来源学习。因此,它能够以对话的方式生成富有创造性、连贯性和与上下文相关的句子。
CogVideoX-智谱推出的开源AI视频生成模型

CogVideoX-智谱推出的开源AI视频生成模型

CogVideoX是由智谱AI开发的视频生成大模型,具备强大的视频生成能力、只需输入文本或图片就可以轻松完成视频制作。此次开源的是CogVideoX-2B,20亿参数规格的模型,是CogVideoX 系列视频生成模型中的第一个模型,与智谱推出的AI视频生成产品清影同源。,CogVideoX是由智谱AI开发的视频生成大模型,具备强大的视频生成能力、只需输入文本或图片就可以轻松完成视频制作。此次开源的是CogVideoX-2B,20亿参数规格的模型,是CogVideoX …
360智脑

360智脑

360智脑是一个由 360 公司开发的 AI 平台,旨在探索全新的人机协作模式,激活用户的创造力和想象力。它提供了一系列的 AI 工具和服务,包括 API 开放平台、360鸿图、360AI搜索、360AI浏览器、360智脑桌面版和企业数字员工等。,360智脑是一个由 360 公司开发的 AI 平台,旨在探索全新的人机协作模式,激活用户的创造力和想象力。它提供了一系列的 AI 工具和服务,包括 API 开放平台、360鸿图、360AI搜索、360…
阅文妙笔大模型:国内首个网文大模型

阅文妙笔大模型:国内首个网文大模型

在 7 月 19 日举行的阅文创作大会上,国内首个网文大模型“阅文妙笔”正式亮相。阅文集团 CEO 兼总裁侯晓楠表示,阅文妙笔是“最懂网文”的大模型,将以 AIGC 为创作生态和 IP 生态“全面赋能”。,在 7 月 19 日举行的阅文创作大会上,国内首个网文大模型“阅文妙笔”正式亮相。阅文集团 CEO 兼总裁侯晓楠表示,阅文妙笔是“最懂网文”的大模型,将以 AIGC 为创作生态和 IP 生态“全面赋能…
Octopus V2-斯坦福推出的可在设备上运行的大模型

Octopus V2-斯坦福推出的可在设备上运行的大模型

Octopus v2是一个拥有20亿参数的模型,能够在智能手机、汽车、个人电脑等设备上运行。它在准确性和延迟方面超越了GPT-4,且将上下文长度减少了95%。与基于RAG的Llama7B模型相比,Octopus v2的速度快了36倍。,Octopus v2是一个拥有20亿参数的模型,能够在智能手机、汽车、个人电脑等设备上运行。它在准确性和延迟方面超越了GPT-4,且将上下文长度减少了95%。与基于RAG的Llama7B模型相比,Oc…