MMLU

1年前更新 224 0 0

MMLU 全称 Massive Multitask Language Understanding，是一种针对大模型的语言理解能力的测评，是目前最著名的大模型语义理解测评之一，由UC Berkeley大学的研究人员在2020年9月推出。

收录时间：

2025-03-21

打开网站手机查看

AI模型评测 # AI模型评测

MMLU

打开网站

MMLU 全称 Massive Multitask Language Understanding，是一种针对大模型的语言理解能力的测评，是目前最著名的大模型语义理解测评之一，由UC Berkeley大学的研究人员在2020年9月推出。该测试涵盖57项任务，包括初等数学、美国历史、计算机科学、法律等。任务涵盖的知识很广泛，语言是英文，用以评测大模型基本的知识覆盖范围和理解能力。

数据统计

Open LLM Leaderboard

H2O EvalGPT

H2O EvalGPT 是 H2O.ai 用于评估和比较 LLM 大模型的开放工具，它提供了一个平台来了解模型在大量任务和基准测试中的性能。无论你是想使用大模型自动化工作流程或任务，H2O EvalGPT 都可以提供流行、开源、高性能大模型的详细排行榜，帮助你为项目选择最有效的模型完成具体任务。

MMLU

数据统计

相关导航

HELM

MMBench

OpenCompass

Chatbot Arena

Open LLM Leaderboard

C-Eval

Open LLM Leaderboard

H2O EvalGPT

加入收藏夹

设为首页

网址

FeedAIback

AI Girlfriend

微密圈

Website Builder Hub

FollowFox

DeepMode

MMLU

数据统计

相关导航

HELM

MMBench

OpenCompass

Chatbot Arena

Open LLM Leaderboard

C-Eval

Open LLM Leaderboard

H2O EvalGPT

加入收藏夹

设为首页

网址

FeedAIback

AI Girlfriend

微密圈

Website Builder Hub

FollowFox

DeepMode

标签云