FlagEval

1年前更新 192 0 0

FlagEval（天秤）由智源研究院将联合多个高校团队打造，是一种采用“能力—任务—指标”三维评测框架的大模型评测平台，旨在提供全面、细致的评测结果。

收录时间：

2025-03-21

打开网站手机查看

AI模型评测 # AI模型评测

FlagEval

打开网站

FlagEval（天秤）由智源研究院将联合多个高校团队打造，是一种采用“能力—任务—指标”三维评测框架的大模型评测平台，旨在提供全面、细致的评测结果。该平台已提供了 30 多种能力、5 种任务和 4 大类指标，共 600 多个维度的全面评测，任务维度包括 22 个主客观评测数据集和 84433 道题目。

数据统计

FlagEval

C-Eval

C-Eval是一个适用于大语言模型的多层次多学科中文评估套件，由上海交通大学、清华大学和爱丁堡大学研究人员在2023年5月份联合推出，包含了13948个多项选择题，涵盖了52个不同的学科和四个难度级别，用以评测大模型中文理解能力。

SuperCLUE

SuperCLUE 是一个中文通用大模型综合性评测基准，从三个不同的维度评价模型的能力：基础能力、专业能力和中文特性能力。

FlagEval

数据统计

相关导航

Open LLM Leaderboard

H2O EvalGPT

OpenCompass

LLMEval3

HELM

FlagEval

C-Eval

SuperCLUE

加入收藏夹

设为首页

网址

FeedAIback

AI Girlfriend

微密圈

Website Builder Hub

FollowFox

DeepMode

FlagEval

数据统计

相关导航

Open LLM Leaderboard

H2O EvalGPT

OpenCompass

LLMEval3

HELM

FlagEval

C-Eval

SuperCLUE

加入收藏夹

设为首页

网址

FeedAIback

AI Girlfriend

微密圈

Website Builder Hub

FollowFox

DeepMode

标签云