HELM

1年前更新 217 0 0

HELM是由斯坦福大学推出的大模型评测体系，该评测方法主要包括场景、适配、指标三个模块，每次评测的运行都需要指定一个场景，一个适配模型的提示，以及一个或多个指标。

收录时间：

2025-03-21

打开网站手机查看

AI模型评测 # AI模型评测

HELM

打开网站

HELM全称Holistic Evaluation of Language Models（语言模型整体评估）是由斯坦福大学推出的大模型评测体系，该评测方法主要包括场景、适配、指标三个模块，每次评测的运行都需要指定一个场景，一个适配模型的提示，以及一个或多个指标。它评测主要覆盖的是英语，有7个指标，包括准确率、不确定性/校准、鲁棒性、公平性、偏差、毒性、推断效率；任务包括问答、信息检索、摘要、文本分类等。

数据统计

FlagEval

SuperCLUE

SuperCLUE 是一个中文通用大模型综合性评测基准，从三个不同的维度评价模型的能力：基础能力、专业能力和中文特性能力。

HELM

数据统计

相关导航

PubMedQA

MMBench

Open LLM Leaderboard

CMMLU

FlagEval

LLMEval3

FlagEval

SuperCLUE

加入收藏夹

设为首页

网址

FeedAIback

AI Girlfriend

微密圈

Website Builder Hub

FollowFox

DeepMode

HELM

数据统计

相关导航

PubMedQA

MMBench

Open LLM Leaderboard

CMMLU

FlagEval

LLMEval3

FlagEval

SuperCLUE

加入收藏夹

设为首页

网址

FeedAIback

AI Girlfriend

微密圈

Website Builder Hub

FollowFox

DeepMode

标签云