HELM

2年前发布 246 0 0

HELM是由斯坦福大学推出的大模型评测体系，该评测方法主要包括场景、适配、指标三个模块，每次评测的运行都需要指定一个场景，一个适配模型的提示，以及一个或多个指标。

收录时间：

2024-08-12

打开网站手机查看

# AI模型评测

HELM

打开网站

HELM全称Holistic Evaluation of Language Models（语言模型整体评估）是由斯坦福大学推出的大模型评测体系，该评测方法主要包括场景、适配、指标三个模块，每次评测的运行都需要指定一个场景，一个适配模型的提示，以及一个或多个指标。它评测主要覆盖的是英语，有7个指标，包括准确率、不确定性/校准、鲁棒性、公平性、偏差、毒性、推断效率；任务包括问答、信息检索、摘要、文本分类等。

数据统计

MMLU

CMMLU

CMMLU是一个综合性的中文评估基准，专门用于评估语言模型在中文语境下的知识和推理能力，涵盖了从基础学科到高级专业水平的67个主题。

SuperCLUE

SuperCLUE 是一个中文通用大模型综合性评测基准，从三个不同的维度评价模型的能力：基础能力、专业能力和中文特性能力。

Open LLM Leaderboard

Open LLM Leaderboard 是最大的大模型和数据集社区 HuggingFace 推出的开源大模型排行榜单，基于 Eleuther AI Language Model Evaluation Harness（Eleuther AI语言模型评估框架）封装。

HELM

数据统计

相关导航

SuperCLUE

H2O EvalGPT

MMLU

OpenCompass

MMLU

CMMLU

SuperCLUE

Open LLM Leaderboard

加入收藏夹

设为首页

网址

FeedAIback

AI Girlfriend

PicTales

Verse

Website Builder Hub

AD室内设计

HELM

数据统计

相关导航

SuperCLUE

H2O EvalGPT

MMLU

OpenCompass

MMLU

CMMLU

SuperCLUE

Open LLM Leaderboard

加入收藏夹

设为首页

网址

FeedAIback

AI Girlfriend

PicTales

Verse

Website Builder Hub

AD室内设计

标签云