热门

H2O EvalGPT

1年前发布 129 0 0

H2O Eval Studio is a modular studio for assessing the performance, reliability, and security of Retrieval-Augmented Generation and Large Language Model applications.

所在地：

美国

收录时间：

2025-03-23

打开网站手机查看

H2O EvalGPT

H2O EvalGPT

H2O.ai推出的基于Elo评级方法的大模型

数据统计

相关导航

SuperCLUE

SuperCLUE 是一个中文通用大模型综合性评测基准，从三个不同的维度评价模型的能力：基础能力、专业能力和中文特性能力。

CMMLU

CMMLU是一个综合性的中文评估基准，专门用于评估语言模型在中文语境下的知识和推理能力，涵盖了从基础学科到高级专业水平的67个主题。

OpenCompass

OpenCompass是由上海人工智能实验室（上海AI实验室）于2023年8月正式推出的大模型开放评测体系，通过完整开源可复现的评测框架，支持大语言模型、多模态模型各类模型的一站式评测，并定期公布评测结果榜单。

HELM

HELM是由斯坦福大学推出的大模型评测体系，该评测方法主要包括场景、适配、指标三个模块，每次评测的运行都需要指定一个场景，一个适配模型的提示，以及一个或多个指标。

MMLU

MMLU 全称 Massive Multitask Language Understanding，是一种针对大模型的语言理解能力的测评，是目前最著名的大模型语义理解测评之一，由UC Berkeley大学的研究人员在2020年9月推出。

FlagEval

FlagEval（天秤）由智源研究院将联合多个高校团队打造，是一种采用“能力—任务—指标”三维评测框架的大模型评测平台，旨在提供全面、细致的评测结果。

PubMedQA

PubMedQA是一个生物医学研究问答数据集，包含了1K专家标注，61.2K 个未标注和 211.3K 个人工生成的QA实例，该排行榜目前已收录18个模型的医学测试得分。

Chatbot Arena

Chatbot Arena是一个大型语言模型 (LLM) 的基准平台，以众包方式进行匿名随机对战，该项目方LMSYS Org是由加州大学伯克利分校、加州大学圣地亚哥分校和卡内基梅隆大学合作创立的研究组织。

暂无评论

none

暂无评论...