国内AI工具
全球AI工具导航
站长工具
文章导航站
AI聊天
AI角色
AI画廊
AI绘画
AI写作
AI思维导图
友联申请
GPT聊天绘画
AI热榜
排行榜
上班人导航
微信小程序
写真合集
未登录
登录后即可体验更多功能
登录
注册
找回密码
文章导航站
AI聊天
AI角色
AI画廊
AI绘画
AI写作
AI思维导图
友联申请
GPT聊天绘画
AI热榜
排行榜
上班人导航
微信小程序
写真合集
未登录
登录后即可体验更多功能
登录
注册
找回密码
admin
帅气的我简直无法用语言描述!
文章
23112
网址
22341
软件
1
评论
0
已发布
22341
FlagEval
FlagEval(天秤)由智源研究院将联合多个高校团队打造,是一种采用“能力—任务—指标”三维评测框架的大模型评测平台,旨在提供全面、细致的评测结果。
103
0
AI模型评测
# AI模型评测
OpenCompass
OpenCompass是由上海人工智能实验室(上海AI实验室)于2023年8月正式推出的大模型开放评测体系,通过完整开源可复现的评测框架,支持大语言模型、多模态模型各类模型的一站式评测,并定期公布评测结果榜单。
92
0
AI模型评测
# AI模型评测
SuperCLUE
SuperCLUE 是一个中文通用大模型综合性评测基准,从三个不同的维度评价模型的能力:基础能力、专业能力和中文特性能力。
115
0
AI模型评测
# AI模型评测
CMMLU
CMMLU是一个综合性的中文评估基准,专门用于评估语言模型在中文语境下的知识和推理能力,涵盖了从基础学科到高级专业水平的67个主题。
110
0
AI模型评测
# AI模型评测
搜网盘
搜网盘(https://www.swangpan.com/ ...
0
104
0
网盘搜索
HELM
HELM是由斯坦福大学推出的大模型评测体系,该评测方法主要包括场景、适配、指标三个模块,每次评测的运行都需要指定一个场景,一个适配模型的提示,以及一个或多个指标。
101
0
AI模型评测
# AI模型评测
MMBench
MMBench是一个多模态基准测试,该体系开发了一个综合评估流程,从感知到认知能力逐级细分评估,覆盖20项细粒度能力,从互联网与权威基准数据集采集约3000道单项选择题。打破常规一问一答基于规则匹配提取选项进行评测,循环打乱选项验证输出结果的一致性,基于ChatGPT精准匹配模型回复至选项。
121
0
AI模型评测
# AI模型评测
LLMEval3
LLMEval是由复旦大学NLP实验室推出的大模型评测基准,最新的LLMEval-3聚焦于专业知识能力评测,涵盖哲学、经济学、法学、教育学、文学、历史学、理学、工学、农学、医学、军事学、管理学、艺术学等教育部划定的13个学科门类、50余个二级学科,共计约20W道标准生成式问答题目。
123
0
AI模型评测
# AI模型评测
Chatbot Arena
Chatbot Arena是一个大型语言模型 (LLM) 的基准平台,以众包方式进行匿名随机对战,该项目方LMSYS Org是由加州大学伯克利分校、加州大学圣地亚哥分校和卡内基梅隆大学合作创立的研究组织。
110
0
AI模型评测
# AI模型评测
H2O EvalGPT
H2O EvalGPT 是 H2O.ai 用于评估和比较 LLM 大模型的开放工具,它提供了一个平台来了解模型在大量任务和基准测试中的性能。无论你是想使用大模型自动化工作流程或任务,H2O EvalGPT 都可以提供流行、开源、高性能大模型的详细排行榜,帮助你为项目选择最有效的模型完成具体任务。
107
0
AI模型评测
# AI模型评测
PubMedQA
PubMedQA是一个生物医学研究问答数据集,包含了1K专家标注,61.2K 个未标注和 211.3K 个人工生成的QA实例,该排行榜目前已收录18个模型的医学测试得分。
0
112
0
AI模型评测
# AI模型评测
Coursera
知名MOOC平台,众多人工智能和机器学习课程
0
116
0
AI学习网站
# AI学习网站
加载更多
网址
网址
文章