admin

帅气的我简直无法用语言描述!
搜网盘

搜网盘

搜网盘(https://www.swangpan.com/ ...
0800
HELM

HELM

HELM是由斯坦福大学推出的大模型评测体系,该评测方法主要包括场景、适配、指标三个模块,每次评测的运行都需要指定一个场景,一个适配模型的提示,以及一个或多个指标。
810
MMBench

MMBench

MMBench是一个多模态基准测试,该体系开发了一个综合评估流程,从感知到认知能力逐级细分评估,覆盖20项细粒度能力,从互联网与权威基准数据集采集约3000道单项选择题。打破常规一问一答基于规则匹配提取选项进行评测,循环打乱选项验证输出结果的一致性,基于ChatGPT精准匹配模型回复至选项。
1050
LLMEval3

LLMEval3

LLMEval是由复旦大学NLP实验室推出的大模型评测基准,最新的LLMEval-3聚焦于专业知识能力评测,涵盖哲学、经济学、法学、教育学、文学、历史学、理学、工学、农学、医学、军事学、管理学、艺术学等教育部划定的13个学科门类、50余个二级学科,共计约20W道标准生成式问答题目。
1060
Chatbot Arena

Chatbot Arena

Chatbot Arena是一个大型语言模型 (LLM) 的基准平台,以众包方式进行匿名随机对战,该项目方LMSYS Org是由加州大学伯克利分校、加州大学圣地亚哥分校和卡内基梅隆大学合作创立的研究组织。
940
H2O EvalGPT

H2O EvalGPT

H2O EvalGPT 是 H2O.ai 用于评估和比较 LLM 大模型的开放工具,它提供了一个平台来了解模型在大量任务和基准测试中的性能。无论你是想使用大模型自动化工作流程或任务,H2O EvalGPT 都可以提供流行、开源、高性能大模型的详细排行榜,帮助你为项目选择最有效的模型完成具体任务。
920
PubMedQA

PubMedQA

PubMedQA是一个生物医学研究问答数据集,包含了1K专家标注,61.2K 个未标注和 211.3K 个人工生成的QA实例,该排行榜目前已收录18个模型的医学测试得分。
0970
Coursera

Coursera

知名MOOC平台,众多人工智能和机器学习课程
0960
fast.ai

fast.ai

深度学习正在改变世界,而fast.ai项目便致力于让深度学习更容易使用。该深度学习和AI学习网站提供了一系列免费的AI学习资源和课程:针对程序员的免费AI课程、软件库、前沿研究以及AI社区。
01000
Elements of AI

Elements of AI

免费在线AI通识学习
01070
Mypaa AI

Mypaa AI

Mypaa AI是一款旅行伙伴,帮助您在大城市中舒适地进行日常通勤
1820
DeepLearning.AI

DeepLearning.AI

深度学习和人工智能学习平台
01110