AI导航站
国内AI工具全球AI工具导航站长工具
  • 文章导航站
  • AI聊天
    • AI角色
    • AI画廊
    • AI绘画
    • AI写作
    • AI思维导图
  • 友联申请
  • GPT聊天绘画
  • AI热榜
  • 排行榜
  • #112777(无标题)
  • 商店
  • 购物车
  • 结账
  • 我的帐户
  • 上班人导航
      • 未登录
        登录后即可体验更多功能
    • 文章导航站
    • AI聊天
      • AI角色
      • AI画廊
      • AI绘画
      • AI写作
      • AI思维导图
    • 友联申请
    • GPT聊天绘画
    • AI热榜
    • 排行榜
    • #112777(无标题)
    • 商店
    • 购物车
    • 结账
    • 我的帐户
    • 上班人导航
    未登录
    登录后即可体验更多功能

    AI模型评测

    共 25 篇网址
    排序
    发布更新浏览点赞
    PubMedQA

    PubMedQA

    PubMedQA是一个生物医学研究问答数据集,包含了1K专家标注,61.2K 个未标注和 211.3K 个人工生成的QA实例,该排行榜目前已收录18个模型的医学测试得分。
    0260
    AI模型评测# AI模型评测
    H2O EvalGPT

    H2O EvalGPT

    H2O EvalGPT 是 H2O.ai 用于评估和比较 LLM 大模型的开放工具,它提供了一个平台来了解模型在大量任务和基准测试中的性能。无论你是想使用大模型自动化工作流程或任务,H2O EvalGPT 都可以提供流行、开源、高性能大模型的详细排行榜,帮助你为项目选择最有效的模型完成具体任务。
    220
    AI模型评测# AI模型评测
    LLMEval3

    LLMEval3

    LLMEval是由复旦大学NLP实验室推出的大模型评测基准,最新的LLMEval-3聚焦于专业知识能力评测,涵盖哲学、经济学、法学、教育学、文学、历史学、理学、工学、农学、医学、军事学、管理学、艺术学等教育部划定的13个学科门类、50余个二级学科,共计约20W道标准生成式问答题目。
    220
    AI模型评测# AI模型评测
    Chatbot Arena

    Chatbot Arena

    Chatbot Arena是一个大型语言模型 (LLM) 的基准平台,以众包方式进行匿名随机对战,该项目方LMSYS Org是由加州大学伯克利分校、加州大学圣地亚哥分校和卡内基梅隆大学合作创立的研究组织。
    230
    AI模型评测# AI模型评测
    HELM

    HELM

    HELM是由斯坦福大学推出的大模型评测体系,该评测方法主要包括场景、适配、指标三个模块,每次评测的运行都需要指定一个场景,一个适配模型的提示,以及一个或多个指标。
    240
    AI模型评测# AI模型评测
    MMBench

    MMBench

    MMBench是一个多模态基准测试,该体系开发了一个综合评估流程,从感知到认知能力逐级细分评估,覆盖20项细粒度能力,从互联网与权威基准数据集采集约3000道单项选择题。打破常规一问一答基于规则匹配提取选项进行评测,循环打乱选项验证输出结果的一致性,基于ChatGPT精准匹配模型回复至选项。
    230
    AI模型评测# AI模型评测
    CMMLU

    CMMLU

    CMMLU是一个综合性的中文评估基准,专门用于评估语言模型在中文语境下的知识和推理能力,涵盖了从基础学科到高级专业水平的67个主题。
    260
    AI模型评测# AI模型评测
    OpenCompass

    OpenCompass

    OpenCompass是由上海人工智能实验室(上海AI实验室)于2023年8月正式推出的大模型开放评测体系,通过完整开源可复现的评测框架,支持大语言模型、多模态模型各类模型的一站式评测,并定期公布评测结果榜单。
    190
    AI模型评测# AI模型评测
    SuperCLUE

    SuperCLUE

    SuperCLUE 是一个中文通用大模型综合性评测基准,从三个不同的维度评价模型的能力:基础能力、专业能力和中文特性能力。
    210
    AI模型评测# AI模型评测
    FlagEval

    FlagEval

    FlagEval(天秤)由智源研究院将联合多个高校团队打造,是一种采用“能力—任务—指标”三维评测框架的大模型评测平台,旨在提供全面、细致的评测结果。
    240
    AI模型评测# AI模型评测
    C-Eval

    C-Eval

    C-Eval是一个适用于大语言模型的多层次多学科中文评估套件,由上海交通大学、清华大学和爱丁堡大学研究人员在2023年5月份联合推出,包含了13948个多项选择题,涵盖了52个不同的学科和四个难度级别,用以评测大模型中文理解能力。
    230
    AI模型评测# AI模型评测
    Open LLM Leaderboard

    Open LLM Leaderboard

    Open LLM Leaderboard 是最大的大模型和数据集社区 HuggingFace 推出的开源大模型排行榜单,基于 Eleuther AI Language Model Evaluation Harness(Eleuther AI语言模型评估框架)封装。
    400
    AI模型评测# AI模型评测
    MMLU

    MMLU

    MMLU 全称 Massive Multitask Language Understanding,是一种针对大模型的语言理解能力的测评,是目前最著名的大模型语义理解测评之一,由UC Berkeley大学的研究人员在2020年9月推出。
    240
    AI模型评测# AI模型评测
    MMLU

    MMLU

    MMLU 全称 Massive Multitask Language Understanding,是一种针对大模型的语言理解能力的测评,是目前最著名的大模型语义理解测评之一,由UC Berkeley大学的研究人员在2020年9月推出。
    250
    # AI模型评测
    Open LLM Leaderboard

    Open LLM Leaderboard

    Open LLM Leaderboard 是最大的大模型和数据集社区 HuggingFace 推出的开源大模型排行榜单,基于 Eleuther AI Language Model Evaluation Harness(Eleuther AI语言模型评估框架)封装。
    230
    # AI模型评测
    C-Eval

    C-Eval

    C-Eval是一个适用于大语言模型的多层次多学科中文评估套件,由上海交通大学、清华大学和爱丁堡大学研究人员在2023年5月份联合推出,包含了13948个多项选择题,涵盖了52个不同的学科和四个难度级别,用以评测大模型中文理解能力。
    220
    # AI模型评测
    FlagEval

    FlagEval

    FlagEval(天秤)由智源研究院将联合多个高校团队打造,是一种采用“能力—任务—指标”三维评测框架的大模型评测平台,旨在提供全面、细致的评测结果。
    210
    # AI模型评测
    SuperCLUE

    SuperCLUE

    SuperCLUE 是一个中文通用大模型综合性评测基准,从三个不同的维度评价模型的能力:基础能力、专业能力和中文特性能力。
    240
    # AI模型评测
    OpenCompass

    OpenCompass

    OpenCompass是由上海人工智能实验室(上海AI实验室)于2023年8月正式推出的大模型开放评测体系,通过完整开源可复现的评测框架,支持大语言模型、多模态模型各类模型的一站式评测,并定期公布评测结果榜单。
    290
    # AI模型评测
    MMBench

    MMBench

    MMBench是一个多模态基准测试,该体系开发了一个综合评估流程,从感知到认知能力逐级细分评估,覆盖20项细粒度能力,从互联网与权威基准数据集采集约3000道单项选择题。打破常规一问一答基于规则匹配提取选项进行评测,循环打乱选项验证输出结果的一致性,基于ChatGPT精准匹配模型回复至选项。
    240
    # AI模型评测
    HELM

    HELM

    HELM是由斯坦福大学推出的大模型评测体系,该评测方法主要包括场景、适配、指标三个模块,每次评测的运行都需要指定一个场景,一个适配模型的提示,以及一个或多个指标。
    280
    # AI模型评测
    Chatbot Arena

    Chatbot Arena

    Chatbot Arena是一个大型语言模型 (LLM) 的基准平台,以众包方式进行匿名随机对战,该项目方LMSYS Org是由加州大学伯克利分校、加州大学圣地亚哥分校和卡内基梅隆大学合作创立的研究组织。
    200
    # AI模型评测
    LLMEval3

    LLMEval3

    LLMEval是由复旦大学NLP实验室推出的大模型评测基准,最新的LLMEval-3聚焦于专业知识能力评测,涵盖哲学、经济学、法学、教育学、文学、历史学、理学、工学、农学、医学、军事学、管理学、艺术学等教育部划定的13个学科门类、50余个二级学科,共计约20W道标准生成式问答题目。
    300
    # AI模型评测
    H2O EvalGPT

    H2O EvalGPT

    H2O EvalGPT 是 H2O.ai 用于评估和比较 LLM 大模型的开放工具,它提供了一个平台来了解模型在大量任务和基准测试中的性能。无论你是想使用大模型自动化工作流程或任务,H2O EvalGPT 都可以提供流行、开源、高性能大模型的详细排行榜,帮助你为项目选择最有效的模型完成具体任务。
    280
    # AI模型评测
    PubMedQA

    PubMedQA

    PubMedQA是一个生物医学研究问答数据集,包含了1K专家标注,61.2K 个未标注和 211.3K 个人工生成的QA实例,该排行榜目前已收录18个模型的医学测试得分。
    310
    # AI模型评测
    没有了
    Copyright © 2025 AI导航站 
    反馈
    让我们一起共建文明社区!您的反馈至关重要!
    网址
    网址文章