dataset-opencompass/task_config.yaml

31 lines
2.9 KiB
YAML
Raw Permalink Normal View History

2025-07-18 07:25:44 +00:00
support_datasets:
- id: 1
key: ceval_ppl
name: C-Eval
description: C-Eval 是一个全面的中文评估套件旨在评估基于中文语境的基础模型的高级知识和推理能力。C-Eval 包括四个难度级别的多项选择题:初中、高中、大学和专业。这些问题涵盖了 52 个不同的学科领域,包括人文学科、科学和工程学科等。
path: opencompass/configs/datasets/ceval/ceval_ppl.py
- id: 2
key: mmlu_ppl
name: MMLU
description: MMLU 是一个庞大的多任务数据集由各种学科的多项选择题组成。其涵盖了人文学科、社会科学、自然科学和其他对某些人学习很重要的领域。其中包括57个任务包括初等数学、美国历史、计算机科学、法律等等。为了在这个测试中达到高准确度模型必须具有广泛的世界知识和问题解决能力
path: opencompass/configs/datasets/mmlu/mmlu_ppl.py
- id: 3
key: hellaswag_ppl
name: HellaSwag
description: HellaSwag 是一个用于评估常识自然语言推理的挑战性数据集,它对于目前的最先进的模型来说非常困难,但是对于人类来说却很容易(>95%的准确率。它包含了70000个多选问题每个问题都有一个场景和四个可能的结局要求选择最合理的结局。这些问题来自两个领域activitynet和wikihow分别涉及视频和文本的场景。这些问题的正确答案是真实的下一个事件的句子而错误答案是敌对生成并经过人类验证的以便欺骗机器而不是人类。
path: opencompass/configs/datasets/hellaswag/hellaswag_ppl.py
- id: 4
key: lambada_gen
name: LAMBADA
description: LAMBADA 通过一个单词预测任务来评估计算模型对文本理解的能力。LAMBADA 是有如下特点的一组叙述性文章:如果面对整篇文章,人们可以猜测它们的最后一个单词,但如果他们只看到目标单词前面的最后一句话,就无法猜测。为了在 LAMBADA 上由好的效果模型不能仅仅依赖于局部上下文而必须能够跟踪更广泛的话语信息。LAMBADA 数据集是从 BookCorpus 中提取的,包括 10,022 段落,分为 4,869 个开发段落和 5,153 个测试段落,共计 2.03 亿个单词。
path: opencompass/configs/datasets/lambada/lambada_gen.py
- id: 5
key: triviaqa_gen
name: TriviaQA
description: TriviaQA 是一个阅读理解数据集包含超过65万个问题-答案-证据三元组。其包括95K个问答对由冷知识爱好者和独立收集的事实性文档撰写平均每个问题6个为回答问题提供高质量的远程监督。
path: opencompass/configs/datasets/triviaqa/triviaqa_gen.py
- id: 6
key: GaokaoBench_gen
name: GaokaoBench
description: GaokaoBench 是专门给Nio用来自测的
path: opencompass/configs/datasets/GaokaoBench/GaokaoBench_gen.py