dataset-opencompass/task_config.yaml

support_datasets:
    - id: 1
      key: ceval_ppl
      name: C-Eval
      description: C-Eval 是一个全面的中文评估套件，旨在评估基于中文语境的基础模型的高级知识和推理能力。C-Eval 包括四个难度级别的多项选择题：初中、高中、大学和专业。这些问题涵盖了 52 个不同的学科领域，包括人文学科、科学和工程学科等。
      path: opencompass/configs/datasets/ceval/ceval_ppl.py
    - id: 2
      key: mmlu_ppl
      name: MMLU
      description: MMLU 是一个庞大的多任务数据集，由各种学科的多项选择题组成。其涵盖了人文学科、社会科学、自然科学和其他对某些人学习很重要的领域。其中包括57个任务，包括初等数学、美国历史、计算机科学、法律等等。为了在这个测试中达到高准确度，模型必须具有广泛的世界知识和问题解决能力
      path: opencompass/configs/datasets/mmlu/mmlu_ppl.py
    - id: 3
      key: hellaswag_ppl
      name: HellaSwag
      description: HellaSwag 是一个用于评估常识自然语言推理的挑战性数据集，它对于目前的最先进的模型来说非常困难，但是对于人类来说却很容易（>95%的准确率）。它包含了70000个多选问题，每个问题都有一个场景和四个可能的结局，要求选择最合理的结局。这些问题来自两个领域：activitynet和wikihow，分别涉及视频和文本的场景。这些问题的正确答案是真实的下一个事件的句子，而错误答案是敌对生成并经过人类验证的，以便欺骗机器而不是人类。
      path: opencompass/configs/datasets/hellaswag/hellaswag_ppl.py
    - id: 4
      key: lambada_gen
      name: LAMBADA
      description: LAMBADA 通过一个单词预测任务来评估计算模型对文本理解的能力。LAMBADA 是有如下特点的一组叙述性文章：如果面对整篇文章，人们可以猜测它们的最后一个单词，但如果他们只看到目标单词前面的最后一句话，就无法猜测。为了在 LAMBADA 上由好的效果，模型不能仅仅依赖于局部上下文，而必须能够跟踪更广泛的话语信息。LAMBADA 数据集是从 BookCorpus 中提取的，包括 10,022 段落，分为 4,869 个开发段落和 5,153 个测试段落，共计 2.03 亿个单词。
      path: opencompass/configs/datasets/lambada/lambada_gen.py
    - id: 5
      key: triviaqa_gen
      name: TriviaQA
      description: TriviaQA 是一个阅读理解数据集，包含超过65万个问题-答案-证据三元组。其包括95K个问答对，由冷知识爱好者和独立收集的事实性文档撰写，平均每个问题6个，为回答问题提供高质量的远程监督。
      path: opencompass/configs/datasets/triviaqa/triviaqa_gen.py
    - id: 6
      key: GaokaoBench_gen
      name: GaokaoBench
      description: GaokaoBench 是专门给Nio用来自测的
      path: opencompass/configs/datasets/GaokaoBench/GaokaoBench_gen.py