31 lines
		
	
	
		
			2.9 KiB
		
	
	
	
		
			YAML
		
	
	
	
	
	
			
		
		
	
	
			31 lines
		
	
	
		
			2.9 KiB
		
	
	
	
		
			YAML
		
	
	
	
	
	
| support_datasets:
 | ||
|     - id: 1
 | ||
|       key: ceval_ppl
 | ||
|       name: C-Eval
 | ||
|       description: C-Eval 是一个全面的中文评估套件,旨在评估基于中文语境的基础模型的高级知识和推理能力。C-Eval 包括四个难度级别的多项选择题:初中、高中、大学和专业。这些问题涵盖了 52 个不同的学科领域,包括人文学科、科学和工程学科等。
 | ||
|       path: opencompass/configs/datasets/ceval/ceval_ppl.py
 | ||
|     - id: 2
 | ||
|       key: mmlu_ppl
 | ||
|       name: MMLU
 | ||
|       description: MMLU 是一个庞大的多任务数据集,由各种学科的多项选择题组成。其涵盖了人文学科、社会科学、自然科学和其他对某些人学习很重要的领域。其中包括57个任务,包括初等数学、美国历史、计算机科学、法律等等。为了在这个测试中达到高准确度,模型必须具有广泛的世界知识和问题解决能力
 | ||
|       path: opencompass/configs/datasets/mmlu/mmlu_ppl.py
 | ||
|     - id: 3
 | ||
|       key: hellaswag_ppl
 | ||
|       name: HellaSwag
 | ||
|       description: HellaSwag 是一个用于评估常识自然语言推理的挑战性数据集,它对于目前的最先进的模型来说非常困难,但是对于人类来说却很容易(>95%的准确率)。它包含了70000个多选问题,每个问题都有一个场景和四个可能的结局,要求选择最合理的结局。这些问题来自两个领域:activitynet和wikihow,分别涉及视频和文本的场景。这些问题的正确答案是真实的下一个事件的句子,而错误答案是敌对生成并经过人类验证的,以便欺骗机器而不是人类。
 | ||
|       path: opencompass/configs/datasets/hellaswag/hellaswag_ppl.py
 | ||
|     - id: 4
 | ||
|       key: lambada_gen
 | ||
|       name: LAMBADA
 | ||
|       description: LAMBADA 通过一个单词预测任务来评估计算模型对文本理解的能力。LAMBADA 是有如下特点的一组叙述性文章:如果面对整篇文章,人们可以猜测它们的最后一个单词,但如果他们只看到目标单词前面的最后一句话,就无法猜测。为了在 LAMBADA 上由好的效果,模型不能仅仅依赖于局部上下文,而必须能够跟踪更广泛的话语信息。LAMBADA 数据集是从 BookCorpus 中提取的,包括 10,022 段落,分为 4,869 个开发段落和 5,153 个测试段落,共计 2.03 亿个单词。
 | ||
|       path: opencompass/configs/datasets/lambada/lambada_gen.py
 | ||
|     - id: 5
 | ||
|       key: triviaqa_gen
 | ||
|       name: TriviaQA
 | ||
|       description: TriviaQA 是一个阅读理解数据集,包含超过65万个问题-答案-证据三元组。其包括95K个问答对,由冷知识爱好者和独立收集的事实性文档撰写,平均每个问题6个,为回答问题提供高质量的远程监督。
 | ||
|       path: opencompass/configs/datasets/triviaqa/triviaqa_gen.py
 | ||
|     - id: 6
 | ||
|       key: GaokaoBench_gen
 | ||
|       name: GaokaoBench
 | ||
|       description: GaokaoBench 是专门给Nio用来自测的
 | ||
|       path: opencompass/configs/datasets/GaokaoBench/GaokaoBench_gen.py | 
