Merge branch 'main' of http://172.26.1.24:30000/public/dataset-ceval-exam

添加文件: ['.']
添加文件: ['README.md']
2025-07-25 16:30:22 +08:00 · 2024-09-02 20:58:42 +08:00 · 2024-09-02 18:56:15 +08:00 · 2024-03-19 08:35:39 +00:00 · 2023-08-20 16:39:09 +00:00 · 2023-08-20 16:36:00 +00:00
3 changed files with 185 additions and 0 deletions
--- a/README.md
+++ b/README.md
@ -0,0 +1,27 @@
+---
+license: cc-by-nc-sa-4.0
+tags:
+- Alibaba
+- arxiv:2305.08322
+
+task_categories:
+  - text-classification
+  - multiple-choice
+  - question-answering
+language:
+  - zh
+pretty_name: C-Eval
+size_categories:
+  - 10K<n<100K
+
+
+---
+数据集文件元信息以及数据文件，请浏览“数据集文件”页面获取。
+
+当前数据集卡片使用的是默认模版，数据集的贡献者未提供更加详细的数据集介绍，但是您可以通过如下GIT Clone命令，或者ModelScope SDK来下载数据集
+
+#### 下载方法 
+:modelscope-code[]{type="sdk"}
+:modelscope-code[]{type="git"}
+
+
--- a/ceval-exam.py
+++ b/ceval-exam.py
@ -0,0 +1,157 @@
+# Copyright (c) Alibaba, Inc. and its affiliates.
+# Copyright 2020 The HuggingFace Datasets Authors and the current dataset script contributor.
+
+# Licensed under the Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License
+import os
+
+import datasets
+import pandas as pd
+
+
+_CITATION = """\
+@article{huang2023ceval,
+    title={C-Eval: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models}, 
+    author={Huang, Yuzhen and Bai, Yuzhuo and Zhu, Zhihao and Zhang, Junlei and Zhang, Jinghan and Su, Tangjun and Liu, Junteng and Lv, Chuancheng and Zhang, Yikai and Lei, Jiayi and Fu, Yao and Sun, Maosong and He, Junxian},
+    journal={arXiv preprint arXiv:2305.08322},
+    year={2023}
+}
+"""
+
+_DESCRIPTION = """\
+C-Eval is a comprehensive Chinese evaluation suite for foundation models. It consists of 13948 multi-choice questions spanning 52 diverse disciplines and four difficulty levels.
+"""
+
+_HOMEPAGE = "https://cevalbenchmark.com"
+
+_LICENSE = "Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License"
+
+_URL = r"https://modelscope.oss-cn-beijing.aliyuncs.com/open_data/c-eval/ceval-exam.zip"
+
+task_list = [
+    "computer_network",
+    "operating_system",
+    "computer_architecture",
+    "college_programming",
+    "college_physics",
+    "college_chemistry",
+    "advanced_mathematics",
+    "probability_and_statistics",
+    "discrete_mathematics",
+    "electrical_engineer",
+    "metrology_engineer",
+    "high_school_mathematics",
+    "high_school_physics",
+    "high_school_chemistry",
+    "high_school_biology",
+    "middle_school_mathematics",
+    "middle_school_biology",
+    "middle_school_physics",
+    "middle_school_chemistry",
+    "veterinary_medicine",
+    "college_economics",
+    "business_administration",
+    "marxism",
+    "mao_zedong_thought",
+    "education_science",
+    "teacher_qualification",
+    "high_school_politics",
+    "high_school_geography",
+    "middle_school_politics",
+    "middle_school_geography",
+    "modern_chinese_history",
+    "ideological_and_moral_cultivation",
+    "logic",
+    "law",
+    "chinese_language_and_literature",
+    "art_studies",
+    "professional_tour_guide",
+    "legal_professional",
+    "high_school_chinese",
+    "high_school_history",
+    "middle_school_history",
+    "civil_servant",
+    "sports_science",
+    "plant_protection",
+    "basic_medicine",
+    "clinical_medicine",
+    "urban_and_rural_planner",
+    "accountant",
+    "fire_engineer",
+    "environmental_impact_assessment_engineer",
+    "tax_accountant",
+    "physician",
+]
+
+
+class CevalExamConfig(datasets.BuilderConfig):
+    def __init__(self, **kwargs):
+        super().__init__(version=datasets.Version("1.0.0"), **kwargs)
+
+
+class CevalExam(datasets.GeneratorBasedBuilder):
+    BUILDER_CONFIGS = [
+        CevalExamConfig(
+            name=task_name,
+        )
+        for task_name in task_list
+    ]
+
+    def _info(self):
+        features = datasets.Features(
+            {
+                "id":datasets.Value("int32"),
+                "question": datasets.Value("string"),
+                "A": datasets.Value("string"),
+                "B": datasets.Value("string"),
+                "C": datasets.Value("string"),
+                "D": datasets.Value("string"),
+                "answer": datasets.Value("string"),
+                "explanation":datasets.Value("string"),
+            }
+        )
+        return datasets.DatasetInfo(
+            description=_DESCRIPTION,
+            features=features,
+            homepage=_HOMEPAGE,
+            license=_LICENSE,
+            citation=_CITATION,
+        )
+
+    def _split_generators(self, dl_manager):
+        data_dir = dl_manager.download_and_extract(_URL)
+        task_name = self.config.name
+        return [
+            datasets.SplitGenerator(
+                name=datasets.Split.TEST,
+                gen_kwargs={
+                    "filepath": os.path.join(
+                        data_dir, "test", f"{task_name}_test.csv"
+                    ),
+                },
+            ),
+            datasets.SplitGenerator(
+                name=datasets.Split("val"),
+                gen_kwargs={
+                    "filepath": os.path.join(
+                        data_dir,  "val", f"{task_name}_val.csv"
+                    ),
+                },
+            ),
+            datasets.SplitGenerator(
+                name=datasets.Split("dev"),
+                gen_kwargs={
+                    "filepath": os.path.join(
+                        data_dir, "dev", f"{task_name}_dev.csv"
+                    ),
+                },
+            ),
+        ]
+
+    def _generate_examples(self, filepath):
+        df = pd.read_csv(filepath,encoding="utf-8")
+        for i, instance in enumerate(df.to_dict(orient="records")):
+            if "answer" not in instance.keys():
+                instance["answer"]=""
+            if "explanation" not in instance.keys():
+                instance["explanation"]=""
+            yield i, instance
--- a/dataset_infos.json
+++ b/dataset_infos.json
Author	SHA1	Message	Date
zhufq	1c2a60f62b	Merge branch 'main' of http://172.26.1.24:30000/public/dataset-ceval-exam	2025-07-25 16:30:22 +08:00
Qing112	1ee9b1e998	添加文件: ['.']	2024-09-02 20:58:42 +08:00
Qing112	a75ecfa256	添加文件: ['README.md']	2024-09-02 18:56:15 +08:00
wangxingjun778	57480e8ca4	UPDATE README.md	2024-03-19 08:35:39 +00:00
Administrator	12dcb94b91	Create file dataset_infos.json in datasets-ceval-exam project	2023-08-20 16:39:09 +00:00
Administrator	85bb88450f	Delete file dataset_infos.json in datasets-ceval-exam project	2023-08-20 16:36:00 +00:00
wangxingjun778	81bba7c21f	py script	2023-08-20 16:34:00 +00:00
wangxingjun778	611fa3fecc	Commit ceval-exam.py README.md file(s) in datasets-ceval-exam	2023-08-20 14:22:33 +00:00
Administrator	a724222593	Create file dataset_infos.json in datasets-ceval-exam project	2023-08-20 14:18:09 +00:00
wangxingjun778	67b6c11cd4	py script	2023-08-20 14:14:48 +00:00
Administrator	ca5a85e1ff	Commit ceval-exam.py README.md file(s) in datasets-ceval-exam	2023-08-20 14:12:44 +00:00