init

2025-07-18 07:26:26 +00:00 · 2025-07-18 07:26:26 +00:00 · 2526b805eb
commit 2526b805eb
22 changed files with 444 additions and 0 deletions
--- a/.gitattributes
+++ b/.gitattributes
@ -0,0 +1 @@
+*.json filter=lfs diff=lfs merge=lfs -text
--- a/4pd-chatglm-6b-v1.0.0.json
+++ b/4pd-chatglm-6b-v1.0.0.json
@ -0,0 +1,21 @@
+{
+    "id": "4pd/chatglm-6b@v1.0.0",
+    "description": "",
+    "owner": "",
+    "results": {
+        "C3": 90.0,
+        "lambada": 49.62,
+        "GaokaoBench_2010-2013_English_MCQs": 50.0,
+        "triviaqa": 20.83
+    },
+    "metadata": {
+        "language": [
+            "en"
+        ],
+        "tags": [
+            "sagegpt"
+        ],
+        "pipeline_tag": "text-generation",
+        "inference": false
+    }
+}
--- a/4pd-chatglm-6b-v1.0.1.json
+++ b/4pd-chatglm-6b-v1.0.1.json
@ -0,0 +1,16 @@
+{
+    "id": "4pd/chatglm-6b@v1.0.1",
+    "description": "",
+    "owner": "",
+    "results": {},
+    "metadata": {
+        "language": [
+            "en"
+        ],
+        "tags": [
+            "sagegpt"
+        ],
+        "pipeline_tag": "text-generation",
+        "inference": false
+    }
+}
--- a/4pd-llama-2-7b-chat-hf-base.json
+++ b/4pd-llama-2-7b-chat-hf-base.json
@ -0,0 +1,8 @@
+{
+    "id": "4pd/llama-2-7b-chat-hf@base",
+    "description": "llama-2-7b-chat-hf",
+    "updatedAt": "2024-04-25 21:54:49",
+    "mode": "service",
+    "results": {},
+    "metadata": {}
+}
--- a/4pd-niotest-main.json
+++ b/4pd-niotest-main.json
@ -0,0 +1,33 @@
+{
+    "id": "4pd/niotest@main",
+    "description": "nio test eval rank",
+    "updatedAt": "2023-11-14 15:56:15",
+    "owner": "nio",
+    "results": {
+        "ceval": 59.92,
+        "mmlu": 55.46,
+        "triviaqa": 55.98,
+        "hellaswag": 71.76,
+        "cmmlu": 62.03,
+        "C3": 72.0,
+        "lambada": 66.83,
+        "SageBench-exam": 75.04,
+        "CValues-Responsibility": 90.07,
+        "longbench_lsht": 90.07,
+        "longbench_vcsum": 90.07,
+        "longbench_dureader": 90.07,
+        "longbench_multifieldqa_zh": 90.07,
+        "longbench_passage_retrieval_zh": 90.07
+    },
+    "metadata": {
+        "language": [
+            "zh",
+            "en"
+        ],
+        "tags": [
+            "qwen"
+        ],
+        "pipeline_tag": "text-generation",
+        "inference": false
+    }
+}
--- a/4pd-nl2sql-qianwen-base.json
+++ b/4pd-nl2sql-qianwen-base.json
@ -0,0 +1,17 @@
+{
+    "id": "4pd/nl2sql-qianwen@base",
+    "description": "",
+    "owner": "",
+    "results": {},
+    "metadata": {
+        "language": [
+            "zh",
+            "en"
+        ],
+        "tags": [
+            "qwen"
+        ],
+        "pipeline_tag": "text-generation",
+        "inference": false
+    }
+}
--- a/4pd-qwen-14b-chat-int4-main.json
+++ b/4pd-qwen-14b-chat-int4-main.json
@ -0,0 +1,20 @@
+{
+    "id": "4pd/qwen-14b-chat-int4@main",
+    "description": "{{ description }}",
+    "updatedAt": "2023-10-09 17:17:35",
+    "mode": "api",
+    "results": {
+        "lambada": 58.88
+    },
+    "metadata": {
+        "language": [
+            "zh",
+            "en"
+        ],
+        "tags": [
+            "qwen"
+        ],
+        "pipeline_tag": "text-generation",
+        "inference": false
+    }
+}
--- a/4pd-qwen-7b-chat-base.json
+++ b/4pd-qwen-7b-chat-base.json
@ -0,0 +1,20 @@
+{
+    "id": "4pd/qwen-7b-chat@base",
+    "description": "",
+    "owner": "",
+    "results": {
+        "triviaqa": 38.67,
+        "lambada": 49.31
+    },
+    "metadata": {
+        "language": [
+            "zh",
+            "en"
+        ],
+        "tags": [
+            "qwen"
+        ],
+        "pipeline_tag": "text-generation",
+        "inference": false
+    }
+}
--- a/4pd-qwen-7b-chat-hf-main.json
+++ b/4pd-qwen-7b-chat-hf-main.json
@ -0,0 +1,20 @@
+{
+    "id": "4pd/qwen-7b-chat-hf@main",
+    "description": "{{ description }}",
+    "updatedAt": "2023-10-09 16:36:28",
+    "mode": "api",
+    "results": {
+        "lambada": 45.57
+    },
+    "metadata": {
+        "language": [
+            "zh",
+            "en"
+        ],
+        "tags": [
+            "qwen"
+        ],
+        "pipeline_tag": "text-generation",
+        "inference": false
+    }
+}
--- a/4pd-qwen-7b-chat-int4-main.json
+++ b/4pd-qwen-7b-chat-int4-main.json
@ -0,0 +1,18 @@
+{
+    "id": "4pd/qwen-7b-chat-int4@main",
+    "description": "{{ description }}",
+    "updatedAt": "2023-09-22 17:16:51.075176",
+    "mode": "api",
+    "results": {},
+    "metadata": {
+        "language": [
+            "zh",
+            "en"
+        ],
+        "tags": [
+            "qwen"
+        ],
+        "pipeline_tag": "text-generation",
+        "inference": false
+    }
+}
--- a/4pd-qwen-7b-chat-main.json
+++ b/4pd-qwen-7b-chat-main.json
@ -0,0 +1,18 @@
+{
+    "id": "4pd/qwen-7b-chat@main",
+    "description": "{{ description }}",
+    "updatedAt": "2023-10-09 17:32:21",
+    "mode": "service",
+    "results": {},
+    "metadata": {
+        "language": [
+            "zh",
+            "en"
+        ],
+        "tags": [
+            "qwen"
+        ],
+        "pipeline_tag": "text-generation",
+        "inference": false
+    }
+}
--- a/4pd-qwen-7b-chat-test-base.json
+++ b/4pd-qwen-7b-chat-test-base.json
@ -0,0 +1,19 @@
+{
+    "id": "4pd/qwen-7b-chat-test@base",
+    "description": "",
+    "owner": "",
+    "results": {
+        "GaokaoBench_2010-2013_English_MCQs": 66.81
+    },
+    "metadata": {
+        "language": [
+            "zh",
+            "en"
+        ],
+        "tags": [
+            "qwen"
+        ],
+        "pipeline_tag": "text-generation",
+        "inference": false
+    }
+}
--- a/4pd-sagegptv2-base.json
+++ b/4pd-sagegptv2-base.json
@ -0,0 +1,19 @@
+{
+    "id": "4pd/sagegptv2@base",
+    "description": "",
+    "owner": "",
+    "results": {
+        "lambada": 43.26
+    },
+    "metadata": {
+        "language": [
+            "zh",
+            "en"
+        ],
+        "tags": [
+            "sagegpt"
+        ],
+        "pipeline_tag": "text-generation",
+        "inference": false
+    }
+}
--- a/4pd-sagegptv2-infer4000.json
+++ b/4pd-sagegptv2-infer4000.json
@ -0,0 +1,21 @@
+{
+    "id": "4pd/sagegptv2@infer4000",
+    "description": "{{ description }}",
+    "updatedAt": "2023-10-09 16:01:21",
+    "mode": "api",
+    "results": {
+        "triviaqa": 26.41,
+        "lambada": 65.83
+    },
+    "metadata": {
+        "language": [
+            "zh",
+            "en"
+        ],
+        "tags": [
+            "sagegpt"
+        ],
+        "pipeline_tag": "text-generation",
+        "inference": false
+    }
+}
--- a/README.md
+++ b/README.md
@ -0,0 +1,3 @@
+# eval-leaderboard
+
+README for eval-leaderboard
--- a/baichuan2-13b-base-hf.json
+++ b/baichuan2-13b-base-hf.json
@ -0,0 +1,18 @@
+{
+    "id": "baichuan2-13b-base-hf",
+    "description": "{{ description }}",
+    "updatedAt": "2023-10-09 15:09:10",
+    "mode": "service",
+    "results": {},
+    "metadata": {
+        "language": [
+            "zh",
+            "en"
+        ],
+        "tags": [
+            "qwen"
+        ],
+        "pipeline_tag": "text-generation",
+        "inference": false
+    }
+}
--- a/baichuan2-13b-chat-hf.json
+++ b/baichuan2-13b-chat-hf.json
@ -0,0 +1,18 @@
+{
+    "id": "baichuan2-13b-chat-hf",
+    "description": "{{ description }}",
+    "updatedAt": "2023-10-09 19:54:48",
+    "mode": "service",
+    "results": {},
+    "metadata": {
+        "language": [
+            "zh",
+            "en"
+        ],
+        "tags": [
+            "qwen"
+        ],
+        "pipeline_tag": "text-generation",
+        "inference": false
+    }
+}
--- a/chatglm-6b-hf.json
+++ b/chatglm-6b-hf.json
@ -0,0 +1,18 @@
+{
+    "id": "chatglm-6b-hf",
+    "description": "{{ description }}",
+    "updatedAt": "2023-10-09 18:54:54",
+    "mode": "service",
+    "results": {},
+    "metadata": {
+        "language": [
+            "zh",
+            "en"
+        ],
+        "tags": [
+            "qwen"
+        ],
+        "pipeline_tag": "text-generation",
+        "inference": false
+    }
+}
--- a/config/group.json
+++ b/config/group.json
@ -0,0 +1,34 @@
+{
+    "公开核心榜单": [
+        "ceval",
+        "mmlu",
+        "triviaqa",
+        "hellaswag",
+        "cmmlu",
+        "C3",
+        "lambada"
+    ],
+    "私有榜单V1": [
+        "SageBench-exam"
+    ],
+    "私有榜单V2": [],
+    "中文": [
+        "ceval",
+        "cmmlu",
+        "C3",
+        "SageBench-exam"
+    ],
+    "英文": [
+        "mmlu",
+        "triviaqa",
+        "hellaswag",
+        "lambada"
+    ],
+    "长窗口": [
+        "longbench_lsht",
+        "longbench_vcsum",
+        "longbench_dureader",
+        "longbench_multifieldqa_zh",
+        "longbench_passage_retrieval_zh"
+    ]
+}
--- a/config/order.json
+++ b/config/order.json
@ -0,0 +1,17 @@
+[
+    "ceval",
+    "agieval",
+    "mmlu",
+    "GaokaoBench",
+    "triviaqa",
+    "hellaswag",
+    "cmmlu",
+    "C3",
+    "lambada",
+    "SageBench-exam",
+    "longbench_lsht",
+    "longbench_vcsum",
+    "longbench_dureader",
+    "longbench_multifieldqa_zh",
+    "longbench_passage_retrieval_zh"
+]
--- a/merge.py
+++ b/merge.py
@ -0,0 +1,69 @@
+import os
+import shutil
+import json
+import argparse
+
+
+def do_merge(new_json_path, old_json_path):
+    with open(new_json_path, "r") as f:
+        new_json = json.load(f)
+
+    with open(old_json_path, "r") as f:
+        old_json = json.load(f)
+
+    if new_json.get("id") != old_json.get("id"):
+        raise RuntimeError(f"{new_json.get('id')} not equal to {old_json.get('id')} ")
+
+    # 基础属性，从新的里拿，不为空就覆盖。
+
+    base_params = [
+        "description",
+        "owner",
+    ]
+    # 获取基础属性
+    for param in base_params:
+        if new_json.get(param):
+            old_json[param] = new_json.get(param)
+    # 更新result
+    new_results = new_json.get("results")
+    old_results = old_json.get("results")
+    for key in new_results:
+        if new_results[key]:
+            old_results[key] = new_results[key]
+    # 更新metadata
+    if new_json.get("metadata"):
+        old_json["metadata"] = new_json.get("metadata")
+
+    return old_json
+
+
+def merge(new_data_path, old_data_path):
+    if not os.path.exists(new_data_path):
+        raise RuntimeError(f"data_path 【{new_data_path}】 not exist!")
+    # foreach new files
+    for new_json_file in os.listdir(new_data_path):
+        if not new_json_file.endswith("json"):
+            print(f"file {new_json_file} not a json file,jump")
+            continue
+        # check old file exist or not
+        if not os.path.exists(os.path.join(old_data_path, new_json_file)):
+            print(f"new file 【{new_json_file}】 copy...")
+            shutil.copyfile(os.path.join(new_data_path, new_json_file), os.path.join(old_data_path, new_json_file))
+        else:
+            print(f"merge file 【{new_json_file}】")
+            new_json_content = do_merge(os.path.join(new_data_path, new_json_file),
+                                        os.path.join(old_data_path, new_json_file))
+            with open(os.path.join(old_data_path, new_json_file), "w") as f:
+                json.dump(new_json_content, f, indent=4, ensure_ascii=False)
+
+
+if __name__ == '__main__':
+    args = argparse.ArgumentParser()
+    args.add_argument("--new_data", type=str, required=True)
+    args.add_argument('--old_data', type=str, default=None, required=False)
+    args = args.parse_args()
+
+    new_data: str = args.new_data
+    old_data: str = args.old_data or os.path.dirname(os.path.abspath(__file__))
+
+    merge(new_data, old_data)
--- a/test-yu.json
+++ b/test-yu.json
@ -0,0 +1,16 @@
+{
+    "id": "test-yu",
+    "description": "ChatGPT 3.5",
+    "owner": "",
+    "results": {
+        "ceval": 52.5,
+        "agieval": 39.9,
+        "mmlu": 69.1,
+        "GaokaoBench": 51.1,
+        "triviaqa": 63.8,
+        "hellaswag": 79.5,
+        "cmmlu": 53.9,
+        "C3": 85.6,
+        "lambada": 57.5
+    }
+}