30 changed files with 1779 additions and 1 deletions
--- a/.gitattributes
+++ b/.gitattributes
@ -0,0 +1 @@
+*.json filter=lfs diff=lfs merge=lfs -text
--- a/.gitignore
+++ b/.gitignore
--- a/README.md
+++ b/README.md
@ -1 +0,0 @@
-This is a repo for model evaluation.
--- a/configs/20251126_101839.py
+++ b/configs/20251126_101839.py
--- a/logs/eval/public/qwen3-0-6b@v1.0.3/GaokaoBench_2010-2013_English_MCQs.out
+++ b/logs/eval/public/qwen3-0-6b@v1.0.3/GaokaoBench_2010-2013_English_MCQs.out
@ -0,0 +1,7 @@
+[RISE-CORE Msg(16247:139996238085120:libvgpu.c:900)]: Initializing.....
+[RISE-CORE ERROR (pid:16247 thread=139996238085120 libvgpu.c:958)]: cuInit failed:100
+11/26 10:49:43 - OpenCompass - INFO - Task [public/qwen3-0-6b@v1.0.3/GaokaoBench_2010-2013_English_MCQs]: {'score': 35.23809523809524}
+11/26 10:49:43 - OpenCompass - INFO - time elapsed: 2.25s
+/opt/conda/lib/python3.8/site-packages/fuzzywuzzy/fuzz.py:11: UserWarning: Using slow pure-python SequenceMatcher. Install python-Levenshtein to remove this warning
+  warnings.warn('Using slow pure-python SequenceMatcher. Install python-Levenshtein to remove this warning')
+[RISE-CORE Msg(16247:139996238085120:multiprocess_memory_limit.c:504)]: Calling exit handler 16247
--- a/logs/eval/public/qwen3-0-6b@v1.0.3/lambada.out
+++ b/logs/eval/public/qwen3-0-6b@v1.0.3/lambada.out
@ -0,0 +1,7 @@
+[RISE-CORE Msg(16059:140523949599744:libvgpu.c:900)]: Initializing.....
+[RISE-CORE ERROR (pid:16059 thread=140523949599744 libvgpu.c:958)]: cuInit failed:100
+11/26 10:49:32 - OpenCompass - INFO - Task [public/qwen3-0-6b@v1.0.3/lambada]: {'accuracy': 3.6677663496992046}
+11/26 10:49:32 - OpenCompass - INFO - time elapsed: 2.12s
+/opt/conda/lib/python3.8/site-packages/fuzzywuzzy/fuzz.py:11: UserWarning: Using slow pure-python SequenceMatcher. Install python-Levenshtein to remove this warning
+  warnings.warn('Using slow pure-python SequenceMatcher. Install python-Levenshtein to remove this warning')
+[RISE-CORE Msg(16059:140523949599744:multiprocess_memory_limit.c:504)]: Calling exit handler 16059
--- a/logs/eval/public/qwen3-0-6b@v1.0.3/triviaqa.out
+++ b/logs/eval/public/qwen3-0-6b@v1.0.3/triviaqa.out
@ -0,0 +1,7 @@
+[RISE-CORE Msg(16244:139820151811072:libvgpu.c:900)]: Initializing.....
+[RISE-CORE ERROR (pid:16244 thread=139820151811072 libvgpu.c:958)]: cuInit failed:100
+11/26 10:49:45 - OpenCompass - INFO - Task [public/qwen3-0-6b@v1.0.3/triviaqa]: {'score': 4.809324431368111}
+11/26 10:49:45 - OpenCompass - INFO - time elapsed: 3.86s
+/opt/conda/lib/python3.8/site-packages/fuzzywuzzy/fuzz.py:11: UserWarning: Using slow pure-python SequenceMatcher. Install python-Levenshtein to remove this warning
+  warnings.warn('Using slow pure-python SequenceMatcher. Install python-Levenshtein to remove this warning')
+[RISE-CORE Msg(16244:139820151811072:multiprocess_memory_limit.c:504)]: Calling exit handler 16244
--- a/logs/infer/public/qwen3-0-6b@v1.0.3/GaokaoBench_2010-2013_English_MCQs.out
+++ b/logs/infer/public/qwen3-0-6b@v1.0.3/GaokaoBench_2010-2013_English_MCQs.out
--- a/logs/infer/public/qwen3-0-6b@v1.0.3/lambada_0.out
+++ b/logs/infer/public/qwen3-0-6b@v1.0.3/lambada_0.out
--- a/logs/infer/public/qwen3-0-6b@v1.0.3/lambada_1.out
+++ b/logs/infer/public/qwen3-0-6b@v1.0.3/lambada_1.out
--- a/logs/infer/public/qwen3-0-6b@v1.0.3/lambada_2.out
+++ b/logs/infer/public/qwen3-0-6b@v1.0.3/lambada_2.out
--- a/logs/infer/public/qwen3-0-6b@v1.0.3/triviaqa_0.out
+++ b/logs/infer/public/qwen3-0-6b@v1.0.3/triviaqa_0.out
--- a/logs/infer/public/qwen3-0-6b@v1.0.3/triviaqa_1.out
+++ b/logs/infer/public/qwen3-0-6b@v1.0.3/triviaqa_1.out
--- a/logs/infer/public/qwen3-0-6b@v1.0.3/triviaqa_2.out
+++ b/logs/infer/public/qwen3-0-6b@v1.0.3/triviaqa_2.out
--- a/logs/infer/public/qwen3-0-6b@v1.0.3/triviaqa_3.out
+++ b/logs/infer/public/qwen3-0-6b@v1.0.3/triviaqa_3.out
--- a/logs/infer/public/qwen3-0-6b@v1.0.3/triviaqa_4.out
+++ b/logs/infer/public/qwen3-0-6b@v1.0.3/triviaqa_4.out
--- a/predictions/public/qwen3-0-6b@v1.0.3/GaokaoBench_2010-2013_English_MCQs.json
+++ b/predictions/public/qwen3-0-6b@v1.0.3/GaokaoBench_2010-2013_English_MCQs.json
--- a/predictions/public/qwen3-0-6b@v1.0.3/lambada_0.json
+++ b/predictions/public/qwen3-0-6b@v1.0.3/lambada_0.json
--- a/predictions/public/qwen3-0-6b@v1.0.3/lambada_1.json
+++ b/predictions/public/qwen3-0-6b@v1.0.3/lambada_1.json
--- a/predictions/public/qwen3-0-6b@v1.0.3/lambada_2.json
+++ b/predictions/public/qwen3-0-6b@v1.0.3/lambada_2.json
--- a/predictions/public/qwen3-0-6b@v1.0.3/triviaqa_0.json
+++ b/predictions/public/qwen3-0-6b@v1.0.3/triviaqa_0.json
--- a/predictions/public/qwen3-0-6b@v1.0.3/triviaqa_1.json
+++ b/predictions/public/qwen3-0-6b@v1.0.3/triviaqa_1.json
--- a/predictions/public/qwen3-0-6b@v1.0.3/triviaqa_2.json
+++ b/predictions/public/qwen3-0-6b@v1.0.3/triviaqa_2.json
--- a/predictions/public/qwen3-0-6b@v1.0.3/triviaqa_3.json
+++ b/predictions/public/qwen3-0-6b@v1.0.3/triviaqa_3.json
--- a/predictions/public/qwen3-0-6b@v1.0.3/triviaqa_4.json
+++ b/predictions/public/qwen3-0-6b@v1.0.3/triviaqa_4.json
--- a/results/public/qwen3-0-6b@v1.0.3/GaokaoBench_2010-2013_English_MCQs.json
+++ b/results/public/qwen3-0-6b@v1.0.3/GaokaoBench_2010-2013_English_MCQs.json
--- a/results/public/qwen3-0-6b@v1.0.3/lambada.json
+++ b/results/public/qwen3-0-6b@v1.0.3/lambada.json
--- a/results/public/qwen3-0-6b@v1.0.3/triviaqa.json
+++ b/results/public/qwen3-0-6b@v1.0.3/triviaqa.json
--- a/summary/summary_20251126_101839.csv
+++ b/summary/summary_20251126_101839.csv
@ -0,0 +1,87 @@
+dataset,version,metric,mode,public/qwen3-0-6b@v1.0.3
+--------- 考试 Exam ---------,-,-,-,-
+ceval,-,-,-,-
+agieval,-,-,-,-
+mmlu,-,-,-,-
+GaokaoBench,-,-,-,-
+ARC-c,-,-,-,-
+--------- 语言 Language ---------,-,-,-,-
+WiC,-,-,-,-
+summedits,-,-,-,-
+chid-dev,-,-,-,-
+afqmc-dev,-,-,-,-
+bustm-dev,-,-,-,-
+cluewsc-dev,-,-,-,-
+WSC,-,-,-,-
+winogrande,-,-,-,-
+flores_100,-,-,-,-
+--------- 知识 Knowledge ---------,-,-,-,-
+BoolQ,-,-,-,-
+commonsense_qa,-,-,-,-
+nq,-,-,-,-
+triviaqa,2121ce,score,gen,4.81
+--------- 推理 Reasoning ---------,-,-,-,-
+cmnli,-,-,-,-
+ocnli,-,-,-,-
+ocnli_fc-dev,-,-,-,-
+AX_b,-,-,-,-
+AX_g,-,-,-,-
+CB,-,-,-,-
+RTE,-,-,-,-
+story_cloze,-,-,-,-
+COPA,-,-,-,-
+ReCoRD,-,-,-,-
+hellaswag,-,-,-,-
+piqa,-,-,-,-
+siqa,-,-,-,-
+strategyqa,-,-,-,-
+math,-,-,-,-
+gsm8k,-,-,-,-
+TheoremQA,-,-,-,-
+openai_humaneval,-,-,-,-
+mbpp,-,-,-,-
+cmmlu,-,-,-,-
+bbh,-,-,-,-
+--------- 理解 Understanding ---------,-,-,-,-
+C3,-,-,-,-
+CMRC_dev,-,-,-,-
+DRCD_dev,-,-,-,-
+MultiRC,-,-,-,-
+race-middle,-,-,-,-
+race-high,-,-,-,-
+openbookqa_fact,-,-,-,-
+csl_dev,-,-,-,-
+lcsts,-,-,-,-
+Xsum,-,-,-,-
+eprstmt-dev,-,-,-,-
+lambada,217e11,accuracy,gen,3.67
+tnews-dev,-,-,-,-
+--------- 安全 Safety ---------,-,-,-,-
+crows_pairs,-,-,-,-
+--------- LEval Exact Match (Acc) ---------,-,-,-,-
+LEval_coursera,-,-,-,-
+LEval_gsm100,-,-,-,-
+LEval_quality,-,-,-,-
+LEval_tpo,-,-,-,-
+LEval_topic_retrieval,-,-,-,-
+--------- LEval Gen (ROUGE) ---------,-,-,-,-
+LEval_financialqa,-,-,-,-
+LEval_gov_report_summ,-,-,-,-
+LEval_legal_contract_qa,-,-,-,-
+LEval_meeting_summ,-,-,-,-
+LEval_multidocqa,-,-,-,-
+LEval_narrativeqa,-,-,-,-
+LEval_nq,-,-,-,-
+LEval_news_summ,-,-,-,-
+LEval_paper_assistant,-,-,-,-
+LEval_patent_summ,-,-,-,-
+LEval_review_summ,-,-,-,-
+LEval_scientificqa,-,-,-,-
+LEval_tvshow_summ--------- 长文本 LongBench ---------,-,-,-,-
+longbench_lsht,-,-,-,-
+longbench_vcsum,-,-,-,-
+longbench_dureader,-,-,-,-
+longbench_multifieldqa_zh,-,-,-,-
+longbench_passage_retrieval_zh,-,-,-,-
+--------- 单选 自定义数据 ---------,-,-,-,-
+SageBench-exam,-,-,-,-
--- a/summary/summary_20251126_101839.txt
+++ b/summary/summary_20251126_101839.txt
@ -0,0 +1,197 @@
+20251126_101839
+tabulate format
+^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+dataset                                                version    metric    mode    public/qwen3-0-6b@v1.0.3
+-----------------------------------------------------  ---------  --------  ------  --------------------------
+--------- 考试 Exam ---------                          -          -         -       -
+ceval                                                  -          -         -       -
+agieval                                                -          -         -       -
+mmlu                                                   -          -         -       -
+GaokaoBench                                            -          -         -       -
+ARC-c                                                  -          -         -       -
+--------- 语言 Language ---------                      -          -         -       -
+WiC                                                    -          -         -       -
+summedits                                              -          -         -       -
+chid-dev                                               -          -         -       -
+afqmc-dev                                              -          -         -       -
+bustm-dev                                              -          -         -       -
+cluewsc-dev                                            -          -         -       -
+WSC                                                    -          -         -       -
+winogrande                                             -          -         -       -
+flores_100                                             -          -         -       -
+--------- 知识 Knowledge ---------                     -          -         -       -
+BoolQ                                                  -          -         -       -
+commonsense_qa                                         -          -         -       -
+nq                                                     -          -         -       -
+triviaqa                                               2121ce     score     gen     4.81
+--------- 推理 Reasoning ---------                     -          -         -       -
+cmnli                                                  -          -         -       -
+ocnli                                                  -          -         -       -
+ocnli_fc-dev                                           -          -         -       -
+AX_b                                                   -          -         -       -
+AX_g                                                   -          -         -       -
+CB                                                     -          -         -       -
+RTE                                                    -          -         -       -
+story_cloze                                            -          -         -       -
+COPA                                                   -          -         -       -
+ReCoRD                                                 -          -         -       -
+hellaswag                                              -          -         -       -
+piqa                                                   -          -         -       -
+siqa                                                   -          -         -       -
+strategyqa                                             -          -         -       -
+math                                                   -          -         -       -
+gsm8k                                                  -          -         -       -
+TheoremQA                                              -          -         -       -
+openai_humaneval                                       -          -         -       -
+mbpp                                                   -          -         -       -
+cmmlu                                                  -          -         -       -
+bbh                                                    -          -         -       -
+--------- 理解 Understanding ---------                 -          -         -       -
+C3                                                     -          -         -       -
+CMRC_dev                                               -          -         -       -
+DRCD_dev                                               -          -         -       -
+MultiRC                                                -          -         -       -
+race-middle                                            -          -         -       -
+race-high                                              -          -         -       -
+openbookqa_fact                                        -          -         -       -
+csl_dev                                                -          -         -       -
+lcsts                                                  -          -         -       -
+Xsum                                                   -          -         -       -
+eprstmt-dev                                            -          -         -       -
+lambada                                                217e11     accuracy  gen     3.67
+tnews-dev                                              -          -         -       -
+--------- 安全 Safety ---------                        -          -         -       -
+crows_pairs                                            -          -         -       -
+--------- LEval Exact Match (Acc) ---------            -          -         -       -
+LEval_coursera                                         -          -         -       -
+LEval_gsm100                                           -          -         -       -
+LEval_quality                                          -          -         -       -
+LEval_tpo                                              -          -         -       -
+LEval_topic_retrieval                                  -          -         -       -
+--------- LEval Gen (ROUGE) ---------                  -          -         -       -
+LEval_financialqa                                      -          -         -       -
+LEval_gov_report_summ                                  -          -         -       -
+LEval_legal_contract_qa                                -          -         -       -
+LEval_meeting_summ                                     -          -         -       -
+LEval_multidocqa                                       -          -         -       -
+LEval_narrativeqa                                      -          -         -       -
+LEval_nq                                               -          -         -       -
+LEval_news_summ                                        -          -         -       -
+LEval_paper_assistant                                  -          -         -       -
+LEval_patent_summ                                      -          -         -       -
+LEval_review_summ                                      -          -         -       -
+LEval_scientificqa                                     -          -         -       -
+LEval_tvshow_summ--------- 长文本 LongBench ---------  -          -         -       -
+longbench_lsht                                         -          -         -       -
+longbench_vcsum                                        -          -         -       -
+longbench_dureader                                     -          -         -       -
+longbench_multifieldqa_zh                              -          -         -       -
+longbench_passage_retrieval_zh                         -          -         -       -
+--------- 单选 自定义数据 ---------                    -          -         -       -
+SageBench-exam                                         -          -         -       -
+$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$
+
+-------------------------------------------------------------------------------------------------------------------------------- THIS IS A DIVIDER --------------------------------------------------------------------------------------------------------------------------------
+
+csv format
+^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+dataset,version,metric,mode,public/qwen3-0-6b@v1.0.3
+--------- 考试 Exam ---------,-,-,-,-
+ceval,-,-,-,-
+agieval,-,-,-,-
+mmlu,-,-,-,-
+GaokaoBench,-,-,-,-
+ARC-c,-,-,-,-
+--------- 语言 Language ---------,-,-,-,-
+WiC,-,-,-,-
+summedits,-,-,-,-
+chid-dev,-,-,-,-
+afqmc-dev,-,-,-,-
+bustm-dev,-,-,-,-
+cluewsc-dev,-,-,-,-
+WSC,-,-,-,-
+winogrande,-,-,-,-
+flores_100,-,-,-,-
+--------- 知识 Knowledge ---------,-,-,-,-
+BoolQ,-,-,-,-
+commonsense_qa,-,-,-,-
+nq,-,-,-,-
+triviaqa,2121ce,score,gen,4.81
+--------- 推理 Reasoning ---------,-,-,-,-
+cmnli,-,-,-,-
+ocnli,-,-,-,-
+ocnli_fc-dev,-,-,-,-
+AX_b,-,-,-,-
+AX_g,-,-,-,-
+CB,-,-,-,-
+RTE,-,-,-,-
+story_cloze,-,-,-,-
+COPA,-,-,-,-
+ReCoRD,-,-,-,-
+hellaswag,-,-,-,-
+piqa,-,-,-,-
+siqa,-,-,-,-
+strategyqa,-,-,-,-
+math,-,-,-,-
+gsm8k,-,-,-,-
+TheoremQA,-,-,-,-
+openai_humaneval,-,-,-,-
+mbpp,-,-,-,-
+cmmlu,-,-,-,-
+bbh,-,-,-,-
+--------- 理解 Understanding ---------,-,-,-,-
+C3,-,-,-,-
+CMRC_dev,-,-,-,-
+DRCD_dev,-,-,-,-
+MultiRC,-,-,-,-
+race-middle,-,-,-,-
+race-high,-,-,-,-
+openbookqa_fact,-,-,-,-
+csl_dev,-,-,-,-
+lcsts,-,-,-,-
+Xsum,-,-,-,-
+eprstmt-dev,-,-,-,-
+lambada,217e11,accuracy,gen,3.67
+tnews-dev,-,-,-,-
+--------- 安全 Safety ---------,-,-,-,-
+crows_pairs,-,-,-,-
+--------- LEval Exact Match (Acc) ---------,-,-,-,-
+LEval_coursera,-,-,-,-
+LEval_gsm100,-,-,-,-
+LEval_quality,-,-,-,-
+LEval_tpo,-,-,-,-
+LEval_topic_retrieval,-,-,-,-
+--------- LEval Gen (ROUGE) ---------,-,-,-,-
+LEval_financialqa,-,-,-,-
+LEval_gov_report_summ,-,-,-,-
+LEval_legal_contract_qa,-,-,-,-
+LEval_meeting_summ,-,-,-,-
+LEval_multidocqa,-,-,-,-
+LEval_narrativeqa,-,-,-,-
+LEval_nq,-,-,-,-
+LEval_news_summ,-,-,-,-
+LEval_paper_assistant,-,-,-,-
+LEval_patent_summ,-,-,-,-
+LEval_review_summ,-,-,-,-
+LEval_scientificqa,-,-,-,-
+LEval_tvshow_summ--------- 长文本 LongBench ---------,-,-,-,-
+longbench_lsht,-,-,-,-
+longbench_vcsum,-,-,-,-
+longbench_dureader,-,-,-,-
+longbench_multifieldqa_zh,-,-,-,-
+longbench_passage_retrieval_zh,-,-,-,-
+--------- 单选 自定义数据 ---------,-,-,-,-
+SageBench-exam,-,-,-,-
+$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$
+
+-------------------------------------------------------------------------------------------------------------------------------- THIS IS A DIVIDER --------------------------------------------------------------------------------------------------------------------------------
+
+raw format
+^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+-------------------------------
+Model: public/qwen3-0-6b@v1.0.3
+GaokaoBench_2010-2013_English_MCQs: {'score': 35.23809523809524}
+lambada: {'accuracy': 3.6677663496992046}
+triviaqa: {'score': 4.809324431368111}
+GaokaoBench: {'error': "missing datasets: {'GaokaoBench_2010-2022_Math_I_MCQs', 'GaokaoBench_2010-2022_Geography_MCQs', 'GaokaoBench_2010-2022_Political_Science_MCQs', 'GaokaoBench_2010-2022_Biology_MCQs', 'GaokaoBench_2010-2022_English_Fill_in_Blanks', 'GaokaoBench_2012-2022_English_Cloze_Test', 'GaokaoBench_2010-2022_Chinese_Modern_Lit', 'GaokaoBench_2010-2022_Chemistry_MCQs', 'GaokaoBench_2010-2022_English_Reading_Comp', 'GaokaoBench_2010-2022_Math_II_MCQs', 'GaokaoBench_2010-2022_Physics_MCQs', 'GaokaoBench_2010-2022_Chinese_Lang_and_Usage_MCQs', 'GaokaoBench_2010-2022_History_MCQs'}"}
+$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$