eval-qwen2-5-vl-7b-instruct.../summary/summary_20250725_172527.csv
2025-07-25 09:25:48 +00:00

2.0 KiB

1datasetversionmetricmodepublic/qwen2-5-vl-7b-instruct-awq@main
2--------- 考试 Exam -------------
3ceval----
4agieval----
5mmlu----
6GaokaoBench----
7ARC-c----
8--------- 语言 Language -------------
9WiC----
10summedits----
11chid-dev----
12afqmc-dev----
13bustm-dev----
14cluewsc-dev----
15WSC----
16winogrande----
17flores_100----
18--------- 知识 Knowledge -------------
19BoolQ----
20commonsense_qa----
21nq----
22triviaqa----
23--------- 推理 Reasoning -------------
24cmnli----
25ocnli----
26ocnli_fc-dev----
27AX_b----
28AX_g----
29CB----
30RTE----
31story_cloze----
32COPA----
33ReCoRD----
34hellaswag----
35piqa----
36siqa----
37strategyqa----
38math----
39gsm8k----
40TheoremQA----
41openai_humaneval----
42mbpp----
43cmmlu----
44bbh----
45--------- 理解 Understanding -------------
46C3----
47CMRC_dev----
48DRCD_dev----
49MultiRC----
50race-middle----
51race-high----
52openbookqa_fact----
53csl_dev----
54lcsts----
55Xsum----
56eprstmt-dev----
57lambada----
58tnews-dev----
59--------- 安全 Safety -------------
60crows_pairs----
61--------- LEval Exact Match (Acc) -------------
62LEval_coursera----
63LEval_gsm100----
64LEval_quality----
65LEval_tpo----
66LEval_topic_retrieval----
67--------- LEval Gen (ROUGE) -------------
68LEval_financialqa----
69LEval_gov_report_summ----
70LEval_legal_contract_qa----
71LEval_meeting_summ----
72LEval_multidocqa----
73LEval_narrativeqa----
74LEval_nq----
75LEval_news_summ----
76LEval_paper_assistant----
77LEval_patent_summ----
78LEval_review_summ----
79LEval_scientificqa----
80LEval_tvshow_summ--------- 长文本 LongBench -------------
81longbench_lsht----
82longbench_vcsum----
83longbench_dureader----
84longbench_multifieldqa_zh----
85longbench_passage_retrieval_zh----
86--------- 单选 自定义数据 -------------
87SageBench-exam----