mlabonne/gemma-2b-Nous.md Secret

## gemma-2b-Nous.md

      
    Raw
  

              gemma-2b-Nous.md
            
          
Model
AGIEval
GPT4All
TruthfulQA
Bigbench
Average


gemma-2b
22.7
43.35
39.96
31.03
34.26


AGIEval


Task
Version
Metric
Value

Stderr


agieval_aqua_rat
0
acc
25.59
±
2.74


acc_norm
24.41
±
2.70


agieval_logiqa_en
0
acc
20.43
±
1.58


acc_norm
29.19
±
1.78


agieval_lsat_ar
0
acc
21.74
±
2.73


acc_norm
19.13
±
2.60


agieval_lsat_lr
0
acc
17.84
±
1.70


acc_norm
20.98
±
1.80


agieval_lsat_rc
0
acc
18.59
±
2.38


acc_norm
17.84
±
2.34


agieval_sat_en
0
acc
24.27
±
2.99


acc_norm
21.84
±
2.89


agieval_sat_en_without_passage
0
acc
29.13
±
3.17


acc_norm
29.13
±
3.17


agieval_sat_math
0
acc
21.82
±
2.79


acc_norm
19.09
±
2.66


Average: 22.7%
GPT4All


Task
Version
Metric
Value

Stderr


arc_challenge
0
acc
18.09
±
1.12


acc_norm
23.04
±
1.23


arc_easy
0
acc
39.44
±
1.00


acc_norm
36.66
±
0.99


boolq
1
acc
62.69
±
0.85


hellaswag
0
acc
34.05
±
0.47


acc_norm
42.32
±
0.49


openbookqa
0
acc
14.20
±
1.56


acc_norm
28.00
±
2.01


piqa
0
acc
60.61
±
1.14


acc_norm
60.01
±
1.14


winogrande
0
acc
50.75
±
1.41


Average: 43.35%
TruthfulQA


Task
Version
Metric
Value

Stderr


truthfulqa_mc
1
mc1
24.97
±
1.52


mc2
39.96
±
1.52


Average: 39.96%
Bigbench


Task
Version
Metric
Value

Stderr


bigbench_causal_judgement
0
multiple_choice_grade
49.47
±
3.64


bigbench_date_understanding
0
multiple_choice_grade
29.27
±
2.37


bigbench_disambiguation_qa
0
multiple_choice_grade
28.29
±
2.81


bigbench_geometric_shapes
0
multiple_choice_grade
15.04
±
1.89


exact_str_match
0.00
±
0.00


bigbench_logical_deduction_five_objects
0
multiple_choice_grade
26.40
±
1.97


bigbench_logical_deduction_seven_objects
0
multiple_choice_grade
19.00
±
1.48


bigbench_logical_deduction_three_objects
0
multiple_choice_grade
43.00
±
2.86


bigbench_movie_recommendation
0
multiple_choice_grade
23.60
±
1.90


bigbench_navigate
0
multiple_choice_grade
50.00
±
1.58


bigbench_reasoning_about_colored_objects
0
multiple_choice_grade
27.05
±
0.99


bigbench_ruin_names
0
multiple_choice_grade
27.01
±
2.10


bigbench_salient_translation_error_detection
0
multiple_choice_grade
17.43
±
1.20


bigbench_snarks
0
multiple_choice_grade
51.38
±
3.73


bigbench_sports_understanding
0
multiple_choice_grade
50.61
±
1.59


bigbench_temporal_sequences
0
multiple_choice_grade
26.50
±
1.40


bigbench_tracking_shuffled_objects_five_objects
0
multiple_choice_grade
18.48
±
1.10


bigbench_tracking_shuffled_objects_seven_objects
0
multiple_choice_grade
13.09
±
0.81


bigbench_tracking_shuffled_objects_three_objects
0
multiple_choice_grade
43.00
±
2.86


Average: 31.03%
Average score: 34.26%
Elapsed time: 03:47:01
Task	Version	Metric	Value		Stderr
agieval_aqua_rat	0	acc	25.59	±	2.74
		acc_norm	24.41	±	2.70
agieval_logiqa_en	0	acc	20.43	±	1.58
		acc_norm	29.19	±	1.78
agieval_lsat_ar	0	acc	21.74	±	2.73
		acc_norm	19.13	±	2.60
agieval_lsat_lr	0	acc	17.84	±	1.70
		acc_norm	20.98	±	1.80
agieval_lsat_rc	0	acc	18.59	±	2.38
		acc_norm	17.84	±	2.34
agieval_sat_en	0	acc	24.27	±	2.99
		acc_norm	21.84	±	2.89
agieval_sat_en_without_passage	0	acc	29.13	±	3.17
		acc_norm	29.13	±	3.17
agieval_sat_math	0	acc	21.82	±	2.79
		acc_norm	19.09	±	2.66
Task	Version	Metric	Value		Stderr
arc_challenge	0	acc	18.09	±	1.12
		acc_norm	23.04	±	1.23
arc_easy	0	acc	39.44	±	1.00
		acc_norm	36.66	±	0.99
boolq	1	acc	62.69	±	0.85
hellaswag	0	acc	34.05	±	0.47
		acc_norm	42.32	±	0.49
openbookqa	0	acc	14.20	±	1.56
		acc_norm	28.00	±	2.01
piqa	0	acc	60.61	±	1.14
		acc_norm	60.01	±	1.14
winogrande	0	acc	50.75	±	1.41
Task	Version	Metric	Value		Stderr
bigbench_causal_judgement	0	multiple_choice_grade	49.47	±	3.64
bigbench_date_understanding	0	multiple_choice_grade	29.27	±	2.37
bigbench_disambiguation_qa	0	multiple_choice_grade	28.29	±	2.81
bigbench_geometric_shapes	0	multiple_choice_grade	15.04	±	1.89
		exact_str_match	0.00	±	0.00
bigbench_logical_deduction_five_objects	0	multiple_choice_grade	26.40	±	1.97
bigbench_logical_deduction_seven_objects	0	multiple_choice_grade	19.00	±	1.48
bigbench_logical_deduction_three_objects	0	multiple_choice_grade	43.00	±	2.86
bigbench_movie_recommendation	0	multiple_choice_grade	23.60	±	1.90
bigbench_navigate	0	multiple_choice_grade	50.00	±	1.58
bigbench_reasoning_about_colored_objects	0	multiple_choice_grade	27.05	±	0.99
bigbench_ruin_names	0	multiple_choice_grade	27.01	±	2.10
bigbench_salient_translation_error_detection	0	multiple_choice_grade	17.43	±	1.20
bigbench_snarks	0	multiple_choice_grade	51.38	±	3.73
bigbench_sports_understanding	0	multiple_choice_grade	50.61	±	1.59
bigbench_temporal_sequences	0	multiple_choice_grade	26.50	±	1.40
bigbench_tracking_shuffled_objects_five_objects	0	multiple_choice_grade	18.48	±	1.10
bigbench_tracking_shuffled_objects_seven_objects	0	multiple_choice_grade	13.09	±	0.81
bigbench_tracking_shuffled_objects_three_objects	0	multiple_choice_grade	43.00	±	2.86