> **Click to expand BEIR dataset descriptions** > > - FiQA: QA on Financial data > - HotPotQA: Multi-hop (might require multiple, consecutive sources) > Trivia QA on Wikipedia > - MS Marco: Diverse web search with real BING queries > - TREC-COVID: Scientific search corpus for claims/questions on > COVID-19 > - ArguAna: Argument mining dataset where the queries are themselves > documents. > - ClimateFEVER: Fact verification on wikipedia for claims made about > climate change. > - CQADupstackRetrieval: Duplicate question search on StackExchange. > - DBPedia: Entity search on wikipedia (an entity is described, > i.e. “Who is the guy in the Top Gun?”, and the result must contain > Tom Cruise) > - FEVER: Fact verification on wikipedia for claims made about general > topics. > - NFCorpus: Nutritional info search over PubMed (medical publication > database) > - QuoraRetrieval: Duplicate question search on Quora. > - SciDocs: Finding a PubMed article’s abstract when given its title as > the query. > - SciFact: Find a PubMed article supporting/refuting the claim in the > query. > - Touche2020-v2: Argument mining dataset, [with clear flaws > highlighted in a recent study](https://arxiv.org/abs/2407.07790). > Only reported for thoroughness, but you shouldn’t pay much attention > to it.

Dataset / Model	answer-colbert-s	snowflake-s	bge-small-en	bge-base-en
Size	33M (1x)	33M (1x)	33M (1x)	109M (3.3x)
BEIR AVG	53.79	51.99	51.68	53.25
FiQA2018	41.15	40.65	40.34	40.65
HotpotQA	76.11	66.54	69.94	72.6
MSMARCO	43.5	40.23	40.83	41.35
NQ	59.1	50.9	50.18	54.15
TRECCOVID	84.59	80.12	75.9	78.07
ArguAna	50.09	57.59	59.55	63.61
ClimateFEVER	33.07	35.2	31.84	31.17
CQADupstackRetrieval	38.75	39.65	39.05	42.35
DBPedia	45.58	41.02	40.03	40.77
FEVER	90.96	87.13	86.64	86.29
NFCorpus	37.3	34.92	34.3	37.39
QuoraRetrieval	87.72	88.41	88.78	88.9
SCIDOCS	18.42	21.82	20.52	21.73
SciFact	74.77	72.22	71.28	74.04
Touche2020	25.69	23.48	26.04	25.7

Dataset / Model

answer-colbert-s

snowflake-s

bge-small-en

bge-base-en

Size

33M (1x)

109M (3.3x)

BEIR AVG

53.79

51.99

51.68

53.25

FiQA2018

41.15

40.65

40.34

40.65

HotpotQA

76.11

66.54

69.94

72.6

MSMARCO

43.5

40.23

40.83

41.35

59.1

50.9

50.18

54.15

TRECCOVID

84.59

80.12

75.9

78.07

ArguAna

50.09

57.59

59.55

63.61

ClimateFEVER

33.07

35.2

31.84

31.17

CQADupstackRetrieval

38.75

39.65

39.05

42.35

DBPedia

45.58

41.02

40.03

40.77

FEVER

90.96

87.13

86.64

86.29

NFCorpus

37.3

34.92

34.3

37.39

QuoraRetrieval

87.72

88.41

88.78

88.9

SCIDOCS

18.42

21.82

20.52

21.73

SciFact

74.77

72.22

71.28

74.04

Touche2020

25.69

23.48

26.04

25.7

Dataset / Model	answerai-colbert-small-v1	ColBERTv2.0
BEIR AVG	53.79	50.02
DBPedia	45.58	44.6
FiQA2018	41.15	35.6
NQ	59.1	56.2
HotpotQA	76.11	66.7
NFCorpus	37.3	33.8
TRECCOVID	84.59	73.3
Touche2020	25.69	26.3
ArguAna	50.09	46.3
ClimateFEVER	33.07	17.6
FEVER	90.96	78.5
QuoraRetrieval	87.72	85.2
SCIDOCS	18.42	15.4
SciFact	74.77	69.3

Dataset / Model

answerai-colbert-small-v1

ColBERTv2.0

BEIR AVG

53.79

50.02

DBPedia

45.58

44.6

FiQA2018

41.15

35.6

59.1

56.2

HotpotQA

76.11

66.7

NFCorpus

37.3

33.8

TRECCOVID

84.59

73.3

Touche2020

25.69

26.3

ArguAna

50.09

46.3

ClimateFEVER

33.07

17.6

FEVER

90.96

78.5

QuoraRetrieval

87.72

85.2

SCIDOCS

18.42

15.4

SciFact

74.77

69.3