Ahogrammer

Deep Dive Into NLP, ML and Cloud

質問応答におけるパッセージ検索 BERT vs BM25

最近、文章を書く機会が少なくなっているので、リハビリがてら以下の論文を紹介しよう。

この論文は、BERTによるパッセージ検索がBM25と比べて、どのような状況で強いのか分析している。パッセージ検索とは、検索クエリに関連するパッセージを検索するタスクである。情報検索システムで重要な技術だが、この論文の文脈では質問応答システムを想定している。つまり、質問文をクエリとした時に、対応する回答が含まれるパッセージが検索結果の上位に来ると嬉しい。このようなパッセージさえ得られれば、あとは機械読解の技術を使って回答を抽出すればよい。

f:id:Hironsan:20200627194858p:plain
情報検索ベースの質問応答システムのアーキテクチャ(Speech and Language Processing 25章より引用)

具体的には、以下の4つの仮説を検証している。

  • 仮説1: BM25はBERTと比べて高頻度のクエリ語にバイアスがかかった結果になる
  • 仮説2: 高頻度語がBM25の性能に悪影響を及ぼしている
  • 仮説3: BERTはより新語に強い
  • 仮説4: BERTはBM25と比べて長いクエリに強い

仮説1では、BM25の検索結果は、クエリに出現する語が繰り返し現れる文書なのではないかという仮説を検証している。その検証のために、FQTと呼ばれる指標を計算している。定義については論文を参照してもらいたいが、要するに検索した文書中にクエリ語が現れた割合を計算している。たとえば、10単語の文書でクエリ語が4回現れたらFQT=4/10=0.4になる。結果として、BM25の方がFQTが高かったので、よりクエリ語の頻度に影響を受けた文書が得られることがわかった。

仮説2では、高頻度語がBM25の性能に悪影響を及ぼしているか検証するために、FQTの値をいくつかの区間に分けたときの検索性能について調査している。その結果、FQTの値が大きいほど性能が低下していることがわかった。つまり、平均的には、クエリ語が含まれる割合が高い文書には回答が含まれる可能性が低いということになる。この傾向は、BERTとBM25の両方の場合で見られたが、BM25の方がより顕著であった。

f:id:Hironsan:20200627200234p:plain
FQTと検索性能の関係

仮説3では、BERTは新語が含まれる文書の検索に強いのかを検証している。その検証のために、FNTと呼ばれる指標を計算している。これは要するに、文書中の語のうちクエリに現れない割合を計算している。たとえば、10単語の文書で、そのうちクエリに現れない語が8単語であればFNT=8/10=0.8となる。要するに、クエリに含まれない単語を多く含む文書を検索できるのかを測っている。結果として、BERTの方がBM25よりFNTが高いという結果になった。

仮説4では、BERTはBM25と比べて長いクエリに強いか調査している。そのために、クエリ長ごとの性能を検証している。どのクエリ長でもBERTの方が性能が良かったが、クエリ長が長くなるほど、双方のモデルで性能が低下するという結果になった。しかも、BERTの方がより大きく性能が低下していたので、この仮説は正しくなかった。

f:id:Hironsan:20200627202204p:plain
クエリ長と検索性能の関係