Ahogrammer

Deep Dive Into NLP, ML and Cloud

意味的知識グラフとApache Solrを使った関連語検索の実装

Manningから出版予定の『AI-Powered Search』(AIを活用した情報検索の意)を冬休み中に読んでいたら、その中で意味的知識グラフ(Semantic Knowledge Graph)と呼ばれるデータ構造について説明していて、関連語の計算やクエリ拡張などに使えるということで興味深かったので紹介しようと思います。最初に意味的知識グラフについて説明したあと、日本語のデータセットに対して試してみます。

AI-Powered Search(https://www.manning.com/books/ai-powered-search

本記事の構成は以下のとおりです。

  • 意味的知識グラフとは
  • 意味的知識グラフを用いた関連語の計算
  • 参考資料
続きを読む

多言語E5をファインチューニングして検索性能を向上させる

多言語のテキスト埋め込み用のモデルであるMultilingual-E5[1]をファインチューニングして、検索性能が向上するか否かを日本語のデータセット検証してみました。結果としては、ファインチューニングすることで、OpenAIのtext-embedding-ada-002を上回る性能を確認できました。なお、E5については以下の記事で解説しているので、必要に応じて参照してください。

hironsan.hatenablog.com

本記事の構成は次のとおりです。

  • 実験設定
  • 実験結果
  • 参考資料
続きを読む