Ahogrammer

Deep Dive Into NLP, ML and Cloud

2023-12-01から1ヶ月間の記事一覧

多言語E5をファインチューニングして検索性能を向上させる

多言語のテキスト埋め込み用のモデルであるMultilingual-E5[1]をファインチューニングして、検索性能が向上するか否かを日本語のデータセット検証してみました。結果としては、ファインチューニングすることで、OpenAIのtext-embedding-ada-002を上回る性能…

ハイブリッド検索で必ずしも検索性能が上がるわけではない

最近では、RAG(Retrieval Augmented Generation)を使って、検索して得られた文書を生成時に活用することがありますが、その性能を改善するための手法の1つとしてハイブリッド検索が知られています。ハイブリッド検索は、2つ以上の異なる検索技術を組み合わ…

ウォータールー大学による基盤モデルに関する読書リスト

今週号のData Science Weeklyにて、ウォータールー大学が開講している基盤モデルに関する講座が載っていたので紹介します。同講座では、トピックごとに整理された論文のリストが公開されているので、関心のあるトピックについて読み進めるのに適しています。…