ブロックごとの量子化を実装する

機械学習 PyTorch

QLoRAについて少し書く機会があったので、その要素技術であるブロックごとの量子化（block-wise quantization）の解説とその実装をしてみました。実際のところ、bitsandbytesなどのライブラリに実装されているので、自前で実装する必要はまったくないのです…

#Pytorch #機械学習

2024-03-21

ナレッジグラフを用いたRAGの改善

自然言語処理情報検索

RAG（Retrieval Augmented Generation）は大規模言語モデル（LLM）の性能を改善するための手法の1つであり、質問に対する回答を生成する際に、外部知識源から情報を取り込みます。これにより、LLM 自体で学習できる情報量に制限されることなく、より正確で…

2024-01-17

Azure AI Searchを使った同義語によるクエリ拡張とその効果

情報検索自然言語処理

PythonからAzure AI Searchのシノニムマップを作成し、クエリ拡張をして、その効果を日本語の質問応答データセットで確認してみました。昔からある機能で、とくに何か新しいことをしているわけでもないのですが、使いそうな機会があったので試してみました。…

#情報検索 #Azure

2024-01-16

Chain-of-Tableを使った表データに対する推論

自然言語処理プロンプト

RAGを作っていると、論文に出てくる表データを読み取って回答してもらう等、表データを扱いたくなってくる場面が出てきます。そんな欲求を頭の片隅に置いておいたところ、Chain-of-Tableと呼ばれるプロンプトの手法を見かけたので試してみました。本記事の…

#プロンプト #プロンプトエンジニアリング

2024-01-12

意味的知識グラフとApache Solrを使った関連語検索の実装

情報検索自然言語処理

Manningから出版予定の『AI-Powered Search』（AIを活用した情報検索の意）を冬休み中に読んでいたら、その中で意味的知識グラフ（Semantic Knowledge Graph）と呼ばれるデータ構造について説明していて、関連語の計算やクエリ拡張などに使えるということで…

#情報検索 #自然言語処理

2024-01-09

日本語版のColBERTを検索に使ってみる

情報検索自然言語処理

冬休み中に日本語版のColBERTであるJaColBERTが公開されていたので試してみました。ColBERTは、論文を読んでいるときに名前が出てくることがあるので試してみたかったのですが、これで試せるようになりました。

2023-12-09

多言語E5をファインチューニングして検索性能を向上させる

情報検索自然言語処理

多言語のテキスト埋め込み用のモデルであるMultilingual-E5[1]をファインチューニングして、検索性能が向上するか否かを日本語のデータセット検証してみました。結果としては、ファインチューニングすることで、OpenAIのtext-embedding-ada-002を上回る性能…

#自然言語処理 #情報検索

2023-12-05

ハイブリッド検索で必ずしも検索性能が上がるわけではない

情報検索自然言語処理 LangChain

最近では、RAG（Retrieval Augmented Generation）を使って、検索して得られた文書を生成時に活用することがありますが、その性能を改善するための手法の1つとしてハイブリッド検索が知られています。ハイブリッド検索は、2つ以上の異なる検索技術を組み合わ…

#情報検索 #自然言語処理

2023-12-01

ウォータールー大学による基盤モデルに関する読書リスト

教材

今週号のData Science Weeklyにて、ウォータールー大学が開講している基盤モデルに関する講座が載っていたので紹介します。同講座では、トピックごとに整理された論文のリストが公開されているので、関心のあるトピックについて読み進めるのに適しています。…

2023-11-30

検索性能を改善するハイブリッド検索で使えるランク融合アルゴリズム

情報検索自然言語処理

Risk-Reward Trade-offs in Rank Fusionを読んでいて、検索システムの結果を統合するために使える教師なしのランク融合アルゴリズムについて書きたくなったのでまとめました。最近では、RAGの性能を改善するためにハイブリッド検索が使われることがあります…

#情報検索 #自然言語処理

2023-11-27

LLMを用いたクエリ書き換えによる検索性能の変化を検証する

LangChain 情報検索自然言語処理

Rewrite-Retrieve-Readの論文[1]の構成で検索性能が改善するか試してみました。内容としては、RAGの内部で検索するときに、ユーザーのクエリを書き換えると性能が上がるという話です。ユーザーのクエリが検索に適しているとは限らないため、LLMで書き換えて…

#LangChain #自然言語処理 #情報検索

2023-11-25

LLMを用いたマルチクエリ生成による検索性能の改善

LangChain 情報検索自然言語処理

近年、大規模言語モデル（LLM）の進化は、自然言語処理の分野において画期的な変化をもたらしています。とくに、OpenAIのGPT-4のようなLLMは、その応用範囲の広さと精度の高さで注目を集めており、多くの研究者や開発者が新たな利用方法を模索しています。本…

#LangChain #自然言語処理 #情報検索 #機械学習

2023-11-22

LangChainを使ってHyDEによるクエリ変換の効果を検証する

LangChain 情報検索自然言語処理

ChatGPTやGPT-4をはじめとする大規模言語モデルの能力が向上し、多くの注目を集めています。とくにRAG（Retrieval Augmented Generation）と呼ばれる手法を使って、手元のデータを生成時に活用する手法がよく使われていますが、その性能を改善する方法は様々…

#LangChain #自然言語処理 #Chat GPT

2023-11-20

LangChain Templatesを使ってRAGを秒速で作る

LangChain 自然言語処理

本記事では、LangChain Templates[1]を利用し、RAGを簡単かつ迅速に構築する方法を紹介します。LangChainはLLMを使ったアプリケーションを実装するためのツールですが、LangChain Templatesを活用することで、煩雑なプロセスを大幅に簡略化できます。本記事…

#LangChain #NLP #自然言語処理 #gpt 4 #ChatGPT

2023-11-15

文書検索におけるリランキングの効果を検証する

情報検索自然言語処理機械学習

日本語でのキーワード検索とベクトル検索に対して、検索結果のリランキングを適用して性能を評価してみました。リランキングとは？文書検索では検索クエリにマッチングした文書を順位付けして返しますが、その結果を何らかのモデルを使って並び替えること…

#自然言語処理 #機械学習

2023-11-06

Cohereの多言語用の埋め込みモデルを日本語で評価してみる

情報検索自然言語処理

Cohereが提供を開始した多言語用のテキスト埋め込み用のモデルであるembed-multilingual-v3.0の性能を日本語の文類似度と検索のデータセットで評価してみました。 Cohere Embed v3とは CohereのEmbed v3はテキストを埋め込むためのモデルです[1]。これまでも…

2023-10-13

ranxを使って検索システムのオフライン評価をする

Python 情報検索自然言語処理

ranxはPythonで実装されたランキング評価用のライブラリです。検索システムの評価に使える以下のような指標が用意されていたり、それらの結果をRRFのようなアルゴリズムで組み合わせたり、論文用にテーブルをエクスポートする機能を備えています。本記事では…

2023-07-05

OpenAIの埋め込みよりも高性能？多言語E5を日本語で評価してみる

情報検索自然言語処理

多言語のテキスト埋め込み用のモデルであるMultilingual-E5-largeの性能を日本語のデータセットで評価してみました。 E5とは E5とはEmbEddings from bidirEctional Encoder rEpresentationsの略で、テキストの埋め込み用のモデルです[1]。Web上から収集した…

2023-05-11

生成したテキストをGPT-4で評価している論文

自然言語処理言語モデル

最近は、ChatGPTやGPT-4に関する記事が多数公開されています。とくに、自社の持つ文書に対して問い合わせをし、そこから回答を抽出したり、要約を生成するようなユースケースを見かけることが多い気がしています。こういったユースケースの場合、伝統的な評…

2022-10-21

scikit-learnの学習済みモデルをONNX形式に変換して配布する

文書分類機械学習自然言語処理 scikit-learn

だいぶ昔の話ですが、日本語テキストをネガ/ポジ分類するソフトウェアとして、scikit-learnを用いて『asari』を作り、Pythonパッケージとして公開したことがあります。作った自分でも存在をほぼ忘れていたのですが、ときどき使うことを試みる方がいて、Issue…

2022-10-17

部分的にアノテーションされたデータからの固有表現認識器の学習

spaCy 固有表現認識情報抽出機械学習自然言語処理

本記事では、部分的にアノテーションされたデータを用いて、固有表現認識モデルの学習を試みます。

2022-10-11

M1チップ上でのspaCyの高速化

spaCy 雑記自然言語処理

導入されたのはだいぶ前ですが、spaCy v3.2からM1チップ上での学習と予測が最大で8倍高速化できるということで試してみました。以前は行列積の演算にBLISを使っていたところを、Appleのネイティブのライブラリに切り替えることで実現しています。その中核と…

2022-08-01

『機械学習エンジニアのためのTransformers』が出ます

雑記自然言語処理

このたび、オライリー・ジャパンより、『Natural Language Processing with Transformers』の翻訳書である『機械学習エンジニアのためのTransformers』を出ることになりました。素直にタイトルを訳すと、『Transformersによる自然言語処理』のようになると思…

2022-07-12