ranxを使って検索システムのオフライン評価をする

Python 情報検索自然言語処理

ranxはPythonで実装されたランキング評価用のライブラリです。検索システムの評価に使える以下のような指標が用意されていたり、それらの結果をRRFのようなアルゴリズムで組み合わせたり、論文用にテーブルをエクスポートする機能を備えています。本記事では…

2019-04-24

Kerasで固有表現認識のf1スコアを計算する

自然言語処理固有表現認識 Python Keras

一般に固有表現認識では、学習済みモデルの性能を評価するためにf1が使用されます。その際、評価はトークンごとではなくエンティティごとに行われるのが特徴となっています。 f1スコアを評価する関数は、多くの機械学習フレームワークに実装されています。し…

2019-02-08

日本語 Sentiment Analyzer を作ってパッケージ化した話

Python 機械学習自然言語処理

Sentiment Analysisと言えば自然言語処理ではよく知られたタスクで、典型的にはテキストをポジティブ/ネガティブの2クラスに分類するものだ。その使い道としては、Twitter等のSNSから自社製品についての投稿を収集して評価や緊急度によって分類し、問題に対…

2018-09-14

教師なしで作る評価分析器

Python 機械学習自然言語処理

評価分析は自然言語処理の基礎技術でありながら実世界に広く応用されている技術です。たとえば、顧客の声を拾うために商品レビューを評価分析して肯定的なのか否定的なのか判断するのに使われています。また、情報抽出の技術と組み合わせて、文書のどの部分…

2018-08-31

文字ベース言語モデルの作り方

Deep Learning Keras Python 機械学習自然言語処理言語モデル

最近の言語処理では言語モデルを使って転移学習をしたり、性能向上に役立てたりするようになってきました。言語モデルの１つであるELMoでは、言語モデルから得られる分散表現を他のタスクの入力に使うことで、質問応答や固有表現認識、評価分析といった様々…

2018-06-21

KerasにおけるSpatialDropoutとは何者なのか？

Keras 機械学習自然言語処理 Python

SpatialDropoutは、画像認識の分野でTompsonらによって提案されたドロップアウト方法です。通常のドロップアウトが各要素を独立して落とすのに対して、SpatialDropoutはある領域全体をまるごと落とします。それにより、画像認識の分野で性能向上が報告されて…

2018-06-13

単語の順序を考慮しつつ文書を固定長で表現する

Deep Learning Python 機械学習自然言語処理

本日はACL 2017のベストペーパーの1つである以下の論文で用いられている文書表現の方法を紹介します。 A Local Detection Approach for Named Entity Recognition and Mention Detection この論文は、固有表現認識をFeedForward Neural Networkを使って文書…

2018-05-28

ディープラーニングで作る固有表現認識器

Deep Learning Keras Python 機械学習自然言語処理

固有表現認識は自然言語処理の基礎技術であり、様々なタスクの要素技術として使われます。たとえば、情報抽出や対話システム、質問応答といった応用システムの中で固有表現認識は使われることがあります。また、関係認識やEntity Linkingといった基礎技術で…

2017-11-08

Pythonで日本語の文字分散表現を学習する

Python 機械学習自然言語処理

最近の自然言語処理では、文字レベルの言語処理が行われることがあります。これら文字レベルの言語処理は、ユーザ生成コンテンツに有効であると言われています。その理由として、ユーザ生成コンテンツのような崩れたテキストでは、形態素解析の性能が大幅…

2017-11-01

Pythonで単語分散表現のクラスタリング

Python Wikipedia 機械学習自然言語処理

最近の自然言語処理では、単語の分散表現は当たり前のように使われています。単語分散表現では、各単語が高次元ベクトル空間に配置され、加減乗除等の演算を行えるようになります。これらのベクトルは、意味の近い単語に対しては同じようなベクトルになる…

2017-10-19

Wikipedia内ページランクを計算して、重要なページを抽出する

自然言語処理 Wikipedia Python

自然言語処理をする際、データソースとして Wikipedia を使用することがあります。 Wikipedia を使う際、ページによっては内容が薄いので、ページを選択することがあります。そのための方法として、Wikipedia 内のページランクを計算して、重要ページを抽出…

2017-09-28

Python で DBpedia から情報抽出する

Python 機械学習自然言語処理 DBpedia

自然言語処理では、ナレッジベース（knowledge base）を使う場合があります。その際、手軽に使えるナレッジベースとして DBpedia があります。 DBpedia は Web 上でクエリ（SPARQL）を実行できるのですが、利便性を考えるとプログラムからクエリを実行した…

2017-09-25

gensimを使ってKerasのEmbedding層を取得する

Keras Python 機械学習自然言語処理

2017/06/21にリリースされた gensim 2.2.0 から Keras との統合機能が導入されました。具体的には、Word2vec の Keras 用ラッパが導入されました。これにより、gensim で分散表現を学習した後に、その重みを初期値として設定した Keras の Embedding層を取…

2017-09-21

Keras の RNN/LSTM/GRU で内部状態を取得する

Deep Learning Keras 機械学習自然言語処理 Python

自然言語処理で RNN を使っていると、RNN の内部状態を取得したくなることがあります。 TensorFlow では tf.nn.dynamic_rnn 等の関数を使うと、出力と状態を返してくれます。しかし、Keras でのやり方については意外と日本語の情報がありませんでした。本…

2017-09-20

Keras の Conv1D と Convolution1D、MaxPool1D と MaxPooling1D の違い

Deep Learning Keras Python 機械学習

Kerasで書かれたコードを読んでいるとふと気がつくことがある。それは、Conv1D と Convolution1D、MaxPool1D と MaxPooling1D という同じような名前のクラスが出てくるのだ。一体これらの違いは何なのだろうか？

2017-09-19

文字レベルの畳込みニューラルネットワークによる文書分類

Deep Learning Keras Python 機械学習自然言語処理

はじめに自然言語処理で文書分類は最も基本的なタスクの一つです。文書分類は、SNSに対する評判分析、ニュースのジャンル分類、メールのスパムフィルタや文書の著者推定といった問題の解決に使われています。このように基本的なタスクである文書分類は広…

2017-09-15

デバッガを使ってKerasのモデルをデバッグする

Deep Learning Keras 機械学習 Python

3行まとめ Keras で作成したモデルをデバッグしたい。 Keras には標準でデバッガが用意されていない。 Keras の Session オブジェクトを tfdbg でラップしてデバッグする。オープンソースのニューラルネットワークライブラリである Keras は計算グラフに基…

2017-09-14

Kerasでカスタムレイヤーを作成する方法

Deep Learning Keras Python 機械学習

Kerasでは様々なレイヤーが事前定義されており、それらをレゴブロックのように組み合わせてモデルを作成していきます。たとえば、EmbeddingやConvolution, LSTMといったレイヤーが事前定義されています。通常は、これらの事前定義された便利なレイヤーを使…

2017-09-11

KerasのLambda層でreshapeしたとき、保存に失敗する(場合がある)話

Deep Learning Keras Python 機械学習

TL;DR keras.backendのreshapeを使ってLambda層でreshapeしたい reshapeのshapeにテンソルを指定するとモデルの保存(save)に失敗する saveではなくsave_weightsを使うと保存できる背景まず問題が起きる状況について説明しておきたい。簡単にまとめると以…

2017-09-09