Ahogrammer

Deep Dive Into NLP, ML and Cloud

テキストの構造化を支える技術 -OpenIEの未解決問題-

第3回目の今回は節ベースのOpenIE手法を紹介する予定でしたが、予定を変更してOpenIEの未解決問題について紹介することにします。

2018年に発表された論文「A Survey on Open Information Extraction」では、OpenIEには以下の未解決問題があると主張しています。

  • OpenIEシステムの評価
  • 多言語への拡張
  • フレーズの正規化

各問題について見てみましょう。

OpenIEシステムの評価

OpenIEにおける課題の一つとして、異なるOpenIEシステムを大規模、客観的かつ再現性のあるやり方で評価・比較した研究がほとんど無い点を挙げられます。その理由として、何が妥当な関係タプルなのかという明確かつ正式な仕様についての合意が取れていない点があります。このような状況がアノテーションされたgold standardなデータセットを作るのを妨げています。したがって、客観的かつ再現可能な形で他のシステムと比較するのが難しいわけです。

また、評価における課題として、評価で使われるコーパスがニュースやWikipedia、Webドメインコーパスに限られている点があります。第一回目で書いたように、OpenIEの手法はドメイン独立であるのが望ましいので、様々なデータセットに対処できるべきです。しかし、評価で使われるコーパスが偏っているため、様々なジャンルのテキストに対して手法が有効なのかがわからないという現状があります。

多言語への拡張

OpenIEの2つめの問題点として、英語以外の言語は置き去りにされている点を挙げられます。第1回目と第2回目で紹介したTextRunnerとReVerbは英語を対象とした研究ですし、他の多くの研究でも英語を対象としています。そのため、提案された手法が英語以外でも使えるかと言うと疑問が残ります。それは、ReVerbで関係フレーズを抽出する際に使った以下のパターンが日本語では使えないことからもわかるでしょう。

f:id:Hironsan:20181015101518p:plain
Identifying Relations for Open Information Extractionより引用

言語化を目指した研究の一つとして、PredPattの研究があります。この研究ではUniversal Dependency(UD)パーサの解析結果に対してパターンを書くことで、多言語に対応したOpenIEシステムを作成しています。UDとは、ザックリ説明すると、言語ごとに違っていた依存関係のラベルを統一した規格のことです*1。ラベルを統一することで、UDのラベルに対してパターンを書けば、様々な言語を処理できることが期待されるのです。

以下はGoogleCloud Natural Language API構文解析をした結果です。オレンジ色のラベルがUDのラベルを示しています。このようなUDのラベルに対してルールを書くことで、多言語対応したOpenIEを作ろうというわけです。

f:id:Hironsan:20181024112045p:plain

フレーズの正規化

OpenIEの2つめの問題点として、抽出した関係フレーズやargsの正規化があります。ここで、正規化とは抽出した関係フレーズやargsを代表的な形式に帰着することを指します。たとえば、「originally founded by」のような関係フレーズが抽出された場合、副詞である「originally」を除去するのは正規化の一種です。

正規化が問題となるのは、OpenIEで抽出した関係タプルを下流のタスクで使用する場合です。伝統的な情報抽出システムでは、あらかじめ決められた関係クラスだけを抽出していたので、下流のタスクではクラスを想定して処理を書くことができました。OpenIEだと事前にクラスを定義しないため、クラスを想定して処理を書くことは困難です。

おわりに

第3回目の今回は、OpenIEの未解決問題について紹介しました。次回は、節ベースで関係タプルを抽出する手法について紹介する予定です。

私のTwitterアカウントでも機械学習自然言語処理に関する情報をつぶやいています。

この分野にご興味のある方のフォローをお待ちしています。

参考文献