Ahogrammer

Deep Dive Into NLP, ML and Cloud

入れ子になった固有表現認識のデータセット

ACL 2019より以下の論文を紹介。

この論文は、入れ子になった固有表現認識のデータセットを提案した論文。現在、一般的によく使われている固有表現認識のデータセットがフラットな構造であるのに対して、この論文では入れ子になった固有表現認識のデータセットを作成している。アノテーション対象はPTB。PTBに対して、エンティティタイプ数114、入れ子の階層は最大6階層でアノテーションした結果、279,795のメンションから構成されるデータセットを作成できた。論文の最後には既存のモデルを使った性能の検証も行っている。

現在の固有表現認識の課題として、フラットな構造でしか認識できない点が挙げられる。たとえば、以下の図の「Ontario Supreme Court」は「Ontario」という地名と「Ontario Supreme Court」という組織名があるが、一般的に使われる固有表現認識だとどちらかしか認識できない。このような入れ子の中にはエンティティ間の関係が埋め込まれている場合があるので認識できると有用であると考えられる。たとえば、「Former U.N. Ambassador」と「Jane Kirkpatrick」は雇用関係、「Southern California」と「California」には部分と全体の関係が埋め込まれている。

f:id:Hironsan:20190827072156p:plain
入れ子になった固有表現の例(画像は論文より)

この課題を解決するために、PTBの一部であるWall Street Journalに手動でアノテーションを行い、データセットを作成した。データセットに含まれるメンション数は279,795であり、最大6つの入れ子の層からなっている。エンティティタイプのスキーマはBBNを拡張したもので、114タイプからなる。PTBに対してアノテーションされているので、構文情報などと合わせてジョイントラーニングすることも可能なのが一つの利点という主張をしている。

データセットを作成する際のアノテーションにもいくつかの工夫をしている。一つの工夫として、ある文をアノテーションするときその次の文と前の文をアノテーターに見せている点がある。これは、前後のコンテキストがアノテーションする際に役立つからとのこと。また、アノテーションの際、前にしたアノテーションと一般的な固有表現から候補をサジェストする仕組みも導入している。それに加えて、文字列を指定すると、コーパス中のすべての対象文字列にアノテーションする機能がある。これにより、頻出するエンティティに対するアノテーションを効率化できる。

アノテーションしたデータセットの分析結果は以下の表のようになっている。以下の表は入れ子の階層ごとのメンション数を示している。これを見ると、54.5%のメンションが他のメンションの内側に現れているという結果になっている。また、表には記載されていないがトップレベルのメンションのうち、約40%(47,020)のメンションが入れ子ではない。入れ子になっている場合は平均的には2.25のメンションを含んでいる。加えて、一つのメンションが複数のタイプを割り当てられる場合があり、19144のメンションが複数のタイプを割り当てられている。

f:id:Hironsan:20190827060745p:plain
入れ子の階層ごとのメンション数(画像は論文より)

作成したデータセットに対して、3つの既存モデルを使って評価した結果は以下の表の通り。モデルとしては固有表現認識でよく使われるBiLSTM-CRFとHypergraph, Transitionベースの手法が使われている。後者2つのモデルは入れ子の固有表現認識を行うために提案されたモデルとなっている。通常のBiLSTM-CRFだと入れこの認識はできないので、トップレベルとボトムレベルの認識を行うモデルを作って、それらの結果を統合して認識を行っている。

f:id:Hironsan:20190827060843p:plain
固有表現認識の結果(画像は論文より)

表を見ると、トップレベルとボトムレベルのBiLSTM-CRFは適合率は高いが再現率が低くなっている。一方、Hypergraphは3つの中では最高性能であるが、認識速度が遅く、一秒に9単語しか処理できないというデメリットがある。逆に、Transitionは速度は速く、一秒に57単語処理できるが、性能が悪い。

入れ子になった固有表現認識について勉強したことがあまりないので、正直モチベーションがあまり伝わらなかった。おそらく、固有表現認識の後段階で行う関係認識や情報抽出、質問応答といったタスクで活きてくるのだと思うが、この論文にはその活用例は載っていないので、別途サーベイをする必要はある。個人的には、アノテーションツールを作っていることもあり、アノテーションの際の工夫が見れたのは良かった点。