Ahogrammer

Deep Dive Into NLP, ML and Cloud

言語が混在したソーシャルメディアの固有表現認識

ACL 2019より以下の論文を紹介。今後、意外と必要になるかもしれないので取り上げた。

この論文では、テルグ語と英語が混じったソーシャルメディアのテキストに対する固有表現認識のデータセットの作成と固有表現認識を行っている。テルグ語というのは、インドの公用語の一つで、7000~8000万人の話者数がいる言語である。そのような人々がSNSを使うときはテルグ語だけでなく英語も混じえて使っている(インドなので)。それが、言語が混在したテキストに対する固有表現認識をしたいというモチベーションになっている。具体的には以下のようなテキストに対する固有表現認識をすることになる。

“Sir/other/Eng Rajanna/Person/Tel Siricilla/Location/Tel district/other/Eng loni/other/Tel ee/other/Tel government/other/Eng school/other/Eng ki/other/Tel computers/other/Eng fans/other/Eng vochi/other/Tel samvastharam/other/Tel avthunna/other/Tel Inka/other/Tel permanent/other/Eng electricity/other/Eng raledu/other/Tel Could/other/Eng you/other/Eng please/other/Eng respond/other/Eng @KTRTRS/person/Tel @Collector RSL/other/Eng”

トークンは、「単語/固有表現タグ/言語」の順に書かれている。言語でEngは英語、Telはテルグ語を指している。日本語にすると「閣下、ラジャンナ・シリシラ地区のこの公立学校にはコンピューターと扇風機がありますが、安定的な電力供給がされずに一年経ちます。差し支えなければ@KTRTRS @Collector RSL宛に返信願います。」という意味になるだろうか。

今までに言語が入り混じった固有表現認識に対する研究がなかったわけではないが、テルグ語と英語が混じったテキストのコーパスは存在しなかった。言語の混じったコーパスとしては、2016年にテルグ語と英語のテキストに対する品詞タグの付いたコーパスがNelakuditiらによって公開されている。このコーパスFacebookからテキストを集めて品詞のアノテーションをしている。固有表現認識では2018年にヒンディー語と英語の混じったコーパスがSinghらによって公開されている。

この研究ではコーパスを作成するためのデータはTwetterから集めている。まず、Twetterに対して特定のハッシュタグで検索をしてデータを収集している。その後、前処理としてURLやハッシュタグだけ含まれているTweetを除外し、Tweet Tokenizerで分かち書きしている。その後で、英語とテルグ語のどちらかだけで書かれているTweetは除去し、結果として3968のTweetを得られた。トークン数としては115,772になる。

Twetterからテキストを集めて前処理をした後、固有表現のアノテーションを行っている。タグとしてはPerson, Organization, Locationの3つで、BIOタグを使ってアノテーションしている。アノテーションは2人のテルグ語と英語に精通している人によって行われている。以下にタグの統計情報を示した。トークン数は13909と表示されているが、実際の固有表現の数は12574であることに注意する必要がある。

f:id:Hironsan:20190903075716p:plain
固有表現のタグ数

作成したコーパスに対して、3つのモデル(CRF、決定木、BiLSTM)を学習させて性能を検証している。結果としてはCRF > BiLSTM > 決定木の順に性能が高かった。以下にCRFによるモデルの評価結果を示す。性能はF1で0.96であり、かなり高く見えるが、評価が固有表現ごとではなく、単語ごとに行われていることに注意する必要がある。

f:id:Hironsan:20190903075944p:plain
CRFの評価結果

感想としては、この研究ではテルグ語と英語の混じったテキストを対象にしていて、我々から遠い話に聞こえるが、将来的に日本でも移民を受け入れた場合には、日本語-中国語や日本語-ベトナム語が混じったテキストに対する自然言語処理技術が必要になるときが来るかもしれない。また、その他にも日本文化の好きな外国人のTweetを解析して、彼/彼女らが今何に興味があるのかを解析できれば、マーケティングの役に立てることができるだろう。そう考えると、意外と面白い話題である。