Ahogrammer

Deep Dive Into NLP, ML and Cloud

個人の健康に関するTweetか否かの分類を行う手法

ACL 2019より以下の論文を紹介。

この論文では、与えられた文が個人の健康状態に関する言及(PHM: Personal Health Mention)を含むか否かを分類する手法を提案している。過去の研究では興味のある症状の名前が比喩的(Figurative)に使われていた場合に予測が失敗しがちだった。そこで、比喩的使用検知を行うモジュールををCNNベースの分類モデルと統合したモデルを提案した。結果として、ベースラインモデルよりF1で2.21ポイントの改善が見られた。

個人の健康に関する言及(PHM)というのは、個人あるいはその周りの人に関する健康状態に関する言及のことを指している。たとえば、「朝から咳が止まらない」という文はそれに当たる。一方、「3週間以上咳をすることは、がんの徴候である可能性がある」という文は違う。なぜならこの文は一般論であるからである。こういった分類を行うときに問題となるのが健康状態に関する単語を比喩的に使用している場合である。たとえば、「パリがくしゃみをするとき、ヨーロッパは風邪をひく」という文は「くしゃみ」や「風邪」という単語を含んでいるが、PHMではない。こういった文を上手く扱ってPHMの分類性能を向上させるのがこの論文の目的となっている。

PHMの分類は以下のようなCNNベースのモデルで行っている。最初に、文長を合わせるためにパディングを行う。次に、単語分散表現を結合し、CNNで畳み込み。その後、プーリングとドロップアウトを適用し、最後に全結合層から確率を出力するというモデルになっている。

f:id:Hironsan:20190924055231p:plain
PHMの検知

アプローチは比喩的使用検知のモジュールの扱い方の違いで2パターンある。一つがパイプラインアプローチで、以下の図では左側で表される。このアプローチでは、最初に比喩的使用検知が行われ、そこで比喩だと判断されるとPHMが含まれないと判断する。もう一つのアプローチが特徴拡大アプローチで、以下の図では右側で表される。このアプローチでは、比喩的使用検知の結果を畳み込んで特徴に変換し、モデルの最終層に入力する方法となっている。

f:id:Hironsan:20190924073624p:plain
パイプラインアプローチ(左)と特徴拡大アプローチ(右)

実験結果は以下の通り。実験には、PHM2017と呼ばれるデータセットを使っている。このデータセットは5837のTweetから構成され、アルツハイマー、心臓病、パーキンソン病、がん、鬱、脳梗塞に関するTweetが含まれている。結果を見ると、パイプラインアプローチはベースラインより性能が低いのに対し、特徴拡大アプローチではベースラインより性能が改善された。この結果は、比喩使用検知モジュールの性能がF1で76.46であることに起因すると考えられる。

f:id:Hironsan:20190924074459p:plain
実験結果

以下は病気の種別による分類性能の結果となっている。結果を見ると、心臓病以外の病気に関するTweetでは特徴拡大アプローチがベースラインを上回っている。

f:id:Hironsan:20190924075103p:plain
病気の種別による分類性能

感想

最新の固有表現認識に関する手法をあらかた押さえたので、なにか別の分野がないか探しているときに見つけた論文。手法はあまり洗練されていないが、このあたりは今後改善されてくると思う。それより、これの性能が向上すると、エピデミックの予測に役立つだけでなく、Ad techと組み合わせて受診や薬の購入を促したり、対話システムと組み合わせて検診に使うといった応用が考えられる。