Ahogrammer

Deep Dive Into NLP, ML and Cloud

生体医療分野のテキストのためのアノテーションツール

EMNLP 2019より以下の論文を紹介。

この論文では、MedCatTrainerと呼ばれる生体医療分野のテキストに対する固有表現認識とエンティティリンキングを行うためのアノテーションツールを提案している。特徴としては、アクティブラーニングを使うことが可能な点で、モデルによって自動的に認識されたエンティティを人間が修正することになる。

言うよりは見るが早しということで、以下にアノテーション画面を示す。画面の左側にテキストとエンティティが表示されている。サイドバーにはエンティティのメタデータが表示されている。おそらく、サイドバーの右上にあるチェックマークやバツマークからアクティブラーニングで付けた結果を承認する仕組みになっている。

f:id:Hironsan:20191001071746p:plain
アノテーション画面

サイドバーからはコンセプトを追加することができる。

f:id:Hironsan:20191001072923p:plain
コンセプトの追加

別のアノテーション画面。右上のはてなボタンからアノテーションガイドラインを確認できる。「Incomplete」ボタンは後で見直すことを示している。Submitボタンで対象ドキュメントのアノテーションが完了したことを示す。

f:id:Hironsan:20191001071848p:plain
カスタマイズ

感想

自分もアノテーションツールを作っているので、興味があって読んだ論文。以下のリポジトリからコードを確認することができる。この手の論文で作られたプロジェクトには珍しく、現在も開発中であることがわかる。

github.com