生体医療分野のテキストのためのアノテーションツール

EMNLP 2019より以下の論文を紹介。

この論文では、MedCatTrainerと呼ばれる生体医療分野のテキストに対する固有表現認識とエンティティリンキングを行うためのアノテーションツールを提案している。特徴としては、アクティブラーニングを使うことが可能な点で、モデルによって自動的に認識されたエンティティを人間が修正することになる。

言うよりは見るが早しということで、以下にアノテーション画面を示す。画面の左側にテキストとエンティティが表示されている。サイドバーにはエンティティのメタデータが表示されている。おそらく、サイドバーの右上にあるチェックマークやバツマークからアクティブラーニングで付けた結果を承認する仕組みになっている。

サイドバーからはコンセプトを追加することができる。

別のアノテーション画面。右上のはてなボタンからアノテーションのガイドラインを確認できる。「Incomplete」ボタンは後で見直すことを示している。Submitボタンで対象ドキュメントのアノテーションが完了したことを示す。

感想

自分もアノテーションツールを作っているので、興味があって読んだ論文。以下のリポジトリからコードを確認することができる。この手の論文で作られたプロジェクトには珍しく、現在も開発中であることがわかる。