日本語の電子健康記録のテキストを匿名化する手法

EMNLP 2018より以下の論文を紹介。

De-identifying Free Text of Japanese Dummy Electronic Health Records

この論文では、日本語の電子健康記録(EHRs: Electronic Health Records)のテキストを匿名化する手法を提案している。近年、医療関連のデータが増加し、その重要性が増している。研究開発面から言うと、2018年に「医療分野の研究開発に資するための匿名加工医療情報に関する法律」が施行されたことにより、特定の機関がEHRsを扱えるようになったが、個人情報保護の観点から匿名化は欠かせない技術となっている。論文では匿名化を行うための手法として、ルールベース、CRF、LSTMの3つを提案している。2つのデータセットで検証した結果、ルールベースとLSTMが良い結果となった。

匿名化を行うための手法としては、ルールベース、CRF、LSTMベースの3つの手法を用いている。CRFとLSTMベースの手法は系列ラベリングの分野でよく使われるモデルで、高い性能を出すことが知られている。ルールベース手法ではage、hospital、sex、timeの4クラスに対してルールを書いて情報を抽出している。以下にageクラスに対するルールの一部を示した。

f:id:Hironsan:20190927081842p:plain — ageクラスに対するルール(一部)

実験はMedNLP-1と自前で作成したデータセット(dummy EMRs)を使って行っている。MedNLP-1には2,244文が含まれ、dummy EMRsには8327文が含まれているので、規模としてはdummy EMRsがMedNLP-1の約4倍となっている。CRFとLSTMに関しては2つのデータセットを混ぜたデータセット(Mix)での学習も行っている。

以下はMedNLP-1に対する評価結果を示している。結果を見ると、ルールベースの手法が最も良い性能であることがわかる。これは、ルールベースの手法で使っているルールがMedNLP-1に合わせて作られたからとのこと。CRFとLSTMも悪くないが、データセットを混ぜて使うと性能が大きく低下していることが確認できる。

f:id:Hironsan:20190927081011p:plain — MedNLP1に対する評価結果

以下はdummy EMRsに対する評価結果を示している。結果を見ると、データセットを混ぜてLSTMベースの手法で学習させた場合が最も良い性能であることがわかる。また、MedNLP-1では良かったルールベースの手法の性能が非常に低いことがわかる。MedNLP-1の結果と合わせて考えると、ルールがMedNLP-1に過適合しているのだと考えられる。

f:id:Hironsan:20190927081050p:plain — ダミーのEMRsに対する評価結果

感想

固有表現認識の応用の一つとして興味があったので読んだ論文。手法としては2016年くらいのモデルを使っているので、改善の余地は大きいというのが感想。

たとえば、この分野のテキストは医者がラベル付けするけど、医者も忙しいのでそんなに大量のラベルを付けてられないという問題がある。そういう場合は、以下の記事で紹介したような教師なしデータを使って事前学習済みの言語モデルをFine-tuningする手法が有効である可能性がある。

hironsan.hatenablog.com

また、この論文では2つのデータセットを単純に結合して学習させているが、MedNLP-1の結果を見て分かる通り、そういったテクニックはラベル分布が異なったりすると有効でない場合がある。この辺は工夫の余地があると思う。また、同じようなラベル付けのデータセットを用意するのは大変なので、以下の記事で紹介したような手法を使って、アノテーションスキーマが異なるデータセットを使うというのも一つの手。

hironsan.hatenablog.com

また、病院名の認識であれば知識ベースと組み合わせるのも面白いかもしれない。医療機関の名称は厚生局が情報を持っているので、知識ベースを作りやすいというメリットもある。