Ahogrammer

Deep Dive Into NLP, ML and Cloud

自然言語処理

教師あり学習を使ってオープンドメインのテキストから情報抽出する手法

オープンドメインの情報抽出は、この10年ほどで盛んになってきた自然言語処理の一分野でOpenIE(Open Information Extraction)と呼ばれている。OpenIEでは、ドメインを限定しないテキストからタプルを抽出する。たとえば、「ホンダは本田宗一郎によって創業…

単語分散表現の信頼性を考慮した固有表現認識

ACL 2019より以下の論文を紹介。 Reliability-aware Dynamic Feature Composition for Name Tagging この論文では、単語分散表現の信頼性を考慮した固有表現認識を行うモデルを提案している。単語分散表現は広く使われているが、低頻度語や未知語のように文…

辞書を用いてテキストから病名を抽出する

医療分野の自然言語処理で基本となるタスクの一つにテキストからの病名の抽出があります。テキストから病名を抽出できると、たとえば、SNSのテキストから病気の流行を予測したり、広告技術と組み合わせて受診や薬の購入を促したり、対話システムと組み合わせ…

生体医療分野のテキストのためのアノテーションツール

EMNLP 2019より以下の論文を紹介。 MedCATTrainer: A Biomedical Free Text Annotation Interface with Active Learning and Research Use Case Specific Customisation この論文では、MedCatTrainerと呼ばれる生体医療分野のテキストに対する固有表現認識と…

ElasticsearchとBERTを組み合わせて類似文書検索

本記事ではElasticsearchとBERTを組み合わせて類似文書検索を行う方法について紹介します。Elasticsearchでは最近、ベクトルに対する類似文書検索の機能が実装されました。一方、BERTを使うことでテキストを固定長のベクトルに変換することができます。つま…

日本語の電子健康記録のテキストを匿名化する手法

EMNLP 2018より以下の論文を紹介。 De-identifying Free Text of Japanese Dummy Electronic Health Records この論文では、日本語の電子健康記録(EHRs: Electronic Health Records)のテキストを匿名化する手法を提案している。近年、医療関連のデータが増加…

Tweetから薬の副作用に関する分類と抽出を行う手法

ACL 2019より以下の論文を紹介。 HITSZ-ICRC: A Report for SMM4H Shared Task 2019-Automatic Classification and Extraction of Adverse Effect Mentions in Tweets この論文は、Tweet中に出現する薬の副作用に関するメンションの分類と抽出を行う手法を提…

ユーザ生成型医療テキストのスペル修正

ACL 2019より以下の論文を紹介。 Lexical Normalization of User-Generated Medical Text この論文では、ユーザ生成型の医療テキストに対するスペル修正を行う手法を提案している。ユーザ生成型の医療テキストとは、たとえばTwitterでつぶやかれた健康情報や…

個人の健康に関するTweetか否かの分類を行う手法

ACL 2019より以下の論文を紹介。 Figurative Usage Detection of Symptom Words to Improve Personal Health Mention Detection この論文では、与えられた文が個人の健康状態に関する言及(PHM: Personal Health Mention)を含むか否かを分類する手法を提案…

固有表現認識と品詞タグ付けに対するドメイン適応を教師なしで行う

EMNLP 2019より以下の論文を紹介。 Unsupervised Domain Adaptation of Contextualized Embeddings for Sequence Labeling この論文は、系列ラベリングのドメイン適応を教師なしで行う手法を提案している。ELMoやBERTなど文脈を考慮した分散表現を生成するモ…

BERTを使った系列ラベリングの高速化

EMNLP 2019より以下の論文を紹介。 Small and Practical BERT Models for Sequence Labeling この論文では、系列ラベリングタスクに対するBERTの高速化と多言語転移性能の検証を行っている。BERTが良い性能を出すことはわかっているが、モデルのサイズが大き…

固有表現認識のデータセットをWikipediaから自動作成する手法

ACL 2017より以下の論文を紹介。 Cross-lingual Name Tagging and Linking for 282 Languages 先日、以下の記事の中で、サブワードを使って固有表現認識を行う際にどのサブワードの分散表現を使うのが良いのか検証した論文を紹介した。今日紹介する論文はそ…

固有表現認識にはどのサブワードの分散表現が有効なのか?

ACL 2019より以下の論文を紹介。 Sequence Tagging with Contextual and Non-Contextual Subword Representations: A Multilingual Evaluation この論文では、2つの系列ラベリングタスク(固有表現認識と品詞タグ付け)に対して、3つのサブワードの分散表現…

TensorFlow Textを使ってテキストのトークン化をする

自然言語処理で欠かせない処理にテキストのトークン化があります。テキストをトークン化することで、その後のボキャブラリの構築やID化の処理を行うことができるようになります。本記事では、トークン化をTensorFlow Textの機能を使って実現する方法について…

アクティブラーニングを使って固有表現のアノテーション数を25%にする

ICLR 2018より以下の論文を紹介。 Deep Active Learning for Named Entity Recognition この論文では、固有表現認識向けのアクティブラーニング手法を提案している。最近の固有表現認識ではディープなモデルが使われる。そういったモデルではラベル付きのデ…

実践!固有表現認識 ~Flairを使って最先端の固有表現認識を体験しよう~

自然言語処理の分野で昔から研究され、実際に使われている技術として固有表現認識があります。固有表現認識は、テキスト中で固有表現が出現する位置を特定し、人名や地名などのラベルを付与するタスクです。情報抽出や質問応答、対話システムなどへの幅広い…

単語分散表現の履歴を使って固有表現認識の性能を向上させる

NAACL 2019より以下の論文。あのAkbikの手法がパワーアップして帰ってきた! Pooled Contextualized Embeddings for Named Entity Recognition この論文では、固有表現認識を行う際に、今までの認識に使った単語の分散表現を記憶しておき、その情報を使って…

TensorFlow Datasetsを使ってテキストの分かち書きとID化をする

自然言語処理で欠かせない前処理としてテキストの分かち書きとID化があります。分かち書きはテキストを分割するプロセスであり、文字や単語、サブワードといった単位でテキストを分割します。これらの分割後の要素はトークンと呼ばれます。一方、ID化はトー…

誤ったラベル付けが含まれるデータセットで学習させる固有表現認識手法

EMNLP 2019より以下の論文を紹介。モデルに依存しない手法なのがとても良い。 CrossWeigh: Training Named Entity Tagger from Imperfect Annotations この論文では、誤ったラベル付けが含まれるデータセットから固有表現認識のモデルを学習させる方法を提案…

グローバルなコンテキストを使って固有表現認識の性能を改善する

ACL 2019より以下の論文を紹介。 GCDT: A Global Context Enhanced Deep Transition Architecture for Sequence Labeling この論文では、文レベルのグローバルな文脈表現を利用した系列ラベリングのモデルを提案している。従来、品詞タグ付や固有表現認識、…

近傍検索によって解く固有表現認識と品詞タグ付け

ACL 2019より以下の論文を紹介。こういう系列ラベリングのやり方もあるか、と思った一本。 Label-Agnostic Sequence Labeling by Copying Nearest Neighbors この論文では、入力文中のトークンをラベルの付いたデータベース中のトークンに対して近傍検索を行…

英語からの転移学習で日本語固有表現認識の性能を向上させる

NAACL 2019より以下の論文を紹介。 Cross-lingual Transfer Learning for Japanese Named Entity Recognition この論文では、英語の固有表現認識のデータセットを使って学習させたモデルを転移学習させることで、日本語の固有表現認識の性能向上を行う手法を…

ラベルの欠けているデータセットから固有表現認識のモデルを学習させる

NAACL 2019より以下の論文を紹介。 Better Modeling of Incomplete Annotations for Named Entity Recognition この論文は不完全なアノテーションの付いているデータから固有表現認識を行う論文。背景として、我々が固有表現認識のモデルを学習させる際は学…

アノテーションスキーマが異なる複数のデータセットを組み合わせて固有表現認識

ACL 2019より以下の論文を紹介。少し長め。 A Joint Named-Entity Recognizer for Heterogeneous Tag-sets Using a Tag Hierarchy この論文は、異なるタグの付いたデータセットを組み合わせて固有表現認識を行う話。手法としては、異なるデータセットに出現…

言語が混在したソーシャルメディアの固有表現認識

ACL 2019より以下の論文を紹介。今後、意外と必要になるかもしれないので取り上げた。 Corpus Creation and Analysis for Named Entity Recognition in Telugu-English Code-Mixed Social Media Data この論文では、テルグ語と英語が混じったソーシャルメデ…

固有表現辞書を使って固有表現認識の性能を向上させる

ACL 2019より以下の論文を紹介。 Towards Improving Neural Named Entity Recognition with Gazetteers この論文は、固有表現辞書を使って固有表現認識の性能を向上させる手法を提案した論文。手法としては、BiLSTMの最終層にHybrid Semi-Markov CRFs(HSCRFs…

低リソースかつノイジーなテキストに対する固有表現認識

ACL 2019より以下の論文を紹介。 Towards Robust Named Entity Recognition for Historic German この論文は、昔のドイツ語(1700年〜1900年くらい)に対する固有表現認識を行った論文。「昔のドイツ語の固有表現認識になんか興味ねーよ」と思うかもしれないが…

多言語BERTの多言語転移性能はどのくらいなのか?固有表現認識と品詞タグ付けで示してみた。

ってことで、ACL 2019より以下の論文を紹介。著者のサイトにスライドが公開されていたのでそちらも載せておく。 【論文】How Multilingual is Multilingual BERT? 【スライド】How Multilingual is Multilingual BERT? 多言語BERTは言語間の転移で優秀な性能…

多言語BERTを言語ごとにチューニングして固有表現認識の性能を向上させる

ACL 2019より以下の論文を紹介。 Tuning Multilingual Transformers for Language-Specific Named Entity Recognition この論文は、ロシア語、チェコ語、ブルガリア語、ポーランド語に対する固有表現認識をBERTを使って解いた論文。Googleの公開している多言…

入れ子になった固有表現認識のデータセット

ACL 2019より以下の論文を紹介。 NNE: A Dataset for Nested Named Entity Recognition in English Newswire この論文は、入れ子になった固有表現認識のデータセットを提案した論文。現在、一般的によく使われている固有表現認識のデータセットがフラットな…