Ahogrammer

Deep Dive Into NLP, ML and Cloud

2019-09-12から1日間の記事一覧

TensorFlow Datasetsを使ってテキストの分かち書きとID化をする

自然言語処理で欠かせない前処理としてテキストの分かち書きとID化があります。分かち書きはテキストを分割するプロセスであり、文字や単語、サブワードといった単位でテキストを分割します。これらの分割後の要素はトークンと呼ばれます。一方、ID化はトー…

誤ったラベル付けが含まれるデータセットで学習させる固有表現認識手法

EMNLP 2019より以下の論文を紹介。モデルに依存しない手法なのがとても良い。 CrossWeigh: Training Named Entity Tagger from Imperfect Annotations この論文では、誤ったラベル付けが含まれるデータセットから固有表現認識のモデルを学習させる方法を提案…