グローバルなコンテキストを使って固有表現認識の性能を改善する

固有表現認識自然言語処理論文紹介

ACL 2019より以下の論文を紹介。 GCDT: A Global Context Enhanced Deep Transition Architecture for Sequence Labeling この論文では、文レベルのグローバルな文脈表現を利用した系列ラベリングのモデルを提案している。従来、品詞タグ付や固有表現認識、…

2019-09-10

近傍検索によって解く固有表現認識と品詞タグ付け

自然言語処理固有表現認識論文紹介

ACL 2019より以下の論文を紹介。こういう系列ラベリングのやり方もあるか、と思った一本。 Label-Agnostic Sequence Labeling by Copying Nearest Neighbors この論文では、入力文中のトークンをラベルの付いたデータベース中のトークンに対して近傍検索を行…

2019-09-09

英語からの転移学習で日本語固有表現認識の性能を向上させる

固有表現認識自然言語処理論文紹介

NAACL 2019より以下の論文を紹介。 Cross-lingual Transfer Learning for Japanese Named Entity Recognition この論文では、英語の固有表現認識のデータセットを使って学習させたモデルを転移学習させることで、日本語の固有表現認識の性能向上を行う手法を…

2019-09-06

ラベルの欠けているデータセットから固有表現認識のモデルを学習させる

固有表現認識自然言語処理論文紹介

NAACL 2019より以下の論文を紹介。 Better Modeling of Incomplete Annotations for Named Entity Recognition この論文は不完全なアノテーションの付いているデータから固有表現認識を行う論文。背景として、我々が固有表現認識のモデルを学習させる際は学…

2019-09-05

アノテーションスキーマが異なる複数のデータセットを組み合わせて固有表現認識

固有表現認識自然言語処理論文紹介

ACL 2019より以下の論文を紹介。少し長め。 A Joint Named-Entity Recognizer for Heterogeneous Tag-sets Using a Tag Hierarchy この論文は、異なるタグの付いたデータセットを組み合わせて固有表現認識を行う話。手法としては、異なるデータセットに出現…

2019-09-03

言語が混在したソーシャルメディアの固有表現認識

固有表現認識自然言語処理論文紹介

ACL 2019より以下の論文を紹介。今後、意外と必要になるかもしれないので取り上げた。 Corpus Creation and Analysis for Named Entity Recognition in Telugu-English Code-Mixed Social Media Data この論文では、テルグ語と英語が混じったソーシャルメデ…

2019-09-02

固有表現辞書を使って固有表現認識の性能を向上させる

固有表現認識自然言語処理論文紹介

ACL 2019より以下の論文を紹介。 Towards Improving Neural Named Entity Recognition with Gazetteers この論文は、固有表現辞書を使って固有表現認識の性能を向上させる手法を提案した論文。手法としては、BiLSTMの最終層にHybrid Semi-Markov CRFs(HSCRFs…

2019-08-30

低リソースかつノイジーなテキストに対する固有表現認識

固有表現認識自然言語処理論文紹介

ACL 2019より以下の論文を紹介。 Towards Robust Named Entity Recognition for Historic German この論文は、昔のドイツ語(1700年〜1900年くらい)に対する固有表現認識を行った論文。「昔のドイツ語の固有表現認識になんか興味ねーよ」と思うかもしれないが…

2019-08-29

多言語BERTの多言語転移性能はどのくらいなのか？固有表現認識と品詞タグ付けで示してみた。

固有表現認識自然言語処理論文紹介

ってことで、ACL 2019より以下の論文を紹介。著者のサイトにスライドが公開されていたのでそちらも載せておく。【論文】How Multilingual is Multilingual BERT? 【スライド】How Multilingual is Multilingual BERT? 多言語BERTは言語間の転移で優秀な性能…

2019-08-28

多言語BERTを言語ごとにチューニングして固有表現認識の性能を向上させる

固有表現認識自然言語処理論文紹介

ACL 2019より以下の論文を紹介。 Tuning Multilingual Transformers for Language-Specific Named Entity Recognition この論文は、ロシア語、チェコ語、ブルガリア語、ポーランド語に対する固有表現認識をBERTを使って解いた論文。Googleの公開している多言…

2019-08-27

入れ子になった固有表現認識のデータセット

固有表現認識自然言語処理論文紹介

ACL 2019より以下の論文を紹介。 NNE: A Dataset for Nested Named Entity Recognition in English Newswire この論文は、入れ子になった固有表現認識のデータセットを提案した論文。現在、一般的によく使われている固有表現認識のデータセットがフラットな…

2019-08-26

辞書と生テキストから固有表現認識のモデルを学習させる

固有表現認識自然言語処理論文紹介

書いている本も山場を超えたので、ACL 2019の論文をパラパラと見ていたところ、以下の論文を発見。 Distantly Supervised Named Entity Recognition using Positive-Unlabeled Learning この論文がどういう論文なのかというと、辞書と生テキストだけを使って…

2019-05-20

バイオ医療分野と固有表現認識

Deep Learning 固有表現認識情報抽出機械学習自然言語処理

最近、職場の同僚が「医療/製薬分野に自然言語処理を使えないか」というような話をしていた。私自身はその分野にそれほど関心が高かったわけではないが、固有表現認識系の論文で医療/化学ドメインに対する取り組みが行われているのは今までに目にしていた。…

2019-05-16

入門 AWS Step Functions

AWS 機械学習

最近は仕事の一つとして、機械学習用のワークフローを作成しています。ワークフローを作成するサービスやソフトウェアはいくつかありますが、それら中でもAWS Step Functionsを使おうと考えています。今回の記事は、AWS Step Functionsについて調べたことを…

2019-05-13

文字ベース固有表現認識の手法たち

固有表現認識自然言語処理論文紹介

固有表現認識（NER: Named Entity Recognition）とは、テキストに出現する人名や地名などの固有名詞や、日付や時間などの数値表現を認識する技術です。NERはエンティティリンキングや関係抽出、イベント抽出、共参照解決といった自然言語処理タスクの要素技…

2019-05-10

Object2vecの新機能を使って文の分散表現を計算する

AWS Deep Learning 機械学習

前回の記事では、日本語文の分散表現を計算するためのデータセットを作成した。 hironsan.hatenablog.com 今回は、先日、SageMakerのObject2vecに追加された機能を使って文の分散表現を計算する。追加された機能には、ネガティブサンプリングの自動化、重み…

2019-05-07

文の分散表現を計算するためのデータセットを作って公開する

自然言語処理機械学習 Deep Learning AWS

先日、SageMakerのObject2vecに新機能が追加された。機能としては、ネガティブサンプリングの自動化、重み共有、学習の高速化といった機能が追加されており、以下のNotebookから試すことができる。このNotebookでは英文の分散表現の計算、モデルのデプロイ、…

2019-05-05

Jupyter NotebookがGitHub上で表示されない時にすること

機械学習

機械学習に携わる人であればJupyter Notebookは頻繁に使うツールであり、共有するときにはGitHubを使うのが一般的だろう。GitHubにはブラウザ上でNotebookをレンダリングする機能があり、地味に便利なのだが、ときたまレンダリングされないNotebookが存在す…

2019-04-26

今日からはじめるレコメンデーション -探索と利用のジレンマとベイジアンアプローチ-

情報推薦機械学習

前回の記事では平均評価による推薦の問題点とその解決策について紹介しました。推薦の際に確信度が考慮されない問題点を信頼区間で、評価数が0の場合にスコアが不定になる問題点をスムージングによって解決する方法について紹介しました。 hironsan.hatenabl…

2019-04-24

Kerasで固有表現認識のf1スコアを計算する

自然言語処理固有表現認識 Python Keras

一般に固有表現認識では、学習済みモデルの性能を評価するためにf1が使用されます。その際、評価はトークンごとではなくエンティティごとに行われるのが特徴となっています。 f1スコアを評価する関数は、多くの機械学習フレームワークに実装されています。し…

2019-04-23

Django Rest Frameworkでソーシャル認証

Django

Djangoには、組み込みのユーザ認証の仕組みがありますが、GitHubやTwitter、Facebookなどのサービスを介したソーシャル認証はサポートされていません。しかし、幸いなことに、サードパーティー製のパッケージを使って簡単に実装することができます。本記事…

2019-04-19

Djangoにおけるアクセス制御の話

Django

Djangoでアプリケーションを作っているとアクセス制御をしたくなることがあります。たとえば、会員サイトではプレミアムユーザと一般ユーザによってアクセスできる情報に差を付けたいことがあるでしょう。こういった機能は、少し規模の大きなサイトではよく…

2019-04-18

今日からはじめるレコメンデーション -平均評価による推薦の問題点と対策-

情報推薦機械学習

前回の記事では人気度と新規性、またそれらをハイブリッドした手法による推薦の方法について紹介しました。そこでは、人気度と新規性に基づく手法の問題点とその解決方法について説明しました。 hironsan.hatenablog.com 今回は、平均評価に基づく推薦の問題…

2019-04-10

今日からはじめるレコメンデーション -Hacker Newsに学ぶスコア関数の設計-

情報推薦機械学習

レコメンデーションといえば、現在最も多く使われている技術の一つと言えるでしょう。その応用は数多く存在し、身近なところで言えば、Amazonによる関連商品の推薦やNetflixによる映画の推薦などに使われており、私たちの意思決定を支援しています。一口に…

2019-02-08

日本語 Sentiment Analyzer を作ってパッケージ化した話

Python 機械学習自然言語処理

Sentiment Analysisと言えば自然言語処理ではよく知られたタスクで、典型的にはテキストをポジティブ/ネガティブの2クラスに分類するものだ。その使い道としては、Twitter等のSNSから自社製品についての投稿を収集して評価や緊急度によって分類し、問題に対…

2019-01-09

2018年のふりかえりと2019年にしたいこと

あけましておめでとうございます。今日までお正月休みで明日から会社に復帰します。三週間ほど家にこもってゲームばかりしていて頭もだいぶボケてきているので、出社前のリハビリがてら2018年のふりかえりをしたいと思います。まずは2018年に何をしていたか…

2018-10-25

テキストの構造化を支える技術 -OpenIEの未解決問題-

情報抽出機械学習自然言語処理関係認識

第3回目の今回は節ベースのOpenIE手法を紹介する予定でしたが、予定を変更してOpenIEの未解決問題について紹介することにします。 2018年に発表された論文「A Survey on Open Information Extraction」では、OpenIEには以下の未解決問題があると主張していま…

2018-10-19

テキストの構造化を支える技術 -パターンマッチで始める情報抽出-

機械学習自然言語処理情報抽出関係認識

前回の記事「テキストの構造化を支える技術 -概要編-」では、OpenIEの記念碑的なシステムであるTextRunnerを紹介しました。第2回目である今回は、シンプルながら強力なReVerbと呼ばれるシステムを紹介します。記事の構成としては、最初にTextRunnerの課題に…

2018-10-12

テキストの構造化を支える技術 -概要編-

機械学習自然言語処理情報抽出関係認識

最近、情報抽出、特にOpen Information Extraction（OpenIE）という分野について勉強しています。せっかく勉強しているので、学んだ内容について何回かに分けて紹介していこうと思います。第一回目の今回は、OpenIEという分野の概要について紹介し、OpenIEの…

2018-09-25

固有表現認識器に言語モデルを組み込んで、性能を向上させる

Deep Learning Keras 機械学習自然言語処理固有表現認識

最近の自然言語処理では言語モデルを使って転移学習をしたり、性能向上に役立てたりするようになってきました。言語モデルの１つであるELMoでは、言語モデルから得られる分散表現を他のタスクの入力に使うことで、質問応答や固有表現認識、評価分析といった…

Ahogrammer

Deep Dive Into NLP, ML and Cloud

グローバルなコンテキストを使って固有表現認識の性能を改善する

近傍検索によって解く固有表現認識と品詞タグ付け

英語からの転移学習で日本語固有表現認識の性能を向上させる

ラベルの欠けているデータセットから固有表現認識のモデルを学習させる

アノテーションスキーマが異なる複数のデータセットを組み合わせて固有表現認識

言語が混在したソーシャルメディアの固有表現認識

固有表現辞書を使って固有表現認識の性能を向上させる

低リソースかつノイジーなテキストに対する固有表現認識

多言語BERTの多言語転移性能はどのくらいなのか？固有表現認識と品詞タグ付けで示してみた。

多言語BERTを言語ごとにチューニングして固有表現認識の性能を向上させる

入れ子になった固有表現認識のデータセット

辞書と生テキストから固有表現認識のモデルを学習させる

バイオ医療分野と固有表現認識

入門 AWS Step Functions

文字ベース固有表現認識の手法たち

Object2vecの新機能を使って文の分散表現を計算する

文の分散表現を計算するためのデータセットを作って公開する

Jupyter NotebookがGitHub上で表示されない時にすること

今日からはじめるレコメンデーション -探索と利用のジレンマとベイジアンアプローチ-

Kerasで固有表現認識のf1スコアを計算する

Django Rest Frameworkでソーシャル認証

Djangoにおけるアクセス制御の話

今日からはじめるレコメンデーション -平均評価による推薦の問題点と対策-

今日からはじめるレコメンデーション -Hacker Newsに学ぶスコア関数の設計-

日本語 Sentiment Analyzer を作ってパッケージ化した話

2018年のふりかえりと2019年にしたいこと

テキストの構造化を支える技術 -OpenIEの未解決問題-

テキストの構造化を支える技術 -パターンマッチで始める情報抽出-

テキストの構造化を支える技術 -概要編-

固有表現認識器に言語モデルを組み込んで、性能を向上させる