Ahogrammer

Deep Dive Into NLP, ML and Cloud

Wikipedia内ページランクを計算して、重要なページを抽出する

自然言語処理をする際、データソースとして Wikipedia を使用することがあります。 Wikipedia を使う際、ページによっては内容が薄いので、ページを選択することがあります。 そのための方法として、Wikipedia 内のページランクを計算して、重要ページを抽出する方法が提案されています。

本記事では、Wikipedia 内のページランクを計算して、重要なページを抽出する方法を紹介します。 ツールとしては Project Nayuki で公開されているツールを使います。 このツールは StanfordSQuAD のデータセットを作成する際にも使われています。

では、日本語版 Wikipedia を用いて、ページランクを計算してみます。

続きを読む

日本語版text8コーパスを作って分散表現を学習する

単語の分散表現を学習させる際、Wikipedia ほどのサイズが必要ないときに使われるコーパスとして text8 があります。 text8 は、Wikipedia に対してクリーニング等の処理をした後、100MB分切り出して作成されています。 text8 は前処理済みで簡単に使えるので、チュートリアル等でよく利用されています。

text8 は便利なのですが、英語にしか対応していないのが欠点でした。 そのため今回は、text8 の日本語版(もどき)を作ってみました。 前処理済みなので、ダウンロードしたらすぐに使うことができます。

作成したコーパスは以下のリポジトリからダウンロードできます。スターしていただけると励みになりますm(_ _)m

続きを読む

Python で DBpedia から情報抽出する

自然言語処理では、ナレッジベース(knowledge base)を使う場合があります。 その際、手軽に使えるナレッジベースとして DBpedia があります。 DBpedia は Web 上でクエリ(SPARQL)を実行できるのですが、利便性を考えるとプログラムからクエリを実行したくなります。

本記事では、Python から DBpedia に対してクエリを実行し、結果を取得する方法を紹介します。 f:id:Hironsan:20170928115837p:plain

続きを読む