2017-10-19

Wikipedia内ページランクを計算して、重要なページを抽出する

自然言語処理をする際、データソースとして Wikipedia を使用することがあります。 Wikipedia を使う際、ページによっては内容が薄いので、ページを選択することがあります。そのための方法として、Wikipedia 内のページランクを計算して、重要ページを抽出する方法が提案されています。

本記事では、Wikipedia 内のページランクを計算して、重要なページを抽出する方法を紹介します。ツールとしては Project Nayuki で公開されているツールを使います。このツールは Stanford の SQuAD のデータセットを作成する際にも使われています。

では、日本語版 Wikipedia を用いて、ページランクを計算してみます。

2017-10-04

日本語版text8コーパスを作って分散表現を学習する

機械学習自然言語処理

単語の分散表現を学習させる際、Wikipedia ほどのサイズが必要ないときに使われるコーパスとして text8 があります。 text8 は、Wikipedia に対してクリーニング等の処理をした後、100MB分切り出して作成されています。 text8 は前処理済みで簡単に使えるので、チュートリアル等でよく利用されています。

text8 は便利なのですが、英語にしか対応していないのが欠点でした。そのため今回は、text8 の日本語版（もどき）を作ってみました。前処理済みなので、ダウンロードしたらすぐに使うことができます。

作成したコーパスは以下のリポジトリからダウンロードできます。スターしていただけると励みになりますm(＿＿)m