単語の分散表現を学習させる際、Wikipedia ほどのサイズが必要ないときに使われるコーパスとして text8 があります。 text8 は、Wikipedia に対してクリーニング等の処理をした後、100MB分切り出して作成されています。 text8 は前処理済みで簡単に使えるので、チュートリアル等でよく利用されています。
text8 は便利なのですが、英語にしか対応していないのが欠点でした。 そのため今回は、text8 の日本語版(もどき)を作ってみました。 前処理済みなので、ダウンロードしたらすぐに使うことができます。
作成したコーパスは以下のリポジトリからダウンロードできます。スターしていただけると励みになりますm(_ _)m
続きを読む