Ahogrammer

Deep Dive Into NLP, ML and Cloud

日本語版text8コーパスを作って分散表現を学習する

単語の分散表現を学習させる際、Wikipedia ほどのサイズが必要ないときに使われるコーパスとして text8 があります。 text8 は、Wikipedia に対してクリーニング等の処理をした後、100MB分切り出して作成されています。 text8 は前処理済みで簡単に使えるので、チュートリアル等でよく利用されています。

text8 は便利なのですが、英語にしか対応していないのが欠点でした。 そのため今回は、text8 の日本語版(もどき)を作ってみました。 前処理済みなので、ダウンロードしたらすぐに使うことができます。

作成したコーパスは以下のリポジトリからダウンロードできます。スターしていただけると励みになりますm(_ _)m

続きを読む

Python で DBpedia から情報抽出する

自然言語処理では、ナレッジベース(knowledge base)を使う場合があります。 その際、手軽に使えるナレッジベースとして DBpedia があります。 DBpedia は Web 上でクエリ(SPARQL)を実行できるのですが、利便性を考えるとプログラムからクエリを実行したくなります。

本記事では、Python から DBpedia に対してクエリを実行し、結果を取得する方法を紹介します。 f:id:Hironsan:20170928115837p:plain

続きを読む

gensimを使ってKerasのEmbedding層を取得する

2017/06/21にリリースされた gensim 2.2.0 から Keras との統合機能が導入されました。 具体的には、Word2vec の Keras 用ラッパが導入されました。 これにより、gensim で分散表現を学習した後に、その重みを初期値として設定した Keras の Embedding層を取得できるようになりました。

本記事では、実際に gensim の Keras 統合機能を試してどのようなものなのか確認してみたいと思います。

続きを読む