Ahogrammer

Deep Dive Into NLP, ML and Cloud

オライリー・ジャパンから『実践 自然言語処理』という本を出します

このたび、オライリー・ジャパンより、『Practical Natural Language Processing』の翻訳書である『実践 自然言語処理』を出すことになりました。Amazonだと2月4日に発売のようです。表紙の鳥はオオハナインコで、オセアニアあたりに生息しています。

f:id:Hironsan:20220201151637p:plain

最近は日本語/英語に関わらず、自然言語処理に関連する書籍が増えてきて読むのを楽しみにしています。その中でも本書は、NLPの要素技術(単語埋め込み、テキスト分類、情報抽出、チャットボット、トピックモデルなど)の紹介に留まらず、SNS、Eコマース、医療、金融といった具体的なビジネスへの適用方法やNLPシステムを開発するためのベストプラクティスを学べるのが特徴的だと思います。

きっかけ

このような本を翻訳するきっかけになったのは、1年と少し前にオライリーの編集に「この本、良い本でしたよ」と何気なく紹介したことでした。そしたらすぐに企画が立ち上がり、翻訳することになりました。まさかあの一言で翻訳することになるとは…。ちなみに、その際には本書だけでなく『Building Machine Learning Pipelines』も紹介しており、こちらも2021年の9月にオライリー・ジャパンより『入門 機械学習パイプライン』として発売しています。まさか2冊翻訳することになるとは…。

f:id:Hironsan:20220201145227p:plain

大変だったこと

本を読んでいたときには気にもとめていなかったのですが、本書は実装がノートブックに切り出されており、必要であればそのうち重要な箇所を本の中で解説するというスタイルになっています。つまり、見かけのページ数以上にボリュームのある本だったのです。コードが大量に載せられている本だと、翻訳者的には訳す部分が減るので楽だと思うのですが、本書は翻訳者である私にとっては楽な本ではありませんでした。しかし、読者としては内容が豊富で楽しめる作りになっています。

その他、オリジナルのノートブックには実装の解説がほぼないので、日本語版を出すにあたって、解説をつけた点が大変だったでしょうか。60近くのノートブックがあったので、そのすべてに対して、古いコードを書き換え、ある程度の解説を付けるのはなかなか骨の折れる仕事でした。

楽しかったこと

今回は、巻末にspaCyを使った日本語処理について書かせていただきました。spaCy Projectsに触れている日本語の本は、もしかしたら初めてかもしれません。当初は、文分割のカスタマイズや固有表現認識のデータ拡張、GiNZaの使い方なども含めて書く予定だったのですが、書いているうちに分量が増えてしまって、泣く泣く削りました。これらについては、また何かの機会に書きたいなと思っています。自分で電子書籍を作って発売できたら楽しいなー、なんて漠然と考えているところです。