Ahogrammer

Deep Dive Into NLP, ML and Cloud

『機械学習エンジニアのためのTransformers』が出ます

このたび、オライリー・ジャパンより、『Natural Language Processing with Transformers』の翻訳書である『機械学習エンジニアのためのTransformers』を出ることになりました。素直にタイトルを訳すと、『Transformersによる自然言語処理』のようになると思うのですが、1文字違いの本が出ていたので、このようなタイトルになっています。Amazonだと8月5日に発売のようです。表紙の鳥はゴシキセイガイインコで、オセアニアに生息しています。

本書はTransformersの開発元であるHugging Faceの開発者たちによって執筆された点が他書との大きな違いと言えるでしょう。内容の詳細については、オライリー公式ページを見ていただくとよいと思いますが、自然言語処理のタスクだけでなく、蒸留、量子化、枝刈りといったモデルの高速化技術、ゼロショット学習や少数事例学習、多言語転移やドメイン適応についても解説しています。

www.oreilly.co.jp

以下、翻訳の経緯などを思い出すために書いておきます。

翻訳の経緯

本書を翻訳するきっかけは何だったかなーと思いメールを検索してみたのですが、ちょうど1年ほど前に編集との間で話題にあがっていました。その後、2022年2月の原著の発売前後あたりから日本語版の企画が進み始め、おおよそ半年で発売という流れです。個人的には、1年以上前から、Hugging Faceの創業者の1人であるThomas Wolfが本を出すということで気になっていたのですが、その本の日本語版を出せてうれしく思います。

作業の効率化

記録を見ると、今回の翻訳はおおよそ1ヶ月程度で終えているようで、なかなかスピーディーだったなと思います。そのために、原稿として渡されるMarkdownファイルを解析して翻訳箇所だけを抽出するプログラムを書いたり(一部、言語判定をしてフィルタリングもしている)、校正を楽にするために300語程度の辞書やルールを整備して自動的にテキストを修正したりしました。これらのルールや辞書は、以前の翻訳の仕事で編集から得られたフィードバックをもとにしています。

改善点としては、不足していたルール(数字3桁ごとにカンマを入れる、キャプションはである調など)を追加することと、文脈を考慮する必要のある校正ルールを書くことが挙げられます。後者は単純な辞書マッチだと厳しいので、spaCyあたりの解析結果を利用して改善しようと考えています。あとは索引を作るのが意外と大変なので、そこを自動化したいなと。キーワード抽出を使って、章ごとに候補を列挙したりするとおもしろいかもしれません。

今後も、効率化できるところは効率化して、人間にしかできない仕事に注力して質を上げられるような仕組みを作りたいなと思います。

参考資料

hironsan.hatenablog.com