Ahogrammer

Deep Dive Into NLP, ML and Cloud

前処理

LLMによる文書解析の性能を比較したリーダーボード

文書解析といえば、Azure Document IntelligenceやMarkItDown、Doclingなどが広く使われている。近年ではマルチモーダルLLMの登場によって、これまでOCRや専用エンジンに頼っていた処理もLLMで実現できるようになりつつある。以前はプロプライエタリなモデル…

軽量な画像分類器を用いた業務画像の分類

文書の解析をするためのPythonパッケージであるDoclingのドキュメントを何気なく眺めていたら、Picture classificationなる機能があることに気がついた。どうやら、文書中の画像を以下のカテゴリに分類できるようだ。 棒グラフ(bar_chart) バーコード(bar…

MarkItDownでパワーポイントから画像を抽出

MarkItDownを使うと、ExcelやパワーポイントなどさまざまなファイルをMarkdown形式に変換できる。パワーポイントの場合、LLMを渡すことで画像のキャプションを生成できて便利なのだが、残念ながら生成時に並行処理を利用していないので、画像が多数含まれる…