LLMによる文書解析の性能を比較したリーダーボード

前処理言語モデル

文書解析といえば、Azure Document IntelligenceやMarkItDown、Doclingなどが広く使われている。近年ではマルチモーダルLLMの登場によって、これまでOCRや専用エンジンに頼っていた処理もLLMで実現できるようになりつつある。以前はプロプライエタリなモデル…

軽量な画像分類器を用いた業務画像の分類

前処理

文書の解析をするためのPythonパッケージであるDoclingのドキュメントを何気なく眺めていたら、Picture classificationなる機能があることに気がついた。どうやら、文書中の画像を以下のカテゴリに分類できるようだ。棒グラフ（bar_chart）バーコード（bar…

前処理

MarkItDownを使うと、ExcelやパワーポイントなどさまざまなファイルをMarkdown形式に変換できる。パワーポイントの場合、LLMを渡すことで画像のキャプションを生成できて便利なのだが、残念ながら生成時に並行処理を利用していないので、画像が多数含まれる…