前処理
文書解析といえば、Azure Document IntelligenceやMarkItDown、Doclingなどが広く使われている。近年ではマルチモーダルLLMの登場によって、これまでOCRや専用エンジンに頼っていた処理もLLMで実現できるようになりつつある。以前はプロプライエタリなモデル…
文書の解析をするためのPythonパッケージであるDoclingのドキュメントを何気なく眺めていたら、Picture classificationなる機能があることに気がついた。どうやら、文書中の画像を以下のカテゴリに分類できるようだ。 棒グラフ(bar_chart) バーコード(bar…
MarkItDownを使うと、ExcelやパワーポイントなどさまざまなファイルをMarkdown形式に変換できる。パワーポイントの場合、LLMを渡すことで画像のキャプションを生成できて便利なのだが、残念ながら生成時に並行処理を利用していないので、画像が多数含まれる…