LLMによる文書解析の性能を比較したリーダーボード
文書解析といえば、Azure Document IntelligenceやMarkItDown、Doclingなどが広く使われている。近年ではマルチモーダルLLMの登場によって、これまでOCRや専用エンジンに頼っていた処理もLLMで実現できるようになりつつある。以前はプロプライエタリなモデルの利用コストが高かったが、最近では価格が下がり、さらにオープンモデルの性能も大きく向上している。
その一方で「どのモデルを使えば精度とコストのバランスがよいのか」を調べるのは容易ではない。こうした状況で役に立つのが、本記事で紹介する Intelligent Document Processing Leaderboard だ。

このリーダーボードでは、文書理解に不可欠な6つの代表的タスクに対してモデルを横断的に評価している。
- 重要情報の抽出:文書から構造化情報を抽出する能力を評価
- ビジュアル質問応答(VQA):質問を通じて文書内容を理解できるかを検証
- 光学式文字認識(OCR):さまざまな種類の文書におけるテキスト認識精度を測定
- 文書分類:文書を適切にカテゴリ分けする能力を評価
- 長文文書処理:長い文書に対する処理性能を検証
- 表抽出:表形式データの理解と抽出能力を評価
以下ではその中から「重要情報の抽出」「ビジュアル質問応答」「表抽出」を取り上げ、どのように評価されるのかを具体例を交えて紹介する。
重要情報の抽出
重要情報の抽出では、文書から名前や日付、金額といった特定の情報を構造化して抽出する能力を評価する。文書としては、たとえば以下に示すような領収書などが与えられる。

このような領収書が与えられたとき、以下のような情報をどれだけ正確に抽出できるかを評価している。
| 項目名 | 値 |
|---|---|
| 日付 | 26/05/2018 |
| 伝票番号/領収書番号 | CS00013125 |
| 販売者住所 | LOT 276 JALAN BANTING 43800 DENGKIL , SELANGOR . |
| 販売者GST ID | 000781500416 |
| 販売者名 | KEDAI PAPAN YEW CHUAN |
| 販売者電話番号 | 03-87686092 |
| 合計金額 | 121.90 |
| 税額合計 | 6.90 |
記事の執筆時点では、上位はGemini系のモデルが独占している。

ビジュアル質問応答
ビジュアル質問応答は、モデルが文書の内容を理解し、それに関する質問に答える能力を評価する。これには、テキストベースの質問と、文書の視覚的なレイアウトや構造の理解を必要とする質問の両方が含まれる。たとえば、以下の折れ線グラフを見て、「ブラジル経済について最も意見が分かれた年はどれか?(答えは2015)」「オレンジの線のピーク値はいくつか?(答えは87)」といった質問に回答する能力を評価する。

記事の執筆時点では、もっとも性能が高いのはGPT-5となっている。

表抽出
表抽出は、モデルが文書から表形式データを抽出する能力を評価する。これには、表構造やセル間の関係の保持、数値データとテキストコンテンツの両方の正確な抽出が含まれる。たとえば、表の長さや要素がまばらか詰まっているか、構造化されているか否かといった観点から作成された表に対して抽出能力が評価される。以下に表の例を示す。

このような表の画像が与えられたとき、以下のような値を正確に抽出する能力を評価する。
| Col_1 | Col_2 | Col_3 | Col_4 | |
|---|---|---|---|---|
| 0 | VNw0 | Gh88JrS | VLIYGO9tW | tJjJe4P |
| 1 | iH6oqkgBA | YYquNGSnYj | J6St | QGoB7N5Don |
| 2 | IRc9Yh23bL | JrRV9 | AWSQ4sZJ8c | RWrVEA2qZm |
| 3 | q36HNr8kQ | 0kUvmR | yX5GKdfiQ | |
| 4 | Xj9gNx5 | qB0 | qRs9I | fkdP |
| 5 | v8kAFwVF | IwH41MeCcW | lJmm0 | 18F6D |
| 6 | Igu6Tv | x9H | jtelKs38C | jxLoTjR |
記事の執筆時点では、Claude系のモデルが良い結果となっている。

まとめ
まとめると、Intelligent Document Processing Leaderboardは多様な文書タスクに対するモデルの実力を一元的に比較できる貴重なリーダーボードと言える。産業利用を検討する人にとってはモデル選定の参考になる。今後、より複雑な文書形式や多言語対応が加われば、さらに強力なベンチマークへと成長していくだろう。