日本語対応 OCR モデルの比較

アイキャット画像

はじめに

コストの面から、個人利用無料のYomiTokuというローカルOCRを使っていますが、どの程度の精度なのか知るために、簡単に他のOCRモデルと比較してみました。

OCR専用でないものも含めて、以下のモデルを比較対象としました。

読み取られるべき文章が、正確にわからなければ精度を評価できません。そこで、AI でテキストを生成し、さらに画像化したものをOCR対象としました。

また、画質の影響も知りたかったので、それぞれの画像化テキストにノイズも追加してみました。

経験的に、旧字などは精度が低い印象をもっています。そういった使用される文字の影響を考えて、以下の7種類の日本語テキストソースを用意しました。

全て、AIに簡単に特徴を説明して生成させた架空の小説テキストです。 (ソース名にテキストファイル全文をリンクしています)

以下の5種類のノイズを画像に追加しました。

CER（Character Error Rate）を主な評価指標としました。レーベンシュタイン距離の各操作の回数を、文字数で割ることで、算出します。低いほど良い性能を示します。

CER = (置換 + 挿入 + 削除) / 文字数

0であれば、完全一致となります。

なお、レイアウトなどはモデルによって扱いが異なり、今回の興味の範囲にないので、空白や改行を無視して計算しています。

google: 0.0547（median 0.0545）。全ノイズで安定して最良。Poissonでも0.0946に踏みとどまる。
azure: 0.2145（median 0.0108）。Poisson以外は0.018前後と最高だが、Poissonは全件CER=1.0で全滅。
yomitoku-cuda / cpu: 0.2161（median 0.021）。azureと同様にPoissonで壊滅（~0.99）。GPUとCPUの精度は同じだがGPUの方が速い。
tesseract: 0.346（median 0.204）。Poissonでほぼ1.0。非Poissonは0.18程度。
openai-*: mini 0.42、4o-mini 0.86、gpt-5 0.93、nano 0.99と精度が低く、今回の条件では不適。

モデル別平均CER比較

Poissonが突出して難しく、平均CER 0.877。azure / yomitoku / tesseract / openaiはほぼ全滅。GoogleだけPoissonでも0.04〜0.14程度で踏みとどまる。
Poissonを除外するとazure 0.0181、yomitoku 0.0229、google 0.0447と、azure/yomitokuが最良。
他のノイズ（none/gaussian/speckle/salt-pepper）はモデル順位をほぼ変えず、影響は小さい。

Poisson有無での比較

ソース別平均CER

速度: azure や、ローカルの tesseract、yomitoku-cuda が速く、OpenAI系は10〜40sと遅い。

処理時間

価格感: 最安はopenai-gpt-5-nano（0.00072）だが精度が低い。実用域で考えるとAzure/Googleが約0.001前後で安く、OpenAI系（4o-mini/5/5-mini）は0.004〜0.006と高め。yomitoku / tesseractはローカルなので電気代だけとなり、最安の可能性が高い。
価格は実際に処理された入出力トークン数に基づいて算出。