Baiduの「Unlimited OCR」が無料公開:数十ページPDFも高速処理、商用利用も可能に

-

この記事のポイント

  • Baiduが開発した高性能OCRモデル「Unlimited OCR」がMITライセンスで無料公開された。
  • 数十ページにわたる長文PDFも一度に高速処理でき、商用利用も認められている。
  • 人間のワーキングメモリを模倣した「Reference Sliding Window Attention(R-SWA)」技術により、メモリ消費を抑えつつ高精度を実現。

Baiduの研究チームは、数十ページに及ぶ長文PDFを一括で処理できるエンドツーエンドのOCRモデル「Unlimited OCR」を、MITライセンスの下で無料公開しました。このモデルは商用利用も可能であり、これまでのOCR技術が抱えていた長文処理時の課題を解決し、文書デジタル化の新たな可能性を広げるものとして注目されています。

Unlimited OCRとは?長文PDF処理の課題を解決

近年、大規模言語モデル(LLM)をデコーダーに採用したOCRモデルが注目を集めています。これらのモデルは、言語の文脈知識を活用して認識精度を高めるメリットがある一方で、出力テキストが長くなるにつれて「KVキャッシュ」(過去の計算結果を保持するメモリ)が累積し、メモリ消費量の増加やテキスト生成速度の低下といった課題に直面していました。

Baiduの研究チームは、この長文処理におけるメモリ効率と速度の課題を克服するため、革新的なアテンション機構「Reference Sliding Window Attention(R-SWA)」を開発しました。これにより、Unlimited OCRは数十ページ規模のドキュメントでも一度の計算でテキスト化できるようになり、従来のモデルでは困難だった大規模な文書処理を効率的に行えるようになります。

人間の認知プロセスを模倣した「R-SWA」技術

R-SWAは、人間が本を書き写す際の認知プロセスを模倣しています。人間が膨大な量の文章を書き写す際、これまでに書き終えたすべてのページを読み返すことはせず、手元の参照元と直前に書いたわずかな文字だけを確認しながら次の文字を書き進めます。この効率的な情報の参照方法をAIモデルに応用したのがR-SWAです。

この技術では、生成される各トークンがドキュメント全体の視覚情報にはアクセスできる一方で、過去の出力テキストに関しては直近の一定数(標準で128個)のトークンに絞ってアテンションを向けます。この仕組みにより、Unlimited OCRはドキュメント全体の情報を正確に保持しつつ、デコード中のKVキャッシュのサイズを一定に保つことに成功しました。これにより、長文処理におけるメモリ消費の増大と速度低下の問題が解決されています。

DeepEncoderとの組み合わせと高い性能評価

Unlimited OCRは、高い画像圧縮率を持つDeepSeek OCRのエンコーダー「DeepEncoder」と組み合わせて利用されます。この組み合わせにより、標準的な32Kトークンの最大長において、数十ページに及ぶドキュメントをわずか1回の計算でテキスト化する能力を実現しました。

性能評価では、Unlimited OCRはドキュメント解析のベンチマークである「OmniDocBench v1.5」において、93.23%という総合スコアを記録。これはDeepSeek OCR 2の89.17%を上回る結果であり、その高い認識精度と処理能力が実証されています。

OmniDocBench v1.5とv1.6におけるUnlimited OCRと他モデルの性能比較グラフ

【管理人の視点】日本のユーザーにとっての「Unlimited OCR」の可能性

Baiduによる「Unlimited OCR」の無料公開、しかも商用利用が可能なMITライセンスでの提供は、日本のビジネスシーンや研究開発において大きな影響をもたらす可能性があります。

まず、無料かつ商用利用可能である点は、特に予算が限られる中小企業やスタートアップ、個人開発者にとって朗報です。これまで高価なOCRソリューションの導入が難しかった企業でも、高性能なOCR技術を自社のシステムに組み込み、文書処理の自動化や効率化を図れるようになります。契約書、論文、報告書など、数十ページにわたるPDF文書を日常的に扱う業界(法務、研究機関、出版、行政など)では、その作業効率が飛躍的に向上するでしょう。

また、ローカルで動作するモデルであるため、機密性の高い情報を扱う際にも、外部サーバーにデータを送信する必要がなく、セキュリティ面での懸念を軽減できるメリットがあります。オフライン環境での利用も可能となるため、ネットワーク環境に依存しない安定した運用が期待されます。

現時点では日本語対応の詳細については言及されていませんが、もし高い精度で日本語の長文PDF処理に対応するようになれば、日本の多くの企業や研究機関にとって、業務プロセスの大幅な改善に貢献する強力なツールとなるでしょう。今後の日本語対応の動向には、引き続き注目が集まります。

まとめ

Baiduが無料公開したローカルOCRモデル「Unlimited OCR」は、人間の認知プロセスを模倣した「R-SWA」技術により、従来のOCRが抱えていた長文PDF処理の課題を解決しました。高い認識精度と商用利用可能なライセンスにより、文書デジタル化の効率を大幅に向上させ、多くの企業や開発者にとって新たな可能性を切り開く技術となるでしょう。今後のさらなる進化と応用が期待されます。

情報元:techno-edge.net

合わせて読みたい  PS Vita/PSP/DUALSHOCK対応!マルチ充電ケーブルで懐かしのゲーム機を再起動

著者

カテゴリー

Related Stories