OCR とは何で、何に使いますか?
OCR は光学文字認識の略語です。それはコンピューターが画像に表示されるテキストを「読んで」、編集可能で検索可能な実際のデジタルテキストに変換する技術です。
紙のドキュメントをスキャンするとき(署名された契約、古い請求書、本のページ)、結果は紙の写真です。結果の PDF はテキストドキュメントのように見えますが、実際にはそれだけが写真です。Ctrl+F で言葉を検索することはできず、段落をコピーすることはできず、テキストを選択することはできません。OCR はその画像を実際のテキストドキュメントに変換します。
OCR が必要な場合
- スキャンされた PDF: OCR なしで撮影または走査された物理ドキュメント
- 古い請求書: 会計またはデータベースのためにデータをコピーする必要がある場合
- デジタル化された契約: 特定の条項を検索するか、用語をコピーするため
- 書籍および出版物: コンテンツをデジタル化し、引用を作成または検索するため
- ドキュメントの写真: 紙のドキュメントの携帯電話写真
- アーカイブファイル: ファイルドキュメントのデジタル化
- 手書きのフォーム: 手動で書かれたデータを抽出するため
OCR がどのように機能するか(簡略版)
- 前処理: 画像が改善されます:コントラストが増加し、歪度が修正され(deskewing)、背景ノイズが削除されます。
- セグメンテーション: OCR エンジンがテキスト領域、列、テーブル、画像、およびページ内の他の要素を識別します。
- 文字認識: 各文字を分析し、選択された言語で既知の形状のデータベースと比較します。
- 言語訂正: エンジンは文脈に基づいて認識エラーを修正するために言語辞書を使用します。
- PDF 生成: 元の画像に重ねられた「目に見えない」テキスト層を持つ PDF が作成され、視覚的な外観を保存しますが、検索可能なテキストを追加します。
当社のツールで PDF に OCR を実行する方法
- ツールにアクセス: PDF に OCR を実行に移動します。
- スキャンされた PDF をアップロード: ファイルをドラッグするか選択してください。JPG、PNG、TIFF イメージを直接アップロードすることもできます。
- 言語を選択: ドキュメントの主要言語を選択します(スペイン語、英語、フランス語、ドイツ語など)。これは精度を大幅に改善します。
- 出力タイプを選択:
- 検索可能な PDF: 元の画像を保存し、テキストを見えないものを追加します。元のものと同じです。
- 編集可能な PDF: 画像を実際の形式化されたテキストに置き換えます。より編集可能ですが、元のデザインを失う可能性があります。
- 処理とダウンロード: OCR はドキュメントのサイズと複雑性に応じて 10 ~ 60 秒を取ります。
推奨事項: ドキュメント(署名、ロゴ、スタンプ)の元の外観を保存して、検索能力のみを追加するには、常に「検索可能な PDF」を選択してください。テキストを編集する必要がある場合は、「編集可能な PDF」を選択するか、PDF から Word ツールを使用して後でそれを変換してください。
OCR でサポートされている言語
当社の OCR ツールは 100 以上の言語をサポートしており、以下が含まれます:
| 地域 | 主要言語 |
|---|---|
| 西ヨーロッパ | スペイン語、英語、フランス語、ドイツ語、イタリア語、ポルトガル語、オランダ語 |
| 東ヨーロッパ | ポーランド語、チェコ語、ハンガリー語、ルーマニア語、ブルガリア語、ロシア語 |
| アジア | 簡体字中国語、繁体字中国語、日本語、韓国語、アラビア語 |
| ラテンアメリカ | スペイン語(アクセント、ñ、ティルダ)、ブラジルポルトガル語 |
| その他 | ヘブライ語、タイ語、ベトナム語、ギリシャ語、トルコ語 |
OCR で最大精度を得るための秘訣
元のドキュメント品質
- 推奨最小解像度: 300 DPI。200 DPI 未満、精度は大幅に低下します。
- 対比: 白い背景上の黒いテキストが最適です。白い背景上の薄いグレーのテキストはより悪い結果をもたらします。
- 傾斜: ドキュメントが 10 度以上歪んでいる場合、OCR は精度を失います。当社のツールは自動的に軽い歪度を修正します。
- 汚れとノイズ: 汚れ、テキスト上のスタンプ、または非常に黄色いペーパーを持つドキュメントはより悪い結果をもたらします。
OCR 構成
- 正しい言語を選択: 精度の最も重要な要因です。英語用に設定された OCR はスペイン語で悪い結果を与えます(ñ、アクセント等を混乱させます)。
- 多言語 OCR を使用: ドキュメントに複数の言語のテキストがある場合、両方の言語を同時に選択します。
- 列を含むドキュメントの場合: 最新の OCR エンジンは列レイアウトを自動的に検出しますが、非常に複雑なレイアウト(雑誌、新聞)の場合、精度は低下する可能性があります。
OCR から期待できる精度
最適な条件での最新 OCR の精度は非常に高いです:
- 印刷されたドキュメント、高品質、300 DPI: 99%+ 精度
- 印刷されたドキュメント、中程度の品質、200 DPI: 95-98% 精度
- スキャンされたドキュメント(汚れやしわ付き): 85-95% 精度
- 手書き: 60-80%(手書きは認識がはるかに難しい)
- 装飾的またはスタイルフォント: 変数、低い場合があります
複数ページドキュメントで OCR
当社のツールは複数ページのドキュメントを一度に処理します。ページごとに OCR を実行する必要はありません。結果は、すべてのページが検索可能で、元のドキュメントの順序と構造を保ちながら単一の PDF です。
OCR の後:抽出されたテキストの用途
PDF がテキストを検索できることがわかったら、以下を実行できます:
- 任意の PDF リーダーで Ctrl+F でキーワードを検索します
- 引用に使用するテキストのフラグメントをコピーします
- ドキュメント管理システムでドキュメントをインデックスする
- PDF から Word ツールを使用して Word に変換して、完全に編集します
- テキスト分析またはコンテンツについて AI ツールを使用します