什麼是 OCR,有什麼用途?
OCR 是 Optical Character Recognition(光學字元辨識)的縮寫。這是一種讓電腦能夠「讀取」圖片中出現的文字,並將其轉換為真正的數位文字(可編輯且可搜尋)的技術。
當您掃描紙質文件——簽署的合約、舊發票、書頁——結果是一張紙的照片。儘管生成的 PDF 看起來像一份文字文件,但實際上只是一張照片。您無法按 Ctrl+F 搜尋詞語,無法複製段落,也無法選取文字。OCR 將那張圖片轉換為真正的文字文件。
何時需要進行 OCR?
- 掃描的 PDF:未進行 OCR 而拍攝或掃描的實體文件
- 舊發票:需要複製資料到會計系統或資料庫時
- 數位化合約:搜尋特定條款或複製條件時
- 書籍和出版物:數位化內容以進行引用或搜尋
- 文件照片:用手機拍攝的紙質文件照片
- 歷史檔案:文件檔案的數位化
- 手寫填寫的表格:擷取手寫資料
OCR 如何運作(簡化說明)
- 前置處理:圖片得到改善:增加對比度、校正傾斜(去歪斜)、消除背景雜訊。
- 分割:OCR 引擎識別頁面上的文字區域、欄、表格、圖片和其他元素。
- 字元辨識:分析每個字元,並與所選語言的已知形狀資料庫進行比較。
- 語言校正:引擎使用語言詞典,根據上下文校正辨識錯誤。
- PDF 生成:建立一個 PDF,在原始圖片上疊加「不可見」的文字層,保留視覺外觀但添加可搜尋的文字。
如何使用我們的工具對 PDF 進行 OCR
- 進入工具:前往 對 PDF 進行 OCR。
- 上傳您掃描的 PDF:拖曳檔案或選取它。您也可以直接上傳圖片(JPG、PNG、TIFF)。
- 選擇語言:選取文件的主要語言(中文、英文、法文、德文等)。這將顯著提高精度。
- 選取輸出類型:
- 可搜尋的 PDF:保留原始圖片並添加不可見文字。外觀與原始文件完全相同。
- 可編輯的 PDF:用真正的格式化文字替換圖片。更可編輯,但可能失去原始設計。
- 處理並下載:根據文件大小和複雜性,OCR 需要 10 到 60 秒。
建議:若要保留原始文件外觀(簽名、標誌、印章)並只添加搜尋功能,請始終選擇「可搜尋的 PDF」。如果需要編輯文字,請選擇「可編輯的 PDF」,或更好的是,之後使用我們的 PDF 轉 Word 工具轉換。
支援的 OCR 語言
我們的 OCR 工具支援 100 多種語言,包括:
| 地區 | 主要語言 |
|---|---|
| 西歐 | 西班牙語、英語、法語、德語、義大利語、葡萄牙語、荷蘭語 |
| 東歐 | 波蘭語、捷克語、匈牙利語、羅馬尼亞語、保加利亞語、俄語 |
| 亞洲 | 簡體中文、繁體中文、日語、韓語、阿拉伯語 |
| 拉丁美洲 | 西班牙語(含重音符號、特殊字元)、巴西葡萄牙語 |
| 其他 | 希伯來語、泰語、越南語、希臘語、土耳其語 |
獲得最高 OCR 精度的技巧
原始文件品質
- 最低建議解析度:300 DPI。低於 200 DPI 時精度會顯著下降。
- 對比度:白底黑字是理想的。白底淺灰色文字效果較差。
- 傾斜:如果文件傾斜超過 10 度,OCR 精度會下降。我們的工具會自動校正較小的傾斜。
- 污漬和雜訊:有污漬、印章覆蓋文字或紙張發黃的文件效果較差。
OCR 設定
- 選擇正確的語言:這是精度最重要的因素。設定為英文的 OCR 在中文文件上效果不佳(會混淆字元等)。
- 使用多語言 OCR:如果文件包含多種語言的文字,同時選取兩種語言。
- 對於有欄的文件:現代 OCR 引擎會自動檢測多欄設計,但對非常複雜的版面(雜誌、報紙)精度可能較低。
OCR 的精度可以達到多少?
在最佳條件下,現代 OCR 的精度非常高:
- 印刷文件,高品質,300 DPI:99% 以上的精度
- 印刷文件,中等品質,200 DPI:95-98% 的精度
- 有污漬或皺紋的掃描文件:85-95% 的精度
- 手寫文字:60-80%(手寫更難辨識)
- 裝飾性或風格化字型:可變,可能較低
多頁文件的 OCR
我們的工具一次處理多頁文件。您不需要逐頁進行 OCR。結果是一個包含所有可搜尋頁面的單一 PDF,保留原始文件的順序和結構。
OCR 後:提取文字的用途
一旦 PDF 具有可搜尋的文字,您可以:
- 在任何 PDF 閱讀器中使用 Ctrl+F 搜尋關鍵詞
- 複製文字片段以引用或重複使用
- 在文件管理系統中索引文件
- 使用我們的 PDF 轉 Word 工具將其轉換為可完整編輯的 Word
- 在內容上使用文字分析工具或 AI