什么是 OCR 及其用途?
OCR 是光学字符识别(Optical Character Recognition)的缩写。这是一种允许计算机"读取"图像中出现的文本并将其转换为真实的、可编辑和可搜索的数字文本的技术。
当你在纸张上扫描文档时 — 签署的合同、旧发票、书籍页面 — 结果是纸张的照片。虽然生成的 PDF 看起来像文本文档,但实际上只是照片。你不能使用 Ctrl+F 搜索单词,不能复制段落,不能选择文本。OCR 将该图像转换为真实的文本文档。
何时需要进行 OCR?
- 扫描的 PDF:没有 OCR 扫描的物理文档
- 旧发票:当你需要复制数据用于会计或数据库时
- 数字化合同:搜索特定条款或复制条件
- 书籍和出版物:数字化内容以进行引用或搜索
- 文件照片:用手机拍摄的纸质文件照片
- 历史档案:归档文件的数字化
- 手写表格:提取手写数据
OCR 的工作原理(简化解释)
- 预处理:图像得到改进:增加对比度、纠正倾斜 (deskewing)、消除背景噪音。
- 分割:OCR 引擎识别页面中的文本区域、列、表格、图像和其他元素。
- 字符识别:每个字符被分析并与所选语言中已知形状的数据库进行比较。
- 语言纠正:引擎使用语言词典根据上下文纠正识别错误。
- PDF 生成:创建一个包含"隐形"文本层的 PDF,覆盖在原始图像上,保留视觉外观但添加可搜索文本。
使用我们的工具对 PDF 进行 OCR
- 访问工具:前往对 PDF 进行 OCR。
- 上传扫描的 PDF:拖动文件或选择。你也可以直接上传图像(JPG、PNG、TIFF)。
- 选择语言:选择文档的主要语言(西班牙语、英语、法语、德语等)。这大大提高了精度。
- 选择输出类型:
- 可搜索的 PDF:保留原始图像并添加隐形文本。外观与原始完全相同。
- 可编辑的 PDF:用格式化的真实文本替换图像。更可编辑,但可能会丢失原始设计。
- 处理并下载:OCR 根据文档大小和复杂性需要 10 到 60 秒。
建议:为了保持文档的原始外观(签名、徽标、印章)并仅添加搜索功能,总是选择"可搜索的 PDF"。如果你需要编辑文本,选择"可编辑的 PDF"或更好的是,使用我们的PDF 转 Word 工具之后转换。
OCR 支持的语言
我们的 OCR 工具支持超过 100 种语言,包括:
| 地区 | 主要语言 |
|---|---|
| 西欧 | 西班牙语、英语、法语、德语、意大利语、葡萄牙语、荷兰语 |
| 东欧 | 波兰语、捷克语、匈牙利语、罗马尼亚语、保加利亚语、俄语 |
| 亚洲 | 简体中文、繁体中文、日语、韩语、阿拉伯语 |
| 拉丁美洲 | 西班牙语(带重音、ñ、波浪线)、巴西葡萄牙语 |
| 其他 | 希伯来语、泰语、越南语、希腊语、土耳其语 |
获得 OCR 最大精度的提示
原始文档质量
- 推荐最小分辨率:300 DPI。低于 200 DPI 时精度显著下降。
- 对比度:黑色文本在白色背景上是理想的。浅灰色文本在白色背景上效果更差。
- 倾斜:如果文档倾斜超过 10 度,OCR 会失去精度。我们的工具可自动纠正较小的倾斜。
- 污迹和噪音:带有污迹、在文本上的印章或非常泛黄纸张的文档效果更差。
OCR 配置
- 选择正确的语言:这是精度最重要的因素。针对英语配置的 OCR 在西班牙语中会给出不好的结果(会混淆 ñ、重音等)。
- 使用多语言 OCR:如果文档用多种语言编写,同时选择两种语言。
- 对于含有列的文档:现代 OCR 引擎自动检测列布局,但对于非常复杂的布局(杂志、报纸),精度可能较低。
我可以期望什么精度?
现代 OCR 在最优条件下精度非常高:
- 印刷文档、高质量、300 DPI:99%+ 精度
- 印刷文档、中等质量、200 DPI:95-98% 精度
- 带有污迹或皱纹的扫描文档:85-95% 精度
- 手写文字:60-80%(手写文字更难识别)
- 装饰或风格化字体:可变,可能较低
多页文档中的 OCR
我们的工具一次处理多页文档。你不需要逐页进行 OCR。结果是一个单一 PDF,所有页面都可搜索,保留原始文档的顺序和结构。
OCR 后:提取文本的用途
一旦 PDF 有可搜索的文本,你可以:
- 使用 Ctrl+F 搜索任何 PDF 阅读器中的关键词
- 复制文本片段以引用或重复使用
- 在文档管理系统中索引文档
- 使用我们的PDF 转 Word 工具将其转换为 Word 以进行完整编辑
- 在文本分析或人工智能工具上使用内容