tutorials April 9, 2026 Herramientas Gratis Team

如何对扫描的 PDF 进行 OCR — 文本可搜索和可编辑

了解什么是 OCR、如何从扫描中创建可搜索的 PDF、支持的语言以及获得最大识别精度的提示。

如何对扫描的 PDF 进行 OCR — 文本可搜索和可编辑

什么是 OCR 及其用途?

OCR 是光学字符识别(Optical Character Recognition)的缩写。这是一种允许计算机"读取"图像中出现的文本并将其转换为真实的、可编辑和可搜索的数字文本的技术。

当你在纸张上扫描文档时 — 签署的合同、旧发票、书籍页面 — 结果是纸张的照片。虽然生成的 PDF 看起来像文本文档,但实际上只是照片。你不能使用 Ctrl+F 搜索单词,不能复制段落,不能选择文本。OCR 将该图像转换为真实的文本文档。

何时需要进行 OCR?

  • 扫描的 PDF:没有 OCR 扫描的物理文档
  • 旧发票:当你需要复制数据用于会计或数据库时
  • 数字化合同:搜索特定条款或复制条件
  • 书籍和出版物:数字化内容以进行引用或搜索
  • 文件照片:用手机拍摄的纸质文件照片
  • 历史档案:归档文件的数字化
  • 手写表格:提取手写数据

OCR 的工作原理(简化解释)

  1. 预处理:图像得到改进:增加对比度、纠正倾斜 (deskewing)、消除背景噪音。
  2. 分割:OCR 引擎识别页面中的文本区域、列、表格、图像和其他元素。
  3. 字符识别:每个字符被分析并与所选语言中已知形状的数据库进行比较。
  4. 语言纠正:引擎使用语言词典根据上下文纠正识别错误。
  5. PDF 生成:创建一个包含"隐形"文本层的 PDF,覆盖在原始图像上,保留视觉外观但添加可搜索文本。

使用我们的工具对 PDF 进行 OCR

  1. 访问工具:前往对 PDF 进行 OCR
  2. 上传扫描的 PDF:拖动文件或选择。你也可以直接上传图像(JPG、PNG、TIFF)。
  3. 选择语言:选择文档的主要语言(西班牙语、英语、法语、德语等)。这大大提高了精度。
  4. 选择输出类型:
    • 可搜索的 PDF:保留原始图像并添加隐形文本。外观与原始完全相同。
    • 可编辑的 PDF:用格式化的真实文本替换图像。更可编辑,但可能会丢失原始设计。
  5. 处理并下载:OCR 根据文档大小和复杂性需要 10 到 60 秒。
建议:为了保持文档的原始外观(签名、徽标、印章)并仅添加搜索功能,总是选择"可搜索的 PDF"。如果你需要编辑文本,选择"可编辑的 PDF"或更好的是,使用我们的PDF 转 Word 工具之后转换。

OCR 支持的语言

我们的 OCR 工具支持超过 100 种语言,包括:

地区 主要语言
西欧 西班牙语、英语、法语、德语、意大利语、葡萄牙语、荷兰语
东欧 波兰语、捷克语、匈牙利语、罗马尼亚语、保加利亚语、俄语
亚洲 简体中文、繁体中文、日语、韩语、阿拉伯语
拉丁美洲 西班牙语(带重音、ñ、波浪线)、巴西葡萄牙语
其他 希伯来语、泰语、越南语、希腊语、土耳其语

获得 OCR 最大精度的提示

原始文档质量

  • 推荐最小分辨率:300 DPI。低于 200 DPI 时精度显著下降。
  • 对比度:黑色文本在白色背景上是理想的。浅灰色文本在白色背景上效果更差。
  • 倾斜:如果文档倾斜超过 10 度,OCR 会失去精度。我们的工具可自动纠正较小的倾斜。
  • 污迹和噪音:带有污迹、在文本上的印章或非常泛黄纸张的文档效果更差。

OCR 配置

  • 选择正确的语言:这是精度最重要的因素。针对英语配置的 OCR 在西班牙语中会给出不好的结果(会混淆 ñ、重音等)。
  • 使用多语言 OCR:如果文档用多种语言编写,同时选择两种语言。
  • 对于含有列的文档:现代 OCR 引擎自动检测列布局,但对于非常复杂的布局(杂志、报纸),精度可能较低。

我可以期望什么精度?

现代 OCR 在最优条件下精度非常高:

  • 印刷文档、高质量、300 DPI:99%+ 精度
  • 印刷文档、中等质量、200 DPI:95-98% 精度
  • 带有污迹或皱纹的扫描文档:85-95% 精度
  • 手写文字:60-80%(手写文字更难识别)
  • 装饰或风格化字体:可变,可能较低

多页文档中的 OCR

我们的工具一次处理多页文档。你不需要逐页进行 OCR。结果是一个单一 PDF,所有页面都可搜索,保留原始文档的顺序和结构。

OCR 后:提取文本的用途

一旦 PDF 有可搜索的文本,你可以:

  • 使用 Ctrl+F 搜索任何 PDF 阅读器中的关键词
  • 复制文本片段以引用或重复使用
  • 在文档管理系统中索引文档
  • 使用我们的PDF 转 Word 工具将其转换为 Word 以进行完整编辑
  • 在文本分析或人工智能工具上使用内容

现在让你的 PDF 可搜索

对任何扫描的 PDF 应用 OCR,并将其转换为可搜索和可复制的文本。免费,无需安装。

免费对 PDF 进行 OCR →
Share
Related tools
OCR — 让PDF可搜索
Back to blog