tutorials April 9, 2026 Herramientas Gratis Team

如何对扫描的 PDF 进行 OCR — 文本可搜索和可编辑

了解什么是 OCR、如何从扫描中创建可搜索的 PDF、支持的语言以及获得最大识别精度的提示。

如何对扫描的 PDF 进行 OCR — 文本可搜索和可编辑

什么是 OCR 及其用途？

OCR 是光学字符识别（Optical Character Recognition）的缩写。这是一种允许计算机"读取"图像中出现的文本并将其转换为真实的、可编辑和可搜索的数字文本的技术。

当你在纸张上扫描文档时 — 签署的合同、旧发票、书籍页面 — 结果是纸张的照片。虽然生成的 PDF 看起来像文本文档，但实际上只是照片。你不能使用 Ctrl+F 搜索单词，不能复制段落，不能选择文本。OCR 将该图像转换为真实的文本文档。

何时需要进行 OCR？

扫描的 PDF：没有 OCR 扫描的物理文档
旧发票：当你需要复制数据用于会计或数据库时
数字化合同：搜索特定条款或复制条件
书籍和出版物：数字化内容以进行引用或搜索
文件照片：用手机拍摄的纸质文件照片
历史档案：归档文件的数字化
手写表格：提取手写数据

OCR 的工作原理（简化解释）

预处理：图像得到改进：增加对比度、纠正倾斜 (deskewing)、消除背景噪音。
分割：OCR 引擎识别页面中的文本区域、列、表格、图像和其他元素。
字符识别：每个字符被分析并与所选语言中已知形状的数据库进行比较。
语言纠正：引擎使用语言词典根据上下文纠正识别错误。
PDF 生成：创建一个包含"隐形"文本层的 PDF，覆盖在原始图像上，保留视觉外观但添加可搜索文本。

使用我们的工具对 PDF 进行 OCR

访问工具：前往对 PDF 进行 OCR。
上传扫描的 PDF：拖动文件或选择。你也可以直接上传图像（JPG、PNG、TIFF）。
选择语言：选择文档的主要语言（西班牙语、英语、法语、德语等）。这大大提高了精度。
选择输出类型：
- 可搜索的 PDF：保留原始图像并添加隐形文本。外观与原始完全相同。
- 可编辑的 PDF：用格式化的真实文本替换图像。更可编辑，但可能会丢失原始设计。
处理并下载：OCR 根据文档大小和复杂性需要 10 到 60 秒。

建议：为了保持文档的原始外观（签名、徽标、印章）并仅添加搜索功能，总是选择"可搜索的 PDF"。如果你需要编辑文本，选择"可编辑的 PDF"或更好的是，使用我们的PDF 转 Word 工具之后转换。

OCR 支持的语言

我们的 OCR 工具支持超过 100 种语言，包括：

地区	主要语言
西欧	西班牙语、英语、法语、德语、意大利语、葡萄牙语、荷兰语
东欧	波兰语、捷克语、匈牙利语、罗马尼亚语、保加利亚语、俄语
亚洲	简体中文、繁体中文、日语、韩语、阿拉伯语
拉丁美洲	西班牙语（带重音、ñ、波浪线）、巴西葡萄牙语
其他	希伯来语、泰语、越南语、希腊语、土耳其语

获得 OCR 最大精度的提示

原始文档质量

推荐最小分辨率：300 DPI。低于 200 DPI 时精度显著下降。
对比度：黑色文本在白色背景上是理想的。浅灰色文本在白色背景上效果更差。
倾斜：如果文档倾斜超过 10 度，OCR 会失去精度。我们的工具可自动纠正较小的倾斜。
污迹和噪音：带有污迹、在文本上的印章或非常泛黄纸张的文档效果更差。

OCR 配置

选择正确的语言：这是精度最重要的因素。针对英语配置的 OCR 在西班牙语中会给出不好的结果（会混淆 ñ、重音等）。
使用多语言 OCR：如果文档用多种语言编写，同时选择两种语言。
对于含有列的文档：现代 OCR 引擎自动检测列布局，但对于非常复杂的布局（杂志、报纸），精度可能较低。

我可以期望什么精度？

现代 OCR 在最优条件下精度非常高：

印刷文档、高质量、300 DPI：99%+ 精度
印刷文档、中等质量、200 DPI：95-98% 精度
带有污迹或皱纹的扫描文档：85-95% 精度
手写文字：60-80%（手写文字更难识别）
装饰或风格化字体：可变，可能较低

多页文档中的 OCR

我们的工具一次处理多页文档。你不需要逐页进行 OCR。结果是一个单一 PDF，所有页面都可搜索，保留原始文档的顺序和结构。

OCR 后：提取文本的用途

一旦 PDF 有可搜索的文本，你可以：

使用 Ctrl+F 搜索任何 PDF 阅读器中的关键词
复制文本片段以引用或重复使用
在文档管理系统中索引文档
使用我们的PDF 转 Word 工具将其转换为 Word 以进行完整编辑
在文本分析或人工智能工具上使用内容

现在让你的 PDF 可搜索

对任何扫描的 PDF 应用 OCR，并将其转换为可搜索和可复制的文本。免费，无需安装。

免费对 PDF 进行 OCR →

Back to blog