ToolBox — Công cụ PDF trực tuyến miễn phí

OCR là gì và dùng để làm gì?

OCR là viết tắt của Optical Character Recognition (Nhận dạng ký tự quang học). Đây là công nghệ cho phép máy tính "đọc" văn bản xuất hiện trong hình ảnh và chuyển đổi thành văn bản kỹ thuật số thực sự, có thể chỉnh sửa và tìm kiếm.

Khi bạn scan một tài liệu giấy — hợp đồng đã ký, hóa đơn cũ, trang sách — kết quả là một hình ảnh chụp ảnh của tờ giấy. Dù file PDF trông có vẻ là tài liệu văn bản, thực ra đó chỉ là một bức ảnh. Bạn không thể dùng Ctrl+F để tìm từ, không thể sao chép đoạn văn, không thể chọn văn bản. OCR chuyển đổi hình ảnh đó thành tài liệu văn bản thực sự.

Khi nào bạn cần thực hiện OCR?

PDF đã scan: Tài liệu vật lý được chụp ảnh hoặc scan mà không có OCR
Hóa đơn cũ: Khi bạn cần sao chép dữ liệu cho kế toán hoặc cơ sở dữ liệu
Hợp đồng số hóa: Để tìm kiếm các điều khoản cụ thể hoặc sao chép điều kiện
Sách và ấn phẩm: Để số hóa nội dung và trích dẫn hoặc tìm kiếm
Ảnh chụp tài liệu: Ảnh chụp bằng điện thoại của tài liệu giấy
Hồ sơ lịch sử: Số hóa tài liệu lưu trữ
Biểu mẫu điền tay: Để trích xuất dữ liệu được viết thủ công

OCR hoạt động như thế nào (đơn giản hóa)

Tiền xử lý: Hình ảnh được cải thiện: tăng độ tương phản, sửa độ nghiêng (deskewing), loại bỏ nhiễu nền.
Phân đoạn: Công cụ OCR xác định các vùng văn bản, cột, bảng, hình ảnh và các yếu tố khác trên trang.
Nhận dạng ký tự: Mỗi ký tự được phân tích và so sánh với cơ sở dữ liệu các hình dạng đã biết trong ngôn ngữ được chọn.
Hiệu chỉnh ngôn ngữ: Công cụ dùng từ điển ngôn ngữ để sửa lỗi nhận dạng dựa trên ngữ cảnh.
Tạo PDF: Tạo PDF với lớp văn bản "vô hình" chồng lên hình ảnh gốc, giữ nguyên giao diện nhưng thêm văn bản có thể tìm kiếm.

Cách thực hiện OCR trên PDF bằng công cụ của chúng tôi

Truy cập công cụ: Vào thực hiện OCR trên PDF.
Tải lên PDF đã scan: Kéo thả file hoặc chọn file. Bạn cũng có thể tải lên hình ảnh trực tiếp (JPG, PNG, TIFF).
Chọn ngôn ngữ: Chọn ngôn ngữ chính của tài liệu (tiếng Việt, tiếng Anh, tiếng Pháp, tiếng Đức, v.v.). Điều này cải thiện đáng kể độ chính xác.
Chọn loại đầu ra:
- PDF có thể tìm kiếm: Giữ nguyên hình ảnh gốc và thêm văn bản vô hình. Giao diện giống hệt bản gốc.
- PDF có thể chỉnh sửa: Thay thế hình ảnh bằng văn bản thực được định dạng. Dễ chỉnh sửa hơn nhưng có thể mất thiết kế gốc.
Xử lý và tải xuống: OCR mất từ 10 đến 60 giây tùy kích thước và độ phức tạp của tài liệu.

Khuyến nghị: Để giữ nguyên giao diện tài liệu gốc (chữ ký, logo, con dấu) và chỉ thêm khả năng tìm kiếm, hãy luôn chọn "PDF có thể tìm kiếm". Nếu cần chỉnh sửa văn bản, chọn "PDF có thể chỉnh sửa" hoặc tốt hơn là chuyển đổi sang Word bằng công cụ PDF sang Word của chúng tôi.

Các ngôn ngữ được hỗ trợ cho OCR

Công cụ OCR của chúng tôi hỗ trợ hơn 100 ngôn ngữ, bao gồm:

Khu vực	Ngôn ngữ chính
Tây Âu	Tiếng Tây Ban Nha, Anh, Pháp, Đức, Ý, Bồ Đào Nha, Hà Lan
Đông Âu	Tiếng Ba Lan, Séc, Hungary, Romania, Bulgaria, Nga
Châu Á	Tiếng Trung giản thể, Trung phồn thể, Nhật, Hàn, Ả Rập
Mỹ Latinh	Tiếng Tây Ban Nha (có dấu, ñ), tiếng Bồ Đào Nha Brazil
Khác	Tiếng Do Thái, Thái, Việt, Hy Lạp, Thổ Nhĩ Kỳ

Mẹo để đạt độ chính xác tối đa trong OCR

Chất lượng tài liệu gốc

Độ phân giải tối thiểu khuyến nghị: 300 DPI. Dưới 200 DPI độ chính xác giảm đáng kể.
Độ tương phản: Văn bản đen trên nền trắng là lý tưởng nhất. Văn bản xám nhạt trên nền trắng cho kết quả kém hơn.
Độ nghiêng: Nếu tài liệu nghiêng hơn 10 độ, OCR mất độ chính xác. Công cụ của chúng tôi tự động sửa các độ nghiêng nhỏ.
Vết bẩn và nhiễu: Tài liệu có vết bẩn, con dấu đè lên văn bản hoặc giấy vàng nhiều cho kết quả kém hơn.

Cấu hình OCR

Chọn đúng ngôn ngữ: Đây là yếu tố quan trọng nhất cho độ chính xác. OCR được cấu hình cho tiếng Anh sẽ cho kết quả kém với tiếng Việt.
Dùng OCR đa ngôn ngữ: Nếu tài liệu có văn bản nhiều ngôn ngữ, chọn cả hai ngôn ngữ đồng thời.
Với tài liệu có cột: Các công cụ OCR hiện đại tự động phát hiện bố cục cột, nhưng với các bố cục phức tạp (tạp chí, báo) độ chính xác có thể thấp hơn.

Tôi có thể kỳ vọng độ chính xác như thế nào từ OCR?

Độ chính xác của OCR hiện đại rất cao trong điều kiện tối ưu:

Tài liệu in, chất lượng cao, 300 DPI: Độ chính xác 99%+
Tài liệu in, chất lượng trung bình, 200 DPI: Độ chính xác 95-98%
Tài liệu scan có vết bẩn hoặc nhăn: Độ chính xác 85-95%
Chữ viết tay: 60-80% (chữ viết tay khó nhận dạng hơn nhiều)
Phông chữ trang trí hoặc cách điệu: Thay đổi, có thể thấp

OCR trong tài liệu nhiều trang

Công cụ của chúng tôi xử lý tài liệu nhiều trang chỉ một lần. Bạn không cần thực hiện OCR từng trang. Kết quả là một PDF duy nhất với tất cả các trang có thể tìm kiếm, giữ nguyên thứ tự và cấu trúc của tài liệu gốc.

Sau OCR: các cách sử dụng văn bản đã trích xuất

Khi PDF đã có văn bản có thể tìm kiếm, bạn có thể:

Tìm kiếm từ khóa bằng Ctrl+F trong bất kỳ trình đọc PDF nào
Sao chép các đoạn văn để trích dẫn hoặc tái sử dụng
Lập chỉ mục tài liệu trong hệ thống quản lý tài liệu
Chuyển đổi sang Word bằng công cụ PDF sang Word của chúng tôi để chỉnh sửa hoàn toàn
Sử dụng công cụ phân tích văn bản hoặc AI trên nội dung

Làm cho PDF của bạn có thể tìm kiếm ngay bây giờ

Áp dụng OCR cho bất kỳ PDF đã scan nào và chuyển đổi thành văn bản có thể tìm kiếm và sao chép. Miễn phí, không cần cài đặt.

Thực hiện OCR PDF miễn phí →