ToolBox — Alat PDF Online Percuma

Apa itu OCR dan untuk apa?

OCR adalah singkatan dari Optical Character Recognition (Pengenalan Karakter Optik). Ini adalah teknologi yang memungkinkan komputer untuk "membaca" teks yang muncul dalam gambar dan mengonversinya menjadi teks digital nyata, dapat diedit, dan dapat dicari.

Ketika Anda memindai dokumen di atas kertas — kontrak yang ditandatangani, faktur lama, halaman buku — hasilnya adalah gambar fotografis kertas. Meskipun PDF yang dihasilkan terlihat seperti dokumen teks, itu sebenarnya hanya foto. Anda tidak dapat melakukan Ctrl+F untuk mencari kata, Anda tidak dapat menyalin paragraf, Anda tidak dapat memilih teks. OCR mengubah gambar itu menjadi dokumen teks nyata.

Kapan Anda memerlukan OCR?

PDF yang dipindai: Dokumen fisik yang difoto atau dipindai tanpa OCR
Faktur lama: Ketika Anda perlu menyalin data untuk pembukuan atau database
Kontrak digital: Untuk mencari klausa tertentu atau menyalin istilah
Buku dan publikasi: Untuk mendigitalkan konten dan membuat kutipan atau pencarian
Foto dokumen: Foto yang diambil dengan ponsel dokumen di atas kertas
Arsip historis: Digitalisasi dokumen arsip
Formulir yang diisi dengan tangan: Untuk mengekstrak data yang ditulis dengan tangan

Cara kerja OCR (cara disederhanakan)

Pra-pemrosesan: Gambar ditingkatkan: kontras ditingkatkan, kemiringan dikoreksi (deskewing), noise latar belakang dihapus.
Segmentasi: Mesin OCR mengidentifikasi zona teks, kolom, tabel, gambar, dan elemen lain di halaman.
Pengenalan karakter: Setiap karakter dianalisis dan dibandingkan dengan database bentuk yang dikenal dalam bahasa yang dipilih.
Koreksi bahasa: Mesin menggunakan kamus bahasa untuk memperbaiki kesalahan pengenalan berdasarkan konteks.
Pembuatan PDF: PDF dibuat dengan lapisan teks "tidak terlihat" yang tumpang tindih pada gambar asli, mempertahankan aspek visual tetapi menambahkan teks yang dapat dicari.

Cara melakukan OCR pada PDF dengan alat kami

Akses alat: Buka lakukan OCR pada PDF.
Unggah PDF yang dipindai Anda: Seret file atau pilihnya. Anda juga dapat mengunggah gambar secara langsung (JPG, PNG, TIFF).
Pilih bahasa: Pilih bahasa utama dokumen (Spanyol, Inggris, Prancis, Jerman, dll.). Ini meningkatkan akurasi secara signifikan.
Pilih jenis output:
- PDF dapat dicari: Mempertahankan gambar asli dan menambahkan teks tidak terlihat. Tampilan identik dengan asli.
- PDF dapat diedit: Menggantikan gambar dengan teks yang diformat dengan nyata. Lebih dapat diedit tetapi mungkin kehilangan desain asli.
Proses dan unduh: OCR memerlukan waktu antara 10 dan 60 detik tergantung pada ukuran dan kompleksitas dokumen.

Rekomendasi: Untuk mempertahankan tampilan dokumen asli (tanda tangan, logo, cap) dan hanya menambahkan kemampuan pencarian, selalu pilih "PDF dapat dicari". Jika Anda perlu mengedit teks, pilih "PDF dapat diedit" atau lebih baik, konversi nanti ke Word dengan alat PDF ke Word kami.

Bahasa yang didukung untuk OCR

Alat OCR kami mendukung lebih dari 100 bahasa, termasuk:

Wilayah	Bahasa utama
Eropa Barat	Spanyol, Inggris, Prancis, Jerman, Italia, Portugis, Belanda
Eropa Timur	Polandia, Ceko, Hungaria, Rumania, Bulgaria, Rusia
Asia	Cina Sederhana, Cina Tradisional, Jepang, Korea, Arab
Amerika Latin	Spanyol (dengan aksen, ñ, tanda), Portugis Brasil
Lainnya	Ibrani, Thailand, Vietnam, Yunani, Turki

Tips untuk mendapatkan akurasi maksimal dalam OCR

Kualitas dokumen asli

Resolusi minimum yang disarankan: 300 DPI. Di bawah 200 DPI akurasi menurun secara signifikan.
Kontras: Teks hitam di atas latar belakang putih ideal. Teks abu-abu terang di atas latar belakang putih memberikan hasil yang lebih buruk.
Kemiringan: Jika dokumen miring lebih dari 10 derajat, OCR kehilangan akurasi. Alat kami secara otomatis memperbaiki kemiringan kecil.
Noda dan noise: Dokumen dengan noda, stempel di atas teks, atau kertas sangat menguning memberikan hasil yang lebih buruk.

Konfigurasi OCR

Pilih bahasa yang tepat: Ini adalah faktor paling penting untuk akurasi. OCR yang dikonfigurasi untuk Inggris akan memberikan hasil yang buruk dalam Spanyol (akan membingungkan ñ, aksen, dll.).
Gunakan OCR multi-bahasa: Jika dokumen memiliki teks dalam beberapa bahasa, pilih kedua bahasa secara bersamaan.
Untuk dokumen dengan kolom: Mesin OCR modern mendeteksi tata letak kolom secara otomatis, tetapi untuk layout sangat kompleks (majalah, surat kabar) akurasi mungkin lebih rendah.

Apa akurasi yang dapat saya harapkan dari OCR?

Akurasi OCR modern sangat tinggi dalam kondisi optimal:

Dokumen cetak, kualitas tinggi, 300 DPI: 99%+ akurasi
Dokumen cetak, kualitas sedang, 200 DPI: 95-98% akurasi
Dokumen yang dipindai dengan noda atau keriput: 85-95% akurasi
Tulisan tangan: 60-80% (tulisan tangan jauh lebih sulit dikenali)
Font dekoratif atau bergaya: Variabel, dapat rendah

OCR dalam dokumen multi-halaman

Alat kami memproses dokumen multi-halaman sekaligus. Anda tidak perlu melakukan OCR halaman demi halaman. Hasilnya adalah satu PDF dengan semua halaman dapat dicari, mempertahankan urutan dan struktur dokumen asli.

Setelah OCR: penggunaan teks yang diekstrak

Setelah PDF memiliki teks yang dapat dicari, Anda dapat:

Cari kata kunci dengan Ctrl+F di pembaca PDF apa pun
Salin fragmen teks untuk mengutip atau menggunakannya kembali
Indeks dokumen dalam sistem manajemen dokumen