Apa itu OCR dan untuk apa?
OCR adalah singkatan dari Optical Character Recognition (Pengenalan Karakter Optik). Ini adalah teknologi yang memungkinkan komputer untuk "membaca" teks yang muncul dalam gambar dan mengonversinya menjadi teks digital nyata, dapat diedit, dan dapat dicari.
Ketika Anda memindai dokumen di atas kertas — kontrak yang ditandatangani, faktur lama, halaman buku — hasilnya adalah gambar fotografis kertas. Meskipun PDF yang dihasilkan terlihat seperti dokumen teks, itu sebenarnya hanya foto. Anda tidak dapat melakukan Ctrl+F untuk mencari kata, Anda tidak dapat menyalin paragraf, Anda tidak dapat memilih teks. OCR mengubah gambar itu menjadi dokumen teks nyata.
Kapan Anda memerlukan OCR?
- PDF yang dipindai: Dokumen fisik yang difoto atau dipindai tanpa OCR
- Faktur lama: Ketika Anda perlu menyalin data untuk pembukuan atau database
- Kontrak digital: Untuk mencari klausa tertentu atau menyalin istilah
- Buku dan publikasi: Untuk mendigitalkan konten dan membuat kutipan atau pencarian
- Foto dokumen: Foto yang diambil dengan ponsel dokumen di atas kertas
- Arsip historis: Digitalisasi dokumen arsip
- Formulir yang diisi dengan tangan: Untuk mengekstrak data yang ditulis dengan tangan
Cara kerja OCR (cara disederhanakan)
- Pra-pemrosesan: Gambar ditingkatkan: kontras ditingkatkan, kemiringan dikoreksi (deskewing), noise latar belakang dihapus.
- Segmentasi: Mesin OCR mengidentifikasi zona teks, kolom, tabel, gambar, dan elemen lain di halaman.
- Pengenalan karakter: Setiap karakter dianalisis dan dibandingkan dengan database bentuk yang dikenal dalam bahasa yang dipilih.
- Koreksi bahasa: Mesin menggunakan kamus bahasa untuk memperbaiki kesalahan pengenalan berdasarkan konteks.
- Pembuatan PDF: PDF dibuat dengan lapisan teks "tidak terlihat" yang tumpang tindih pada gambar asli, mempertahankan aspek visual tetapi menambahkan teks yang dapat dicari.
Cara melakukan OCR pada PDF dengan alat kami
- Akses alat: Buka lakukan OCR pada PDF.
- Unggah PDF yang dipindai Anda: Seret file atau pilihnya. Anda juga dapat mengunggah gambar secara langsung (JPG, PNG, TIFF).
- Pilih bahasa: Pilih bahasa utama dokumen (Spanyol, Inggris, Prancis, Jerman, dll.). Ini meningkatkan akurasi secara signifikan.
- Pilih jenis output:
- PDF dapat dicari: Mempertahankan gambar asli dan menambahkan teks tidak terlihat. Tampilan identik dengan asli.
- PDF dapat diedit: Menggantikan gambar dengan teks yang diformat dengan nyata. Lebih dapat diedit tetapi mungkin kehilangan desain asli.
- Proses dan unduh: OCR memerlukan waktu antara 10 dan 60 detik tergantung pada ukuran dan kompleksitas dokumen.
Rekomendasi: Untuk mempertahankan tampilan dokumen asli (tanda tangan, logo, cap) dan hanya menambahkan kemampuan pencarian, selalu pilih "PDF dapat dicari". Jika Anda perlu mengedit teks, pilih "PDF dapat diedit" atau lebih baik, konversi nanti ke Word dengan alat PDF ke Word kami.
Bahasa yang didukung untuk OCR
Alat OCR kami mendukung lebih dari 100 bahasa, termasuk:
| Wilayah | Bahasa utama |
|---|---|
| Eropa Barat | Spanyol, Inggris, Prancis, Jerman, Italia, Portugis, Belanda |
| Eropa Timur | Polandia, Ceko, Hungaria, Rumania, Bulgaria, Rusia |
| Asia | Cina Sederhana, Cina Tradisional, Jepang, Korea, Arab |
| Amerika Latin | Spanyol (dengan aksen, ñ, tanda), Portugis Brasil |
| Lainnya | Ibrani, Thailand, Vietnam, Yunani, Turki |
Tips untuk mendapatkan akurasi maksimal dalam OCR
Kualitas dokumen asli
- Resolusi minimum yang disarankan: 300 DPI. Di bawah 200 DPI akurasi menurun secara signifikan.
- Kontras: Teks hitam di atas latar belakang putih ideal. Teks abu-abu terang di atas latar belakang putih memberikan hasil yang lebih buruk.
- Kemiringan: Jika dokumen miring lebih dari 10 derajat, OCR kehilangan akurasi. Alat kami secara otomatis memperbaiki kemiringan kecil.
- Noda dan noise: Dokumen dengan noda, stempel di atas teks, atau kertas sangat menguning memberikan hasil yang lebih buruk.
Konfigurasi OCR
- Pilih bahasa yang tepat: Ini adalah faktor paling penting untuk akurasi. OCR yang dikonfigurasi untuk Inggris akan memberikan hasil yang buruk dalam Spanyol (akan membingungkan ñ, aksen, dll.).
- Gunakan OCR multi-bahasa: Jika dokumen memiliki teks dalam beberapa bahasa, pilih kedua bahasa secara bersamaan.
- Untuk dokumen dengan kolom: Mesin OCR modern mendeteksi tata letak kolom secara otomatis, tetapi untuk layout sangat kompleks (majalah, surat kabar) akurasi mungkin lebih rendah.
Apa akurasi yang dapat saya harapkan dari OCR?
Akurasi OCR modern sangat tinggi dalam kondisi optimal:
- Dokumen cetak, kualitas tinggi, 300 DPI: 99%+ akurasi
- Dokumen cetak, kualitas sedang, 200 DPI: 95-98% akurasi
- Dokumen yang dipindai dengan noda atau keriput: 85-95% akurasi
- Tulisan tangan: 60-80% (tulisan tangan jauh lebih sulit dikenali)
- Font dekoratif atau bergaya: Variabel, dapat rendah
OCR dalam dokumen multi-halaman
Alat kami memproses dokumen multi-halaman sekaligus. Anda tidak perlu melakukan OCR halaman demi halaman. Hasilnya adalah satu PDF dengan semua halaman dapat dicari, mempertahankan urutan dan struktur dokumen asli.
Setelah OCR: penggunaan teks yang diekstrak
Setelah PDF memiliki teks yang dapat dicari, Anda dapat:
- Cari kata kunci dengan Ctrl+F di pembaca PDF apa pun
- Salin fragmen teks untuk mengutip atau menggunakannya kembali
- Indeks dokumen dalam sistem manajemen dokumen