OCR nedir ve ne işe yarar?
OCR Optical Character Recognition (Optik Karakter Tanıma) anlamına gelir. Bu teknoloji bir bilgisayarın bir görüntüde görünen metni \"okumasını\" ve bunu gerçek dijital metne, düzenlenebilir ve aranabilir metne dönüştürmesine izin verir.
Bir belgeyi taradığınızda — imzalı bir sözleşme, eski bir fatura, bir kitap sayfası — sonuç kağıdın fotoğrafı bir belge görüntüsüdür. Ortaya çıkan PDF metin belgesi gibi görünse de, aslında yalnızca bir fotoğraftır. Ctrl+F ile kelime arayamazsınız, bir paragraf kopyalayamazsınız, metin seçemezsiniz. OCR bu görüntüyü gerçek bir metin belgesine dönüştürür.
OCR ne zaman gereklidir?
- Taranmış PDF\'ler: OCR olmadan fotoğraflanmış veya taranmış fiziksel belgeler
- Eski faturalar: Muhasebe veya veri tabanları için verileri kopyalamak istiyorsanız
- Dijitalleştirilmiş sözleşmeler: Belirli cümleler bulmak veya terimleri kopyalamak için
- Kitaplar ve yayınlar: İçeriği dijitalleştirmek ve alıntıları veya aramaları yapmak için
- Cep telefonu ile belge fotoğrafları: Mobil cihazdan alınan belgeler
- Arşiv dosyaları: Belge koleksiyonlarının dijitalleştirilmesi
- El yazısı formlar: Manüel olarak doldurulan verileri çıkarmak için
OCR nasıl çalışır (basit açıklama)
- Ön işleme: Görüntü iyileştirilir: kontrast artırılır, eğri düzeltilir, arka plan gürültüsü kaldırılır.
- Parçalandırma: OCR motoru metni, sütunları, tabloları, görüntüleri ve diğer öğeleri tanımlar.
- Karakter tanıma: Her karakter analiz edilir ve seçilen dilde bilinen şekil veritabanıyla karşılaştırılır.
- Dilsel düzeltme: Motor bağlama göre tanıma hatalarını düzeltmek için dil sözlükleri kullanır.
- PDF oluşturma: Orijinal görüntü üzerine \"görünmez\" metin katmanı eklenmiş bir PDF oluşturulur, görsel uyum korunur.
Araçla PDF\'de OCR yapma
- Araca erişin: PDF\'de OCR yap aracına gidin.
- Taranmış PDF\'nizi yükleyin: Dosyayı sürükleyin veya seçin. Doğrudan JPG, PNG, TIFF gibi görseller de yükleyebilirsiniz.
- Dili seçin: Belgenin ana dilini seçin (İspanyolca, İngilizce, Türkçe vb.). Bu doğruluğu önemli ölçüde arttırır.
- Çıktı türünü seçin:
- Aranabilir PDF: Orijinal görüntüyü korur ve görünmez metin ekler. Asıl görünüme aynı.
- Düzenlenebilir PDF: Görüntü yerine gerçek metin koyar. Daha düzenlenebilir ancak asıl tasarımı kaybedebilir.
- İşle ve indir: OCR 10-60 saniye sürer, belge boyutu ve karmaşıklığına bağlı olarak.
Tavsiye: Asıl belgenin görünümünü korumak için (imzalar, logolar, mühürler) ve yalnızca arama yeteneği eklemek için her zaman \"Aranabilir PDF\" seçin. Metni düzenlemek istiyorsanız, \"Düzenlenebilir PDF\" seçin veya PDF\'yi Word\'e dönüştürme aracımızı sonradan kullanın.
OCR için desteklenen diller
OCR aracımız 100+ dili destekler, bunlar arasında:
| Bölge | Ana Diller |
|---|---|
| Batı Avrupa | İspanyolca, İngilizce, Fransızca, Almanca, İtalyanca, Portekizce, Hollandaca |
| Doğu Avrupa | Lehçe, Çekçe, Macarca, Romence, Bulgarca, Rusça |
| Asya | Basitleştirilmiş Çince, Geleneksel Çince, Japonca, Korece, Arapça |
| Latin Amerika | İspanyolca (aksan, ñ, tildeler ile), Portekizce Brezilyası |
| Diğer | İbranice, Taylanca, Vietnamca, Yunanca, Türkçe |
OCR\'de maksimum doğruluk için ipuçları
Asıl belge kalitesi
- Önerilen minimum çözünürlük: 300 DPI. 200 DPI altında doğruluk önemli ölçüde düşer.
- Kontrast: Siyah metin beyaz arka plan ideal, açık gri metin açık arka plan daha kötü.
- Eğim: Belge 10 dereceden fazla çarpıksa OCR doğruluk kaybeder. Araçımız küçük çarpıklıkları otomatik düzeltir.
- Lekeler ve gürültü: Lekeli, mühürlü veya çok sarı kağıt belgeler daha kötü sonuç verir.
OCR yapılandırması
- Doğru dili seçin: Doğruluk için en önemli faktör. İngilizce için ayarlanmış OCR İspanyolca\'da kötü sonuç verir (ñ, aksan vb. karışacak).
- Çok dil OCR kullanın: Belge birden çok dilde metin içeriyorsa, her iki dili seçin.
- Sütunlu belgeler için: Modern OCR motorları sütun düzenini otomatik olarak tanır, ancak çok karmaşık gözenek (dergiler, gazeteler) daha düşük doğruluk verebilir.
OCR\'den ne kadar doğruluk bekleyebilirim?
Modern OCR doğruluğu optimal koşullarda çok yüksektir:
- Yüksek kalite basılı belge, 300 DPI: 99%+ doğruluk
- Basılı belge, orta kalite, 200 DPI: %95-98 doğruluk
- Lekeli veya kırışık taranmış belge: %85-95 doğruluk
- El yazısı: %60-80 (el yazısı tanımak çok daha zor)
- Dekoratif veya stilize yazı tipleri: Değişken, düşük olabilir
Çok sayfalı belgelerde OCR
Araç çok sayfalı belgeleri bir defada işler. Her sayfayı ayrı ayrı yapmanıza gerek yok. Sonuç tüm sayfaları aranabilir olan ve orijinal belgenin sırasını ve yapısını koruyan tek bir PDF\'dir.
OCR sonrası: Çıkarılan metin kullanımı
PDF aranabilir metin eklenirse, şunları yapabilirsiniz:
- Herhangi bir PDF okuyucuda Ctrl+F ile anahtar kelimeleri ara
- İçeriği kullanmak veya alıntı yapmak için metin parçalarını kopyala
- Belgeyi belge yönetim sistemlerinde indeksle
- Tam düzenleme için PDF\'yi Word\'e dönüştür
- Metin analizi veya yapay zeka araçlarında içerik kullan
Şimdi PDF\'nizi Aranabilir Hale Getir
Taranmış herhangi bir PDF\'ye OCR uygula ve metni aranabilir ve kopyalanabilir hale getir. Ücretsiz, yükleme yok.
PDF\'de OCR Yap →