Què és el OCR i per a què serveix?
OCR són les sigles de Optical Character Recognition (Reconeixement Òptic de Caràcters). És la tecnologia que permet a un ordenador "llegir" el text que apareix en una imatge i convertir-lo en text digital real, editable i buscable.
Quan escanejjas un document en paper —un contracte signat, una factura antiga, una pàgina de llibre— el resultat és una imatge fotogràfica del paper. Encara que el PDF resultant sembla un document de text, en realitat és només una foto. No pots fer Ctrl+F per buscar una paraula, no pots copiar un paràgraf, no pots seleccionar text. El OCR transforma aquesta imatge en un document de text real.
Quan necessites fer OCR?
- PDFs escanejats: Documents físics que s\'han fotografiat o escanejat sense OCR
- Factures antigues: Quan necessites copiar dades per comptabilitat o bases de dades
- Contractes digitalitzats: Per buscar cláusules específiques o copiar termes
- Llibres i publicacions: Per digitalitzar contingut i fer cites o búsquedes
- Fotografies de documents: Fotos preses amb el mòbil de documents en paper
- Arxius històrics: Digitalització de documents d\'arxiu
- Formularis rellenats a mà: Per extreure les dades escrites manualment
Com funciona el OCR (de forma simplificada)
- Preprocesament: La imatge es millora: s\'augmenta el contrast, es corregeix la inclinació (deskewing), s\'elimina el soroll de fons.
- Segmentació: El motor OCR identifica les zones de text, columnes, taules, imatges i altres elements a la pàgina.
- Reconeixement de caràcters: Cada caràcter s\'analitza i es compara amb una base de dades de formes conegudes en l\'idioma seleccionat.
- Correcció lingüística: El motor usa diccionaris de l\'idioma per corregir errors de reconeixement basant-se en el context.
- Generació del PDF: Es crea un PDF amb una capa de text "invisible" superposada sobre la imatge original, preservant l\'aspecte visual però afegint text buscable.
Com fer OCR a un PDF amb la nostra ferramenta
- Accedeix a la ferramenta: Vés a fer OCR a PDF.
- Puja el teu PDF escanejat: Arrastra el fitxer o selecciona-ho. También pots pujar imatges directament (JPG, PNG, TIFF).
- Selecciona l\'idioma: Tria l\'idioma principal del document (espanyol, anglès, francés, alemany, etc.). Això millora significativament la precisió.
- Selecciona el tipus de sortida:
- PDF buscable: Manté la imatge original i afegeix text invisible. Aspecte idèntic a l\'original.
- PDF editable: Reemplaça la imatge per text real formatat. Més editable però pot perdre el disseny original.
- Processa i descarrega: El OCR tarda entre 10 i 60 segons segons la mida i complexitat del document.
Recomendació: Per conservar l\'aspecte del document original (signatures, logos, segells) i només afegir la capacitat de búsqueda, tria sempre "PDF buscable". Si necessites editar el text, tria "PDF editable" o millor aún, converteix després a Word amb la nostra ferramenta de PDF a Word.
Idiomes admesos per a OCR
La nostra ferramenta de OCR admet més de 100 idiomes, inclosos:
| Regió | Idiomes principals |
|---|---|
| Europa Occidental | Espanyol, anglès, francés, alemany, italià, portuguès, holandès |
| Europa del Est | Polonès, txec, hongarès, romanès, búlgar, rus |
| Àsia | Xinès simplificat, xinès tradicional, japonès, coreà, àrab |
| Amèrica Llatina | Espanyol (amb accents, ñ, tildes), portuguès brasiler |
| Altres | Hebreu, tailandès, vietnamita, grec, turc |
Consells per obtenir la màxima precisió en el OCR
Qualitat del document original
- Resolució mínima recomanada: 300 DPI. Per sota de 200 DPI la precisió cau significativament.
- Contrast: Text negre sobre fons blanc és l\'ideal. El text gris clar sobre fons blanc dóna pitjors resultats.
- Inclinació: Si el document està torcit més de 10 graus, el OCR perd precisió. La nostra ferramenta corregeix inclinacions menors automàticament.
- Taques i soroll: Els documents amb taques, segells sobre el text o paper molt groc donen pitjors resultats.
Configuració del OCR
- Selecciona l\'idioma correcte: És el factor més important per a la precisió. Un OCR configurat per a anglès darà resultats males en espanyol (confondra la ñ, els accents, etc.).
- Usa OCR multiidioma: Si el document té text en varis idiomes, selecciona ambdós idiomes simultàniament.
- Per a documents amb columnes: Els motors OCR moderns detecten el disseny en columnes automàticament, però per a layouts molt complexos (revistes, periòdics) la precisió pot ser menor.
Quina precisió puc esperar del OCR?
La precisió del OCR modern és molt alta en condicions òptimes:
- Document imprès, alta qualitat, 300 DPI: 99%+ de precisió
- Document imprès, qualitat mitjana, 200 DPI: 95-98% de precisió
- Document escanejat amb taques o arrugues: 85-95% de precisió
- Escriptura a mà: 60-80% (l\'escriptura manuscrita és molt més difícil de reconèixer)
- Fonts decoratives o estilitzades: Variable, pot ser baixa
OCR en documents multipàgina
La nostra ferramenta processa documents multipàgina d\'una sola vegada. No necessites fer OCR pàgina per pàgina. El resultat és un únic PDF amb totes les pàgines buscables, mantenint l\'ordre i l\'estructura del document original.
Després del OCR: usos del text extret
Una vegada que el PDF té text buscable, pots:
- Buscar paraules clau amb Ctrl+F a qualsevol lector de PDF
- Copiar fragments de text per citar-los o reutilitzar-los
- Indexar el document en sistemes de gestió documental
- Convertir-lo a Word amb la nostra ferramenta de PDF a Word per a edició completa
- Usar ferramentes d\'anàlisi de text o IA sobre el contingut
Fes el teu PDF buscable ara
Aplica OCR a qualsevol PDF escanejat i converteix-lo en text buscable i copiatble. Gratis, sense instal·lacions.
Fer OCR a PDF gratis →