tutorials April 9, 2026 Herramientas Gratis Team

Com fer OCR en un PDF escanejat — Text buscable i editable

Aprèn què és el OCR, com fer PDF buscable des d'un escanejat, quins idiomes admet i consells per obtenir la màxima precisió de reconeixement.

Com fer OCR en un PDF escanejat — Text buscable i editable

Què és el OCR i per a què serveix?

OCR són les sigles de Optical Character Recognition (Reconeixement Òptic de Caràcters). És la tecnologia que permet a un ordenador "llegir" el text que apareix en una imatge i convertir-lo en text digital real, editable i buscable.

Quan escanejjas un document en paper —un contracte signat, una factura antiga, una pàgina de llibre— el resultat és una imatge fotogràfica del paper. Encara que el PDF resultant sembla un document de text, en realitat és només una foto. No pots fer Ctrl+F per buscar una paraula, no pots copiar un paràgraf, no pots seleccionar text. El OCR transforma aquesta imatge en un document de text real.

Quan necessites fer OCR?

  • PDFs escanejats: Documents físics que s\'han fotografiat o escanejat sense OCR
  • Factures antigues: Quan necessites copiar dades per comptabilitat o bases de dades
  • Contractes digitalitzats: Per buscar cláusules específiques o copiar termes
  • Llibres i publicacions: Per digitalitzar contingut i fer cites o búsquedes
  • Fotografies de documents: Fotos preses amb el mòbil de documents en paper
  • Arxius històrics: Digitalització de documents d\'arxiu
  • Formularis rellenats a mà: Per extreure les dades escrites manualment

Com funciona el OCR (de forma simplificada)

  1. Preprocesament: La imatge es millora: s\'augmenta el contrast, es corregeix la inclinació (deskewing), s\'elimina el soroll de fons.
  2. Segmentació: El motor OCR identifica les zones de text, columnes, taules, imatges i altres elements a la pàgina.
  3. Reconeixement de caràcters: Cada caràcter s\'analitza i es compara amb una base de dades de formes conegudes en l\'idioma seleccionat.
  4. Correcció lingüística: El motor usa diccionaris de l\'idioma per corregir errors de reconeixement basant-se en el context.
  5. Generació del PDF: Es crea un PDF amb una capa de text "invisible" superposada sobre la imatge original, preservant l\'aspecte visual però afegint text buscable.

Com fer OCR a un PDF amb la nostra ferramenta

  1. Accedeix a la ferramenta: Vés a fer OCR a PDF.
  2. Puja el teu PDF escanejat: Arrastra el fitxer o selecciona-ho. También pots pujar imatges directament (JPG, PNG, TIFF).
  3. Selecciona l\'idioma: Tria l\'idioma principal del document (espanyol, anglès, francés, alemany, etc.). Això millora significativament la precisió.
  4. Selecciona el tipus de sortida:
    • PDF buscable: Manté la imatge original i afegeix text invisible. Aspecte idèntic a l\'original.
    • PDF editable: Reemplaça la imatge per text real formatat. Més editable però pot perdre el disseny original.
  5. Processa i descarrega: El OCR tarda entre 10 i 60 segons segons la mida i complexitat del document.
Recomendació: Per conservar l\'aspecte del document original (signatures, logos, segells) i només afegir la capacitat de búsqueda, tria sempre "PDF buscable". Si necessites editar el text, tria "PDF editable" o millor aún, converteix després a Word amb la nostra ferramenta de PDF a Word.

Idiomes admesos per a OCR

La nostra ferramenta de OCR admet més de 100 idiomes, inclosos:

Regió Idiomes principals
Europa Occidental Espanyol, anglès, francés, alemany, italià, portuguès, holandès
Europa del Est Polonès, txec, hongarès, romanès, búlgar, rus
Àsia Xinès simplificat, xinès tradicional, japonès, coreà, àrab
Amèrica Llatina Espanyol (amb accents, ñ, tildes), portuguès brasiler
Altres Hebreu, tailandès, vietnamita, grec, turc

Consells per obtenir la màxima precisió en el OCR

Qualitat del document original

  • Resolució mínima recomanada: 300 DPI. Per sota de 200 DPI la precisió cau significativament.
  • Contrast: Text negre sobre fons blanc és l\'ideal. El text gris clar sobre fons blanc dóna pitjors resultats.
  • Inclinació: Si el document està torcit més de 10 graus, el OCR perd precisió. La nostra ferramenta corregeix inclinacions menors automàticament.
  • Taques i soroll: Els documents amb taques, segells sobre el text o paper molt groc donen pitjors resultats.

Configuració del OCR

  • Selecciona l\'idioma correcte: És el factor més important per a la precisió. Un OCR configurat per a anglès darà resultats males en espanyol (confondra la ñ, els accents, etc.).
  • Usa OCR multiidioma: Si el document té text en varis idiomes, selecciona ambdós idiomes simultàniament.
  • Per a documents amb columnes: Els motors OCR moderns detecten el disseny en columnes automàticament, però per a layouts molt complexos (revistes, periòdics) la precisió pot ser menor.

Quina precisió puc esperar del OCR?

La precisió del OCR modern és molt alta en condicions òptimes:

  • Document imprès, alta qualitat, 300 DPI: 99%+ de precisió
  • Document imprès, qualitat mitjana, 200 DPI: 95-98% de precisió
  • Document escanejat amb taques o arrugues: 85-95% de precisió
  • Escriptura a mà: 60-80% (l\'escriptura manuscrita és molt més difícil de reconèixer)
  • Fonts decoratives o estilitzades: Variable, pot ser baixa

OCR en documents multipàgina

La nostra ferramenta processa documents multipàgina d\'una sola vegada. No necessites fer OCR pàgina per pàgina. El resultat és un únic PDF amb totes les pàgines buscables, mantenint l\'ordre i l\'estructura del document original.

Després del OCR: usos del text extret

Una vegada que el PDF té text buscable, pots:

  • Buscar paraules clau amb Ctrl+F a qualsevol lector de PDF
  • Copiar fragments de text per citar-los o reutilitzar-los
  • Indexar el document en sistemes de gestió documental
  • Convertir-lo a Word amb la nostra ferramenta de PDF a Word per a edició completa
  • Usar ferramentes d\'anàlisi de text o IA sobre el contingut

Fes el teu PDF buscable ara

Aplica OCR a qualsevol PDF escanejat i converteix-lo en text buscable i copiatble. Gratis, sense instal·lacions.

Fer OCR a PDF gratis →
Share
Related tools
OCR — Fer PDF cercable
Back to blog