Wat is OCR en waar dient het voor?
OCR staat voor Optical Character Recognition (Optische Tekenherkenning). Het is de technologie die een computer "lezen" van de tekst in een afbeelding en omzetting in echte, bewerkbare en doorzoekbare digitale tekst toestaat.
Wanneer u een document op papier scant — een ondertekend contract, een oud factuurbewijs, een bladzijde uit een boek — is het resultaat een fotografische afbeelding van het papier. Hoewel de resulterende PDF eruitziet als een tekstdocument, is het eigenlijk gewoon een foto. U kunt geen Ctrl+F gebruiken om een woord te zoeken, u kunt geen alinea kopiëren, u kunt tekst niet selecteren. OCR verandert die afbeelding in een echt tekstdocument.
Wanneer heb je OCR nodig?
- Gescande PDF\'s: Fysieke documenten die zonder OCR zijn gescand
- Oude facturen: Wanneer je gegevens voor boekhoudkundige of databasedoeleinden moet kopiëren
- Gedigitaliseerde contracten: Om bepaalde clausules te zoeken of voorwaarden te kopiëren
- Boeken en publicaties: Om inhoud te digitaliseren en aanhaling te doen of te zoeken
- Foto\'s van documenten: Foto\'s gemaakt met uw mobiel van papieren documenten
- Historische archieven: Digitalisering van gearchieerde documenten
- Met de hand ingevulde formulieren: Om handgeschreven gegevens te extraheren
Hoe OCR werkt (vereenvoudigd)
- Voorbewerkingsmede: De afbeelding wordt verbeterd: contrast wordt verhoogd, scheve hoeken worden gecorrigeerd, achtergrondruis wordt verwijderd.
- Segmentatie: De OCR-motor identificeert tekstzones, kolommen, tabellen, afbeeldingen en andere elementen op de pagina.
- Tekenherkenning: Elk teken wordt geanalyseerd en vergeleken met een database van bekende vormen in de geselecteerde taal.
- Taalcorrectie: De motor gebruikt woordenboeken van de taal om herkenningsfouten op basis van context te corrigeren.
- PDF-generatie: Een PDF wordt gemaakt met een "onzichtbare" tekstlaag boven de originele afbeelding, waarbij het visuele aspect behouden blijft maar doorzoekbare tekst wordt toegevoegd.
Hoe OCR op een PDF toepassen met ons hulpmiddel
- Ga naar het hulpmiddel: Ga naar OCR op PDF toepassen.
- Upload je gescande PDF: Sleep het bestand of selecteer het. U kunt ook afbeeldingen rechtstreeks uploaden (JPG, PNG, TIFF).
- Selecteer de taal: Kies de hoofdtaal van het document (Nederlands, Engels, Frans, Duits, enz.). Dit verbetert de nauwkeurigheid aanzienlijk.
- Selecteer het uitvoertype:
- Doorzoekbare PDF: Houdt de originele afbeelding en voegt onzichtbare tekst toe. Identiek uiterlijk aan het origineel.
- Bewerkbare PDF: Vervangt de afbeelding door echte opgemaakt tekst. Meer bewerkbaar maar kan origineel ontwerp verliezen.
- Verwerk en download: OCR duurt 10 tot 60 seconden, afhankelijk van grootte en complexiteit.
Aanbeveling: Om het originele documentuiterlijk te behouden (handtekeningen, logo\'s, zegels) en alleen zoekvermogen toe te voegen, kies altijd "Doorzoekbare PDF". Als u tekst moet bewerken, kies "Bewerkbare PDF" of converteert u daarna naar Word met ons PDF naar Word-hulpmiddel.
Ondersteunde talen voor OCR
Ons OCR-hulpmiddel ondersteunt meer dan 100 talen, waaronder:
| Regio | Belangrijkste talen |
|---|---|
| West-Europa | Nederlands, Engels, Frans, Duits, Italiaans, Portugees, Spaans |
| Oost-Europa | Pools, Tsjechisch, Hongaars, Roemeens, Bulgaars, Russisch |
| Azië | Vereenvoudigd Chinees, traditioneel Chinees, Japans, Koreaans, Arabisch |
| Latijns-Amerika | Nederlands (met accenten, ñ, accenten), Braziliaans Portugees |
| Overige | Hebreeuws, Thais, Vietnamees, Grieks, Turks |
Tips voor maximale nauwkeurigheid van OCR
Kwaliteit van het origineel document
- Aanbevolen minimumresolutie: 300 DPI. Onder 200 DPI daalt de nauwkeurigheid significant.
- Contrast: Zwarte tekst op witte achtergrond is ideaal. Lichtgrijze tekst op wit geeft slechtere resultaten.
- Scheefstand: Als het document meer dan 10 graden scheef staat, verliest OCR nauwkeurigheid. Ons hulpmiddel corrigeert kleine hoeken automatisch.
- Vlekken en ruis: Documenten met vlekken, zegels over tekst of zeer geel papier geven slechtere resultaten.
OCR-configuratie
- Selecteer de juiste taal: Dit is de belangrijkste factor voor nauwkeurigheid. Een OCR ingesteld voor Engels geeft slechte resultaten in Nederlands (zal ñ, accenten, enz. verwarren).
- Gebruik meertalige OCR: Als het document tekst in verschillende talen bevat, selecteer beide tegelijk.
- Voor documenten met kolommen: Moderne OCR-motoren detecteren kolomindeling automatisch, maar voor zeer complexe lay-outs (magazines, kranten) kan nauwkeurigheid lager zijn.
Welke precisie kan ik van OCR verwachten?
De precisie van moderne OCR is erg hoog onder optimale omstandigheden:
- Gedrukt document, hoge kwaliteit, 300 DPI: 99%+ precisie
- Gedrukt document, middelmatige kwaliteit, 200 DPI: 95-98% precisie
- Gescand document met vlekken of rimpels: 85-95% precisie
- Handschrift: 60-80% (handschrift is veel moeilijker te herkennen)
- Decoratieve of gestileerde lettertypen: Variabel, kan laag zijn
OCR in meerpagina-documenten
Ons hulpmiddel verwerkt meerpagina-documenten in één keer. U hoeft geen OCR pagina voor pagina toe te passen. Het resultaat is één PDF met alle doorzoekbare pagina\'s, behoudende volgorde en structuur van het origineel.
Na OCR: gebruik van geëxtraheerde tekst
Zodra de PDF doorzoekbare tekst bevat, kunt u:
- Zoeken naar trefwoorden met Ctrl+F in elke PDF-lezer
- Tekstfragmenten kopiëren om aan te halen of opnieuw te gebruiken
- Document indexeren in documentbeheersystemen
- Naar Word converteren met ons PDF naar Word-hulpmiddel voor volledige bewerking
- Tekstanalyse of AI-hulpmiddelen op de inhoud gebruiken
Maak je PDF nu doorzoekbaar
Pas OCR toe op elke gescande PDF en maak deze doorzoekbaar en kopieerbaar. Gratis, zonder installatie.
OCR gratis op PDF toepassen →