ToolBox — Gratis online PDF-tools

Wat is OCR en waar dient het voor?

OCR staat voor Optical Character Recognition (Optische Tekenherkenning). Het is de technologie die een computer "lezen" van de tekst in een afbeelding en omzetting in echte, bewerkbare en doorzoekbare digitale tekst toestaat.

Wanneer u een document op papier scant — een ondertekend contract, een oud factuurbewijs, een bladzijde uit een boek — is het resultaat een fotografische afbeelding van het papier. Hoewel de resulterende PDF eruitziet als een tekstdocument, is het eigenlijk gewoon een foto. U kunt geen Ctrl+F gebruiken om een woord te zoeken, u kunt geen alinea kopiëren, u kunt tekst niet selecteren. OCR verandert die afbeelding in een echt tekstdocument.

Wanneer heb je OCR nodig?

Gescande PDF\'s: Fysieke documenten die zonder OCR zijn gescand
Oude facturen: Wanneer je gegevens voor boekhoudkundige of databasedoeleinden moet kopiëren
Gedigitaliseerde contracten: Om bepaalde clausules te zoeken of voorwaarden te kopiëren
Boeken en publicaties: Om inhoud te digitaliseren en aanhaling te doen of te zoeken
Foto\'s van documenten: Foto\'s gemaakt met uw mobiel van papieren documenten
Historische archieven: Digitalisering van gearchieerde documenten
Met de hand ingevulde formulieren: Om handgeschreven gegevens te extraheren

Hoe OCR werkt (vereenvoudigd)

Voorbewerkingsmede: De afbeelding wordt verbeterd: contrast wordt verhoogd, scheve hoeken worden gecorrigeerd, achtergrondruis wordt verwijderd.
Segmentatie: De OCR-motor identificeert tekstzones, kolommen, tabellen, afbeeldingen en andere elementen op de pagina.
Tekenherkenning: Elk teken wordt geanalyseerd en vergeleken met een database van bekende vormen in de geselecteerde taal.
Taalcorrectie: De motor gebruikt woordenboeken van de taal om herkenningsfouten op basis van context te corrigeren.
PDF-generatie: Een PDF wordt gemaakt met een "onzichtbare" tekstlaag boven de originele afbeelding, waarbij het visuele aspect behouden blijft maar doorzoekbare tekst wordt toegevoegd.

Hoe OCR op een PDF toepassen met ons hulpmiddel

Ga naar het hulpmiddel: Ga naar OCR op PDF toepassen.
Upload je gescande PDF: Sleep het bestand of selecteer het. U kunt ook afbeeldingen rechtstreeks uploaden (JPG, PNG, TIFF).
Selecteer de taal: Kies de hoofdtaal van het document (Nederlands, Engels, Frans, Duits, enz.). Dit verbetert de nauwkeurigheid aanzienlijk.
Selecteer het uitvoertype:
- Doorzoekbare PDF: Houdt de originele afbeelding en voegt onzichtbare tekst toe. Identiek uiterlijk aan het origineel.
- Bewerkbare PDF: Vervangt de afbeelding door echte opgemaakt tekst. Meer bewerkbaar maar kan origineel ontwerp verliezen.
Verwerk en download: OCR duurt 10 tot 60 seconden, afhankelijk van grootte en complexiteit.

Aanbeveling: Om het originele documentuiterlijk te behouden (handtekeningen, logo\'s, zegels) en alleen zoekvermogen toe te voegen, kies altijd "Doorzoekbare PDF". Als u tekst moet bewerken, kies "Bewerkbare PDF" of converteert u daarna naar Word met ons PDF naar Word-hulpmiddel.

Ondersteunde talen voor OCR

Ons OCR-hulpmiddel ondersteunt meer dan 100 talen, waaronder:

Regio	Belangrijkste talen
West-Europa	Nederlands, Engels, Frans, Duits, Italiaans, Portugees, Spaans
Oost-Europa	Pools, Tsjechisch, Hongaars, Roemeens, Bulgaars, Russisch
Azië	Vereenvoudigd Chinees, traditioneel Chinees, Japans, Koreaans, Arabisch
Latijns-Amerika	Nederlands (met accenten, ñ, accenten), Braziliaans Portugees
Overige	Hebreeuws, Thais, Vietnamees, Grieks, Turks

Tips voor maximale nauwkeurigheid van OCR

Kwaliteit van het origineel document

Aanbevolen minimumresolutie: 300 DPI. Onder 200 DPI daalt de nauwkeurigheid significant.
Contrast: Zwarte tekst op witte achtergrond is ideaal. Lichtgrijze tekst op wit geeft slechtere resultaten.
Scheefstand: Als het document meer dan 10 graden scheef staat, verliest OCR nauwkeurigheid. Ons hulpmiddel corrigeert kleine hoeken automatisch.
Vlekken en ruis: Documenten met vlekken, zegels over tekst of zeer geel papier geven slechtere resultaten.

OCR-configuratie

Selecteer de juiste taal: Dit is de belangrijkste factor voor nauwkeurigheid. Een OCR ingesteld voor Engels geeft slechte resultaten in Nederlands (zal ñ, accenten, enz. verwarren).
Gebruik meertalige OCR: Als het document tekst in verschillende talen bevat, selecteer beide tegelijk.
Voor documenten met kolommen: Moderne OCR-motoren detecteren kolomindeling automatisch, maar voor zeer complexe lay-outs (magazines, kranten) kan nauwkeurigheid lager zijn.

Welke precisie kan ik van OCR verwachten?

De precisie van moderne OCR is erg hoog onder optimale omstandigheden:

Gedrukt document, hoge kwaliteit, 300 DPI: 99%+ precisie
Gedrukt document, middelmatige kwaliteit, 200 DPI: 95-98% precisie
Gescand document met vlekken of rimpels: 85-95% precisie
Handschrift: 60-80% (handschrift is veel moeilijker te herkennen)
Decoratieve of gestileerde lettertypen: Variabel, kan laag zijn

OCR in meerpagina-documenten

Ons hulpmiddel verwerkt meerpagina-documenten in één keer. U hoeft geen OCR pagina voor pagina toe te passen. Het resultaat is één PDF met alle doorzoekbare pagina\'s, behoudende volgorde en structuur van het origineel.

Na OCR: gebruik van geëxtraheerde tekst

Zodra de PDF doorzoekbare tekst bevat, kunt u:

Zoeken naar trefwoorden met Ctrl+F in elke PDF-lezer
Tekstfragmenten kopiëren om aan te halen of opnieuw te gebruiken
Document indexeren in documentbeheersystemen
Naar Word converteren met ons PDF naar Word-hulpmiddel voor volledige bewerking
Tekstanalyse of AI-hulpmiddelen op de inhoud gebruiken

Maak je PDF nu doorzoekbaar

Pas OCR toe op elke gescande PDF en maak deze doorzoekbaar en kopieerbaar. Gratis, zonder installatie.

OCR gratis op PDF toepassen →