Vad är OCR och vad används det till?
OCR är en förkortning för Optical Character Recognition (Optisk teckenigenkänning). Det är den teknik som gör det möjligt för en dator att "läsa" texten som visas i en bild och omvandla den till riktig digital text, redigerbar och sökbar.
När du skannar ett pappersdokument — ett signerat kontrakt, en gammal faktura, en boksida — är resultatet en fotografisk bild av papperet. Även om den resulterande PDF-filen ser ut som ett textdokument är det i verkligheten bara ett foto. Du kan inte använda Ctrl+F för att söka efter ett ord, du kan inte kopiera ett stycke, du kan inte markera text. OCR omvandlar den bilden till ett riktigt textdokument.
När behöver du göra OCR?
- Skannade PDF-filer: Fysiska dokument som har fotograferats eller skannats utan OCR
- Gamla fakturor: När du behöver kopiera data för bokföring eller databaser
- Digitaliserade kontrakt: För att söka efter specifika klausuler eller kopiera villkor
- Böcker och publikationer: För att digitalisera innehåll och göra citeringar eller sökningar
- Fotografier av dokument: Foton tagna med mobilen av pappersdokument
- Historiska arkiv: Digitalisering av arkivdokument
- Handifyllda formulär: För att extrahera data skriven för hand
Hur OCR fungerar (förenklat)
- Förbehandling: Bilden förbättras: kontrasten ökas, lutningen korrigeras (deskewing), bakgrundsbrus tas bort.
- Segmentering: OCR-motorn identifierar textzoner, kolumner, tabeller, bilder och andra element på sidan.
- Teckenigenkänning: Varje tecken analyseras och jämförs med en databas av kända former på det valda språket.
- Språklig korrigering: Motorn använder ordböcker för språket för att rätta igenkänningsfel baserat på sammanhang.
- PDF-generering: En PDF skapas med ett "osynligt" textlager överlappat på originalbilden, vilket bevarar det visuella utseendet men lägger till sökbar text.
Hur du gör OCR på en PDF med vårt verktyg
- Öppna verktyget: Gå till OCR på PDF.
- Ladda upp din skannade PDF: Dra filen eller välj den. Du kan också ladda upp bilder direkt (JPG, PNG, TIFF).
- Välj språk: Välj dokumentets huvudspråk (svenska, engelska, franska, tyska, osv.). Det förbättrar noggrannheten avsevärt.
- Välj utdatatyp:
- Sökbar PDF: Behåller originalbilden och lägger till osynlig text. Identiskt utseende som originalet.
- Redigerbar PDF: Ersätter bilden med riktig formaterad text. Mer redigerbar men kan förlora originaldesignen.
- Bearbeta och ladda ned: OCR tar mellan 10 och 60 sekunder beroende på dokumentets storlek och komplexitet.
Rekommendation: För att bevara dokumentets ursprungliga utseende (signaturer, logotyper, stämplar) och bara lägga till sökfunktionalitet, välj alltid "Sökbar PDF". Om du behöver redigera texten, välj "Redigerbar PDF" eller ännu bättre, konvertera sedan till Word med vårt PDF till Word-verktyg.
Språk som stöds för OCR
Vårt OCR-verktyg stöder över 100 språk, inklusive:
| Region | Huvudspråk |
|---|---|
| Västeuropa | Svenska, engelska, franska, tyska, italienska, portugisiska, holländska |
| Östeuropa | Polska, tjeckiska, ungerska, rumänska, bulgariska, ryska |
| Asien | Förenklad kinesiska, traditionell kinesiska, japanska, koreanska, arabiska |
| Latinamerika | Spanska (med accenter, ñ), brasiliansk portugisiska |
| Övrigt | Hebreiska, thailändska, vietnamesiska, grekiska, turkiska |
Tips för maximal OCR-noggrannhet
Originalhandlingens kvalitet
- Minsta rekommenderade upplösning: 300 DPI. Under 200 DPI minskar noggrannheten avsevärt.
- Kontrast: Svart text på vit bakgrund är idealiskt. Ljusgrå text på vit bakgrund ger sämre resultat.
- Lutning: Om dokumentet är snett mer än 10 grader förlorar OCR noggrannhet. Vårt verktyg korrigerar mindre lutningar automatiskt.
- Fläckar och brus: Dokument med fläckar, stämplar ovanpå texten eller mycket gulfärgat papper ger sämre resultat.
OCR-konfiguration
- Välj rätt språk: Det är den viktigaste faktorn för noggrannhet. En OCR konfigurerad för engelska ger dåliga resultat på svenska.
- Använd flerspråkig OCR: Om dokumentet har text på flera språk, välj båda språken samtidigt.
- För dokument med kolumner: Moderna OCR-motorer detekterar kolumnlayout automatiskt, men för mycket komplexa layouter (tidskrifter, tidningar) kan noggrannheten vara lägre.
Vilken noggrannhet kan jag förvänta mig av OCR?
Modern OCR-noggrannhet är mycket hög under optimala förhållanden:
- Tryckt dokument, hög kvalitet, 300 DPI: 99%+ noggrannhet
- Tryckt dokument, medelhög kvalitet, 200 DPI: 95–98% noggrannhet
- Skannat dokument med fläckar eller skrynklor: 85–95% noggrannhet
- Handskrift: 60–80% (handskrift är mycket svårare att känna igen)
- Dekorativa eller stiliserade typsnitt: Varierar, kan vara låg
OCR på flersidiga dokument
Vårt verktyg behandlar flersidiga dokument på en gång. Du behöver inte göra OCR sida för sida. Resultatet är en enda PDF med alla sidor sökbara, med bibehållen ordning och struktur från originaldokumentet.
Efter OCR: användning av den extraherade texten
När PDF-filen har sökbar text kan du:
- Söka efter nyckelord med Ctrl+F i valfri PDF-läsare
- Kopiera textfragment för att citera eller återanvända dem
- Indexera dokumentet i dokumenthanteringssystem
- Konvertera det till Word med vårt PDF till Word-verktyg för fullständig redigering
- Använda textanalysverktyg eller AI på innehållet
Gör din PDF sökbar nu
Använd OCR på valfri skannad PDF och omvandla den till sökbar och kopierbar text. Gratis, utan installation.
OCR på PDF gratis →