ToolBox — 무료 온라인 PDF 도구

OCR이란 무엇이고 무엇을 위한 것입니까?

OCR은 광학 문자 인식(Optical Character Recognition)의 약자입니다. 이것은 컴퓨터가 "이미지에 나타나는 텍스트를 읽고" 이를 디지털, 편집 및 검색 가능한 실제 텍스트로 변환할 수 있게 하는 기술입니다.

종이 문서를 스캔할 때(서명한 계약, 오래된 청구서, 책 페이지) 결과는 종이의 사진입니다. 결과 PDF는 텍스트 문서처럼 보이지만 실제로는 단지 사진입니다. Ctrl+F로 단어를 검색할 수 없고 문단을 복사할 수 없으며 텍스트를 선택할 수 없습니다. OCR은 그 이미지를 실제 텍스트 문서로 변환합니다.

언제 OCR이 필요합니까?

스캔된 PDF: OCR 없이 스캔되거나 사진으로 찍은 물리 문서
오래된 청구서: 회계 또는 데이터베이스를 위해 데이터를 복사해야 할 때
디지털화된 계약: 특정 조항을 검색하거나 약관을 복사하려면
책 및 출판물: 콘텐츠를 디지털화하고 인용하거나 검색
문서의 사진: 휴대폰으로 촬영한 종이 문서 사진
아카이브 파일: 아카이브 문서 디지털화
손으로 작성된 양식: 수동으로 작성된 데이터 추출

OCR이 작동하는 방식(단순화)

전처리: 이미지가 개선됩니다: 대비 증가, 기울기 수정(스큐 제거), 배경 소음 제거.
분할: OCR 엔진은 텍스트, 열, 표, 이미지 및 기타 요소가 있는 영역을 식별합니다.
문자 인식: 각 문자를 분석하고 선택한 언어의 알려진 형태 데이터베이스와 비교합니다.
언어 수정: 엔진은 컨텍스트를 기반으로 인식 오류를 수정하기 위해 언어 사전을 사용합니다.
PDF 생성: 원본 이미지를 보존하지만 검색 가능한 텍스트를 추가하여 PDF가 생성됩니다.

우리 도구로 PDF에 OCR을 수행하는 방법

도구 접근: PDF에 OCR 수행으로 이동합니다.
스캔된 PDF 업로드: 파일을 드래그하거나 선택합니다. JPG, PNG, TIFF 이미지도 직접 업로드할 수 있습니다.
언어 선택: 문서의 기본 언어를 선택합니다(스페인어, 영어, 프랑스어, 독일어 등). 이것이 정확도에 크게 도움이 됩니다.
출력 유형 선택:
- 검색 가능 PDF: 원본 이미지를 유지하고 보이지 않는 텍스트를 추가합니다. 원본처럼 보입니다.
- 편집 가능 PDF: 이미지를 형식이 지정된 실제 텍스트로 바꿉니다. 더 편집 가능하지만 원본 설계를 잃을 수 있습니다.
처리 및 다운로드: OCR은 크기와 복잡성에 따라 10~60초가 걸립니다.

권장사항: 원본 문서의 모양(서명, 로고, 인장)을 유지하면서 검색 기능만 추가하려면 항상 "검색 가능 PDF"를 선택하세요. 텍스트를 편집해야 하는 경우 "편집 가능 PDF"를 선택하거나 나중에 PDF를 Word로 변환하세요.

OCR에 지원되는 언어

우리의 OCR 도구는 100개 이상의 언어를 지원합니다. 주요 언어:

지역	주요 언어
서유럽	스페인어, 영어, 프랑스어, 독일어, 이탈리아어, 포르투갈어, 네덜란드어
동유럽	폴란드어, 체코어, 헝가리어, 루마니아어, 불가리아어, 러시아어
아시아	간체 중국어, 번체 중국어, 일본어, 한국어, 아랍어
라틴 아메리카	스페인어(악센트, ñ, 음성 기호 포함), 브라질 포르투갈어
다른	히브리어, 태국어, 베트남어, 그리스어, 터키어

OCR에서 최대 정확도를 얻기 위한 팁

원본 문서 품질

권장 최소 해상도: 300 DPI. 200 DPI 이하에서는 정확도가 상당히 떨어집니다.
대비: 흰색 배경에 검은색 텍스트가 이상적입니다. 밝은 회색 텍스트는 더 나쁜 결과를 줍니다.
기울기: 문서가 10도 이상 기울어져 있으면 OCR이 정확도를 잃습니다. 우리 도구는 작은 기울기를 자동으로 수정합니다.
얼룩과 소음: 얼룩, 텍스트 위의 인장 또는 매우 노란 종이가 있는 문서는 결과가 더 나쁩니다.

OCR 구성

올바른 언어 선택: 정확도를 위한 가장 중요한 요소입니다. 영어에 대해 구성된 OCR은 스페인어에서 나쁜 결과를 줄 것입니다(ñ, 악센트 등과 혼동될 것입니다).
다중 언어 OCR 사용: 문서에 여러 언어로 텍스트가 있으면 두 언어를 동시에 선택하세요.
열이 있는 문서: 최신 OCR 엔진은 자동으로 열 레이아웃을 감지하지만 매우 복잡한 레이아웃(잡지, 신문)의 경우 정확도가 더 낮을 수 있습니다.

OCR에서 어떤 정확도를 기대할 수 있습니까?

최적 조건에서 최신 OCR의 정확도는 매우 높습니다:

인쇄된 문서, 고품질, 300 DPI: 99%+ 정확도
인쇄된 문서, 중간 품질, 200 DPI: 95-98% 정확도
얼룩이나 주름이 있는 스캔된 문서: 85-95% 정확도
필기: 60-80%(필기는 인식하기 훨씬 더 어렵습니다)
장식적이거나 스타일화된 글꼴: 가변적, 낮을 수 있습니다

여러 페이지 문서에서 OCR

우리의 도구는 다중 페이지 문서를 한 번에 처리합니다. 페이지별로 OCR을 수행할 필요가 없습니다. 결과는 모든 페이지가 검색 가능한 순서와 구조를 유지하는 단일 PDF입니다.

OCR 후: 추출된 텍스트의 사용

PDF에 검색 가능한 텍스트가 있으면 다음을 수행할 수 있습니다:

PDF 리더에서 Ctrl+F를 사용하여 핵심 단어 검색
인용하거나 재사용할 텍스트 조각 복사
문서 관리 시스템에서 문서 색인화
우리의 PDF를 Word로 변환 도구를 사용하여 편집 완료로 변환
텍스트 분석 또는 AI 도구에서 콘텐츠 사용

지금 PDF를 검색 가능하게 하세요

스캔된 PDF에 OCR을 적용하고 이를 검색 가능한 코피 가능한 텍스트로 변환합니다. 무료, 설치 없음.

무료 PDF OCR →