OCR คืออะไรและมีไว้ทำอะไร?
OCR ย่อมาจาก Optical Character Recognition (การจดจำอักษรด้วยแสง) เป็นเทคโนโลยีที่ช่วยให้คอมพิวเตอร์ "อ่าน" ข้อความที่ปรากฏในรูปภาพ และแปลงเป็นข้อความดิจิทัลจริงที่แก้ไขและค้นหาได้
เมื่อคุณสแกนเอกสารกระดาษ — สัญญาที่ลงนาม ใบแจ้งหนี้เก่า หน้าหนังสือ — ผลลัพธ์คือรูปภาพถ่ายของกระดาษ แม้ว่า PDF ที่ได้จะดูเหมือนเอกสารข้อความ แต่จริงๆ แล้วเป็นเพียงรูปภาพ คุณไม่สามารถกด Ctrl+F เพื่อค้นหาคำ ไม่สามารถคัดลอกย่อหน้า ไม่สามารถเลือกข้อความได้ OCR แปลงรูปภาพนั้นเป็นเอกสารข้อความจริง
เมื่อใดที่คุณต้องการทำ OCR?
- PDF ที่สแกน: เอกสารกายภาพที่ถ่ายภาพหรือสแกนโดยไม่มี OCR
- ใบแจ้งหนี้เก่า: เมื่อต้องการคัดลอกข้อมูลสำหรับบัญชีหรือฐานข้อมูล
- สัญญาที่แปลงเป็นดิจิทัล: เพื่อค้นหาข้อกำหนดเฉพาะหรือคัดลอกเงื่อนไข
- หนังสือและสิ่งพิมพ์: เพื่อแปลงเนื้อหาเป็นดิจิทัลและทำการอ้างอิงหรือค้นหา
- รูปถ่ายเอกสาร: รูปถ่ายที่ถ่ายด้วยมือถือของเอกสารกระดาษ
- เอกสารประวัติศาสตร์: การแปลงเอกสารเก็บถาวรเป็นดิจิทัล
- แบบฟอร์มที่กรอกด้วยมือ: เพื่อดึงข้อมูลที่เขียนด้วยมือออก
OCR ทำงานอย่างไร (อธิบายอย่างง่าย)
- การประมวลผลเบื้องต้น: รูปภาพได้รับการปรับปรุง: เพิ่มความคมชัด แก้ไขความเอียง (deskewing) ลบสัญญาณรบกวนพื้นหลัง
- การแบ่งส่วน: เครื่องมือ OCR ระบุบริเวณข้อความ คอลัมน์ ตาราง รูปภาพ และองค์ประกอบอื่นๆ ในหน้า
- การจดจำอักษร: แต่ละอักษรถูกวิเคราะห์และเปรียบเทียบกับฐานข้อมูลรูปร่างที่รู้จักในภาษาที่เลือก
- การแก้ไขทางภาษา: เครื่องมือใช้พจนานุกรมภาษาเพื่อแก้ไขข้อผิดพลาดการจดจำตามบริบท
- การสร้าง PDF: สร้าง PDF พร้อมเลเยอร์ข้อความ "ล่องหน" ที่ซ้อนทับรูปภาพต้นฉบับ รักษาลักษณะภาพแต่เพิ่มข้อความที่ค้นหาได้
วิธีทำ OCR กับ PDF ด้วยเครื่องมือของเรา
- เข้าใช้เครื่องมือ: ไปที่ ทำ OCR กับ PDF
- อัปโหลด PDF ที่สแกน: ลากไฟล์หรือเลือก คุณยังสามารถอัปโหลดรูปภาพโดยตรง (JPG, PNG, TIFF)
- เลือกภาษา: เลือกภาษาหลักของเอกสาร (ไทย อังกฤษ ฝรั่งเศส เยอรมัน ฯลฯ) ซึ่งจะช่วยเพิ่มความแม่นยำอย่างมีนัยสำคัญ
- เลือกประเภทผลลัพธ์:
- PDF ที่ค้นหาได้: รักษารูปภาพต้นฉบับและเพิ่มข้อความล่องหน ลักษณะเหมือนต้นฉบับ
- PDF ที่แก้ไขได้: แทนที่รูปภาพด้วยข้อความจริงที่มีรูปแบบ แก้ไขได้มากขึ้นแต่อาจสูญเสียการออกแบบต้นฉบับ
- ประมวลผลและดาวน์โหลด: OCR ใช้เวลา 10 ถึง 60 วินาทีขึ้นอยู่กับขนาดและความซับซ้อนของเอกสาร
คำแนะนำ: เพื่อรักษาลักษณะต้นฉบับของเอกสาร (ลายเซ็น โลโก้ ตราประทับ) และเพียงเพิ่มความสามารถในการค้นหา ให้เลือก "PDF ที่ค้นหาได้" เสมอ หากต้องการแก้ไขข้อความ ให้เลือก "PDF ที่แก้ไขได้" หรือดีกว่านั้น ให้แปลงเป็น Word ด้วย เครื่องมือ PDF เป็น Word ของเรา
ภาษาที่รองรับสำหรับ OCR
เครื่องมือ OCR ของเรารองรับมากกว่า 100 ภาษา รวมถึง:
| ภูมิภาค | ภาษาหลัก |
|---|---|
| ยุโรปตะวันตก | สเปน อังกฤษ ฝรั่งเศส เยอรมัน อิตาลี โปรตุเกส ดัตช์ |
| ยุโรปตะวันออก | โปแลนด์ เช็ก ฮังการี โรมาเนีย บัลแกเรีย รัสเซีย |
| เอเชีย | จีนตัวย่อ จีนตัวเต็ม ญี่ปุ่น เกาหลี อาหรับ |
| เอเชียตะวันออกเฉียงใต้ | ไทย เวียดนาม |
| อื่นๆ | ฮีบรู กรีก ตุรกี |
เคล็ดลับเพื่อให้ได้ความแม่นยำสูงสุดใน OCR
คุณภาพของเอกสารต้นฉบับ
- ความละเอียดขั้นต่ำที่แนะนำ: 300 DPI ต่ำกว่า 200 DPI ความแม่นยำจะลดลงอย่างมีนัยสำคัญ
- ความคมชัด: ข้อความสีดำบนพื้นขาวเป็นสิ่งที่ดีที่สุด ข้อความสีเทาอ่อนบนพื้นขาวให้ผลลัพธ์ที่แย่กว่า
- ความเอียง: หากเอกสารเอียงมากกว่า 10 องศา OCR จะสูญเสียความแม่นยำ เครื่องมือของเราแก้ไขความเอียงเล็กน้อยโดยอัตโนมัติ
- รอยเปื้อนและสัญญาณรบกวน: เอกสารที่มีรอยเปื้อน ตราประทับบนข้อความ หรือกระดาษที่เหลืองมากให้ผลลัพธ์ที่แย่กว่า
การกำหนดค่า OCR
- เลือกภาษาที่ถูกต้อง: เป็นปัจจัยสำคัญที่สุดสำหรับความแม่นยำ OCR ที่กำหนดค่าสำหรับภาษาอังกฤษจะให้ผลลัพธ์ที่แย่สำหรับภาษาไทย
- ใช้ OCR หลายภาษา: หากเอกสารมีข้อความหลายภาษา ให้เลือกทั้งสองภาษาพร้อมกัน
- สำหรับเอกสารที่มีคอลัมน์: เครื่องมือ OCR สมัยใหม่ตรวจจับเค้าโครงคอลัมน์โดยอัตโนมัติ แต่สำหรับเค้าโครงที่ซับซ้อนมาก (นิตยสาร หนังสือพิมพ์) ความแม่นยำอาจลดลง
ความแม่นยำที่คาดได้จาก OCR?
ความแม่นยำของ OCR สมัยใหม่สูงมากในเงื่อนไขที่เหมาะสม:
- เอกสารพิมพ์ คุณภาพสูง 300 DPI: ความแม่นยำ 99%+
- เอกสารพิมพ์ คุณภาพปานกลาง 200 DPI: ความแม่นยำ 95-98%
- เอกสารสแกนที่มีรอยเปื้อนหรือรอยยับ: ความแม่นยำ 85-95%
- การเขียนด้วยมือ: 60-80% (การเขียนด้วยมือยากกว่ามากในการจดจำ)
- แบบอักษรตกแต่งหรือสไตล์: ขึ้นอยู่กับตัวแปร อาจต่ำ
OCR ในเอกสารหลายหน้า
เครื่องมือของเราประมวลผลเอกสารหลายหน้าในครั้งเดียว คุณไม่ต้องทำ OCR ทีละหน้า ผลลัพธ์คือ PDF เดียวที่ทุกหน้าค้นหาได้ โดยรักษาลำดับและโครงสร้างของเอกสารต้นฉบับ
หลังจาก OCR: การใช้งานข้อความที่ดึงออกมา
เมื่อ PDF มีข้อความที่ค้นหาได้แล้ว คุณสามารถ:
- ค้นหาคำสำคัญด้วย Ctrl+F ในโปรแกรมอ่าน PDF ใดก็ได้
- คัดลอกข้อความเพื่ออ้างอิงหรือนำกลับมาใช้ใหม่
- จัดทำดัชนีเอกสารในระบบการจัดการเอกสาร
- แปลงเป็น Word ด้วย เครื่องมือ PDF เป็น Word ของเรา สำหรับการแก้ไขฉบับเต็ม
- ใช้เครื่องมือวิเคราะห์ข้อความหรือ AI กับเนื้อหา
ทำให้ PDF ของคุณค้นหาได้ตอนนี้
ใช้ OCR กับ PDF ที่สแกนใดก็ได้และแปลงเป็นข้อความที่ค้นหาและคัดลอกได้ ฟรี ไม่ต้องติดตั้ง
ทำ OCR กับ PDF ฟรี →