วิธีแปลง PDF เป็น Word (OCR)

วิธีแปลง PDF เป็น Word ภาษาไทยไม่เพี้ยน (OCR)

ฝันร้ายที่สุดของคนทำงานออฟฟิศไม่ใช่การทำงานหนักครับ แต่คือการได้รับไฟล์ PDF มาแล้วเจ้านายสั่งว่า “ช่วยแก้หน้านี้ให้หน่อย” พอเราพยายามกดแปลงไฟล์ด้วยโปรแกรมทั่วไป สิ่งที่ได้กลับมาคือภาษาต่างดาวที่อ่านไม่ออก หรือสระกระโดดไปมาจนต้องมานั่งพิมพ์ใหม่ทั้งหมด

สาเหตุที่แท้จริงเป็นเพราะไฟล์ PDF บางประเภท โดยเฉพาะไฟล์ที่เกิดจากการสแกนกระดาษ (Scanned PDF) นั้น คอมพิวเตอร์มองเห็นมันเป็น “รูปภาพ” แผ่นหนึ่ง ไม่ใช่ตัวอักษรครับ ดังนั้นเครื่องมือแปลงไฟล์ทั่วไปจึงทำได้แค่เอารูปนั้นไปแปะใน Word ซึ่งแก้ไขอะไรไม่ได้

พระเอกขี่ม้าขาวที่จะมาแก้ปัญหานี้เรียกว่า OCR (Optical Character Recognition) หรือเทคโนโลยีการจำแนกอักขระด้วยแสง ซึ่งทำหน้าที่เหมือนดวงตาที่คอยอ่านภาพเหล่านั้นแล้วแกะออกมาเป็นตัวอักษรให้เราแก้ไขได้ วันนี้พี่แว่นคัด 3 วิธีใช้งาน OCR ที่แม่นยำภาษาไทยที่สุดมาฝากครับ

1. PDF Candy (หน้าตาสวย เมนูไทยครบ ใช้งานง่ายที่สุด)

ถ้าคุณกำลังมองหาเว็บแปลงไฟล์ที่หน้าตาทันสมัย สะอาดตา และเป็นมิตรกับคนไทยสุดๆ ต้องยกให้ PDF Candy ครับ เว็บนี้ขึ้นชื่อเรื่องความง่ายในการใช้งาน แถมยังมีเมนูภาษาไทยให้เลือกใช้แบบครบครัน ไม่ต้องงูๆ ปลาๆ กับภาษาอังกฤษ

จุดเด่นที่คุณจะรัก

  • เมนูภาษาไทย เว็บนี้ใส่ใจผู้ใช้งานคนไทยมาก แปลเมนูทุกอย่างเป็นภาษาไทย ทำให้เราเข้าใจขั้นตอนต่างๆ ได้ทันที
  • ระบบอัจฉริยะ แค่อัปโหลดไฟล์ลงไป ระบบจะจัดการตั้งค่าการแปลงไฟล์ที่เหมาะสมที่สุดให้เองโดยอัตโนมัติ ไม่ต้องกดตั้งค่าเยอะแยะให้ปวดหัว
  • ความปลอดภัย ไฟล์ของคุณจะถูกลบออกจากเซิร์ฟเวอร์โดยอัตโนมัติหลังจากใช้งานเสร็จ มั่นใจได้เรื่องความเป็นส่วนตัว

ขั้นตอนการทำ

  1. เข้าไปที่เว็บไซต์ pdfcandy.com/th/pdf-to-word.html
  2. คลิกปุ่ม “เพิ่มไฟล์” หรือลากไฟล์ PDF ของคุณลงไปในกรอบ
  3. ระบบจะทำการแปลงไฟล์ให้ทันที (สังเกตแถบสถานะ ถ้าไฟล์ไม่ใหญ่มากจะเสร็จไวมาก)
  4. เมื่อเสร็จแล้ว กดปุ่ม “ดาวน์โหลดไฟล์” เพื่อรับไฟล์ Word ไปใช้งานได้เลย

ผลลัพธ์ที่ได้ PDF Candy ทำผลงานได้ดีเยี่ยมในเรื่องของการรักษา Layout (การจัดหน้า) ครับ ตัวหนังสือภาษาไทยมีความคมชัด สระไม่ค่อยลอย และตำแหน่งของรูปภาพประกอบยังอยู่ครบถ้วน ถือเป็นเครื่องมือสามัญประจำบ้านที่ควรมีติด Bookmark ไว้เลยครับ

2. LightPDF ตัวช่วยออนไลน์ที่รักษา Layout ได้ดีที่สุด

หากคุณลองใช้ Microsoft Word แล้วพบว่าการจัดหน้าพังพินาศ หรือแปลงออกมาแล้วกลายเป็นรูปภาพแก้ไขไม่ได้ ผมขอแนะนำให้รู้จักกับ LightPDF ครับ เว็บนี้คือม้ามืดในวงการ OCR ที่รองรับภาษาไทยได้ดีจนน่าตกใจ จุดเด่นคือมันพยายามรักษา “ตำแหน่ง” ของข้อความและตารางให้เหมือนต้นฉบับมากที่สุด

ขั้นตอนการทำ

  1. เข้าเว็บไซต์ lightpdf.com แล้วเลือกเมนู OCR (ไม่ใช่ PDF to Word ธรรมดานะครับ ต้องเลือก OCR)
  2. อัปโหลดไฟล์ PDF ของคุณลงไป
  3. จุดสำคัญ ตรงตั้งค่าภาษา (Language) ให้เลือก “Thai” (หรือ Thai + English ถ้ามีสองภาษา)
  4. เลือกรูปแบบไฟล์ปลายทางเป็น Word (.docx) แล้วกด Convert

ผลลัพธ์ที่ได้ วิธีนี้จะแก้จุดอ่อนของ Google Docs เรื่องการจัดหน้าได้ดีเยี่ยม ย่อหน้าไม่กระจุย ตารางยังเป็นตาราง และที่สำคัญคือมันแกะตัวหนังสือจากไฟล์สแกน (Scanned PDF) ได้แม่นยำกว่า Microsoft Word หลายเท่า เป็นทางเลือกที่ดีที่สุดสำหรับคนที่ไม่มีงบซื้อโปรแกรม Adobe Acrobat Pro ครับ

3. LINE PC ไม้ตายก้นหีบสำหรับงานด่วน

นี่คือเทคนิคลับที่พี่แว่นชอบใช้มากเวลาเร่งด่วน แอปพลิเคชัน LINE บนคอมพิวเตอร์ที่เราใช้คุยงานกันนี่แหละครับ มีฟีเจอร์ OCR ที่เก่งเรื่องภาษาไทยอย่างเหลือเชื่อ เพราะพัฒนาโดยทีมงานที่เข้าใจภาษาโซนเอเชียดีที่สุด

ขั้นตอนการทำ

  1. เปิดไฟล์ PDF แล้วแคปหน้าจอ (Capture) ส่วนที่เป็นข้อความที่ต้องการ
  2. ส่งรูปนั้นเข้าไปในห้องแชท (จะส่งเข้าห้อง Keep หรือห้องว่างๆ ก็ได้)
  3. คลิกขวาที่รูป เลือก “Scan Text” (สแกนข้อความ) หรือกดไอคอนรูปตัว [T]

ผลลัพธ์ที่ได้ LINE จะแสดงหน้าต่างเทียบกันให้เห็นชัดๆ ระหว่างรูปต้นฉบับกับข้อความที่แกะได้ คุณสามารถกด Copy ทั้งหมดไปวางใน Word ได้เลย ความแม่นยำของภาษาไทยถือว่าสูงมาก รองรับสระและวรรณยุกต์ได้ดีเยี่ยม เหมาะสำหรับการแก้เอกสารทีละหน้าหรือเฉพาะจุดที่ต้องการแก้ไขครับ สำหรับใครไม่เคยใช้งาน สามารถโหลดได้ที่ https://line-pc.com/

ปัจจัยที่ทำให้การแปลงไฟล์ “ล้มเหลว”

ถึงแม้เครื่องมือจะเทพแค่ไหน แต่ถ้าต้นฉบับมาไม่ดี ผลลัพธ์ก็อาจจะแย่ได้ครับ หากคุณต้องการผลลัพธ์ระดับ 100% ต้องระวังเรื่องเหล่านี้

  • ความละเอียดของไฟล์ หากไฟล์ PDF สแกนมาแบบมัวๆ หรือความละเอียดต่ำ (Low Resolution) AI จะอ่านไม่ออกและเดามั่วทันที
  • ฟอนต์แปลกประหลาด หากต้นฉบับใช้ฟอนต์ลายมือ ฟอนต์โบราณ หรือฟอนต์กราฟิกวิจิตรพิสดาร โอกาสที่ OCR จะอ่านเพี้ยนมีสูงมาก
  • เอกสารที่เขียนด้วยลายมือ ปัจจุบันเทคโนโลยียังอ่านลายมือภาษาไทย (Handwriting) ได้ไม่แม่นยำนัก โดยเฉพาะลายมือหวัดๆ ถ้าเป็นเคสนี้ ทำใจพิมพ์ใหม่เร็วกว่าครับ

เลือกเครื่องมือให้ถูกงาน

ไม่มีเครื่องมือตัวไหนทำได้ Perfect ทุกอย่างครับ คุณต้องเลือกใช้ให้เหมาะกับสถานการณ์

  • ถ้าต้องการ ความง่าย เมนูไทย และไฟล์ไม่ซับซ้อนมาก ใช้ PDF Candy
  • ถ้าต้องการ คงรูปแบบหน้ากระดาษ ให้เหมือนเดิมที่สุด ใช้ Microsoft Word
  • ถ้าต้องการ แก้ข้อความสั้นๆ อย่างรวดเร็ว ใช้ LINE PC

ลองนำเทคนิคเหล่านี้ไปปรับใช้ดูนะครับ แล้วงานเอกสารกองโตจะไม่ใช่ฝันร้ายของคุณอีกต่อไป

ใส่ความเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *


ติดต่อ "แว่นTalk"