หากคุณจินตนาการว่า Data Scientist คือคนที่นั่งหน้าจอมอนิเตอร์ 10 จอ มีโค้ดสีเขียวไหลผ่านหน้าแบบ The Matrix หรือกำลังคุยกับ AI ล้ำสมัยแบบใน Iron Man คุณกำลังเข้าใจผิดครับ ชีวิตจริงของคนทำข้อมูลนั้นมีความ “ถึก” และ “ละเอียด” มากกว่าที่หลายคนคิด
ในหนังทุกอย่างสำเร็จในครั้งเดียว แต่ความจริงคือการลองผิดลองถูก (Trial and Error) โมเดลที่อุตส่าห์ทำมาเป็นสัปดาห์อาจจะใช้ไม่ได้ผลเมื่อเจอข้อมูลชุดใหม่ หรือความแม่นยำต่ำเกินกว่าจะใช้งานจริง การรับมือกับความผิดหวังและการ “จูน” โมเดลซ้ำแล้วซ้ำเล่าคือกิจวัตรที่เลี่ยงไม่ได้
เทรนด์ระดับโลก จาก Model-Centric สู่ Data-Centric
ปัจจุบันเทรนด์ของโลก (โดยเฉพาะแนวคิดของ Andrew Ng ปรมาจารย์ด้าน AI) กำลังเปลี่ยนจากการพยายามสร้างอัลกอริทึมที่ซับซ้อนที่สุด ไปเป็นการให้ความสำคัญกับ “คุณภาพของข้อมูล” (Data Quality) มากกว่า ซึ่งยิ่งตอกย้ำว่าชีวิตจริงของ Data Scientist จะต้องคลุกคลีอยู่กับการคัดกรองและปรับปรุงข้อมูลให้มีคุณภาพสูงที่สุด
อาชีพ Data Scientist ยังคงเป็นอาชีพที่น่าตื่นเต้นและสร้างมูลค่ามหาศาลให้กับองค์กรครับ แต่มันไม่ได้เท่เพราะความล้ำของเทคโนโลยีเพียงอย่างเดียว แต่มันเท่ตรงที่ “ความสามารถในการแก้ปัญหา” ท่ามกลางความยุ่งเหยิงของข้อมูล และเปลี่ยนมันให้กลายเป็นเข็มทิศที่นำพาธุรกิจไปข้างหน้าได้ต่างหาก
ทำไม Data Scientist ต้องใช้เวลาส่วนใหญ่กับ Data Cleaning มากกว่าการสร้างโมเดล
เพราะข้อมูลจากโลกธุรกิจจริงแทบไม่เคยพร้อมใช้งาน ข้อมูลมักขาดหาย ซ้ำซ้อน หรือบันทึกผิด หากไม่ทำความสะอาดก่อน โมเดลที่ซับซ้อนแค่ไหนก็ให้ผลลัพธ์ที่ผิดพลาด การ Data Cleaning จึงเป็นขั้นตอนที่หลีกเลี่ยงไม่ได้และมีผลต่อคุณภาพงานโดยตรง
ทำไมหลายองค์กรมี AI แต่ Data Scientist กลับรู้สึกทำงานยาก
ปัญหาหลักมักไม่ใช่ AI แต่คือโครงสร้างข้อมูลที่ไม่พร้อม เช่น ฐานข้อมูลกระจัดกระจาย ไม่มี Data Pipeline ที่ดี หรือการเข้าถึงข้อมูลต้องผ่านหลายฝ่าย สิ่งเหล่านี้ทำให้ Data Scientist ต้องใช้เวลามากกับงานเชิงโครงสร้างแทนการวิเคราะห์เชิงลึก
เทรนด์ Data-Centric หมายความว่า Data Scientist ต้องเก่งโค้ดน้อยลงหรือไม่