ทุกวันนี้คนเห่อ Generative AI หรือ ‘AI เพื่อการผลิตคอนเทนต์’ กันสุดๆ และก็มีการผลิต ‘ภาพโดย AI’ ขึ้นมาอย่างมากมายมหาศาลระดับที่เวลาเจอภาพแปลกๆ ในอินเทอร์เน็ตทุกวันนี้ ก็อาจต้องคิดก่อนว่ามัน ‘วาด’ โดย AI หรือไม่
แต่ทุกคนที่ตามเรื่องนี้อยู่ห่างๆ ก็น่าจะเห็นตรงกันว่าวิธี ‘จับผิด’ ภาพที่ผลิตโดย AI ที่ง่ายที่สุดคือให้ดู ‘มือ’ เพราะมือเป็นสิ่งที่ AI ไม่ว่าจะวาดอะไรได้เหมือนจริงแค่ไหน ก็มักจะวาด ‘มือ’ ได้ห่วยสุดเสมอ จนคนดูทั่วไปสามารถ ‘จับผิด’ ได้
ทำไมมันเป็นแบบนั้น?
คำตอบพื้นฐานจริงๆ เป็นเพราะมือคืออวัยวะที่มนุษย์สามารถขยับได้อย่างละเอียดมาก แต่ในทางกลับกันเราไม่มีศัพท์แสงในการ ‘บรรยาย’ ท่าทางของมืออย่างละเอียดทัดเทียมกันเลย และทั้งหมดนี้เป็นเหตุผลให้เราไม่สามารถสอน AI ให้วาดมือได้ง่ายเท่ากับการวาดหน้าคน
ถ้าพูดให้ละเอียดขึ้น มือคืออวัยวะของมนุษย์ที่ขยับได้อย่างละเอียดที่สุดในทางสรีรวิทยาและประสาทวิทยา โดยสมองของเราส่วนที่ใช้ควบคุมร่างกาย จะแบ่งทรัพยากร 1 ใน 3 เพื่อใช้ควบคุมมือทั้งสองข้าง อีก 1 ใน 3 ใช้คุมใบหน้า และอีก 1 ใน 3 คือควบคุมส่วนอื่นๆ ทั้งหมด
จะเห็นได้ว่าส่วนที่มนุษย์ควบคุมได้มากที่สุดคือ ‘มือและใบหน้า’ ดังนั้น ‘ความเป็นไปได้’ ในการเคลื่อนไหวหรือแสดงออกจึงหลากหลายมากๆ
แต่ความต่างคือเรามีศัพท์แสงในการอธิบาย ‘ใบหน้า’ อย่างละเอียดจัดๆ มีคำเรียกสีหน้าต่างๆ รูปตา รูปปาก รูปจมูก ดังนั้นคนทำสีหน้าต่างๆ เรามีคำอธิบายเป็นภาษาคน ซึ่งเรื่องพวกนี้เวลาเทรน AI ก็จะมีการสอนว่าหน้าแบบนี้ในรูปมันเรียกว่าอะไร การทำตาทำปากแบบนี้มันคืออะไร ดังนั้น AI จึงเรียนรู้สีหน้าต่างๆ ของมนุษย์ได้เยอะมาก และรู้ว่าหน้าแบบนี้คือใบหน้าลักษณะไหน พอสั่งให้ AI ผลิตภาพคนที่ทำหน้าแบบนี้ มันก็เลยผลิตออกมาได้ และนี่คือเหตุผลว่าทำไม AI ผลิตภาพส่วนใหญ่จึงสร้างภาพหน้าคนได้ดีมากกว่าภาพอย่างอื่นเยอะ (นี่ยังไม่ต้องพูดถึงว่าฐานข้อมูลภาพของมนุษย์ที่เอาไว้เทรน AI เต็มไปด้วยรูปหน้าคน หรือมีภาพหน้าคนเยอะกว่าถ้าเทียบสัดส่วนกับภาพอื่นๆ)
แต่พอเป็น ‘มือ’ แล้วเป็นคนละเรื่อง เพราะในขณะที่มนุษย์สามารถควบคุมมือได้ละเอียดพอๆ กับใบหน้า เรากลับแทบไม่มีคำบรรยายท่าทางของมือที่ละเอียดใกล้กันเลย พูดง่ายๆ สมมติเราบรรยายภาพภาพหนึ่ง เราจะบรรยายว่า คนกำลังทำอะไร สีหน้าเป็นยังไง ฉากเป็นยังไง แต่เราจะไม่บรรยายละเอียดว่าคนในภาพกำลังทำมือยังไง นิ้วโป้งงอหรือยืดในองศาไหน นิ้วชี้ กลาง นาง และก้อย กำลังทำอะไรอยู่ เพราะเราถือว่าเป็นสิ่งที่รู้กัน แต่ในความเป็นจริง ความเป็นไปได้ของ ‘มือ’ มันหลากหลายมากๆ
เวลาส่งรูปไปให้ AI ‘ฝึก’ เชื่ยมโยง ‘คำบรรยาย’ กับ ‘ภาพ’ มันก็เลยไม่ได้รับความรู้ว่า ‘มือ’ ในรูปนั้นมีลักษณะยังไงนิ้วแต่ละนิ้วอยู่ท่าไหนเพราะมนุษย์เองก็ไม่ได้มีความสนใจจะบรรยายมืออย่างละเอียดมาแต่แรก
เหตุผลหนึ่งก็คือมนุษย์อยู่กับมันจนรู้สึกว่า ‘ชัดเจนจนไม่ต้องอธิบาย’ แต่ AI ไม่มีคอนเซ็ปต์สิ่งเหล่านี้ มันไม่มีมือของตัวเองที่เห็นอยู่ทุกวัน และก็ไม่เข้าใจว่ามือคืออะไร ซึ่งพอมนุษย์ไม่ได้ ‘สอน’ อย่างละเอียดๆ มันก็เลยไม่มีความเข้าใจแม้แต่ว่ามนุษย์ทั่วๆ ไป มือข้างหนึ่งจะมี 5 นิ้ว ซึ่งก็ยังไม่ต้องไปพูดถึงว่านิ้วแต่ละนิ้วสามารถขยับไปได้แค่ไหนโดยไม่ผิดรูป
ซึ่งเอาจริงๆ ถ้าไปดูภาพที่สร้างโดย AI แบบพินิจพิจารณา เราจะเห็นปัญหาแบบเดียวกันหมด เพราะการวาดแขนขาเกินก็เกิดขึ้นเป็นปกติ การวาดกล้ามท้องหรือกระทั่งหน้าอกเกินก็ปกติมากๆ และรายละเอียดเล็กๆ น้อยๆ พวกนี้ AI วาดพลาดเยอะมากๆ บางคนก็เคยเทสต์ให้เห็นว่าถ้าสั่ง AI วาดหน้าคนให้มี ‘กระ 5 จุด’ เราก็จะพบว่าไม่มี AI ตัวไหนวาดกระมา ‘พอดี’ 5 จุดเลย มันวาดเกินตลอด เพราะมันไม่มีความเข้าใจว่ากระ 5 จุดกับกระ 10 กว่าจุดมันต่างกันยังไง
ประเด็นคือ คนเล่น AI ทั้งหลายก็เห็นข้อจำกัดนี้ แต่ไม่ถือว่านี่คือความผิดพลาดร้ายแรงอะไร เพราะไม่ทำให้ภาพ ‘เสีย’ หรือถ้าภาพมันเสียชัดๆ แบบแขนเกินมา ก็คงไม่มีใครเอามาโชว์ ซึ่งจริงๆ ส่วนไหนเสียก็ ‘แก้’ ได้ โดยสั่งให้ AI ผลิตภาพใหม่เฉพาะส่วนที่เสีย แต่นี่ก็กลับมาที่ปัญหาเดิม คือ พอเราไม่มีศัพท์แสงที่เกี่ยวกับมือมากพอ เราก็ไม่รู้จะสั่งให้ AI แก้มือที่ผิดหลักกายวิภาคจนถึงขั้นนิ้วเกินอย่างไร ผลก็คือ ภาพจำนวนมากก็ถูกปล่อยออกมาทั้งๆ ที่มือมัน ‘ผิดปกติ’ อยู่อย่างนั้นนั่นเอง
ถามว่าเราจะแก้ไขให้ AI วาดมือได้ไหม? คำตอบเร็วๆ คือ ถ้าผู้ผลิต AI มีความพยายามมากขึ้นในการฝึก AI ให้วาดมือ อะไรๆ ก็อาจดีขึ้นบ้าง แต่ปัญหาระดับพื้นฐานก็ยังไม่หายไปไหน เพราะสุดท้ายมนุษย์เราก็ยังไม่มีศัพท์แสงในการบรรยายมืออยู่ดี
นี่ก็กลับมาประเด็นท้ายที่สุดว่า พวก AI ผลิตภาพทั้งหลายมีปัญหาเยอะ แต่ปัญหาอื่นๆ มนุษย์ล้วน ‘หยวนๆ’ หรือมองข้ามไป หรือกระทั่งไม่เห็นเป็นเรื่องผิดปกติ แต่พอมาเป็นเรื่อง ‘มือ’ มนุษย์ก็มักจะมีมาตรฐานสูงกว่าร่างกายส่วนอื่น
และที่เป็นแบบนี้ ก็กลับไปประเด็นแรกว่า มนุษย์สามารถควบคุมมือได้ละเอียดมาก มนุษย์ผูกพันกับมือมากกว่าที่ตัวเองคิด และก็ต้องไม่ลืมว่าสำหรับมนุษย์ส่วนใหญ่เห็น ‘มือ’ บ่อยกว่าหน้าตัวเองด้วยซ้ำ นี่เลยทำให้มนุษย์ตั้งมาตรฐานของ ‘ภาพมือ’ ไว้สูงมาก เพราะนี่คือสิ่งที่มนุษย์เห็นบ่อยที่สุด พอ AI ผลิตภาพมือออกมาไม่ได้ ‘ตรงกับความเป็นจริง’ มันก็เลยถูกมองว่าเป็นปัญหาที่ใหญ่กว่าปัญหาวาดภาพไม่ตรงกับความเป็นจริงอื่นๆ เท่านั้นเอง
อ้างอิง
- Vox. Why AI art struggles with hands. https://bit.ly/43kcuaH