3 Min

ทำไม AI ถึง ‘มีปัญหา’ ในการวาด ‘มือ’

3 Min
1250 Views
17 Apr 2023

ทุกวันนี้คนเห่อ Generative AI หรือ ‘AI เพื่อการผลิตคอนเทนต์กันสุดๆ และก็มีการผลิตภาพโดย AI’ ขึ้นมาอย่างมากมายมหาศาลระดับที่เวลาเจอภาพแปลกๆ ในอินเทอร์เน็ตทุกวันนี้ ก็อาจต้องคิดก่อนว่ามันวาดโดย AI หรือไม่

แต่ทุกคนที่ตามเรื่องนี้อยู่ห่างๆ ก็น่าจะเห็นตรงกันว่าวิธีจับผิดภาพที่ผลิตโดย AI ที่ง่ายที่สุดคือให้ดูมือเพราะมือเป็นสิ่งที่ AI ไม่ว่าจะวาดอะไรได้เหมือนจริงแค่ไหน ก็มักจะวาดมือได้ห่วยสุดเสมอ จนคนดูทั่วไปสามารถจับผิดได้

ทำไมมันเป็นแบบนั้น?

คำตอบพื้นฐานจริงๆ เป็นเพราะมือคืออวัยวะที่มนุษย์สามารถขยับได้อย่างละเอียดมาก แต่ในทางกลับกันเราไม่มีศัพท์แสงในการบรรยายท่าทางของมืออย่างละเอียดทัดเทียมกันเลย และทั้งหมดนี้เป็นเหตุผลให้เราไม่สามารถสอน AI ให้วาดมือได้ง่ายเท่ากับการวาดหน้าคน

ถ้าพูดให้ละเอียดขึ้น มือคืออวัยวะของมนุษย์ที่ขยับได้อย่างละเอียดที่สุดในทางสรีรวิทยาและประสาทวิทยา โดยสมองของเราส่วนที่ใช้ควบคุมร่างกาย จะแบ่งทรัพยากร 1 ใน 3 เพื่อใช้ควบคุมมือทั้งสองข้าง อีก 1 ใน 3 ใช้คุมใบหน้า และอีก 1 ใน 3 คือควบคุมส่วนอื่นๆ ทั้งหมด

จะเห็นได้ว่าส่วนที่มนุษย์ควบคุมได้มากที่สุดคือมือและใบหน้าดังนั้นความเป็นไปได้ในการเคลื่อนไหวหรือแสดงออกจึงหลากหลายมากๆ

แต่ความต่างคือเรามีศัพท์แสงในการอธิบายใบหน้าอย่างละเอียดจัดๆ มีคำเรียกสีหน้าต่างๆ รูปตา รูปปาก รูปจมูก ดังนั้นคนทำสีหน้าต่างๆ เรามีคำอธิบายเป็นภาษาคน ซึ่งเรื่องพวกนี้เวลาเทรน AI ก็จะมีการสอนว่าหน้าแบบนี้ในรูปมันเรียกว่าอะไร การทำตาทำปากแบบนี้มันคืออะไร ดังนั้น AI จึงเรียนรู้สีหน้าต่างๆ ของมนุษย์ได้เยอะมาก และรู้ว่าหน้าแบบนี้คือใบหน้าลักษณะไหน พอสั่งให้ AI ผลิตภาพคนที่ทำหน้าแบบนี้ มันก็เลยผลิตออกมาได้ และนี่คือเหตุผลว่าทำไม AI ผลิตภาพส่วนใหญ่จึงสร้างภาพหน้าคนได้ดีมากกว่าภาพอย่างอื่นเยอะ (นี่ยังไม่ต้องพูดถึงว่าฐานข้อมูลภาพของมนุษย์ที่เอาไว้เทรน AI เต็มไปด้วยรูปหน้าคน หรือมีภาพหน้าคนเยอะกว่าถ้าเทียบสัดส่วนกับภาพอื่นๆ)

แต่พอเป็นมือแล้วเป็นคนละเรื่อง เพราะในขณะที่มนุษย์สามารถควบคุมมือได้ละเอียดพอๆ กับใบหน้า เรากลับแทบไม่มีคำบรรยายท่าทางของมือที่ละเอียดใกล้กันเลย พูดง่ายๆ สมมติเราบรรยายภาพภาพหนึ่ง เราจะบรรยายว่า คนกำลังทำอะไร สีหน้าเป็นยังไง ฉากเป็นยังไง แต่เราจะไม่บรรยายละเอียดว่าคนในภาพกำลังทำมือยังไง นิ้วโป้งงอหรือยืดในองศาไหน นิ้วชี้ กลาง นาง และก้อย กำลังทำอะไรอยู่ เพราะเราถือว่าเป็นสิ่งที่รู้กัน แต่ในความเป็นจริง ความเป็นไปได้ของมือมันหลากหลายมากๆ

เวลาส่งรูปไปให้ AI ‘ฝึกเชื่ยมโยงคำบรรยายกับภาพมันก็เลยไม่ได้รับความรู้ว่ามือในรูปนั้นมีลักษณะยังไงนิ้วแต่ละนิ้วอยู่ท่าไหนเพราะมนุษย์เองก็ไม่ได้มีความสนใจจะบรรยายมืออย่างละเอียดมาแต่แรก

เหตุผลหนึ่งก็คือมนุษย์อยู่กับมันจนรู้สึกว่าชัดเจนจนไม่ต้องอธิบายแต่ AI ไม่มีคอนเซ็ปต์สิ่งเหล่านี้ มันไม่มีมือของตัวเองที่เห็นอยู่ทุกวัน และก็ไม่เข้าใจว่ามือคืออะไร ซึ่งพอมนุษย์ไม่ได้สอนอย่างละเอียดๆ มันก็เลยไม่มีความเข้าใจแม้แต่ว่ามนุษย์ทั่วๆ ไป มือข้างหนึ่งจะมี 5 นิ้ว ซึ่งก็ยังไม่ต้องไปพูดถึงว่านิ้วแต่ละนิ้วสามารถขยับไปได้แค่ไหนโดยไม่ผิดรูป

ซึ่งเอาจริงๆ ถ้าไปดูภาพที่สร้างโดย AI แบบพินิจพิจารณา เราจะเห็นปัญหาแบบเดียวกันหมด เพราะการวาดแขนขาเกินก็เกิดขึ้นเป็นปกติ การวาดกล้ามท้องหรือกระทั่งหน้าอกเกินก็ปกติมากๆ และรายละเอียดเล็กๆ น้อยๆ พวกนี้ AI วาดพลาดเยอะมากๆ บางคนก็เคยเทสต์ให้เห็นว่าถ้าสั่ง AI วาดหน้าคนให้มีกระ 5 จุดเราก็จะพบว่าไม่มี AI ตัวไหนวาดกระมาพอดี’ 5 จุดเลย มันวาดเกินตลอด เพราะมันไม่มีความเข้าใจว่ากระ 5 จุดกับกระ 10 กว่าจุดมันต่างกันยังไง

ประเด็นคือ คนเล่น AI ทั้งหลายก็เห็นข้อจำกัดนี้ แต่ไม่ถือว่านี่คือความผิดพลาดร้ายแรงอะไร เพราะไม่ทำให้ภาพเสียหรือถ้าภาพมันเสียชัดๆ แบบแขนเกินมา ก็คงไม่มีใครเอามาโชว์ ซึ่งจริงๆ ส่วนไหนเสียก็แก้ได้ โดยสั่งให้ AI ผลิตภาพใหม่เฉพาะส่วนที่เสีย แต่นี่ก็กลับมาที่ปัญหาเดิม คือ พอเราไม่มีศัพท์แสงที่เกี่ยวกับมือมากพอ เราก็ไม่รู้จะสั่งให้ AI แก้มือที่ผิดหลักกายวิภาคจนถึงขั้นนิ้วเกินอย่างไร ผลก็คือ ภาพจำนวนมากก็ถูกปล่อยออกมาทั้งๆ ที่มือมันผิดปกติอยู่อย่างนั้นนั่นเอง

ถามว่าเราจะแก้ไขให้ AI วาดมือได้ไหม? คำตอบเร็วๆ คือ ถ้าผู้ผลิต AI มีความพยายามมากขึ้นในการฝึก AI ให้วาดมือ อะไรๆ ก็อาจดีขึ้นบ้าง แต่ปัญหาระดับพื้นฐานก็ยังไม่หายไปไหน เพราะสุดท้ายมนุษย์เราก็ยังไม่มีศัพท์แสงในการบรรยายมืออยู่ดี

นี่ก็กลับมาประเด็นท้ายที่สุดว่า พวก AI ผลิตภาพทั้งหลายมีปัญหาเยอะ แต่ปัญหาอื่นๆ มนุษย์ล้วนหยวนๆหรือมองข้ามไป หรือกระทั่งไม่เห็นเป็นเรื่องผิดปกติ แต่พอมาเป็นเรื่องมือมนุษย์ก็มักจะมีมาตรฐานสูงกว่าร่างกายส่วนอื่น

และที่เป็นแบบนี้ ก็กลับไปประเด็นแรกว่า มนุษย์สามารถควบคุมมือได้ละเอียดมาก มนุษย์ผูกพันกับมือมากกว่าที่ตัวเองคิด และก็ต้องไม่ลืมว่าสำหรับมนุษย์ส่วนใหญ่เห็นมือบ่อยกว่าหน้าตัวเองด้วยซ้ำ นี่เลยทำให้มนุษย์ตั้งมาตรฐานของภาพมือไว้สูงมาก เพราะนี่คือสิ่งที่มนุษย์เห็นบ่อยที่สุด พอ AI ผลิตภาพมือออกมาไม่ได้ตรงกับความเป็นจริงมันก็เลยถูกมองว่าเป็นปัญหาที่ใหญ่กว่าปัญหาวาดภาพไม่ตรงกับความเป็นจริงอื่นๆ เท่านั้นเอง

อ้างอิง