Data science

ใบหน้าเป็นอนาคตของ AI

มนุษย์ถูกเดินสายให้มองหน้ากัน ทารกอายุ 3 เดือนชอบมองหน้าเมื่อมีโอกาส เรามีพื้นที่สมองที่แยกต่างหากสำหรับการจดจำใบหน้า และมนุษย์ไม่สามารถจดจำใบหน้าได้ในขณะที่การประมวลผลภาพที่เหลือทั้งหมดทำงานได้ดีอย่างสมบูรณ์ (สภาพที่เรียกว่า prosopagnosia) เราจำใบหน้าและอารมณ์ได้ดีกว่าสิ่งอื่นใด ใน 1973 Hermann Chernoff ยังแนะนำให้ใช้ภาพวาดใบหน้าสำหรับการแสดงข้อมูลหลายตัวแปร สำหรับมนุษย์อย่างเรา การเชี่ยวชาญด้านใบหน้าเป็นเรื่องที่สมเหตุสมผล เราเป็นสัตว์สังคมที่สมองอาจมีวิวัฒนาการด้วยเหตุผลทางสังคม และมีความจำเป็นเร่งด่วนที่ไม่เพียงแต่แยกแยะบุคคลเท่านั้น แต่ยังต้องรับรู้ความแตกต่างของอารมณ์ด้วย: ความแตกต่างระหว่างความกลัวและความโกรธในตัวเพื่อนไพรเมตอาจหมายถึงชีวิตหรือความตาย แต่ปรากฎว่าในปัญญาประดิษฐ์ ปัญหาที่เกี่ยวข้องกับใบหน้าของมนุษย์ก็มาถึงแถวหน้าของคอมพิวเตอร์วิทัศน์เช่นกัน ด้านล่างนี้ เราพิจารณาบางส่วน อภิปรายถึงสถานะปัจจุบันของศิลปะ และแนะนำวิธีแก้ปัญหาทั่วไปที่อาจก้าวหน้าในอนาคตอันใกล้ ปัญหาทั่วไปใน Computer Vision ประการแรก การจดจำใบหน้านั้นมีแอพพลิเคชั่นที่เกี่ยวข้องกับความปลอดภัยที่ชัดเจน ตั้งแต่การปลดล็อคโทรศัพท์ของคุณไปจนถึงการจับอาชญากรด้วยกล้องวงจรปิด โดยปกติการจดจำใบหน้าจะเป็นการเพิ่มระดับการรักษาความปลอดภัย แต่ในขณะที่เทคโนโลยีก้าวหน้าไป ก็อาจเป็นคู่แข่งกับลายนิ้วมือและไบโอเมตริกซ์อื่นๆ อย่างเป็นทางการ เป็นปัญหาการจัดหมวดหมู่: เลือกคำตอบที่ถูกต้องจากทางเลือกต่างๆ แต่มีใบหน้ามากมาย และเราจำเป็นต้องเพิ่มคนใหม่ทันที ดังนั้น ระบบจดจำใบหน้ามักจะทำงานโดยการเรียนรู้ที่จะแยกคุณสมบัติ เช่น จับคู่รูปภาพของใบหน้ากับพื้นที่ที่มีขนาดเล็กกว่ามากของคุณสมบัติ จากนั้นจึงดำเนินการดึงข้อมูลในพื้นที่คุณสมบัตินี้ การเรียนรู้คุณลักษณะมักจะทำกับโครงข่ายประสาทเทียมแบบลึกอย่างสม่ำเสมอ แม้ว่าระบบจดจำใบหน้าสมัยใหม่จะบรรลุผลลัพธ์ที่ยอดเยี่ยมและมีการใช้กันอย่างแพร่หลายในทางปฏิบัติ ปัญหานี้ยังคงก่อให้เกิดแนวคิดพื้นฐานใหม่ในการเรียนรู้เชิงลึก การจดจำอารมณ์ (การจำแนกการแสดงออกทางสีหน้า) เป็นอีกมือหนึ่งของมนุษย์ แต่การทำให้เป็นระบบอัตโนมัติเป็นสิ่งสำคัญ ผู้ช่วย AI จะมีประโยชน์มากขึ้นหากพวกเขารู้จักอารมณ์ และรถอาจรับรู้ได้ว่าคนขับกำลังจะหลับอยู่ที่พวงมาลัยหรือไม่ (เทคโนโลยีนี้ใกล้จะผลิตแล้ว) นอกจากนี้ยังมีการประยุกต์ใช้ทางการแพทย์มากมาย: อารมณ์ (หรือขาดสิ่งนี้) มีความสำคัญในการวินิจฉัยโรคพาร์กินสัน โรคหลอดเลือดสมองและรอยโรคในเยื่อหุ้มสมอง และอีกมากมาย อีกครั้ง การรู้จำอารมณ์เป็นปัญหาการจำแนกประเภท และผลลัพธ์ที่ดีที่สุดนั้นทำได้โดยสถาปัตยกรรมการเรียนรู้เชิงลึกที่เป็นมาตรฐาน แม้ว่าโปรแกรมทางการแพทย์มักจะเพิ่มภาพด้วยรังสีอื่นๆ เช่น การหายใจหรือการตรวจคลื่นไฟฟ้าหัวใจ การประมาณการการจ้องมอง กล่าวคือ การคาดคะเนตำแหน่งที่บุคคลกำลังมอง เป็นสิ่งสำคัญสำหรับสมาร์ทโฟน, AR/VR และแอปพลิเคชันการติดตามการมองต่างๆ เช่น อีกครั้ง ความปลอดภัยของรถยนต์ ปัญหานี้ไม่ต้องการเครือข่ายขนาดใหญ่เนื่องจากภาพที่นำเข้ามีขนาดค่อนข้างเล็ก แต่ผลลัพธ์ก็ดีขึ้นเรื่อยๆ ในระยะหลัง เช่น การปรับ 2-3 ภาพให้เข้ากับบุคคลที่เฉพาะเจาะจง สถานะการประมาณการการจ้องมองในปัจจุบันนั้นเพียงพอแล้วสำหรับการสร้างซอฟต์แวร์ AR/VR ที่ควบคุมโดยการจ้องมองอย่างสมบูรณ์ และเราคาดว่าตลาดนี้จะเติบโตอย่างรวดเร็วมาก การแบ่งกลุ่ม ซึ่งเป็นปัญหาคอมพิวเตอร์วิทัศน์แบบคลาสสิก มีความสำคัญสำหรับใบหน้ามนุษย์เช่นกัน ส่วนใหญ่สำหรับการตัดต่อวิดีโอและแอปพลิเคชันที่คล้ายคลึงกัน หากคุณต้องการแยกบุคคลออกมาได้ดีจริงๆ ให้พูดว่าเพิ่มพื้นหลังเจ๋งๆ ให้กับแอปการประชุมทางวิดีโอของคุณ การแบ่งกลุ่มจะกลายเป็นการปูพื้นหลัง ซึ่งเป็นปัญหาที่ยากกว่ามากเมื่อมาสก์การแบ่งกลุ่มไม่ใช่ไบนารี แต่ยังสามารถ “กึ่งโปร่งใส” กับ ระดับ. นี่เป็นสิ่งสำคัญสำหรับขอบเขตของวัตถุ ผม แว่นตา และอื่นๆ การปูพื้นหลังเพิ่งเริ่มได้วิธีแก้ปัญหาที่น่าพอใจ และยังมีอีกมากที่ต้องทำ ปัญหาเฉพาะด้านที่เกี่ยวข้องกับใบหน้าจำนวนมากขึ้นอยู่กับการตรวจจับจุดสำคัญของใบหน้า ซึ่งเป็นปัญหาในการค้นหาจุดลักษณะเฉพาะบนใบหน้ามนุษย์ โครงร่างจุดสำคัญทั่วไปประกอบด้วยจุดหลายสิบจุด (68 ในรูปแบบ IBUG ยอดนิยม) ที่ต้องติดป้ายกำกับทั้งหมดบนใบหน้า จุดสำคัญของใบหน้าสามารถใช้เป็นขั้นตอนแรกในการติดตามใบหน้าในรูปภาพและวิดีโอ การจดจำใบหน้าและการแสดงออกทางสีหน้า และการประยุกต์ใช้ไบโอเมตริกซ์และการแพทย์จำนวนมาก มีโซลูชั่นที่ล้ำสมัยทั้งบนพื้นฐานของโครงข่ายประสาทเทียมเชิงลึกและชุดของแบบจำลองคลาสสิก ข้อจำกัดของปัญหาที่เกี่ยวข้องกับใบหน้าของข้อมูลที่ติดป้ายกำกับด้วยตนเองแสดงถึงพรมแดนที่สำคัญของ AI ที่น่าสนใจคือ ส่วนใหญ่ต้องเผชิญกับอุปสรรคเดียวกัน นั่นคือ ขาดข้อมูลการฝึกอบรมที่มีป้ายกำกับ มีชุดข้อมูลที่มีใบหน้านับล้าน แต่ระบบจดจำใบหน้าต้องเพิ่มบุคคลใหม่เพียง 1-2 รูปเท่านั้น ในปัญหาอื่นๆ มากมาย ข้อมูลที่ติดป้ายกำกับด้วยตนเองเป็นสิ่งที่ท้าทายและมีค่าใช้จ่ายสูง ลองนึกภาพว่าการวาดหน้ากากแบบแบ่งกลุ่มสำหรับใบหน้ามนุษย์นั้นต้องใช้ความพยายามมากเพียงใด จากนั้นลองจินตนาการว่าคุณต้องทำให้หน้ากากนี้ “นุ่ม” สำหรับการปูพื้นหลัง จุดสำคัญของใบหน้านั้นยังติดป้ายกำกับได้ยาก: ในทางปฏิบัติทางวิศวกรรม นักวิจัยยังต้องอธิบายอย่างชัดเจนถึงอคติของมนุษย์ในการติดฉลากที่แตกต่างกันไปตามชุดข้อมูล การขาดข้อมูลการฝึกอบรมที่เป็นตัวแทนยังทำให้เกิดอคติในแบบจำลองที่นำไปใช้ ส่งผลให้ประสิทธิภาพต่ำในบางกลุ่มชาติพันธุ์ นอกจากนี้ การเปลี่ยนแปลงที่สำคัญในเงื่อนไขมักทำให้ชุดข้อมูลที่มีอยู่แทบไม่มีประโยชน์: คุณอาจต้องจดจำใบหน้าจากกล้องอินฟราเรดของสมาร์ทโฟนที่ผู้ใช้ถือไว้ใต้คาง แต่ชุดข้อมูลจะให้เฉพาะภาพถ่าย RGB ที่ด้านหน้าเท่านั้น การขาดข้อมูลนี้สามารถกำหนดขีดจำกัดอย่างหนักในสิ่งที่นักวิจัย AI สามารถทำได้ ข้อมูลสังเคราะห์นำเสนอโซลูชัน โชคดีที่มีการนำเสนอโซลูชันอยู่แล้ว: โมเดล AI จำนวนมากสามารถฝึกอบรมเกี่ยวกับข้อมูลสังเคราะห์ได้ หากคุณมีศีรษะมนุษย์แบบ 3 มิติที่ใช้ CGI ที่สร้างขึ้นด้วยความเที่ยงตรงเพียงพอ หัวนี้สามารถใส่ได้ในหลายสภาวะ รวมถึงแสง มุมกล้อง รูปแบบของกล้อง พื้นหลัง การบดเคี้ยว และอื่นๆ อีกมากมาย ที่สำคัญกว่านั้น เนื่องจากคุณควบคุมทุกอย่างที่เกิดขึ้นในฉาก 3D เสมือนของคุณ คุณจึงรู้ว่าทุกพิกเซลมาจากไหนและสามารถติดป้ายกำกับที่สมบูรณ์แบบสำหรับปัญหาเหล่านี้ได้ฟรี แม้กระทั่งปัญหายากๆ เช่น การปูพื้นหลัง แบบจำลอง 3 มิติทุกแบบของศีรษะมนุษย์สามารถให้สตรีมข้อมูลที่หลากหลายซึ่งระบุชื่อได้อย่างสมบูรณ์แบบสำหรับปัญหาที่เกี่ยวข้องกับใบหน้าอย่างไม่มีสิ้นสุด อะไรที่ไม่ชอบ ข้อมูลสังเคราะห์ดูเหมือนจะเป็นวิธีแก้ปัญหาหลัก แต่ก็ทำให้เกิดคำถามขึ้น ประการแรก รูปภาพสังเคราะห์ไม่สามารถให้ภาพที่เหมือนจริงได้อย่างสมบูรณ์ ซึ่งนำไปสู่ปัญหาการเลื่อนโดเมน โมเดลได้รับการฝึกอบรมเกี่ยวกับโดเมนสังเคราะห์เพื่อใช้กับภาพจริง ประการที่สอง การสร้างหัว 3D ใหม่ตั้งแต่ต้นนั้นต้องใช้แรงงานคนจำนวนมาก และความหลากหลายของข้อมูลสังเคราะห์เป็นสิ่งสำคัญ ดังนั้น (อย่างน้อยกึ่ง) การสร้างข้อมูลสังเคราะห์แบบอัตโนมัติอาจได้รับการวิจัยมากขึ้นในอนาคตอันใกล้นี้ อย่างไรก็ตาม ในทางปฏิบัติ ข้อมูลสังเคราะห์ได้พิสูจน์ตัวเองแล้วสำหรับใบหน้ามนุษย์ แม้จะอยู่ในรูปแบบที่ตรงไปตรงมาที่สุด: การสร้างชุดข้อมูลสังเคราะห์+จริงแบบผสม และการฝึกอบรมแบบจำลองมาตรฐานสำหรับข้อมูลนี้ เรามาสรุปกัน ปัญหาการมองเห็นคอมพิวเตอร์ที่สำคัญหลายประการที่เกี่ยวข้องกับใบหน้ามนุษย์กำลังค้นหาแอปพลิเคชันในโลกแห่งความเป็นจริงมากขึ้นเรื่อยๆ ในด้านความปลอดภัย ไบโอเมตริกซ์ AR/VR การตัดต่อวิดีโอ ความปลอดภัยของรถยนต์ และอื่นๆ ส่วนใหญ่ยังห่างไกลจากการแก้ไข และปริมาณข้อมูลที่มีป้ายกำกับสำหรับปัญหาดังกล่าวมีจำกัด เนื่องจากข้อมูลจริงมีราคาแพง โชคดีที่ดูเหมือนว่าข้อมูลสังเคราะห์กำลังหยิบคบเพลิงขึ้นมา ใบหน้าของมนุษย์อาจเป็นพรมแดนถัดไปสำหรับ AI ยุคใหม่ และดูเหมือนว่าเราอยู่ในตำแหน่งที่ดีที่จะไปถึงที่นั่น เกี่ยวกับผู้เขียน Sergey I. Nikolenko เป็นหัวหน้าฝ่าย AI ที่ Synthesis AI Sergey เป็นนักวิทยาศาสตร์คอมพิวเตอร์ที่เชี่ยวชาญด้านการเรียนรู้ของเครื่องและการวิเคราะห์อัลกอริทึม Synthesis AI เป็นบริษัทในซานฟรานซิสโกที่เชี่ยวชาญด้านการสร้างและการใช้ข้อมูลสังเคราะห์สำหรับโมเดลการเรียนรู้ของเครื่องที่ทันสมัย นอกจากนี้ เขายังดำรงตำแหน่งหัวหน้าห้องปฏิบัติการปัญญาประดิษฐ์ที่สถาบันคณิตศาสตร์ Steklov ที่เซนต์ปีเตอร์สเบิร์ก ประเทศรัสเซีย ความสนใจของ Sergey ได้แก่ ข้อมูลสังเคราะห์ในแมชชีนเลิร์นนิง โมเดลการเรียนรู้เชิงลึกสำหรับการประมวลผลภาษาธรรมชาติ การปรับแต่งภาพ และคอมพิวเตอร์วิทัศน์ และอัลกอริทึมสำหรับเครือข่าย Sergey ได้เขียนข้อความเชิงลึกในฟิลด์ “Synthetic Data for Deep Learning” ซึ่งจัดพิมพ์โดย Springer ลงทะเบียนเพื่อรับจดหมายข่าว InsideBIGDATA ฟรี เข้าร่วมกับเราบน Twitter: @InsideBigData1 – https://twitter.com/InsideBigData1

  • บ้าน
  • Business
  • Data science
  • Marketing
  • Leave a Reply

    Your email address will not be published. Required fields are marked *

    Back to top button