Data science

การไม่คำนึงถึงอคติใน AI นั้นประมาท

ฉันจะไม่มีวันลืมช่วงเวลา “aha” ที่มีอคติใน AI ฉันทำงานที่ IBM ในฐานะเจ้าของผลิตภัณฑ์สำหรับ Watson Visual Recognition เรารู้ว่า API นั้นไม่ได้ดีที่สุดในระดับเดียวกันในการส่งคืนแท็ก “ที่ถูกต้อง” สำหรับรูปภาพ และเราจำเป็นต้องปรับปรุง ฉันกังวลเกี่ยวกับความเป็นไปได้ที่อคติจะคืบคลานเข้ามาในแบบจำลองของเรา โมเดลอคติในการเรียนรู้ด้วยเครื่อง (ML) เป็นปัญหาที่ชุมชน ML ได้เห็นครั้งแล้วครั้งเล่า ตั้งแต่การจดจำใบหน้าที่ไม่ดีของบุคคลที่หลากหลายไปจนถึงการประกวดความงาม AI ที่ผิดพลาดและกรณีอื่นๆ อีกนับไม่ถ้วน เราตรวจสอบป้ายกำกับข้อมูลที่ใช้สำหรับโครงการเป็นเวลานานและหนักแน่น และในตอนแรก ทุกอย่างดูดีขึ้น ก่อนเปิดตัว นักวิจัยในทีมของเราได้แจ้งบางอย่างให้ฉันทราบ การจำแนกประเภทภาพที่ฝึกฝนโมเดลของเราเรียกว่า “ผู้แพ้” และภาพเหล่านั้นจำนวนมากแสดงถึงความพิการ ฉันรู้สึกหวาดกลัว เราเริ่มสงสัยว่า “เรามองข้ามอะไรไปบ้าง” ใครจะรู้ว่าฉลากที่ดูเหมือนไม่มีอันตรายอะไรที่อาจฝึกโมเดลของเราให้แสดงอคติโดยธรรมชาติหรือแฝงอยู่ เรารวบรวมทุกคนที่ทำได้ ตั้งแต่วิศวกร นักวิทยาศาสตร์ด้านข้อมูล นักการตลาด เพื่อรวบรวมป้ายกำกับหลายหมื่นรายการและรูปภาพที่เกี่ยวข้องหลายล้านภาพ และดึงทุกสิ่งที่เราพบว่าไม่เหมาะสมตามหลักจรรยาบรรณของ IBM เราดึงคลาสอื่นๆ ออกมามากกว่าหยิบมือที่ไม่ได้สะท้อนถึงค่านิยมของเรา ช่วงเวลา “aha” ของฉันช่วยหลีกเลี่ยงวิกฤติ แต่ฉันก็ตระหนักด้วยว่าเรามีข้อดีบางประการในการทำเช่นนั้น เรามีทีมงานที่หลากหลาย (อายุต่างกัน เชื้อชาติ ชาติพันธุ์ ภูมิศาสตร์ ประสบการณ์ ฯลฯ) และมีความเข้าใจร่วมกันถึงสิ่งที่เคยเป็นและไม่เป็นที่รังเกียจ นอกจากนี้เรายังมีเวลา การสนับสนุน และทรัพยากรในการค้นหาป้ายกำกับที่ไม่เหมาะสมและแก้ไข ไม่ใช่ทุกคนที่สร้างผลิตภัณฑ์ที่เปิดใช้งาน ML ที่มีทรัพยากรของทีม IBM สำหรับทีมที่ไม่มีข้อได้เปรียบที่เรามี และแม้แต่สำหรับองค์กรที่ทำได้ โอกาสของอคติที่ไม่ต้องการก็มีมากขึ้น ต่อไปนี้คือแนวทางปฏิบัติที่ดีที่สุดสองสามข้อสำหรับทีมทุกขนาดในขณะที่พวกเขาเริ่มดำเนินการบนเส้นทาง ML หวังว่าจะช่วยหลีกเลี่ยงผลกระทบด้านลบที่ไม่ได้ตั้งใจเช่นที่เราเกือบประสบ กำหนดและจำกัดปัญหาทางธุรกิจที่คุณกำลังแก้ไข การพยายามแก้ไขในสถานการณ์ที่มากเกินไปมักจะหมายความว่าคุณจะต้องใช้ป้ายกำกับจำนวนมากในชั้นเรียนที่ไม่สามารถจัดการได้ ในการเริ่มต้น การระบุปัญหาอย่างถี่ถ้วนจะช่วยให้คุณแน่ใจว่าแบบจำลองของคุณทำงานได้ดีด้วยเหตุผลที่แน่นอนที่คุณสร้างขึ้น ตัวอย่างเช่น หากคุณกำลังสร้างแบบจำลองคอมพิวเตอร์วิทัศน์ที่ตอบคำถามที่ค่อนข้างตรงไปตรงมา เช่น “นี่เป็นมนุษย์หรือไม่” คุณต้องกำหนดสิ่งที่คุณหมายถึงโดย “มนุษย์” การ์ตูนนับไหม? เกิดอะไรขึ้นถ้าบุคคลนั้นถูกบดบังบางส่วน? ลำตัวควรนับเป็น “มนุษย์” สำหรับโมเดลของคุณหรือไม่? ทั้งหมดนี้มีความสำคัญ คุณต้องการความชัดเจนว่า “มนุษย์” หมายถึงอะไรสำหรับโมเดลนี้ หากคุณไม่แน่ใจ ให้ถามคำถามเดียวกันกับข้อมูลของคุณ คุณอาจแปลกใจกับความคลุมเครือที่มีอยู่และสมมติฐานที่คุณตั้งขึ้น วิธีหนึ่งที่จะช่วยกำหนดขอบเขตของคุณคือการพิจารณาข้อมูลที่คุณใช้สำหรับแบบจำลองของคุณ แม้แต่ชุดข้อมูลทางวิชาการ เช่น ImageNet ก็สามารถมีคลาสและป้ายกำกับที่แนะนำอคติที่ไม่ได้ตั้งใจในอัลกอริทึมของคุณ ยิ่งคุณเข้าใจและเป็นเจ้าของข้อมูลของคุณมากเท่าใด และสามารถแมปกลับไปที่ปัญหาทางธุรกิจที่คุณกำลังแก้ไข โอกาสที่คุณจะประหลาดใจกับป้ายกำกับที่ไม่เหมาะสมก็จะยิ่งน้อยลงเท่านั้น 2. รวบรวมทีมที่หลากหลายที่ถามคำถามที่หลากหลาย เราทุกคนนำประสบการณ์และแนวคิดที่แตกต่างกันมาสู่สถานที่ทำงาน ผู้คนจากภูมิหลังที่หลากหลาย ไม่ใช่แค่เชื้อชาติและเพศ แต่อายุ ประสบการณ์ ฯลฯ โดยเนื้อแท้แล้วจะถามคำถามที่แตกต่างกันและโต้ตอบกับโมเดลของคุณในรูปแบบต่างๆ ที่สามารถช่วยให้คุณตรวจจับปัญหาได้ก่อนที่แบบจำลองของคุณจะอยู่ในขั้นตอนการผลิต การสร้างทีมที่หลากหลายยังต้องรวบรวมข้อมูลในลักษณะที่ช่วยให้แสดงความคิดเห็นที่แตกต่างกันได้เช่นกัน มักจะมีความคิดเห็นหรือป้ายกำกับที่ถูกต้องหลายรายการสำหรับจุดข้อมูลเดียว การรวบรวมความคิดเห็นและการบัญชีสำหรับความขัดแย้งที่ถูกต้องตามกฎหมาย ซึ่งมักจะเป็นความเห็นส่วนตัว จะทำให้แบบจำลองของคุณมีความยืดหยุ่นมากขึ้น 3. คิดถึงผู้ใช้ปลายทางของคุณทุกคน ในทำนองเดียวกัน เข้าใจว่าผู้ใช้ปลายทางของคุณจะไม่เป็นเหมือนคุณหรือทีมของคุณ มีความเห็นอกเห็นใจ คาดการณ์ว่าผู้คนที่ไม่เหมือนคุณจะโต้ตอบกับเทคโนโลยีของคุณอย่างไร และปัญหาที่อาจเกิดขึ้นจากการทำเช่นนั้น เมื่อคำนึงถึงสิ่งนี้ สิ่งสำคัญที่ต้องจำไว้ว่าแบบจำลองต่างๆ แทบจะไม่คงที่ ข้อผิดพลาดที่เลวร้ายที่สุดประการหนึ่งที่คุณสามารถทำได้คือการปรับใช้โมเดลของคุณโดยที่ผู้ใช้ปลายทางไม่สามารถให้คำติชมเกี่ยวกับวิธีการนำแบบจำลองไปใช้ในโลกแห่งความเป็นจริงได้ คุณจะต้องให้มนุษย์เป็นส่วนหนึ่งของกระบวนการของคุณเพื่อตอบสนองต่อการเปลี่ยนแปลง กรณีของขอบ กรณีอคติที่คุณอาจพลาดไป และอื่นๆ คุณต้องการรับคำติชมจากแบบจำลองของคุณและให้คำติชมของคุณเองเพื่อปรับปรุงประสิทธิภาพการทำงาน โดยทำซ้ำอย่างต่อเนื่องเพื่อความแม่นยำที่สูงขึ้น 4. ใส่คำอธิบายประกอบด้วยความหลากหลาย เมื่อคุณใช้มนุษย์เพื่อใส่คำอธิบายประกอบข้อมูลของคุณ เป็นการดีที่สุดที่จะดึงจากแหล่งที่หลากหลาย อย่าใช้นักเรียนจากวิทยาลัยเดียวหรือแม้แต่ผู้ติดฉลากจากประเทศใดประเทศหนึ่ง ยิ่งสระน้ำใหญ่เท่าไร มุมมองของคุณก็จะยิ่งหลากหลายมากขึ้นเท่านั้น ที่สามารถช่วยลดอคติได้จริงๆ ท้ายที่สุด นี่คือสิ่งที่มักจะซ่อนอคติ เมื่อสองสามปีก่อน นักวิจัยจากมหาวิทยาลัยวอชิงตันและมหาวิทยาลัยแมรีแลนด์พบว่าการค้นหาภาพสำหรับงานบางประเภทเผยให้เห็นการแสดงตนที่ต่ำเกินไปและมีอคติในผลลัพธ์ ตัวอย่างเช่น ค้นหา “พยาบาล” คุณจะเห็นแต่ผู้หญิงเท่านั้น ค้นหา “CEO” และมันก็เป็นผู้ชายทั้งหมด การมีผู้คนที่มีภูมิหลังที่หลากหลายใส่คำอธิบายประกอบข้อมูลจะช่วยให้ทีมของคุณถามคำถามที่แตกต่างกัน คิดถึงผู้ใช้ปลายทางที่แตกต่างกัน และหวังว่าจะสร้างเทคโนโลยีโดยคำนึงถึงความเห็นอกเห็นใจ การบัญชีสำหรับอคติเป็นสิ่งสำคัญยิ่งสำหรับ AI ที่ดี เมื่อรู้ว่าตอนนี้ฉันรู้อะไรแล้ว ฉันขอโต้แย้งว่าทั้งประมาทเลินเล่อและประมาทในการนำระบบ AI ไปใช้ในการผลิตโดยไม่คำนึงถึงอคติด้วยแนวทางปฏิบัติที่ดีที่สุดขั้นพื้นฐานเหล่านี้ ข้อควรจำ: เป็นไปไม่ได้ที่จะลดความลำเอียงที่ไม่ต้องการในแบบจำลองของคุณ แน่นอนว่าต้องใช้ความเพียรและการทำงานหนัก แต่ลดน้อยลงไปจนถึงการเอาใจใส่ ทำซ้ำตลอดกระบวนการสร้างแบบจำลองและปรับแต่ง และดูแลข้อมูลของคุณอย่างดี

  • บ้าน
  • Business
  • Data science
  • Marketing
  • Leave a Reply

    Your email address will not be published. Required fields are marked *

    Back to top button