Data science

การบรรลุการรู้เท่าทันข้อมูล: ธุรกิจต้องเรียนรู้ ABCs ใหม่ก่อน

คุณพูดข้อมูลหรือไม่? นั่นเป็นคำถามที่สำคัญที่การ์ทเนอร์ตั้งคำถามกับผู้นำด้านข้อมูลและการวิเคราะห์ในการส่งเสริมการรู้เท่าทันข้อมูล “ความสามารถในการอ่าน เขียน และสื่อสารข้อมูลในบริบท รวมถึงความเข้าใจในแหล่งข้อมูลและโครงสร้าง วิธีการวิเคราะห์และเทคนิคที่ใช้ — และความสามารถในการอธิบาย กรณีการใช้งาน การใช้งาน และมูลค่าผลลัพธ์” “คุณพูดข้อมูลหรือเปล่า” เป็นคำถามที่ดี แต่ไม่ใช่จุดเริ่มต้นการสนทนาที่ฉันจะใช้ในการอภิปรายหัวข้อการรู้ข้อมูลกับนักธุรกิจ – คนที่อยู่แนวหน้าซึ่งมีหน้าที่รับผิดชอบกำไรขาดทุนภายใต้แรงกดดันให้เปลี่ยนบริษัทของพวกเขาทางดิจิทัลด้วยข้อมูลอย่างน่าอัศจรรย์ เราจำเป็นต้องตรวจสอบให้แน่ใจว่าผู้ที่รับผิดชอบในการเปลี่ยนแปลงทางดิจิทัลสามารถสื่อสารเกี่ยวกับข้อมูลและในภาษาที่ถูกต้อง ฉันจะถามก่อนว่า “คุณรู้จักตัวอักษรหรือไม่? มาดู ABC ของข้อมูลกัน” A Is for Awareness นักวิทยาศาสตร์ด้านข้อมูลและผู้นำทางธุรกิจต่างก็รู้ดีว่า “ขยะเข้า ขยะออก” อ้างอิงจาก Oxford Reference เป็นวลี “ใช้เพื่อแสดงความคิดที่ว่าในการคำนวณและด้านอื่นๆ การป้อนข้อมูลที่ไม่ถูกต้องหรือคุณภาพต่ำจะทำให้เกิดข้อผิดพลาดเสมอ ผลผลิต” น่าประหลาดใจที่บางครั้งผู้นำธุรกิจมุ่งเน้นไปที่โมเดลการวิเคราะห์หรืออัลกอริธึมปัญญาประดิษฐ์ (AI) โดยเฉพาะที่พวกเขาเชื่อว่าจะสร้างข้อมูลเชิงลึกที่พวกเขาแสวงหา โดยไม่เน้นที่ข้อมูลอัลกอริธึมจะถูกป้อน อัลกอริทึมเหมาะสมกับข้อมูลหรือไม่ มันจะเป็นไปตามมาตรฐานจริยธรรม AI หรือไม่? มีข้อมูลและตัวอย่างข้อมูลคุณภาพสูงเพียงพอหรือไม่ ไม่ว่าโมเดลหรืออัลกอริธึมจะเป็นนวัตกรรมใหม่เพียงใด ก็จะให้ผลลัพธ์ที่แม่นยำและเป็นกลางเท่ากับข้อมูลที่ใช้ไป A is for Awareness (SewCream/Shutterstock) โครงงานวิทยาศาสตร์ข้อมูลสมัยใหม่จึงคล้ายกับโครงการเขียนโปรแกรมคอมพิวเตอร์สมัยก่อนมาก: 80% ของเวลาควรถูกใช้ไป รวบรวมข้อมูลที่เหมาะสม และตรวจสอบให้แน่ใจว่าถูกต้อง ยอมรับได้ และเป็นกลาง แม้ว่าเกณฑ์มาตรฐาน 80% จะไม่ใช่เรื่องใหม่ แต่การใช้ข้อมูลและมาตรฐานข้อมูลกำลังเปลี่ยนแปลง—และมีความซับซ้อน บริษัทต่างๆ ควรกำหนดมาตรฐานการกำกับดูแลแบบจำลองของตนให้เป็นทางการและบังคับใช้ก่อนที่จะยอมรับข้อมูลสำหรับโครงการ เนื่องจากข้อมูลลูกค้าไม่มีข้อจำกัดในการใช้งานอีกต่อไป บริษัทต้องปฏิบัติตามข้อบังคับเกี่ยวกับความยินยอมของลูกค้าและการใช้งานที่ได้รับอนุญาต ลูกค้ามีความสามารถในการถูกลืมมากขึ้น หรือข้อมูลของพวกเขาถูกถอนออกจากโมเดลในอนาคต กล่าวโดยย่อ ข้อมูลลูกค้าอาจเต็มไปด้วยปัญหาด้านคุณภาพและผลลัพธ์ที่มีอคติ และไม่สามารถใช้ในรูปแบบอิสระและการแสวงหาทางวิชาการในทศวรรษที่ผ่านมา ผู้นำธุรกิจต้องตระหนักถึงข้อเท็จจริงที่สำคัญเหล่านี้ และตระหนักถึงการกำกับดูแลข้อมูลและ AI ที่เข้มแข็งของบริษัทของตน หากไม่มีการจัดตั้งธรรมาภิบาล ก็จำเป็นต้องมี B Is for Bias ข้อมูลที่มีอคติทำให้เกิดการตัดสินใจแบบมีอคติ—อาจแปลได้ดีที่สุดว่า “การผลิตขยะแบบเดิมๆ” องค์กรและนักวิทยาศาสตร์ด้านข้อมูลต้องตระหนักว่าหากพวกเขาสร้างแบบจำลองเพื่อจำลองอคติอย่างแท้จริง แม้จะไม่ได้ตั้งใจก็ตาม ผลิตภัณฑ์งานของพวกเขาจะยังคงเผยแพร่อคติในลักษณะอัตโนมัติและไร้เหตุผล มีแนวทางที่เป็นประโยชน์ เช่น เพื่อช่วยให้เจ้าหน้าที่การปฏิบัติตามกฎระเบียบหลีกเลี่ยงการใช้ AI อย่างลำเอียงและผิดจรรยาบรรณอื่นๆ เนื่องจากความลำเอียงฝังอยู่ในข้อมูล ค่าเริ่มต้นที่ดีที่สุดคือถือว่าข้อมูลทั้งหมดสกปรก น่าสงสัย และต้องรับผิดชอบในการซ่อนทุ่นระเบิดแห่งความลำเอียงหลายรายการ งานของนักวิทยาศาสตร์ข้อมูลและองค์กรคือการพิสูจน์ว่าทำไมการใช้ฟิลด์ข้อมูลเฉพาะของพวกเขา และวิธีที่อัลกอริธึมใช้ประโยชน์จากฟิลด์เหล่านี้จึงเป็นที่ยอมรับได้ B สำหรับ Bias (Andrii Yalanskyi/Shutterstock) ไม่ใช่งานที่ง่ายดาย นอกเหนือจากการป้อนข้อมูลที่ชัดเจน เช่น เชื้อชาติหรืออายุ ฟิลด์อื่นๆ ที่ดูเหมือนไม่มีอันตรายสามารถแสดงอคติในระหว่างการฝึกแบบจำลอง โดยแนะนำตัวแปรที่สับสน (ไม่ได้ตั้งใจ) ที่ทำให้ผลลัพธ์ที่มีอคติเป็นแบบอัตโนมัติ ตัวอย่างเช่น ยี่ห้อและรุ่นของโทรศัพท์มือถือสามารถกำหนดรายได้ และในทางกลับกัน ก็มีอคติต่อการตัดสินใจอื่นๆ เช่น จำนวนเงินที่ลูกค้าสามารถยืมได้ในอัตราเท่าใด นอกจากนี้ ความสัมพันธ์ที่แฝง (ไม่ทราบ) ระหว่างข้อมูลที่ยอมรับได้ยังสามารถทำให้เกิดอคติโดยไม่ได้ตั้งใจ รูปแบบสกปรกเหล่านี้ซ่อนอยู่ในข้อมูลไม่อยู่ในมุมมองทั้งหมด และโมเดลการเรียนรู้ด้วยเครื่องสามารถค้นหาในรูปแบบที่นักวิทยาศาสตร์ของมนุษย์ไม่คาดหวัง ด้วยเหตุนี้จึงเป็นสิ่งสำคัญมากที่โมเดลการเรียนรู้ของเครื่องจะตรวจสอบความสัมพันธ์ที่เรียนรู้ และไม่พึ่งพาความสำคัญที่ระบุไว้ของการป้อนข้อมูลลงในแบบจำลอง สุดท้าย ข้อมูลที่อาจไม่ทำให้เกิดอคติในวันนี้อาจเป็นไปได้ในอนาคต—นโยบายการตรวจสอบอคติข้อมูลอย่างต่อเนื่องของบริษัทคืออะไร วันนี้หลายองค์กรไม่มีแผน เห็นได้ชัดว่ามีหลายประเด็นเกี่ยวกับข้อมูลที่จะต้องพิจารณาและทำความเข้าใจโดยนักวิทยาศาสตร์ข้อมูลและผู้นำทางธุรกิจ นโยบายเกี่ยวกับการใช้ข้อมูลและการตรวจสอบเป็นเสาหลักของกรอบการกำกับดูแล AI ที่แข็งแกร่ง ซึ่งเป็นเทมเพลตสำหรับการใช้การวิเคราะห์อย่างมีจริยธรรมและ AI โดยบริษัทโดยรวม นโยบายเหล่านี้รวมถึงการกำหนดวิธีการในการพิจารณาว่าข้อมูลมีความลำเอียงเนื่องจากตัวอย่างที่รวบรวมนั้นไม่ถูกต้อง หรือมีแหล่งข้อมูลที่ไม่ถูกต้อง หรือเพียง (และน่าเศร้า) เพราะเราอาศัยอยู่ในโลกที่มีอคติ ที่สำคัญเท่าเทียมกัน กรอบการกำกับดูแลให้การระบุและแก้ไขอคติเพิ่มเติมได้อย่างไร C Is for Callousness ผู้นำทางธุรกิจด้านล่างกำลังมองหาการตัดสินใจที่โมเดลการวิเคราะห์จะทำและทำให้เป็นอัตโนมัติใน AI ในความเร่งรีบในการคว้าข้อมูลเชิงลึกทางธุรกิจจากแบบจำลองการวิเคราะห์และทำให้เป็นอัตโนมัติ บริษัทต่างๆ มักจะไม่สร้างแบบจำลองที่แข็งแกร่ง สิ่งเหล่านี้ไม่ใช่การทดสอบสถานการณ์หรือการทดสอบอคติ ข้อผิดพลาดเหล่านี้ส่งผลเสียต่อลูกค้าที่บริษัทพยายามให้บริการ เนื่องจากเมื่อข้อมูลและการวิเคราะห์เสร็จสมบูรณ์ ผู้นำธุรกิจจะได้รับคะแนนที่จะนำไปใช้ในการตัดสินใจ การตัดสินใจตามคะแนนทำให้เกิดการทำงานอัตโนมัติ แต่ยังช่วยให้เกิดอคติอัตโนมัติในวงกว้างอีกด้วย ผู้นำธุรกิจต้องอ่อนไหวต่อการตัดสินใจที่ไร้เหตุผลที่อาจเกิดขึ้นจากคะแนนที่เป็นนามธรรม C สำหรับความหน้ามืด (Creativa-Images/Shutterstock) ตัวอย่างเช่น COVID ได้ปลดปล่อยระดับของความสิ้นหวังทางเศรษฐกิจในทุกมุมโลก ข้อมูลเปลี่ยนไป โดยเผยให้เห็นข้อเท็จจริงที่ว่าธุรกิจจำนวนมากไม่เข้าใจผลกระทบของการเปลี่ยนแปลงในข้อมูลลูกค้า ข้อมูลประสิทธิภาพและสภาพเศรษฐกิจที่มีต่อคะแนนแบบจำลอง และวิธีการใช้ในการตัดสินใจอัตโนมัติ ผู้นำธุรกิจที่ดื้อรั้นคือผู้ที่ยังคงใช้คะแนนแบบจำลองอย่างดื้อรั้นเพราะ “ตัวแบบบอกฉัน” เมื่อเทียบกับการดูว่าข้อมูลและสถานการณ์เปลี่ยนแปลงไปอย่างไรสำหรับกลุ่มลูกค้า และปรับการใช้แบบจำลองในกลยุทธ์ทางธุรกิจ เราต้องแน่ใจว่าการตัดสินใจเหล่านั้นได้รับการบันทึกอย่างถูกต้อง ตัวอย่างเช่น ลูกค้าอาจซื้อโทรศัพท์เครื่องใหม่จากผู้ให้บริการไร้สายก่อนเกิดโควิด หากลูกค้ารายนั้นหยุดชำระเงิน การตัดสินใจนั้นจะถูกบันทึกไว้อย่างไร เนื่องจากการทุจริตหรือความเสี่ยงด้านเครดิต? ลูกค้าบางกลุ่มช่วงโควิด สงสัยตกงานเพราะอาชีพมากกว่า? เราพบว่าอคติทางเศรษฐกิจและสังคม ชาติพันธุ์หรือภูมิศาสตร์กำลังผลักดันให้เครดิตผิดนัดหรืออัตราการฉ้อโกงอันเนื่องมาจากความเลอะเทอะในการติดฉลากผลลัพธ์ ธรรมดาและเรียบง่ายหรือไม่? เมื่อมีการใช้อคติ ความประมาท หรือความใจแคบอย่างน่าสังเวชในกรณีการจัดการ ส่งผลให้เกิดอคติมากขึ้นเมื่อมีการพัฒนาแบบจำลองรุ่นต่อๆ ไป ฉันมักจะเห็นเหตุการณ์ต่อเนื่องกันในสถานการณ์ที่ความเสี่ยงด้านเครดิตถูกระบุว่าเป็นการฉ้อโกง ลูกค้าบางกลุ่มมีเครดิตผิดนัดมากกว่ากลุ่มอื่นเนื่องจากอาชีพหรือการศึกษา เมื่อพวกเขาติดฉลากผิดอันเนื่องมาจากการมอบหมายผลลัพธ์ที่ประมาท ใจแคบ หรือลำเอียง ลูกค้าทั้งกลุ่มจะถูกลงโทษเนื่องจากมีแนวโน้มที่จะกระทำการฉ้อโกง น่าเศร้าที่องค์กรต่างมีอคติเผยแพร่ตนเองในรูปแบบอนาคตผ่านการมอบหมายข้อมูลผลลัพธ์ที่ไร้เหตุผลนี้ กล่าวโดยสรุป โมเดลเป็นเครื่องมือ ที่จะรวมอยู่ในกลยุทธ์การตัดสินใจที่ครอบคลุม ซึ่งรวมคะแนนแบบจำลองและข้อมูลลูกค้า “เราควรใช้โมเดลนี้เมื่อใด” และ “เมื่อใดที่เราไม่ควร” ผู้นำธุรกิจจะต้องเข้าใจคำถามเมื่อมีการเปลี่ยนแปลงข้อมูล ความสำคัญเท่าเทียมกันคือคำถามที่ว่า “เราจะไม่เผยแพร่อคติผ่านการมอบหมายและการรักษาผลลัพธ์ที่โหดร้ายได้อย่างไร” คำตอบสำหรับคำถามเหล่านี้สร้างรากฐานสำหรับการหยุดวงจรอคติ ทั้งหมดเข้าด้วยกันตอนนี้ ในขณะที่การตัดสินใจที่แสดงผลโดยตัวแบบการวิเคราะห์มักจะเป็นเลขฐานสอง “ใช่” หรือ “ไม่ใช่” “ดี” หรือ “ไม่ดี” ประเด็นเกี่ยวกับการใช้ข้อมูลอย่างเหมาะสมนั้นไม่ใช่สิ่งใดก็ตาม ล้วนแต่ซับซ้อน เหมาะสมยิ่ง และไม่สามารถ รีบ เนื่องจากบริษัทต่างๆ ตระหนักมากขึ้นว่าการรู้เท่าทันข้อมูลเป็นประตูสู่การเปลี่ยนแปลงทางดิจิทัล ฉันหวังว่าเมื่อเวลาผ่านไป นักวิทยาศาสตร์ข้อมูลและผู้นำทางธุรกิจสามารถอยู่ใน “หน้าเดียวกัน (การกำกับดูแลข้อมูล)” ของหนังสือเพลงเชิงเปรียบเทียบของบริษัท: “ตอนนี้ฉันรู้แล้ว data ABCs คราวหน้าคุณจะไม่ร้องเพลงกับฉันเหรอ” เกี่ยวกับผู้เขียน: Scott Zoldi เป็นประธานเจ้าหน้าที่ฝ่ายวิเคราะห์ของ FICO รับผิดชอบในการพัฒนาการวิเคราะห์ผลิตภัณฑ์และเทคโนโลยีของ FICO รวมถึงผลิตภัณฑ์ FICO Falcon Fraud Manager ซึ่งปกป้องธุรกรรมบัตรชำระเงินของโลกประมาณสองในสามจากการฉ้อโกง ขณะอยู่ที่ FICO สกอตต์มีหน้าที่รับผิดชอบในการเขียนสิทธิบัตรมากกว่า 65 ที่ได้รับสิทธิบัตร 65 และ 45 รอดำเนินการ. สกอตต์มีส่วนร่วมอย่างแข็งขันในการพัฒนาผลิตภัณฑ์การวิเคราะห์ใหม่ที่ใช้เทคโนโลยีปัญญาประดิษฐ์และการเรียนรู้ของเครื่อง ซึ่งส่วนใหญ่ใช้ประโยชน์จากนวัตกรรมสตรีมมิงปัญญาประดิษฐ์แบบใหม่ เช่น การวิเคราะห์ที่ปรับเปลี่ยนได้ การทำโปรไฟล์ร่วมกัน การเรียนรู้เชิงลึก และโมเดลการเรียนรู้ด้วยตนเอง เมื่อเร็ว ๆ นี้สกอตต์มุ่งเน้นไปที่แอพพลิเคชั่นสตรีมมิ่งการวิเคราะห์การเรียนรู้ด้วยตนเองสำหรับการตรวจจับการโจมตี Cyber ​​​​Security และการฟอกเงินแบบเรียลไทม์ สกอตต์ทำหน้าที่ในคณะกรรมการสองคณะ ได้แก่ Tech San Diego และ Cyber ​​Center of Excellence สกอตต์ได้รับปริญญาเอกของเขา ในสาขาฟิสิกส์เชิงทฤษฎีจากมหาวิทยาลัยดุ๊ก ติดตามความคิดล่าสุดของ Scott เกี่ยวกับตัวอักษรของการรู้เท่าทันข้อมูลโดยติดตามเขาบน Twitter @ScottZoldi และบน LinkedIn รายการที่เกี่ยวข้อง: ปัญหาอคติของ AI ต้องการความเข้มงวดทางวิชาการมากขึ้น ข้อมูลที่มีอคติน้อยกว่าสามวิธีสามารถทำลายโมเดล ML ของคุณได้

  • บ้าน
  • Business
  • Data science
  • Marketing
  • Leave a Reply

    Your email address will not be published. Required fields are marked *

    Back to top button