Data science

ความสัมพันธ์ของ Data Scientist กับการสร้าง Predictive Models

หากคุณเป็น Data Scientist คุณน่าจะใช้เวลาหลายเดือนในการพัฒนาอย่างจริงจัง แล้วจึงปรับใช้แบบจำลองการคาดการณ์เพียงตัวเดียว ความจริงก็คือเมื่อแบบจำลองของคุณถูกสร้างขึ้น – นั่นคือชัยชนะเพียงครึ่งเดียวของการต่อสู้ หนึ่งในสี่ของชีวิตการทำงานของ Data Scientist มักจะเป็นแบบนี้: คุณได้พบกับผู้มีส่วนได้ส่วนเสียทางธุรกิจเพื่อกำหนดขอบเขตของแบบจำลองและสิ่งที่ควรทำ คุณรวบรวม นำเข้า สำรวจ และเตรียมข้อมูล คุณสร้าง ทดสอบ และปรับแต่งโมเดลซ้ำแล้วซ้ำเล่า และเมื่อคุณบรรลุเป้าหมาย AUC (Area Under the Curve) ที่คุณตั้งเป้าไว้ในที่สุด คุณแชร์ข้อมูลนี้กับผู้มีส่วนได้ส่วนเสียทางธุรกิจ และโอกาสก็อาจไม่ใช่สิ่งที่พวกเขาคิดไว้อย่างแน่นอน ดังนั้น คุณเริ่มกระบวนการใหม่อีกครั้ง และสุดท้าย หลังจากการทำซ้ำและรีวิวนับไม่ถ้วน โมเดลของคุณก็พร้อมสำหรับการผลิตแล้ว จากจุดนั้น คุณทำงานร่วมกับฝ่ายวิศวกรรมหรือทีมไอทีเพื่อดำเนินการแบบจำลอง — ไม่ว่าจะหมายถึงการสร้างแอป การผสานรวมเข้ากับระบบอื่น หรือการให้บริการข้อมูลเชิงลึกแก่ผู้มีอำนาจตัดสินใจทางธุรกิจผ่านแผนภูมิหรือกราฟ เป็นไปได้ว่าโค้ดของคุณต้องถูกเขียนใหม่ในภาษาการเขียนโปรแกรมอื่นเพื่อให้เป็นไปตามข้อกำหนดของสภาพแวดล้อมการผลิตของคุณ แต่คุณก็ผ่านมันมาได้ และ — ตาดา! — โมเดลของคุณกำลังทำงานอยู่ องค์กรที่ลงทุนใน Data Science สามารถและควรคาดหวังว่าจะมีการอุทิศเวลาและพลังงานจำนวนมากให้กับรูปแบบเดียว ก่อนที่มันจะเริ่มส่งผลกระทบต่อธุรกิจด้วยซ้ำ แต่แล้วอะไรล่ะ? จะเกิดอะไรขึ้นกับโมเดลเมื่อมีการปรับใช้ ไม่ว่าจะเป็นการให้บริการข้อมูลเชิงลึกแก่มนุษย์หรือกระตุ้นเวิร์กโฟลว์อัตโนมัติที่ส่งผลกระทบโดยตรงต่อลูกค้าปลายทาง การจัดการโมเดลขององค์กรเมื่ออยู่ในขั้นตอนการผลิตมีความสำคัญอย่างยิ่งต่อการเพิ่มผลกระทบให้เกิดประโยชน์สูงสุด นักวิทยาศาสตร์ข้อมูลส่วนใหญ่ในปัจจุบันกล่าวว่างานหลักของพวกเขาคือการสร้างแบบจำลอง โครงสร้างแรงจูงใจของทีมมักสะท้อนถึงสิ่งนี้ โดยนักวิทยาศาสตร์ข้อมูลคนหนึ่งกล่าวว่า “ฉันได้รับค่าตอบแทนสำหรับสิ่งที่ฉันสร้างในปีนี้ ไม่ใช่การรักษาสิ่งที่ฉันสร้างขึ้นเมื่อปีที่แล้ว” เมื่อโมเดลได้รับการปรับใช้ในการผลิตแล้ว ความเป็นเจ้าของจะโอนไปยังการจัดการด้านไอทีธุรกิจหรือวิทยาศาสตร์ข้อมูล แต่บ่อยครั้งที่ผู้ที่ได้รับมอบหมายให้จัดการโมเดลการผลิตนั้นไม่พร้อมที่จะคอยติดตามอย่างใกล้ชิดว่าพวกเขากำลังใช้ทรัพยากรหลักอย่างไรหรือรักษาการมองเห็นโมเดลของพวกเขาในการผลิต ค่าเริ่มต้นคือความคิด “ตั้งค่าและลืมมัน” สิ่งนี้เป็นอันตรายและจำกัดผลกระทบของความพยายามด้านวิทยาศาสตร์ข้อมูลขององค์กรอย่างรุนแรง ในบริบทของกรอบงานการจัดการแบบจำลองที่กว้างขึ้น เราอ้างถึงเสาหลักที่ช่วยให้องค์กรสามารถจับตาดูความเคลื่อนไหวของกิจกรรม ค่าใช้จ่าย และผลกระทบของแต่ละแบบจำลองว่าเป็น “การกำกับดูแลแบบจำลอง” การกำกับดูแลเป็นหัวใจสำคัญของระบบที่มีความสำคัญต่อภารกิจ อย่างไรก็ตาม การควบคุมระบบโมเดลที่ซับซ้อนและเติบโตขึ้นนั้นยากโดยเฉพาะอย่างยิ่งด้วยเหตุผลบางประการ: ชุดเครื่องมือที่พัฒนาอย่างรวดเร็ว: โมเดลใช้อัลกอริธึมที่เน้นการคำนวณซึ่งได้ประโยชน์จากการประมวลผลที่ปรับขนาดได้และฮาร์ดแวร์เฉพาะอย่าง GPU และพวกมัน ใช้ประโยชน์จากแพ็คเกจจากระบบนิเวศที่มีชีวิตชีวาและสร้างสรรค์อย่างต่อเนื่อง นักวิทยาศาสตร์ข้อมูลต้องการโครงสร้างพื้นฐานด้านเทคโนโลยีที่คล่องตัวอย่างยิ่งเพื่อเร่งการวิจัย องค์กรไอทีระดับองค์กรส่วนใหญ่คุ้นเคยกับการจัดเตรียมเซิร์ฟเวอร์ใหม่ในลักษณะที่ยืดหยุ่นและเป็นอัตโนมัติโดยใช้ประโยชน์จากกระบวนการ Continuous Integration – Continuous Deployment (CI/CD) แต่ Data Scientists ไม่คุ้นเคยกับกระบวนการ CI/CD หรือรวม DevOps ไว้ในวงจรการสร้างแบบจำลอง จนกว่าจะพร้อมลงมือ เมื่อวิศวกรไอทีไม่สามารถตอบสนองต่อคำขอปริมาณมหาศาลในทันทีก่อนการติดตั้งใช้งานที่สำคัญ นักวิทยาศาสตร์ด้านข้อมูลพยายามสร้างเงาไอทีของตนเองเพื่อสนับสนุนโมเดลของตน การพัฒนาบนฐานการวิจัย: กระบวนการในการพัฒนาแบบจำลองนั้นแตกต่างจากแนวทางที่เป็นที่ยอมรับในด้านวิศวกรรมซอฟต์แวร์หรือการจัดการข้อมูล Data Science คือการวิจัย — เป็นการทดลอง ทำซ้ำ และสำรวจ คุณอาจลองใช้แนวคิดหลายสิบหรือหลายร้อยแนวคิดก่อนที่จะได้สิ่งที่ได้ผล ในการพัฒนาซอฟต์แวร์นั้น การเริ่มทำงานที่ผิดพลาดและจุดบอดดังกล่าวจะไม่ถูกรักษาไว้ เมื่อคุณทำผิดพลาดมันเป็นข้อผิดพลาด ใน Data Science ความล้มเหลวอาจเป็นจุดเริ่มต้นของความก้าวหน้าครั้งต่อไป องค์กรไอทีที่สันนิษฐานว่าระบบควบคุมแหล่งที่มาและการเข้าถึงฐานข้อมูลนั้นเพียงพอแล้ว จะล้มเหลวในการดักจับข้อมูลเมตาที่สำคัญและเอกสารประกอบ พฤติกรรมความน่าจะเป็น: ไม่เหมือนกับซอฟต์แวร์ที่ใช้ข้อกำหนดเฉพาะ แบบจำลองกำหนดการดำเนินการตามการประเมินความน่าจะเป็น นักสถิติ George Box จับความแตกต่างได้ดีโดยกล่าวว่า “โมเดลทั้งหมดไม่ถูกต้อง แต่บางรุ่นก็มีประโยชน์” โมเดลไม่มีคำตอบที่ “ถูกต้อง” — พวกมันมีคำตอบที่ดีกว่าหรือแย่กว่านั้นเมื่อได้อยู่ในโลกแห่งความเป็นจริง และในขณะที่ไม่มีใครต้องการ “ฝึก” ซอฟต์แวร์ใหม่ โมเดลต่างๆ ควรเปลี่ยนไปเมื่อโลกเปลี่ยนแปลงไป องค์กรจำเป็นต้องวางแผนสำหรับการทำซ้ำอย่างรวดเร็วและสร้างลูปความคิดเห็นที่แน่นแฟ้นกับผู้มีส่วนได้ส่วนเสียเพื่อลดความเสี่ยงของการเลื่อนรูปแบบ ด้วยลักษณะเฉพาะของแบบจำลองเหล่านี้ กระบวนการและเทคโนโลยีที่มีอยู่สำหรับการจัดการจึงมักไม่เพียงพอ ทำให้องค์กรเสี่ยงต่อความไร้ประสิทธิภาพและความเสี่ยง ผลลัพธ์? รอบเวลาที่ยาวนานในการปรับใช้ประตูหมุนของโมเดล “รถบั๊กกี้” ที่ไม่สื่อสารกับระบบนิเวศทางเทคโนโลยีที่เหลือและไม่สะท้อนถึงสถานะปัจจุบันของโลก สิ่งนี้คุกคามโดยตรงต่อความได้เปรียบในการแข่งขันของธุรกิจที่สามารถทำได้ผ่านการจัดการแบบจำลองที่มีประสิทธิภาพ นี่คือเหตุผลที่ความสามารถใหม่ของการกำกับดูแลแบบจำลองเป็นสิ่งสำคัญ การกำกับดูแลรูปแบบคืออะไร? การกำกับดูแลแบบจำลองคือฟังก์ชันการจัดการ Data Science ที่ให้ทัศนวิสัยในโครงการ แบบจำลอง และโครงสร้างพื้นฐานของ Data Science องค์กร Data Science ที่มีประสิทธิภาพสูงใช้การกำกับดูแลแบบจำลองเพื่อติดตามแบบจำลองที่กำลังพัฒนาและดำเนินการในการผลิต เพื่อให้แน่ใจว่าพวกเขากำลังทำในสิ่งที่ควรจะทำ และส่งผลกระทบต่อธุรกิจตามที่ควรจะเป็น แม้ว่าการกำกับดูแลจะฟังดูตรงกันข้ามกับอุดมคติเชิงทดลองของวิทยาศาสตร์ข้อมูล แต่จำเป็นต้องตรวจสอบให้แน่ใจว่าทีม Data Science กำลังมอบมูลค่าทางธุรกิจและลดความเสี่ยงที่อาจบ่อนทำลายศักยภาพในการเปลี่ยนแปลงของแบบจำลอง ธรรมาภิบาลต้นแบบจะเปลี่ยนโลกของคุณอย่างไร? ผู้นำด้าน Data Science ได้รับความโปร่งใสตามเวลาจริงในพอร์ตโฟลิโอและผลกระทบของแบบจำลองรวม แทนที่จะสงสัยว่ามีแบบจำลองกี่รุ่นที่อยู่ระหว่างการพัฒนาและคร่ำครวญถึงสินค้าคงเหลือของแบบจำลองที่ล้าสมัยตลอดกาล ความโปร่งใสในแบบจำลองยังสามารถช่วยให้ผู้นำ Data Science ระบุและจัดการกับอคติของแบบจำลองได้อย่างรวดเร็วก่อนที่จะนำเสนอปัญหา นักวิทยาศาสตร์ข้อมูล โดยเฉพาะอย่างยิ่งผู้ที่อยู่ในช่วงเริ่มต้นอาชีพ สามารถเห็นได้ชัดเจนว่างานของพวกเขาถูกนำไปใช้อย่างไร (และอาจนำไปใช้ในทางที่ผิด) พวกเขาไม่ประมาทความเสี่ยงของแบบจำลองอีกต่อไปหรือสงสัยว่างานของพวกเขาจะเข้ากับองค์กรในวงกว้างได้อย่างไร ไอทีสร้างความสอดคล้องกับ Data Science และทั้งสองกลุ่มจะได้รับความรู้โดยละเอียดว่ามีการใช้ทรัพยากรหลักที่ใดและจะนำไปใช้อย่างมีประสิทธิภาพได้อย่างไร การปะทะกันระหว่างสองกลุ่มที่เกิดจากความยากลำบากในการคาดการณ์ทรัพยากรการประมวลผลและซอฟต์แวร์ นำไปสู่งบประมาณที่พลาดไปหรือทรัพยากรที่สูญเปล่า จะถูกลดหรือขจัดออกไปโดยสิ้นเชิง ความกังวลเรื่องความปลอดภัยของข้อมูลที่ใช้ในแบบจำลองก็บรรเทาลงได้ด้วยที่มาที่สมบูรณ์จากการกำกับดูแลแบบจำลอง ทีมโครงสร้างพื้นฐานได้รับการแมปแบบเรียลไทม์ของกราฟแบบจำลอง ครอบคลุมการพึ่งพาและการเชื่อมโยงทั้งหมดระหว่างสิ่งประดิษฐ์ที่สำคัญของระบบ พวกเขาไม่ต้องจัดการกับปัญหา CACE (เปลี่ยนแปลงอะไร เปลี่ยนแปลงทุกอย่าง) และความเสี่ยงที่ไม่รู้จักต่อโมเดลและระบบดาวน์สตรีมอีกต่อไป ในที่สุดใครเป็นผู้รับผิดชอบเรื่องนี้? ผู้มีส่วนได้ส่วนเสียหลายรายทั่วทั้งธุรกิจควรมีส่วนร่วมเพื่อให้แน่ใจว่าการกำกับดูแลแบบจำลองประสบความสำเร็จ ตั้งแต่ผู้ปฏิบัติงานด้านวิทยาศาสตร์ข้อมูลไปจนถึงไอที ​​ไปจนถึงกลุ่มผู้มีส่วนได้ส่วนเสียในธุรกิจ ไปจนถึงทีมปฏิบัติตามข้อกำหนด ผู้นำด้าน Data Science ที่ได้รับมอบหมายให้ดูแล Data Science ให้เติบโตขึ้นเป็นหน้าที่ภายในบริษัทส่วนใหญ่ มีหน้าที่รับผิดชอบในการจัดตั้งและบังคับใช้นโยบายการกำกับดูแลแบบจำลอง ฉันจะเริ่มต้นได้อย่างไร การลงทุนในกลยุทธ์การจัดการแบบจำลองแบบองค์รวม — ที่เน้นการกำกับดูแลแบบจำลอง — นำไปสู่การเพิ่มผลกระทบของ Data Science ทั่วทั้งองค์กร โดยเฉพาะอย่างยิ่งเมื่อคุณนึกถึงการกำกับดูแลแบบจำลอง คุณควรจัดการกับความท้าทายเกี่ยวกับการมองเห็นแบบจำลองก่อน ต่อไปนี้คืองานสำคัญบางส่วนที่สามารถช่วยให้คุณเริ่มต้นบนเส้นทางที่ถูกต้อง: สร้างและเก็บสินค้าคงคลังของแบบจำลองทั้งหมดที่อยู่ในการผลิต ระบุรุ่นการผลิตที่ไม่ได้รับการตรวจสอบและ/หรืออัปเดตเป็นเวลานาน สิ่งที่ถือว่า “ใช้เวลานาน” นั้นสัมพันธ์กับธุรกิจของคุณและจุดประสงค์เฉพาะของแต่ละรุ่น แต่โดยทั่วไปแล้ว สามเดือนเป็นเกณฑ์เปรียบเทียบที่ดี ให้ความสนใจเป็นพิเศษกับรุ่นเหล่านั้นที่ทำงานในสถานการณ์ที่อาจมีการเปลี่ยนแปลงอย่างมากตั้งแต่มีการสร้างแบบจำลอง รับผู้มีส่วนได้ส่วนเสียในธุรกิจที่เกี่ยวข้อง และทำงานร่วมกันเพื่อตกลงเกี่ยวกับกลไกการตอบรับที่สามารถกำหนดมาตรฐานได้เพื่อปรับปรุงรูปแบบการผลิตให้คล่องตัวยิ่งขึ้น รักษาเส้นทางการตรวจสอบของทุกรุ่นในการผลิตและวิธีการที่สร้างขึ้น เมื่อใดก็ตามที่มีการเปลี่ยนแปลงแบบจำลอง ให้ติดตามสิ่งนั้นในบันทึกการตรวจสอบของคุณ นี่เป็นแนวทางปฏิบัติที่ดีที่สุดสำหรับการจัดการความรู้โดยทั่วไป และจำเป็นหากคุณดำเนินการในอุตสาหกรรมที่มีการควบคุม ติดตามไม่เพียงแต่ตัวแบบและที่มาของโค้ดเท่านั้น แต่ยังรวมถึงสิ่งประดิษฐ์ที่เกี่ยวข้องด้วย เช่น แผนภูมิ กราฟ ข้อมูลเชิงลึกที่น่าสนใจ หรือแม้กระทั่งข้อเสนอแนะที่ได้รับจากผู้มีส่วนได้ส่วนเสีย พิจารณาลงทุนในแพลตฟอร์มวิทยาศาสตร์ข้อมูลที่สามารถปรับปรุงและทำให้งานเหล่านี้เป็นไปโดยอัตโนมัติ โมเดล Final Thoughts Building ยังคงเป็นองค์ประกอบที่สำคัญในงานของ Data Scientist อย่างไรก็ตาม สำหรับบริษัทที่ต้องการขยายขนาดองค์กรอย่างรวดเร็วและสร้างความได้เปรียบทางการแข่งขันด้วย Data Science การกำกับดูแลแบบจำลองควรเป็นสิ่งที่สำคัญที่สุดในความคิดของพวกเขา การสร้างในเชิงรุกดีกว่ารอจนกว่าคุณจะตอบสนองต่อวิกฤต การกำกับดูแลแบบจำลองไม่เพียงแต่ช่วยลดความเสี่ยงด้านลบ แต่ยังช่วยให้องค์กรของคุณมีประสิทธิผลมากขึ้นเมื่อองค์กรเติบโตขึ้น

  • บ้าน
  • Business
  • Data science
  • Marketing
  • Leave a Reply

    Your email address will not be published. Required fields are marked *

    Back to top button