Data science

2022 แนวโน้มในการสร้างแบบจำลองข้อมูล: โอกาสในการทำงานร่วมกัน

ระบบนิเวศของข้อมูลขนาดใหญ่กำลังขยายตัวอย่างต่อเนื่อง โดยเคลื่อนตัวไปไกลกว่ากำแพงทั้งสี่ขององค์กรแบบรวมศูนย์แบบดั้งเดิมด้วยแหล่งข้อมูล บริการ และระบบภายนอกที่เพิ่มมากขึ้นเรื่อยๆ การใช้ประโยชน์จากปรากฏการณ์นี้จำเป็นต้องมีการมองเห็นในแนวนอนในการนำเข้าข้อมูลสำหรับกรณีการใช้งานที่เป็นเอกเทศ ไม่ว่าจะเป็นการสร้างแบบจำลองการคาดการณ์ การปฏิบัติตามกฎระเบียบ การกำหนดมุมมองของลูกค้าที่ครอบคลุม และอื่นๆ ผ่านแพลตฟอร์ม เครื่องมือ และเทคนิคต่างๆ ความสามารถในการใช้ประโยชน์องค์กรเพียงลำพังของมูลค่ารวมของทรัพยากรที่กระจายอำนาจดังกล่าวอยู่ในวิธีการสร้างมาตรฐานข้อมูลเหล่านี้ราวกับว่าพวกเขาทั้งหมดอยู่ในที่เดียวกัน แม้จะมีความขัดแย้งก็ตาม การบัญชีสำหรับความแตกต่างที่หลีกเลี่ยงไม่ได้ในสคีมา คำศัพท์ และการแสดงข้อมูลจำเป็นต้องมีความสม่ำเสมอของการสร้างแบบจำลองข้อมูลในการตั้งค่าและแหล่งที่มาเหมือนกัน ความล้มเหลวในการดำเนินการดังกล่าวจะยืดเวลาการเดินทางไปสู่คลังข้อมูล บทลงโทษด้านกฎระเบียบ และการลงทุนที่เน้นข้อมูลอย่างสิ้นเปลือง ด้วยเหตุนี้ ความพยายามในการรวมศูนย์ที่เกี่ยวข้องกับ “data mesh และ data fabric จึงเป็นสิ่งที่เราเห็นค่อนข้างมาก” Julie Smith ผู้อำนวยการฝ่ายข้อมูลและการวิเคราะห์ของ Alation กล่าว “เนื่องจาก data mesh, data fabric และวิธีการทำงานทั้งหมดที่เกี่ยวข้อง มันจะทำให้แนวทางปฏิบัติในการสร้างแบบจำลองข้อมูลของคุณกลายเป็นเรื่องจริงอย่างไม่น่าเชื่อและต้องพัฒนา” วิธีการมากมายรวมถึง data fabrics ความสามารถในการจัดการข้อมูลหลักบนคลาวด์ที่ปรับปรุงใหม่ และเฟรมเวิร์กการกำกับดูแลที่ใช้การประมวลผลทางปัญญาเพื่อชี้และคลิกที่แหล่งที่มาสำหรับการทำรายการข้อมูลโดยละเอียดเป็นวิธีการที่เป็นไปได้ในการใช้แบบจำลองข้อมูลทั่วทั้งองค์กรสมัยใหม่ ข้อมูล. ชัยชนะมีความหมายมากกว่าการเติมเต็มความต้องการทางธุรกิจที่กล่าวมา แต่ท้ายที่สุดแล้ว ขับเคลื่อนองค์กรให้เข้าใกล้ความสามารถในการทำงานร่วมกันของระบบมากขึ้นเรื่อยๆ เพื่อให้สอดคล้องกับทุกกรณีการใช้งานด้วยข้อมูลที่เหมาะสมที่สุด โดยไม่คำนึงถึงสถานที่หรือแหล่งที่มา ความแตกต่างของสคีมา เส้นทางสู่ความสามารถในการทำงานร่วมกันของข้อมูลสำหรับกรณีทางธุรกิจซึ่งครอบคลุมสินทรัพย์ข้อมูลขององค์กรอย่างกว้างๆ มักจะเกี่ยวข้องกับรูปแบบการรวมศูนย์บางรูปแบบ เช่น โครงสร้างข้อมูลหรือโครงข่ายข้อมูล “Data meshes และ data fabrics มีความคล้ายคลึงกันมาก” Smith กล่าว “ทั้งสองเป็นแนวทางที่คุณได้รับข้อมูลย้ายผ่านที่ต่างๆ แทนที่จะพยายามรวมไว้ในที่เดียวและนำมารวมกัน” อย่างไรก็ตาม การแก้ไขความแตกต่างของสคีมายังคงเป็นความยากลำบากในการบูรณาการหรือรวบรวมแหล่งข้อมูลที่แตกต่างกันสำหรับแอปพลิเคชันส่วนกลางใดๆ อย่างไรก็ตาม โครงสร้างข้อมูลถูกนำไปใช้กับ data virtualization, การรวมการสืบค้น และสิ่งที่ Kendall Clark CEO ของ Stardog เรียกว่า “แบบจำลองการสืบค้นด้วยกราฟ” ที่ล้าสมัยอุปสรรคนี้ในหลายวิธีที่จะส่งมอบประโยชน์ที่ตามมา: Schema Multi-Tenancy: เนื่องจาก data fabrics ช่วยให้องค์กรสามารถทิ้งข้อมูลได้ ในสถานที่ แต่เข้าถึงได้ราวกับว่าพวกเขากำลังจัดวาง บริษัท สามารถเลือกสคีมาของพวกเขาแบบไดนามิกในเวลาที่สืบค้น แผนกที่เกี่ยวข้องสามารถใช้สคีมาและคำศัพท์ต่างๆ สำหรับการสืบค้นข้อมูลแต่ละรายการแทน “การตัดสินใจเวอร์ชันหนึ่งของความจริงและรูปแบบเดียวเพื่อจัดโครงสร้างข้อมูลนี้” คลาร์กเปิดเผย ซึ่งใช้เวลานานและใช้ทรัพยากรมาก โมเดลข้อมูลพร้อมการแสดงแนวคิดทางธุรกิจและบริบทโดยละเอียดที่สมจริงยิ่งขึ้น มันสร้าง “ความยืดหยุ่นและความคล่องตัวมากขึ้นทั่วทั้งองค์กร” คลาร์กกำหนด “คุณสามารถแสดงถึงความซับซ้อนของโลกได้อย่างแม่นยำยิ่งขึ้นโดยไม่ต้องมีการต่อสู้ภายในระหว่าง เกี่ยวกับสคีมา” การรวมสคีมา: ยิ่งไปกว่านั้น เนื่องจากโมเดลข้อมูลกราฟความรู้ของ Resource Description Framework (RDF) มีวิวัฒนาการตามธรรมชาติเพื่อรวมข้อกำหนดทางธุรกิจหรือแหล่งที่มาใหม่ บริษัทต่างๆ จึงสามารถสร้างสคีมาข้ามแผนกหรือแบบองค์รวมสำหรับกรณีการใช้งานที่ต้องการการทำงานร่วมกันดังกล่าว ในกรณีนี้และกรณีอื่นๆ “โมเดลข้อมูลจะมีวิวัฒนาการ” Smith ยอมรับ “นั่นเป็นเหตุผลที่คุณต้องการการทำรายการเพื่อบอกคุณว่าอะไรอยู่ที่ไหน อะไรที่ทับซ้อนกัน และการใช้งานที่กำลังเกิดขึ้น” การทำรายการข้อมูล วิวัฒนาการของแบบจำลองข้อมูลโดยนัยต่อสคีมาหลายผู้เช่าและการรวมจำนวนนับไม่ถ้วนนั้นได้รับความช่วยเหลืออย่างมากจากการทำรายการข้อมูล ซึ่งจะแจ้งกระบวนการค้นพบข้อมูลสำหรับการสร้างแบบจำลองข้อมูลที่ทำงานร่วมกันได้ซึ่งมีข้อมูลที่มีความหมายมากที่สุด แค็ตตาล็อกทุกวันนี้อาศัยการเรียนรู้ของเครื่องเพื่อชี้ไปที่แหล่งที่มาและแสดงให้เห็นสิ่งที่ Smith ระบุว่าเป็น “ความเป็นจริงในปัจจุบัน: สิ่งเหล่านี้คือฟิลด์ เอนทิตี ความสัมพันธ์ และนี่คือวิธีการใช้งาน” ความเข้าใจพื้นฐานนี้มีความสำคัญสำหรับการเริ่มต้นสคีมา การแก้ไข และการทำความเข้าใจเงื่อนไขที่จำเป็นสำหรับการรวมไว้สำหรับกรณีการใช้งานที่เป็นเอกพจน์ ตาม Profisee รองประธานฝ่ายการตลาดผลิตภัณฑ์ Martin Boyd แนวทางปฏิบัติที่ดีที่สุดในการสร้างแบบจำลองข้อมูลเกี่ยวข้องกับ “การดูสคีมาสถานที่ต่างๆ ทั้งหมดสำหรับโดเมนเฉพาะที่มีอยู่ จากนั้นจึงดึงเพื่อสร้างสคีมา” การทำรายการข้อมูลช่วยปรับปรุงขั้นตอนนี้ได้หลายวิธี ซึ่งที่สำคัญที่สุดคือวิธีการรวมศูนย์ข้อมูลเกี่ยวกับข้อมูลในแหล่งข้อมูลแบบกระจาย นอกเหนือจากข้อมูลเมตาที่มีค่า ข้อมูลทางสถิติที่เกิดจากการทำโปรไฟล์ข้อมูล และการป้อนข้อมูลจากผู้เชี่ยวชาญแล้ว แค็ตตาล็อกยังรวบรวม “ความรู้จำนวนผู้ใช้ที่ได้รับจากระบบหรือชุดข้อมูล” Smith กล่าว พวกเขายังจัดเตรียม lineage และคำอธิบายประกอบอื่นๆ เกี่ยวกับวิธีการใช้ชุดข้อมูลและสคีมาเฉพาะ โดยรวมแล้ว เอกสารนี้อนุญาตให้ผู้ใช้ “ดูโมเดลข้อมูลและเราจะดำเนินการบางอย่างได้ที่ไหน” Smith ตั้งข้อสังเกต “ดังนั้น ข้อมูลจากแคตตาล็อกข้อมูลนี้สามารถป้อนเข้าสู่วิวัฒนาการของแบบจำลองข้อมูลนั้นได้” การสร้างแบบจำลองเอนทิตี การสร้างแบบจำลองเอนทิตีและการสร้างแบบจำลองข้อมูลหลักสำหรับแต่ละโดเมนจะช่วยเพิ่มความก้าวหน้าไปสู่ข้อได้เปรียบในการทำงานร่วมกันของสคีมาที่นำกลับมาใช้ใหม่ได้ ข้อมูลเชิงลึกที่ครอบคลุมข้ามแหล่งที่มาสำหรับการวิเคราะห์ และความสามารถในการปรับตัวที่เพิ่มขึ้น การจัดการข้อมูลหลักโดเมนหลายโดเมนมีบทบาทอันล้ำค่าในการสร้างแบบจำลองเอนทิตีโดยใช้ตรรกะที่คลุมเครือ การคำนวณทางความคิด และแนวทางอื่นๆ เพื่อทำให้เรกคอร์ดที่ตรงกันของเอนทิตีเป็นอัตโนมัติและรวมเข้าด้วยกันตามความจำเป็น หุ่นยนต์ดังกล่าวมีประโยชน์สำหรับการกรอกแง่มุมของการสร้างแบบจำลองข้อมูลเหล่านี้ตามขนาด เนื่องจากการจัดการข้อมูลในลักษณะนี้ “เป็นกระบวนการ” Boyd ตั้งข้อสังเกต “เมื่อคุณสร้างกระบวนการและกฎเกณฑ์แล้ว ระบบก็จะบังคับใช้ต่อไป” ดังที่ได้กล่าวไว้ก่อนหน้านี้ การกำหนดมาตรฐานการแสดงข้อมูลในแหล่งที่มาเป็นตัวตั้งต้นในการรวมข้อมูลสำหรับกรณีการใช้งานแนวนอน โดยเฉพาะอย่างยิ่งเมื่อผลลัพธ์ของแบบจำลองเอนทิตีเหล่านั้นถูกผลักกลับไปยังแหล่งที่มา เมื่อผู้ใช้ “กำหนดมาตรฐานของข้อมูลทั้งหมดจากมุมมองของรูปแบบ นั่นทำให้สามารถทำงานร่วมกันได้มากขึ้น” Boyd กล่าวไว้ “ดังนั้น ขณะนี้ระบบต่างๆ ที่เก็บข้อมูลในรูปแบบต่างๆ สามารถพูดคุยกัน มีส่วนร่วมในรูปแบบข้อมูลหลัก และแบ่งปันข้อมูลนั้นกลับไปยังพวกเขา” ต่อมาจะง่ายขึ้นมากที่จะใช้อาร์เรย์ของแหล่งข้อมูลแบบกระจายสำหรับความพยายามด้านวิทยาศาสตร์ข้อมูลเพื่อสร้างแบบจำลองการคาดการณ์หรือสร้างแอปพลิเคชันข้ามแผนก แหล่งที่มา และโดเมนสำหรับสิ่งต่างๆ เช่น โปรแกรมความภักดีของลูกค้าหรือการวิเคราะห์ความปลอดภัย คุณภาพข้อมูล กฎคุณภาพข้อมูลสำหรับแหล่งข้อมูลที่แจ้งแง่มุมต่างๆ ของการสร้างแบบจำลองข้อมูล (เช่น การสร้างแบบจำลองเอนทิตี การสร้างแบบจำลองเชิงตรรกะ และการสร้างแบบจำลองแนวความคิด) มีความสำคัญอย่างยิ่งต่อการจัดทำมาตรฐานที่ฐานของความพยายามในการทำงานร่วมกัน เมื่อองค์กรแยกแยะได้ว่าแหล่งข้อมูลใดมีคุณลักษณะหรือข้อมูลที่ส่งผลต่อมิติการสร้างแบบจำลองเหล่านี้ พวกเขาจะต้องทำให้ข้อมูลปรากฏในแหล่งที่มาเป็นเนื้อเดียวกันเพื่อให้ “แต่ละฟิลด์มีกฎคุณภาพข้อมูลที่กำหนดว่าควร [appear] อย่างไร” Boyd กล่าว บ่อยครั้ง การกำหนดกฎเกณฑ์เหล่านั้นสำหรับการกำหนดมาตรฐานข้อมูลเป็นกระบวนการร่วมมือที่เกี่ยวข้องกับผู้เชี่ยวชาญเฉพาะเรื่อง บุคลากรด้านการกำกับดูแลข้อมูล และผู้มีส่วนได้ส่วนเสียอื่นๆ ผลที่ได้คือข้อมูลจะกลายเป็นมาตรฐานจากแหล่งที่มาต่างๆ ตาม “กฎคุณภาพข้อมูล กฎความสอดคล้อง มีความสมบูรณ์ของการอ้างอิง และทุกสิ่งที่คุณคาดหวังในการออกแบบฐานข้อมูลปกติ” Boyd อธิบาย ประโยชน์สูงสุดของการกำหนดคุณภาพข้อมูลให้เป็นพื้นฐานของการสร้างแบบจำลองข้อมูลคือการประกันคุณภาพและ “คุณสามารถไว้วางใจข้อมูลนั้นและแหล่งที่มาต่างๆ ได้มากน้อยเพียงใด” Smith กล่าวเสริม ความเป็นไปได้ในการทำงานร่วมกัน ความเป็นไปได้ในการทำให้ข้อมูลสามารถทำงานร่วมกันได้มากขึ้นโดยการรวมโมเดลข้อมูลหรือการสร้างโมเดลแบบรวมในกรณีการใช้งาน แผนก และโดเมนต่างๆ มีความสำคัญด้วยเหตุผลหลายประการ ประการแรก ช่วยให้องค์กรสามารถรวมสินทรัพย์ข้อมูลที่มีกำไรเหล่านี้เข้าไว้ในแอปพลิเคชันทางธุรกิจทุกวันเพื่อเพิ่ม ROI ให้กับค่าใช้จ่ายในการจัดการข้อมูลจำนวนมากโดยใช้ทรัพยากรทั้งหมด—หรือสิ่งที่ดีที่สุด—สำหรับการปรับใช้แต่ละครั้ง นอกจากนี้ยังเป็นวิธีที่น่าเชื่อถือในการควบคุมความผิดปกติที่ทวีความรุนแรงขึ้นที่มาพร้อมกับการกระจายอำนาจที่มากขึ้นของตำแหน่งที่ข้อมูลถูกเข้าถึง จัดเก็บ และจำเป็น ซึ่งเป็นสาเหตุที่หลักพื้นฐานของ data fabric ยังคงมีอยู่ วิธีการนี้ “นำไปสู่การทำงานร่วมกันและการทำงานร่วมกันที่ชั้นข้อมูล” คลาร์กแสดงความคิดเห็น “ที่ชั้นข้อมูลจะมีกลุ่มข้อมูลขนาดใหญ่ แฟบริก หรือกราฟของข้อมูล นั่นไม่ได้หมายความว่าคุณดัมพ์ข้อมูลในที่เดียว แต่มีการเชื่อมต่อเพื่อให้แอปพลิเคชันกลายเป็นเรื่องง่ายและง่ายขึ้นในการสร้าง คุณสามารถใช้ตรรกะทางธุรกิจซ้ำได้ และคุณสามารถใช้การเชื่อมต่อเหล่านี้ซ้ำซึ่งกลายเป็นเหมือนมุมมองที่แตกต่างกันของโครงสร้างที่ครอบคลุมของ ข้อมูล.” การสร้างแบบจำลองในอนาคตวันนี้ ไม่ว่าวิธีการใดในการรวมศูนย์จะถูกปรับใช้ องค์กรต้องนำวิธีการบางอย่างมาใช้เพื่อตอบโต้ไซโลที่เกิดขึ้นจากการกระจายข้อมูลผ่านระบบคลาวด์ต่างๆ การตั้งค่าในองค์กร และภูมิภาคทางภูมิศาสตร์ การเตรียมพร้อมสำหรับการทำงานร่วมกันอย่างเป็นระบบในระดับที่ละเอียดของการสร้างแบบจำลองข้อมูลโดยการเอาชนะการสร้างความแตกต่างของสคีมาด้วยการทำรายการข้อมูลที่มีประสิทธิภาพ การสร้างแบบจำลองเอนทิตี และกลไกคุณภาพข้อมูลนั้นไม่ใช่เรื่องย่อสำหรับสิ่งท้าทายที่รออยู่ข้างหน้า “มีสองวิธีในการพิสูจน์อนาคต: ฉลาดและโง่” คลาร์กเสนอ “ประการแรกคือการพิสูจน์อนาคตด้วยการสร้างแบบจำลองข้อมูลที่อธิบายส่วนต่างๆ ของธุรกิจขนาดใหญ่ของคุณที่ต้องทำงานล่วงเวลา การนำสคีมามาใช้ซ้ำในส่วนต่างๆ ของธุรกิจช่วยให้คุณได้รับผลประโยชน์ในอนาคตด้วยการประกันคุณภาพและ ROI ที่สูง วิธีที่โง่คือการให้คนฉลาดสร้างแบบจำลองข้อมูลเพื่อประโยชน์ของการสร้างแบบจำลองข้อมูล ซึ่งจะทำให้ไม่มีที่ไหนเลย” เกี่ยวกับผู้เขียน Jelani Harper เป็นที่ปรึกษากองบรรณาธิการที่ให้บริการตลาดเทคโนโลยีสารสนเทศ เขาเชี่ยวชาญด้านแอปพลิเคชันที่ขับเคลื่อนด้วยข้อมูลซึ่งมุ่งเน้นไปที่เทคโนโลยีเชิงความหมาย การกำกับดูแลข้อมูล และการวิเคราะห์ เข้าร่วมกับเราบน Twitter: @InsideBigData1 – https://twitter.com/InsideBigData1 ลงทะเบียนเพื่อรับจดหมายข่าว InsideBIGDATA ฟรี

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button