Data science

Data Mesh ในทางปฏิบัติ: การเรียนรู้จากการเดินทางของลูกค้า

คลิกเพื่อเรียนรู้เพิ่มเติมเกี่ยวกับผู้แต่ง Mathias Golombek ในบล็อกโพสต์ล่าสุดของฉัน ฉันได้แนะนำแนวคิด data mesh และสำรวจความเชื่อมโยงระหว่าง data democratization และ data mesh ตั้งแต่นั้นมา ฉันได้สนทนาหัวข้อที่น่าสนใจมากมายกับเพื่อนร่วมงานและลูกค้า โดยเฉพาะอย่างยิ่ง ฉันได้สัมภาษณ์ลูกค้ารายหนึ่งที่เคยอยู่บนเส้นทางดาต้าเมชที่น่าสนใจมาก น่าเสียดายที่ NDA ป้องกันไม่ให้ฉันเปิดเผยอย่างแน่ชัดว่าฉันกำลังหมายถึงบริษัทใด แต่ข้อมูลเชิงลึกนั้นยอดเยี่ยมมาก ฉันไม่ต้องการให้พวกเขาเสียเปล่า ด้านล่างนี้คือการสนทนาที่ฉันมีกับลูกค้าของเราเกี่ยวกับเส้นทางเครือข่ายข้อมูลล่าสุดขององค์กรของพวกเขา Mathias: คุณช่วยเริ่มต้นด้วยการบอกเราเกี่ยวกับความท้าทายทางธุรกิจที่คุณกำลังเผชิญซึ่งนำคุณไปสู่ ​​data mesh ได้หรือไม่? ลูกค้า: เรามีกรณีการใช้งานการวิเคราะห์ที่กำหนดไว้ล่วงหน้าที่ยอดเยี่ยมสำหรับสิ่งต่างๆ เช่น การกำหนดราคาแบบไดนามิกและการคาดการณ์ความต้องการ แต่ข้อมูลของเรามักจะพร้อมใช้งาน/มองเห็นได้ผ่านเลนส์ของกรณีการใช้งานเหล่านี้เท่านั้น หากนักวิทยาศาสตร์ด้านข้อมูลของเราต้องการสำรวจข้อมูล สร้างอัลกอริธึมใหม่ หรือตอบคำถามแบบใช้ครั้งเดียว เป็นเรื่องยาก พวกเขาต้องการการเข้าถึงข้อมูลที่ยืดหยุ่นและเป็นอิสระมากขึ้น คล้ายกับระบบดาวน์สตรีมที่ไม่ใช่ของมนุษย์ (เช่น ระบบการวางแผนที่ใช้ข้อมูลแบทช์เพื่อดำเนินการวางแผนการแบ่งประเภทสำหรับร้านค้าของเรา) ที่นี่ เราได้สร้างอินเทอร์เฟซแบบจุดต่อจุดที่ซับซ้อน แต่สิ่งเหล่านี้จัดการยาก เพิ่มความซับซ้อนในการปฏิบัติงาน และทำให้คลังข้อมูลเป็นภาระ ที่มา: Exasol เราต้องการทำให้ข้อมูลของเรามีการบริโภคมากขึ้นและเป็นอิสระจากกรณีการใช้งานดั้งเดิม ในท้ายที่สุด เราต้องการย้ายไปสู่ตลาดข้อมูลที่คุณไปค้นหาข้อมูล สมัครรับข้อมูล จากนั้นเชื่อมต่อข้อมูลเข้ากับระบบของคุณ เรายังต้องการเปลี่ยนจากแบบรวมศูนย์เป็นโมเดลความเป็นเจ้าของข้อมูลแบบรวมศูนย์ เรามองว่านี่เป็นวิธีหนึ่งในการช่วยให้โดเมนเป็นเจ้าของและสร้างผลิตภัณฑ์ข้อมูลของตนเอง และทำให้สิ้นเปลืองโดยตรงใกล้กับแหล่งที่มามากที่สุด ขณะนี้ เรามีทีมวิศวกรรมข้อมูลส่วนกลางที่ดูแลจัดการข้อมูลทั้งหมดบนคลังข้อมูลส่วนกลางหรือ Data Lake ที่สิ้นเปลืองสำหรับกรณีการใช้งานของเรา ข้อเสียของสิ่งนี้คือความสามารถในการปรับขนาดได้ ทุกที่ที่มีทีมกลางไม่ช้าก็เร็วคุณจะได้รับคอขวด คุณสูญเสียความรู้ด้านโดเมนไปด้วย ทีมกลางไม่เคยมีความรู้เกี่ยวกับโดเมนที่สมบูรณ์แบบเดียวกับทีมที่ผลิตข้อมูลและดำเนินการตามกระบวนการทางธุรกิจ เราต้องการนำข้อมูลไปไว้ในมือของผู้ที่มีสกินในเกม ด้วยรูปแบบธุรกิจของเราที่เร่งตัวขึ้นอย่างมากในอีคอมเมิร์ซ/โดยตรงต่อผู้บริโภค โมเดลข้อมูลของเราจึงมีความเชี่ยวชาญมากขึ้น การมีความรู้ความชำนาญในทีมวิศวกรรมส่วนกลางนั้นไม่ได้เกิดขึ้นแล้วในโลกดิจิทัลอีกต่อไป เราเชื่อว่า data mesh มีคำตอบ Mathias: คุณช่วยอธิบายเส้นทาง data mesh ของคุณจนถึงตอนนี้ได้ไหม? คุณอยู่ที่ไหนในนั้น? และอนาคตจะเป็นอย่างไร? ลูกค้า: เริ่มต้นเมื่อประมาณหนึ่งปีที่แล้วเมื่อเราอ่านบทความที่มีชื่อเสียงจาก Zhamak Dehghani มันสอดคล้องกับความท้าทายทั้งหมดที่ฉันเพิ่งพูดถึง เริ่มแรกเราใช้ 2020 กำหนดกรอบและกำหนดเส้นทางของ data mesh จนถึงตอนนั้น เราไม่ได้พูดหรือคิดเกี่ยวกับข้อมูลว่าเป็นผลิตภัณฑ์ แต่เป็นเชื้อเพลิงที่ขับเคลื่อนรายงานหรืออัลกอริธึม เราถามตัวเองว่า: ผลิตภัณฑ์ข้อมูลหมายถึงอะไร? DATSIS . ทำอะไร หมายถึงผลิตภัณฑ์ข้อมูลเหล่านี้หรือไม่ เราจะแปลหลักการ DATSIS เหล่านี้เป็นการค้นพบล่าสุดได้อย่างไร เราจะเชื่อมโยงผลิตภัณฑ์ข้อมูลเข้ากับแค็ตตาล็อกข้อมูลองค์กรหรือเฟรมเวิร์กคุณภาพข้อมูลได้อย่างไร ที่มา: Exasol เรากำหนดวัตถุประสงค์ระดับสูง มีทั้งหมดสี่ หนึ่งในวัตถุประสงค์เหล่านี้คือสามารถผลิตผลิตภัณฑ์ข้อมูลได้ภายในหนึ่งวัน ดังที่ได้กล่าวไว้ข้างต้น เราต้องการกระจายอำนาจการเป็นเจ้าของและการสร้างผลิตภัณฑ์ข้อมูล ดังนั้นเราจึงไม่ต้องพึ่งพาทีมงานส่วนกลางอีกต่อไป อย่างไรก็ตาม ในการทำเช่นนั้น เราไม่สามารถสรุปได้ว่าโดเมนทั้งหมดมีวิศวกรข้อมูลเฉพาะทางสูง เราต้องทำให้ง่ายที่สุดสำหรับทีมที่กระจายอำนาจเพื่อสร้างผลิตภัณฑ์ข้อมูลที่เชื่อถือได้ จากมุมมองทางวิศวกรรม เราจำเป็นต้องทำให้กระบวนการสร้างตาราง ไปป์ไลน์ข้อมูล คอนเทนเนอร์โค้ด ตั้งค่าไพพ์ไลน์ CI/CD ทำงานอัตโนมัติให้มากที่สุดเท่าที่จะเป็นไปได้ ทั้งหมดนี้ต้องทำได้ในหนึ่งวันและซ่อนอยู่หลังปุ่มวิเศษ สำหรับผู้ใช้ วัตถุประสงค์อีกประการหนึ่ง – เพิ่มเติมเกี่ยวกับการใช้ผลิตภัณฑ์ข้อมูล – คือการใช้เวลาห้านาทีจากการค้นหาผลิตภัณฑ์ข้อมูลในขั้นต้นไปจนถึงการเรียกใช้การสืบค้นที่มีความหมายครั้งแรกกับผลิตภัณฑ์ในห้องปฏิบัติการข้อมูล การดำเนินการนี้จะเกี่ยวข้องกับการทำรายการข้อมูลทั้งหมดอย่างเหมาะสม จากนั้นจึงเชื่อมต่อแค็ตตาล็อกข้อมูลกับห้องแล็บข้อมูลโดยตรงเพื่อสร้างไลบรารีของคิวรีและผลลัพธ์ที่กำหนดไว้ล่วงหน้า ใน 2021 เราถ่ายทอดสดด้วยวิธี data mesh ของเรา จนถึงตอนนี้ เราประสบความสำเร็จในการสร้างเฟรมเวิร์กไปป์ไลน์ข้อมูลใน AWS ที่สนับสนุนวัตถุประสงค์ของเราในการสร้างผลิตภัณฑ์ข้อมูลใหม่ในหนึ่งวัน เรามีโครงสร้างพื้นฐานแบบอัตโนมัติ ประมวลผลการจัดเก็บข้อมูลสำหรับผลิตภัณฑ์ข้อมูล และวิธีการสร้างผลิตภัณฑ์ข้อมูลเอง (คำสั่ง DDL ที่ขับเคลื่อนโดยข้อมูลเมตา ไปป์ไลน์ข้อมูล การสร้างไปป์ไลน์ข้อมูล ขับเคลื่อนโดยการจัดกำหนดการข้อมูลเมตา ขับเคลื่อนโดยข้อมูลเมตา ฯลฯ) เราได้สร้างนามธรรมทางวิศวกรรมจำนวนมากที่ทำให้การสร้างผลิตภัณฑ์ข้อมูลในกอง AWS ง่ายขึ้น นอกจากนี้เรายังได้สร้างตัวทำคะแนน DATSIS อัตโนมัติที่ช่วยให้เราสามารถอธิบายผลิตภัณฑ์ข้อมูลของเราผ่านเมตาดาต้าและสร้างระดับความเชื่อมั่น/วุฒิภาวะ เราใช้ไฟล์ YAML เพื่ออธิบายการผลิตข้อมูลบนพื้นฐานนามธรรม ดังนั้นจึงอธิบายว่าใครเป็นเจ้าของ มันเชื่อมโยงคุณไปยังตำแหน่งที่จะค้นหาเอกสารทางธุรกิจในแค็ตตาล็อกข้อมูล ในอนาคต จะอธิบายลิงก์ไปยัง Data Quality Framework ด้วย ดังนั้น การตรวจสอบคุณภาพข้อมูลประเภทใดที่นำไปใช้กับข้อมูล และให้อินเทอร์เฟซประเภทต่างๆ แก่คุณ (เช่น JDBC-ODBC, การสตรีม, การเข้าถึงไฟล์ เป็นต้น) . คะแนน DATSIS ที่ได้จะบอกคุณว่าผลิตภัณฑ์ข้อมูลของคุณมีความสมบูรณ์เพียงใด และตรงตามเกณฑ์ DATISIS ของคุณมากน้อยเพียงใด ซึ่งจะทำให้คุณมีระดับความมั่นใจ ในอีกไม่กี่ปีข้างหน้า เราจะเปลี่ยนสินทรัพย์ข้อมูลที่เกี่ยวข้องทั้งหมดให้เป็นผลิตภัณฑ์ ผู้ทำคะแนน DATSIS จะมีความสำคัญในการบอกเราว่าทรัพย์สินข้อมูลแต่ละรายการอยู่ไกลแค่ไหน Mathias: มีการเรียนรู้หรือข้อมูลเชิงลึกใด ๆ ที่คุณมีเกี่ยวกับการเริ่มโครงการ data mesh ที่อาจเป็นประโยชน์สำหรับคนอื่นในรองเท้าของคุณหรือไม่? ลูกค้า: จากมุมมองทางเทคนิค คำแนะนำของฉันคือการเริ่มต้นด้วยข้อมูลเมตา เพราะสิ่งที่ไม่มีในข้อมูลเมตา คุณไม่สามารถทำให้เป็นอัตโนมัติได้ในภายหลัง คุณต้องมีความคิดที่ดีว่าคุณจะอธิบายผลิตภัณฑ์ข้อมูลอย่างไร ต้องการข้อมูลเมตาประเภทใด และคุณจะดูแลและจัดการข้อมูลเมตานั้นอย่างไร การเริ่มต้นด้วยโมเดลข้อมูลเมตาที่ดีจะกระตุ้นให้เกิดการสร้างอาร์ติแฟกต์ระบบของคุณ นี่เป็นสิ่งสำคัญเนื่องจากคุณไม่สามารถสรุปได้ว่าคุณมีผู้เชี่ยวชาญด้านวิศวกรรมข้อมูลเพียงพอในโดเมนธุรกิจทั้งหมด กุญแจสำคัญคือการมีเครื่องมือบริการตนเองที่สร้างสิ่งประดิษฐ์ทางกายภาพในระบบในอนาคต สามารถทำได้ผ่านข้อมูลเมตาเท่านั้น ที่มา: Exasol จากมุมมองทางธุรกิจ เราได้เริ่มต้นการเดินทางเพื่อเป็นผู้นำผลิตภัณฑ์ โดยมีเป้าหมายเพื่อให้โซลูชันด้านไอทีและโดเมนธุรกิจใกล้ชิดกันมากขึ้น เพื่อให้แน่ใจว่าเราสร้างผลิตภัณฑ์ที่ผู้บริโภคต้องการและสร้างมูลค่า ในบริบทนี้ เรายังมองว่าข้อมูลเป็นผลิตภัณฑ์ ซึ่งปกติแล้วจะไม่เป็นเช่นนั้น ในที่นี้ เราคาดการณ์ว่าการจัดการการเปลี่ยนแปลงที่เกี่ยวข้องกับการเปลี่ยนไปใช้รูปแบบความเป็นเจ้าของแบบรวมศูนย์นั้นยากเป็นพิเศษ มันต้องเปลี่ยนความคิดเกี่ยวกับความรับผิดชอบของข้อมูล ฉันไม่มีกระสุนเงินสำหรับเรื่องนี้ โชคไม่ดี แต่มันเป็นสิ่งที่ต้องระวังให้มาก การมีทีมวิศวกรกลางนั้นสะดวก แต่อย่างที่บอกไปก่อนหน้านี้ คุณได้รับคอขวด เมื่อคุณเปลี่ยนไปใช้โมเดลแบบรวมศูนย์ ผู้คนต้องพัฒนาความคิดที่ว่าความรับผิดชอบเริ่มต้นที่ตัวฉันในขณะที่ฉันกำลังสร้างข้อมูล ความรับผิดชอบของฉันไม่ควรหยุดอยู่ที่ขอบเขตของระบบ ฉันควรเป็นเจ้าของคุณค่าที่ข้อมูลของฉันสร้างขึ้นในระบบนิเวศที่กว้างขึ้น ในกรณีของเรา ความท้าทายในธุรกิจของเราเพิ่มมากขึ้นจากการที่เราไม่ได้เกิดในยุคดิจิทัล เรามีระบบมรดกและมรดกอันยาวนาน แม้ว่าในช่วงไม่กี่ปีที่ผ่านมาเราได้เร่งการเปลี่ยนแปลงทางดิจิทัลอย่างรวดเร็ว แต่เราไม่ใช่บริษัทอย่าง Amazon ที่ถือกำเนิดจากข้อมูลและมีกรอบความคิดที่ขับเคลื่อนด้วยข้อมูลที่ชัดเจนในทุกโดเมนธุรกิจตั้งแต่เริ่มต้น

วิทยาศาสตร์ข้อมูล

  • การตลาด
  • Leave a Reply

    Your email address will not be published. Required fields are marked *

    Back to top button