Data science

Data Mesh ปรากฏขึ้นเพื่อแสวงหา Data Harmony

data mesh เป็นแนวคิดใหม่ที่เกิดขึ้นในแวดวงข้อมูลขนาดใหญ่ ในทำนองเดียวกันในบางแง่มุมของ data fabrics data mesh ให้วิธีการในการกระทบยอดและหวังว่าจะเอาชนะความท้าทายที่เกิดจากสถาปัตยกรรมข้อมูลก่อนหน้า รวมถึงคลังข้อมูลรุ่นแรก data lakes รุ่นที่สอง และแม้แต่ระบบ Kappa รุ่นปัจจุบัน สถาปัตยกรรม data mesh รวมแนวทางที่ดีที่สุดเหล่านี้ในรูปแบบการกระจายอำนาจ ในขณะที่ยังคงความตระหนักในโดเมน การเข้าถึงของผู้ใช้แบบบริการตนเอง มุมมองข้อมูลในฐานะผลิตภัณฑ์ และการกำกับดูแล Zhamak Dehghani ซึ่งเป็นผู้อำนวยการฝ่ายเทคโนโลยีเกิดใหม่แห่ง Thoughtworks North America ได้รับเครดิตในการกำหนดและอธิบายแนวคิดเกี่ยวกับ data mesh เธอได้วางหลักการและแนวความคิดมากมายของ data mesh ในผลงานชิ้นแรกของเธอตั้งแต่เดือนพฤษภาคม 2019 ในหัวข้อ “How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh ” เธอตามมาด้วยรายละเอียดที่เท่าเทียมกันและให้ข้อมูลในเดือนธันวาคม 2020 ซึ่งมีชื่อว่า “Data Mesh Principles and Logical Architecture” data mesh ไม่ได้เป็นเพียงแนวคิดทางเทคโนโลยีสำหรับสถาปัตยกรรมข้อมูลในอนาคต แต่ยังเป็นเส้นทางสำหรับวิธีที่ผู้คนสามารถจัดระเบียบตัวเองเพื่อรับประโยชน์สูงสุดจากข้อมูล แน่นอนว่ามีชิ้นส่วนทางเทคนิคสำหรับแนวคิด data mesh มันพยายามที่จะกระทบยอดความตึงเครียดตามธรรมชาติระหว่างระบบข้อมูลที่รวมศูนย์และควบคุมอย่างหนักในด้านหนึ่งและสถานะการกระจายตามธรรมชาติของข้อมูลที่ทันสมัยและการวิเคราะห์ในอีกทางหนึ่ง แต่สิ่งที่ไม่เหมือนใครและน่าสนใจเกี่ยวกับวิธีการของ Dehghani คือวิธีที่เธอสานผู้คนและรูปแบบการเข้าถึงข้อมูลและแนวโน้มในสมการ เพียงแค่ย้ายไปที่ “ถัดไป” ที่ยิ่งใหญ่ในเทคโนโลยีสารสนเทศ (Kubernetes! Kafka! Kappa!) ก็จะล้มเหลวในการเรียนรู้จากความผิดพลาดในอดีต Data Mesh คืออะไร? Dehghani นำเสนอ data mesh เป็นสถาปัตยกรรมยุคหน้าสำหรับการวิเคราะห์ข้อมูลแบบรวมศูนย์และวิทยาศาสตร์ข้อมูล Data Lake แยกผู้ใช้ออกจากกันตามโดเมน (เอื้อเฟื้อรูปภาพ Zhamak Dehghani) ในแง่ง่ายเกินไป คลังข้อมูลภายในองค์กรที่เป็นกรรมสิทธิ์จะถูกมองว่าเป็นตัวอย่างที่ดีของการควบคุมและการกำกับดูแลที่หนักหน่วง ด้วยความตั้งใจและความตั้งใจจริง บริษัทต่างๆ ได้ส่งข้อมูลจากระบบปฏิบัติการ เจาะข้อมูลระหว่างทางผ่าน ETL การจัดการข้อมูลหลัก และรูทีน schema-on-write อื่นๆ จนกว่าจะเติมเต็มคอลัมน์ที่เป็นหัวใจของฐานข้อมูลการวิเคราะห์ส่วนใหญ่ การย้อนกลับจากแนวทางแบบรวมศูนย์นี้เป็นเรื่องจริง และด้วยเหตุนี้ Data Lake จึงถูกสร้างขึ้นด้วยคุณลักษณะที่ตรงกันข้าม แทนที่จะสอบสวนและแปลงข้อมูลก่อน ข้อมูลทั้งหมดจะถูกโหลดลงใน Data Lake เพียงอย่างเดียว ทะเลสาบมีข้อได้เปรียบด้านความสามารถในการขยายขนาดใหญ่กว่าคลังข้อมูล ซึ่งส่วนหนึ่งเป็นเพราะประเภทของข้อมูลที่เก็บไว้ แต่ยังเนื่องมาจากข้อกำหนดสคีมาที่ผ่อนคลายลงด้วย แม้ว่าจะมีความคล้ายคลึงกัน แต่กรณีการใช้งานสำหรับคลังข้อมูลและ Data Lake ก็แตกต่างกันมาก ตามที่ Dehghani ชี้ให้เห็น นักวิเคราะห์ใช้คลังข้อมูลเป็นหลักเพื่อตอบคำถามทางธุรกิจเกี่ยวกับข้อมูลที่มีโครงสร้าง ในขณะที่ Data Lake ถูกใช้โดยนักวิทยาศาสตร์ด้านข้อมูลเป็นหลักในการสร้างโมเดลการเรียนรู้ของเครื่องโดยอาศัยข้อมูลที่ไม่มีโครงสร้างเป็นส่วนใหญ่ นี่เป็นข้อพิจารณาที่สำคัญสำหรับการทำความเข้าใจด้านโดเมนของผู้ปฏิบัติงานด้านข้อมูล เมื่อเวลาผ่านไป ทั้งสองวิธีก็มีความเหลื่อมล้ำกันเล็กน้อย นักวิทยาศาสตร์ข้อมูลต้องการข้อมูลจากคลังสินค้า และนักวิเคราะห์ข้อมูลก็พบว่าตนเองมีปฏิสัมพันธ์กับทะเลสาบด้วย การแก้ไขเส้นทางการเข้าถึงที่แตกต่างกันเหล่านี้โดยที่ยังคงประสิทธิภาพ การกำกับดูแล และการบริการตนเองได้พิสูจน์แล้วว่าทำได้ยากมากในทางปฏิบัติ และเมื่อเธอชี้ให้เห็นในส่วนที่ตามมาของเธอ ความแตกต่างระหว่างข้อมูลการดำเนินงานและข้อมูลการวิเคราะห์ยังไม่เกิดขึ้น ที่จะแก้ไข ความจำเป็นในการเข้าถึงชุดข้อมูลขนาดใหญ่และหลากหลายแบบข้ามโดเมนนี้เป็นปัญหาที่แท้จริงที่แนวคิด data mesh ของ Dehahni กำหนดไว้ “เมื่อมีข้อมูลเพิ่มมากขึ้น ความสามารถในการใช้ข้อมูลทั้งหมดและประสานกันในที่เดียวภายใต้การควบคุมของแพลตฟอร์มเดียวก็ลดน้อยลง” เธอเขียนในตอนแรก “สมมติฐานที่ว่าเราต้องนำเข้าและจัดเก็บข้อมูลในที่เดียวเพื่อรับคุณค่าจากแหล่งที่หลากหลาย จะจำกัดความสามารถของเราในการตอบสนองต่อการแพร่กระจายของแหล่งข้อมูล” ไปป์ไลน์ทุกอย่าง เพื่อจัดการกับการกระจายข้อมูลนี้ บริษัทต่างๆ ได้สร้างไปป์ไลน์ข้อมูล ในมุมมองของ Dehghani บริษัทต่างๆ ต่างพึ่งพาระบบท่อเหล่านี้มากเกินไปเพื่อจัดการกับงานที่หลากหลาย ตั้งแต่การนำเข้าและการเตรียมการไปจนถึงการรวมกลุ่มและการให้บริการ วิธีการทางวิศวกรรมข้อมูลแบบดั้งเดิมสร้างที่เก็บข้อมูลและผู้ใช้ที่แตกต่างกัน (เอื้อเฟื้อภาพ Zhamak Dehghani) “ความล้มเหลวของ ETL อย่างต่อเนื่อง….งานและความซับซ้อนที่เพิ่มขึ้นของเขาวงกตของท่อข้อมูลเป็นสิ่งที่คุ้นเคยสำหรับหลายคนที่พยายามเชื่อมต่อระนาบทั้งสองนี้ ส่งข้อมูลจากการปฏิบัติงาน ระนาบข้อมูลไปยังระนาบวิเคราะห์ และกลับไปที่ระนาบปฏิบัติการ” เธอเขียนไว้ในบทความที่สอง นอกจากการรั่วไหลของข้อมูลแล้ว การเพิ่มจำนวนท่อส่งยังเป็นปัญหาเพราะจำกัดวิธีการสร้างองค์กร โดยอาศัยท่อข้อมูลเป็นจำนวนมาก สถาปนิก “สลายตัวในมุมฉากกับแกนของการเปลี่ยนแปลง” เธอเขียนไว้ในชิ้นแรก กล่าวอีกนัยหนึ่ง ระดับนามธรรมที่สถาปนิกวางท่อเลือกนั้นขัดต่อกระแสธรรมชาติและวิวัฒนาการของการวิเคราะห์ข้อมูลและวิทยาศาสตร์ข้อมูลภายในองค์กร ในขณะเดียวกันก็ก่อให้เกิด เส้นทางข้างหน้าในมุมมองของ Dehghani เป็นสถาปัตยกรรม data mesh ที่เชื่อมโยงแนวคิดหลักสามประการ (เพื่อจะพูด) – สถาปัตยกรรมที่ขับเคลื่อนด้วยโดเมนแบบกระจาย การออกแบบแพลตฟอร์มแบบบริการตนเอง และการคิดผลิตภัณฑ์ – กับข้อมูล (ในส่วนที่สองของเธอ Dehgahi ได้เพิ่มการกำกับดูแลเป็นหลักการที่สี่) บนสถาปัตยกรรมที่ขับเคลื่อนด้วยโดเมนแบบกระจาย Dehghahi เขียนว่า: “ในการกระจายอำนาจของแพลตฟอร์มข้อมูลแบบเสาหิน เราต้องย้อนกลับวิธีที่เราคิดเกี่ยวกับข้อมูล มันเป็นพื้นที่และความเป็นเจ้าของ แทนที่จะส่งข้อมูลจากโดเมนไปยัง Data Lake หรือแพลตฟอร์มที่ส่วนกลางเป็นเจ้าของ โดเมนจำเป็นต้องโฮสต์และให้บริการชุดข้อมูลโดเมนของตนด้วยวิธีที่สิ้นเปลืองอย่างง่ายดาย” (จากส่วนแรกของเธอ) ในการออกแบบแพลตฟอร์มแบบบริการตนเอง เธอเขียนว่า: “กุญแจสำคัญ เพื่อสร้างโครงสร้างพื้นฐานของข้อมูลเป็นแพลตฟอร์ม (ก) ไม่รวมแนวคิดเฉพาะโดเมนหรือตรรกะทางธุรกิจใด ๆ ทำให้โดเมนไม่เชื่อเรื่องพระเจ้า และ (ข) ตรวจสอบให้แน่ใจว่าแพลตฟอร์มซ่อนความซับซ้อนพื้นฐานทั้งหมดและจัดเตรียมส่วนประกอบโครงสร้างพื้นฐานข้อมูลด้วยตนเอง -ลักษณะการบริการ” (จากผลงานชิ้นแรกของเธอ) คนแรกของ Thoughtworks ได้อธิบายเกี่ยวกับ data mesh ในการคิดเกี่ยวกับข้อมูลในฐานะผลิตภัณฑ์ เธอเขียนว่า: “ข้อมูลเชิงวิเคราะห์ที่โดเมนให้มาจะต้องถือเป็นผลิตภัณฑ์ และผู้บริโภคของสิ่งนั้น ข้อมูลควรได้รับการปฏิบัติเหมือนลูกค้า – ลูกค้าที่มีความสุขและยินดี (จากชิ้นที่สองของเธอ) ในการกำกับดูแลแบบสหพันธรัฐ Dehgahni เขียนว่า: “… การใช้งาน data mesh จำเป็นต้องมีรูปแบบการกำกับดูแลที่รวมเอาการกระจายอำนาจและอำนาจอธิปไตยของโดเมน การทำงานร่วมกันผ่านมาตรฐานสากล โทโพโลยีแบบไดนามิก และการดำเนินการตัดสินใจอัตโนมัติที่สำคัญที่สุดโดยแพลตฟอร์ม” (จากส่วนที่สองของเธอ) ยังมีอีกมากที่เข้าสู่การนำ data mesh ไปใช้งาน และ Dehghani ได้กล่าวถึงรายละเอียดในสองส่วนของเธอ อย่างน้อยที่สุด แนวคิดของ data mesh ก็ปรากฏขึ้นเพื่อให้เรามีแนวทางใหม่ในการกำหนดปัญหาที่ยุ่งยากและยาวนานเกี่ยวกับการเข้าถึงข้อมูล การจัดการ และการวิเคราะห์ หากไม่ได้ให้เส้นทางแก่เราในการเริ่มต้นแก้ไข รายการที่เกี่ยวข้อง: การจัดการข้อมูลด้วยตนเองเป็นกุญแจสำคัญสำหรับวิศวกรข้อมูล และธุรกิจของพวกเขา เหตุใด Event Meshes จึงควรอยู่บน IoT Radar Big Data Fabrics ของคุณจึงปรากฏขึ้นเพื่อบรรเทาความเจ็บปวดของ Hadoop

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button