Data science

Starburst สนับสนุนสถาปัตยกรรม Data Mesh

สถาปัตยกรรม data mesh ที่เกิดขึ้นใหม่มีศักยภาพในการรักษา AI และโครงการวิเคราะห์ให้ก้าวไปข้างหน้าแม้ในขณะที่การจัดเก็บและประมวลผลข้อมูลยังคงกระจายไปในวงกว้าง ผู้สนับสนุนอิสระรายหนึ่งของแนวคิด data mesh คือ Starburst ซึ่งเป็นบริษัทที่อยู่เบื้องหลังเวอร์ชันของ Presto เอ็นจิ้นการสืบค้น SQL แบบกระจายที่รู้จักกันในชื่อ Trino Justin Borgman ซีอีโอของ Starburst กล่าวว่ามีโมเมนตัมอยู่เบื้องหลังแนวคิด data mesh อย่างมาก “ดูเหมือนว่าจะได้รับแรงผลักดันบางอย่าง” Borgman บอก Datanami “โดยพื้นฐานแล้ว เป็นการยอมรับว่าข้อมูลจะถูกกระจายอำนาจและมีข้อดีในการกระจายอำนาจ และสิ่งที่เราพยายามจะสร้างคือจุดเข้าใช้งานจุดเดียวหรือจุดเดียวของการวิเคราะห์ในข้อมูลทั้งหมดไม่ว่าจะอยู่ที่ใด ” บนเว็บไซต์ Starburst วางตำแหน่ง Trino (เดิมชื่อ PrestoSQL) เป็น “เครื่องมือวิเคราะห์สำหรับ data mesh” Trino เช่นเดียวกับ Presto เป็นเอ็นจิ้นแบบกระจายที่สามารถดำเนินการค้นหา SQL กับข้อมูลที่จัดเก็บไว้ในฐานข้อมูลและระบบไฟล์ต่างๆ เดิมทีได้รับการออกแบบมาเพื่อทำงานในคลัสเตอร์ Hadoop ที่แก้ไขของ Facebook แต่ในปัจจุบันกรณีการใช้งานที่ใหญ่ที่สุดน่าจะเป็นการสืบค้นข้อมูลที่จัดเก็บไว้ในระบบจัดเก็บข้อมูลออบเจ็กต์ที่เข้ากันได้กับ S3 หรือ S3 รวมถึงบ้านริมทะเลสาบเช่น Delta Lake ของ Databricks “ Stonebraker กล่าวอย่างมีชื่อเสียงว่าไม่มีฐานข้อมูลเดียวที่เหมาะกับทุกคน และนั่นก็หมายความว่าคุณจะต้องมีฐานข้อมูลที่แตกต่างกันมากมายภายในองค์กรของคุณ และทีมเหล่านั้นอาจรู้ข้อมูลนั้นดีที่สุด” Borgman กล่าว “แต่ละโดเมนมีลักษณะเฉพาะในเรื่องนั้น ดังนั้นทีมเหล่านั้นก็จะมีวิศวกรข้อมูลของตนเองที่จัดการข้อมูลนั้น แต่ถูกเชื่อมเข้าด้วยกันโดยแฟบริคนี้ หรือดาต้าเมช และนั่นคือจุดที่เราเข้ามาเล่น โดยให้คุณเห็นแหล่งข้อมูลเหล่านั้นทั้งหมด ” ที่เก็บข้อมูลที่แยกจากกันทางกายภาพสามารถเชื่อมโยงอย่างมีเหตุผลผ่าน data mesh (Song_about_summer/Shutterstock) data lake บนคลาวด์เป็นที่เก็บข้อมูลที่ใหญ่ที่สุดในปัจจุบัน แต่ไม่ใช่ที่เดียวที่มีข้อมูลอยู่ การปฏิบัติตามข้อกำหนดของสถาปัตยกรรม data mesh นั้น Starburst ตั้งเป้าที่จะรวมการวิเคราะห์ข้อมูลข้ามโดเมนแบบกระจายในนามของลูกค้า รวมถึง Comcast “Comcast เป็นตัวอย่างที่ดี” Borgman กล่าว “ย้อนกลับไปเมื่อสามปีที่แล้ว กรณีการใช้งานครั้งแรกของพวกเขาคือ Teradata และ Hadoop โดยพื้นฐานแล้ว [Comcast said] เราจำเป็นต้องเข้าถึงทั้งสองอย่าง เรามีพฤติกรรมการดูใน Data Lake เช่น สิ่งที่แสดงให้คนดู และเรามีข้อมูลการเรียกเก็บเงินใน Teradata เราต้องการทำความเข้าใจว่ารายการต่างๆ ที่ผู้คนรับชมส่งผลกระทบอย่างไรกับการใช้จ่ายของเรา และทำแคมเปญขายต่อเนื่องและขายต่อยอดจากชุดข้อมูลทั้งสอง” Comcast ใช้ Trino เป็นส่วนหนึ่งของ “โครงสร้างการสืบค้น” ที่รวมกิจกรรมการวิเคราะห์ข้อมูลในโดเมนต่างๆ เอ็นจินการสืบค้น และที่เก็บข้อมูล แฟบริกการสืบค้นวลีโดยพื้นฐานแล้วหมายถึงสิ่งเดียวกับแฟบริกข้อมูล Borgman กล่าว “ทุกคนมีคำศัพท์ที่แตกต่างกัน” เขากล่าว บริษัทข้ามชาติขนาดใหญ่อาจอยู่ในแนวหน้าของการเคลื่อนไหวของ data mesh ด้วยเหตุผลง่ายๆ ประการหนึ่ง: GDPR บังคับให้บริษัทต่างๆ รักษาข้อมูลเกี่ยวกับผู้อยู่อาศัยในยุโรปภายในขอบเขตทางกายภาพของประเทศที่พวกเขาอาศัยอยู่ “หากคุณเป็นองค์กรข้ามชาติ คุณต้องต่อสู้กับความเป็นส่วนตัวของข้อมูลและกฎระเบียบอธิปไตยของข้อมูลมากขึ้นเรื่อยๆ” Borgman กล่าว “ข้อมูลในสวิตเซอร์แลนด์ที่ชาวสวิสสร้างขึ้นในสวิตเซอร์แลนด์จะต้องเก็บไว้ในสวิตเซอร์แลนด์ ข้อมูลที่สร้างขึ้นในเยอรมนีจะต้องอยู่ในประเทศเยอรมนี ข้อมูลที่สร้างขึ้นในฝรั่งเศสจะต้องอยู่ในฝรั่งเศส” กฎหมายและข้อบังคับเกี่ยวกับข้อมูลและความเป็นส่วนตัวที่กำลังเกิดขึ้นใหม่ “กำลังบังคับกลยุทธ์ data mesh เป็นหลัก” Borgman กล่าวต่อ “เป็นไปไม่ได้อีกต่อไปที่จะนำข้อมูลทั้งหมดของฉันจากเยอรมนี ฝรั่งเศส และประเทศต่างๆ เหล่านี้มารวมกัน เพราะนั่นจะเป็นการละเมิดกฎ กฎหมาย” Starburst ได้สร้างผลิตภัณฑ์ที่เรียกว่า Stargate ที่พยายามช่วยให้บริษัทต่างๆ ได้รับประโยชน์จากข้อมูลของตนโดยปฏิบัติตามกฎระเบียบใหม่เหล่านี้ โดยทั่วไปแล้ว Stargate จะอนุญาตให้ผู้ใช้เชื่อมต่อกลุ่ม Starburst หลายกลุ่มเข้าด้วยกัน ในขณะที่ทำให้แน่ใจว่าข้อมูลเกี่ยวกับลูกค้าจะไม่ข้ามพรมแดน “Stargate เป็นตัวเชื่อม Starburst กับ Starburst” Borgman กล่าว “อาจเป็นเพราะคุณมีคลัสเตอร์เดียวใน AWS East และคลัสเตอร์หนึ่งใน AWS แฟรงก์เฟิร์ต หรืออาจเป็นมัลติคลาวด์ อาจเป็นคลัสเตอร์เดียวใน AWS และหนึ่งคลัสเตอร์ใน Azure แต่ไม่ว่าข้อมูลนั้นจะอยู่ที่ใด คลัสเตอร์ Starburst ในพื้นที่นั้นกำลังประมวลผลและส่งคืนผลลัพธ์ที่เป็นไปตามข้อกำหนดอย่างมีประสิทธิภาพเท่านั้น” Starburst ต้องการให้ซอฟต์แวร์ที่ใช้ Trino เป็นเอ็นจิ้นการสืบค้นสำหรับตาข่ายข้อมูลที่เกิดขึ้นใหม่ แต่ Borgman กล่าวว่าสิ่งสำคัญคือต้องตระหนักว่า Starburst ไม่ใช่เครือข่ายข้อมูล ในตัวของมันเอง “องค์ประกอบอื่นๆ สำหรับโมเดลประเภทนี้หรือการออกแบบประเภทนี้จะเป็นการกำกับดูแลและการควบคุมการเข้าถึง ตัวอย่างเช่น บริษัท เช่น Immuta หรือ Privacera” เขากล่าว การติดตามข้อมูลใน data mesh มีความสำคัญ และนั่นคือที่มาของแคตตาล็อกข้อมูลจากผู้ขายอย่าง Collibra และ Alation Borgman กล่าว “และเครื่องมือ BI ที่มีจุดมุ่งหมายเพื่อแสดงภาพข้อมูลในสิ่งเหล่านี้” เขากล่าวเสริม “เรามีความร่วมมือเป็นพิเศษกับ Tableau และ ThoughtSpot และ [Microsoft’s] PowerBI ที่เราทำงานอย่างใกล้ชิดด้วยเพื่อช่วยให้เห็นภาพข้อมูลที่เราสามารถเชื่อมต่อได้” ท้ายที่สุดแล้ว กลยุทธ์ data mesh คือการประนีประนอม เช่นเดียวกับอย่างอื่น แต่เมื่อคุณละทิ้งการบังคับรวมศูนย์ข้อมูล คุณจะไม่ละทิ้งคุณภาพของข้อมูลหรือการกำกับดูแลข้อมูล ขั้นตอนเหล่านั้นและระเบียบวินัยเหล่านั้นตอนนี้ดำเนินการในลักษณะแบบกระจาย สะท้อนสภาพธรรมชาติของข้อมูลเอง “เหตุผลที่ฉันพบว่า [data mesh] มีเสน่ห์เป็นพิเศษก็เพียงเพราะมันสะท้อนให้ฉันเห็นว่าความเป็นจริงมีลักษณะอย่างไรตามธรรมชาติ” บอร์กแมนกล่าว “เป็นเรื่องยากมากที่ลูกค้าจะนำคลังข้อมูลขององค์กรไปใช้อย่างเต็มที่อย่างแท้จริง เพื่อให้สามารถมีทุกสิ่งที่คุณต้องการได้ในที่เดียว ในทางปฏิบัติแล้ว เป็นเรื่องที่ท้าทายมาก และฉันคิดว่านั่นย้อนกลับไปจนถึงช่วงแรกๆ ที่ Teradata พยายามทำ [that] และวันนี้ Snowflake พยายามทำอย่างนั้น” ข้อมูลในปัจจุบันกระจายไปทั่วที่เก็บอ็อบเจ็กต์ในคลาวด์ อยู่ใน S3, พื้นที่เก็บข้อมูล Azure Data Lake และ Google Cloud Storage อยู่ในฐานข้อมูล MongoDB, Cassandra และ Aerospike NoSQL มันตั้งอยู่ในบ้านริมทะเลสาบ Databricks และโกดัง Snowflake มันอยู่ในกลุ่ม Hadoop; ฐานข้อมูล SingleStore, CockroachDB และ Yugabyte NewSQL; และร้านค้ากราฟจาก Neo4j, TigerGraph และ Franz มันอยู่ในที่เก็บอ็อบเจ็กต์บนคลาวด์และภายในองค์กร และระบบไฟล์แบบกระจายมากมาย อยู่ใน prem ในฐานข้อมูลเชิงสัมพันธ์ของ Oracle, Db2 และ Postgres กำลังไหลอยู่ใน Kafka, Pulsar และระบบผับย่อยอื่นๆ อยู่ในเวิร์กชีต Excel และฐานข้อมูล Access จีนี่ข้อมูลออกจากขวดแล้วและจะไม่มีวันกลับเข้าไปอีก “เมื่อย้อนกลับไปที่คำพูดของ Stonebreaker ไม่มีขนาดใดที่เหมาะกับระบบฐานข้อมูลทั้งหมด” Borgman กล่าว “ฉันคิดว่านั่นยังใช้ได้ในยุคคลาวด์เช่นกัน มันเป็นเพียงชุดฐานข้อมูลที่แตกต่างกัน” รายการที่เกี่ยวข้อง: Data Mesh ปรากฏขึ้นเพื่อแสวงหา Data Harmony Presto อนาคตของ Open Data Analytics Foundation กล่าวว่า Starburst Galaxy จัดการ Presto ในคลาวด์

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button