Data science

Data Lakehouse: แค่คำศัพท์บ้าๆ อีกคำ?

ผู้เชี่ยวชาญด้านข้อมูลได้ถกเถียงกันมานานแล้วถึงข้อดีของ Data Lake กับ Data Warehouse แต่การโต้เถียงนี้รุนแรงขึ้นเรื่อยๆ ในช่วงไม่กี่ครั้งที่ผ่านมาด้วยความแพร่หลายของปริมาณงานของข้อมูลและการวิเคราะห์ในระบบคลาวด์ ความคับข้องใจที่เพิ่มขึ้นกับความเปราะบางของ Hadoop และความตื่นเต้นเกี่ยวกับรูปแบบสถาปัตยกรรมใหม่ – “data lakehouse” Data Lakehouse เป็นกระบวนทัศน์ที่ค่อนข้างใหม่ซึ่งหมายถึงสถาปัตยกรรมข้อมูลแบบไฮบริดที่มีจุดมุ่งหมายเพื่อผสมผสานสิ่งที่ดีที่สุดของคลังข้อมูลและ Data Lake หากคำนี้เป็นคำใหม่สำหรับคุณ แสดงว่าคุณไม่ได้อยู่คนเดียว เงื่อนไขที่อธิบาย เพื่อให้เข้าใจอย่างถ่องแท้ว่าคำเหล่านี้เหมาะสมกับแนวข้อมูลโดยรวมอย่างไร การเลือกความเหมือนและความแตกต่างนั้นคุ้มค่า ในการเริ่มต้น ทั้งหมดนี้ใช้สำหรับการจัดการข้อมูลการดำเนินงานและธุรกรรม ซึ่งสนับสนุนข่าวกรองธุรกิจ (BI) และปริมาณงานการวิเคราะห์ทั่วทั้งแผนกธุรกิจและหน้าที่ของนักพัฒนา การค้นหาคำจำกัดความเฉพาะเจาะจงยังเผยให้เห็นเป้าหมายที่แตกต่างกันที่พวกเขาให้บริการ ตัวอย่างเช่น คลังข้อมูลได้รับการปรับให้เหมาะสมสำหรับคิวรีการวิเคราะห์ที่กำหนดไว้ล่วงหน้าและทำซ้ำได้ ซึ่งข้อมูลที่มีโครงสร้างสามารถปรับขนาดได้ทั่วทั้งองค์กร เนื่องจากมักใช้สำหรับประสิทธิภาพทางธุรกิจและการรายงานตามระเบียบข้อบังคับ คลังข้อมูลจึงอยู่ภายใต้การควบคุมสภาพแวดล้อมของข้อมูล และเหมาะสมกับประสิทธิภาพสูง บางครั้งการสืบค้นที่ซับซ้อน และการเข้าถึงพร้อมกันในระดับสูง Data Lake เปรียบเทียบข้อมูลที่มีโครงสร้างและกึ่งโครงสร้างที่ไม่ผ่านการกลั่นจากแหล่งที่มาต่างๆ มากมาย และอยู่ภายใต้ระบบการกำกับดูแลข้อมูลที่เข้มงวดน้อยกว่า พวกเขามักจะใช้พื้นที่จัดเก็บที่ถูกกว่าและปรับขนาดได้ ซึ่งรองรับรูปแบบและวิธีการประมวลผลที่แตกต่างกัน รวมถึงการเรียนรู้ของเครื่อง (ML) และปริมาณงานแบบกลุ่ม อย่างไรก็ตาม Data Lake ไม่ค่อยได้รับการปรับให้เหมาะสมสำหรับความต้องการในการส่งมอบการผลิต เช่น การทำงานพร้อมกัน เวลาแฝง และการจัดการปริมาณงาน แม้จะมีความแตกต่างที่ชัดเจน แต่ก็มีความทับซ้อนกันระหว่างรูปแบบสถาปัตยกรรมทั้งสองแบบ ตัวอย่างเช่น Data Lake สามารถใช้แนวทางที่ใช้ star schema สำหรับการสืบค้นแบบแบตช์ และสามารถใช้ประโยชน์จากคลังข้อมูลเพื่อดำเนินการด้านวิทยาศาสตร์ข้อมูลด้วยโมเดล ML ที่ทำงานกับข้อมูลที่ควบคุม การตัดผ่าน data lakehouse hype ตามแนวคิดแล้ว Data Lakehouse ได้รับการออกแบบมาเพื่อรวมองค์ประกอบหลักของคลังข้อมูลกับแนวคิดหลักของ Data Lake เช่น โดยการให้ต้นทุนที่ต่ำลงของการจัดเก็บข้อมูลบนคลาวด์สำหรับข้อมูลดิบพร้อมการรองรับประสิทธิภาพสูง การประมวลผล ML, BI, ปริมาณงานการวิเคราะห์ และการกำกับดูแลข้อมูล นี่อาจฟังดูเหมือนเป็นความคิดที่ดี แต่บ้านริมทะเลสาบเป็นแนวคิดที่เกิดขึ้นใหม่ซึ่งหลายคนยังคงเข้าใจผิดและอยู่ภายใต้การโฆษณาและการเก็งกำไรมากมาย อย่างไรก็ตาม มีผู้สนับสนุนที่แข็งแกร่งทั้งสองด้านของการแบ่งสถาปัตยกรรมข้อมูล ผู้ที่มีพื้นฐานด้านคลังข้อมูลจะวางตำแหน่ง Lakehouse รอบแนวคิดเทคโนโลยีเชิงสัมพันธ์ ฝั่ง Data Lake มีรูทในการประมวลผล ML และ Spark ซึ่งการรองรับเวิร์กโหลด Java, Python และ R มีความสำคัญสูงกว่า อย่างไรก็ตาม ทั้งคู่ส่งเสริมการใช้คลาวด์สำหรับการจัดเก็บและการประมวลผลเชิงวิเคราะห์ ไม่ค่อยมีการตัดสินใจใด ๆ หรือการตัดสินใจ ในขณะที่การถกเถียงยังคงดำเนินต่อไป Lakehouse ไม่น่าจะขจัดความจำเป็นสำหรับ data Lake หรือ data warehouse อย่างน้อยก็ในระยะสั้น ไม่น้อยสำหรับองค์กรเหล่านั้นที่ลงทุนอย่างมีนัยสำคัญในทั้งสองอย่างหรือทั้งสองอย่าง . ในทำนองเดียวกัน ในฐานะที่เป็นแนวคิดที่เกิดขึ้นใหม่ ยังคงมีสิ่งที่ต้องทำมากมายในแง่ของนวัตกรรมหลายทศวรรษที่เราได้เห็นในด้านต่างๆ เช่น การวิเคราะห์ในฐานข้อมูล การเพิ่มประสิทธิภาพการสืบค้นและประสิทธิภาพ และการจัดเก็บและการบีบอัดแบบแนวคอลัมน์ ยังคงมีข้อโต้แย้งที่ดีสำหรับการอยู่ร่วมกันของคลังข้อมูลและ Data Lake ซึ่งเป็นพื้นฐานสำหรับธุรกิจในการปรับขนาดและทำให้ข้อมูลเป็นประชาธิปไตยตลอดจนทำให้ระบบนิเวศของข้อมูลมีเหตุมีผล แนวทางการอยู่ร่วมกันไม่ว่าจะผสมผสานกันแบบไหนก็ตาม จะใช้จุดแข็งของการออกแบบสถาปัตยกรรมแต่ละแบบเพื่อรองรับกรณีการใช้งานที่กว้างกว่าสถาปัตยกรรมใด ๆ เหล่านี้สามารถรองรับได้อย่างอิสระ จัดลำดับความสำคัญของความยืดหยุ่น ด้วยฉากหลังของภูมิทัศน์ข้อมูลที่เปลี่ยนแปลงตลอดเวลาและซับซ้อน ผู้เชี่ยวชาญด้านข้อมูลจำเป็นต้องตรวจสอบให้แน่ใจว่าสภาพแวดล้อมที่มีอยู่ซึ่งใช้คลังข้อมูลและ/หรือ Data Lake ทำงานร่วมกันมากกว่าที่จะขัดแย้งกัน ตัวอย่างเช่น คลังข้อมูลสามารถให้การวิเคราะห์ข้อมูลที่กำหนดไว้อย่างดีและทำซ้ำได้ ในขณะที่ Data Lake รองรับกรณีการใช้งาน ML แบบทดลองหรือที่นำโดยนักพัฒนามากขึ้นโดยใช้พูลข้อมูลที่กว้างขึ้น การรวมทั้งสองอย่างเข้าด้วยกันทำให้องค์กรสามารถสนับสนุนกรณีการใช้งานที่แตกต่างกันและผู้ชมที่แตกต่างกัน เช่น ผู้ใช้ทางธุรกิจและนักวิทยาศาสตร์ข้อมูล และใช้วิธีการกำกับดูแลข้อมูล การจัดการข้อมูล และคุณภาพของข้อมูลที่แตกต่างกัน ตำแหน่งและวิธีการที่ data lakehouse เหมาะกับสภาพแวดล้อมนี้จะยังคงถูกมองเห็น แนวคิดนี้ยังไม่ได้รับการทดสอบโดยตลาดในวงกว้าง ด้วยคำมั่นสัญญาของแนวทางเดียวที่เหมาะกับทุกองค์กร ซึ่งน่าจะเป็นขั้นตอนที่ไกลเกินไปสำหรับองค์กรเหล่านั้นที่ลงทุนอย่างมีนัยสำคัญใน data lake และโกดังสินค้า อย่างไรก็ตาม เป็นข้อโต้แย้งที่สำคัญที่จะมีในตลาดโครงสร้างพื้นฐานข้อมูลที่เป็นนวัตกรรมและเคลื่อนไหวอย่างรวดเร็วซึ่งยังคงพัฒนาต่อไป

  • บ้าน
  • Business
  • Data science
  • Marketing
  • Leave a Reply

    Your email address will not be published. Required fields are marked *

    Back to top button