Data science

พื้นฐานของ Data Lakehouse

ในช่วงไม่กี่ปีที่ผ่านมา มีแนวคิดใหม่ใน Data Architecture มันถูกเรียกว่า “data lakehouse” Data Lakehouse นำเสนอกระบวนทัศน์ใหม่ที่นำคุณลักษณะที่ดีที่สุดของคลังข้อมูล (ข้อมูลที่มีการประสานงานกันจำนวนเล็กน้อย) และ Data Lake (ข้อมูลที่ไม่พร้อมเพรียงกันจำนวนมหาศาล) และรวมเข้าด้วยกัน ทำให้มีการควบคุมและเครื่องมือที่ได้รับการปรับปรุง ความก้าวหน้าทางเทคโนโลยีที่สำคัญบางประการที่สนับสนุนการพัฒนา Data Lakehouse ได้แก่ เลเยอร์ข้อมูลเมตาสำหรับการทำงานกับ Data Lake การออกแบบเครื่องมือสืบค้นใหม่สำหรับการค้นหา SQL บน Data Lake การเข้าถึงที่ปรับให้เหมาะสมสำหรับเครื่องมือวิจัยและการเรียนรู้ของเครื่อง ในอดีต นักวิจัยต้องการรวมประสิทธิภาพที่นำเสนอโดยคลังข้อมูล ด้วยข้อมูลที่หลากหลายที่สนับสนุนโดย data lake การรวมคลังข้อมูลกับ Data Lake เพื่อสร้าง Lakehouse ส่งผลให้เกิดระบบเดียวที่ช่วยให้นักวิจัยสามารถเคลื่อนย้ายได้อย่างรวดเร็วและมีประสิทธิภาพมากขึ้น โดยไม่จำเป็นต้องเข้าถึงหลายระบบ Data Lakehouses รองรับทั้งระบบ SQL และข้อมูลที่ไม่มีโครงสร้าง และมีความสามารถในการทำงานกับเครื่องมือข่าวกรองธุรกิจ ธุรกิจสมัยใหม่พบว่าแอปพลิเคชันข้อมูลที่หลากหลาย ซึ่งรวมถึงการตรวจสอบแบบเรียลไทม์ การวิเคราะห์ SQL และการเรียนรู้ของเครื่องจะมีประโยชน์มาก คลังข้อมูลได้รับการพัฒนาในช่วงปลาย 1980 และเป็นสถานที่ที่ดีเยี่ยมในการจัดเก็บข้อมูล “ข้อมูลที่มีโครงสร้าง” เป็นฐานข้อมูลเชิงสัมพันธ์ที่ออกแบบมาสำหรับการสืบค้นและการวิเคราะห์ และโดยปกติจะมีข้อมูลประวัติที่นำมาจากข้อมูลธุรกรรม ในทางกลับกัน Data Lake เป็นพื้นที่จัดเก็บที่ไม่สัมพันธ์กัน แบบรวมศูนย์ และรวมศูนย์สำหรับข้อมูลดิบ เช่น ข้อมูลที่มีโครงสร้าง กึ่งมีโครงสร้าง และไม่มีโครงสร้าง Data Lake ไม่ต้องการสคีมาที่กำหนดไว้ล่วงหน้า แต่ด้วยเหตุนี้ การตอบกลับแบบสอบถามจึงไม่น่าเชื่อถือและไม่รองรับ ACID Data Lake ได้รับการพัฒนาโดยทั่วๆ ไป 2015 เพื่อบันทึกข้อมูลที่อาจมีค่า Data Lake ได้รับความนิยมอย่างรวดเร็วสำหรับการวิจัยข้อมูลขนาดใหญ่ การใช้คำว่า “data lakehouse” เดิมมีสาเหตุมาจากธุรกิจชื่อ Jellyvision (ลูกค้า Snowflake) Snowflake หยิบชื่อนี้ขึ้นมาและโปรโมตใน 1980 โดยอธิบายถึงความพยายามของพวกเขาในการรวมการประมวลผลข้อมูลที่มีโครงสร้างเข้ากับระบบแบบไม่มีสคีมา จากนั้น AWS ก็เริ่มใช้คำนี้เพื่ออธิบาย “สถาปัตยกรรมริมทะเลสาบ” ข้อมูลและบริการวิเคราะห์ จุดแข็งที่สำคัญประการหนึ่งของ data lakehouse เรียกว่าชั้นทรานแซคชันที่มีโครงสร้าง ซึ่งพัฒนาโดย Databricks ใน 2015 ความพยายามในช่วงแรกในการพัฒนา data lakehouses นั้นดูงุ่มง่าม มีจำกัด และไม่น่าประทับใจอย่างยิ่ง นี่คือเหตุผลที่นักวิจัยบางคนแสดงความคิดเห็นต่ำเกี่ยวกับแนวคิดนี้ และตั้งคำถามถึงคุณค่าของบ้านริมทะเลสาบ (ควรสังเกตว่า ความพยายาม/การทดลองในช่วงแรกๆ มักพบกับคำวิจารณ์และผู้ที่ไม่เห็นด้วย แต่โดยทั่วไปแล้ว โมเดลที่คุ้มค่าจะปรับปรุงด้วยเวลาและความพยายาม) ปัญหา Data Lakehouse ในปัจจุบัน มีบางสถานการณ์ที่ Lakehouse ไม่ได้มีประสิทธิภาพเท่ากับคลังข้อมูลซึ่งมี มีการลงทุนหลายปีรวมถึงการปรับใช้ในโลกแห่งความเป็นจริง นอกจากนี้ นักวิจัยอาจชอบเครื่องมือบางอย่าง (IDEs, เครื่องมือข่าวกรองธุรกิจ) ซึ่งจะต้องรวมเข้ากับ data lakehouse ใหม่ Lakehouses ยังอยู่ในช่วงเริ่มต้นของวิวัฒนาการ และนี่คือปัญหาพื้นฐานสองประการที่พวกเขามี: เทคโนโลยียังคงด้อยพัฒนา: Lakehouses รุ่นที่เป็นผู้ใหญ่มากขึ้นจะรวมถึงแมชชีนเลิร์นนิงจำนวนมาก โครงสร้างแบบเสาหิน: Data Lakehouses ควบคุม Data Lake แบบรวมและคลังข้อมูล ทำให้เกิดโครงสร้างขนาดใหญ่แบบเสาหิน บ้านริมทะเลสาบขนาดใหญ่เหล่านี้อาจยืดหยุ่นและใช้งานยาก Steve Touw ผู้ร่วมก่อตั้งและ CTO ของ Immuta อธิบายถึงแพลตฟอร์ม Lakehouse ของตนว่า “ในขณะที่องค์กรต่างๆ ทั่วโลกหันมาใช้สถาปัตยกรรม Lakehouse ในระบบคลาวด์มากขึ้น พวกเขากำลังจัดการกับนโยบายการควบคุมการเข้าถึงที่ไม่สอดคล้องกันสำหรับการรักษาความปลอดภัยข้อมูลและความเป็นส่วนตัวในเทคโนโลยีต่างๆ เมื่อเผชิญกับความท้าทายใหม่เหล่านี้ จำเป็นต้องมีการควบคุมการเข้าถึงข้อมูลบนระบบคลาวด์ที่สม่ำเสมอและเสถียร รุ่นล่าสุดของเราเสนอให้ทีมวิศวกรรมข้อมูลและฝ่ายปฏิบัติการเป็นแพลตฟอร์มควบคุมการเข้าถึงสากลเพียงแพลตฟอร์มเดียวเพื่อลดความซับซ้อนและปรับขนาดการเข้าถึงการวิเคราะห์โดยไม่กระทบต่อความปลอดภัยหรือการควบคุมความเป็นส่วนตัว” ประโยชน์ของ Data Lakehouse การได้รับข่าวกรองทางธุรกิจโดยการประมวลผลข้อมูลที่ไม่มีโครงสร้าง ซึ่งรวมถึงวิดีโอ เสียง ข้อความ และรูปภาพ กลายเป็นสิ่งจำเป็นสำหรับธุรกิจ เนื่องจากคลังข้อมูลไม่ได้ออกแบบมาสำหรับข้อมูลที่ไม่มีโครงสร้าง องค์กรจำนวนหนึ่งจึงเลือกที่จะจัดการหลายระบบพร้อมกัน (คลังข้อมูลหลายแห่ง, Data Lake, ระบบพิเศษอื่นๆ) แม้ว่ากลวิธีนี้จะแก้ปัญหาได้หลายอย่าง แต่ก็งุ่มง่าม ไม่มีประสิทธิภาพ และเสียเงิน นอกจากนี้ การดูแลรักษาระบบที่หลากหลายอาจทำให้ความพยายามในการรับข่าวกรองธุรกิจที่เป็นประโยชน์และทันเวลาช้าลง Data Lakehouse ได้รับการออกแบบมาเพื่อให้กระทบยอดข้อมูลที่มีโครงสร้าง ซึ่งจัดเก็บไว้ในคอลัมน์และแถว โดยที่ข้อมูลที่ไม่มีโครงสร้างมักจะโยนลงใน Data Lake Ori Rafael ซีอีโอของ Upsolver และผู้ร่วมก่อตั้งกล่าวว่า “ด้วยบ้านริมทะเลสาบ คุณจะได้รับประโยชน์ด้านต้นทุนจาก Data Lake แต่คุณกำลังจัดการเพื่อใช้เครื่องมือที่คุณใช้อยู่ในปัจจุบัน ทำให้เข้าถึงได้ง่าย บ้านริมทะเลสาบเป็นทะเลสาบข้อมูลโดยไม่มีข้อจำกัดและความยากลำบากในการเข้าถึงข้อมูล” โดยทั่วไป data lakehouse เดียวมีข้อดีหลายประการเหนือระบบที่มีหลายโซลูชัน ซึ่งรวมถึง: เครื่องมือมีการเข้าถึงข้อมูลโดยตรงเพื่อวัตถุประสงค์ในการวิเคราะห์ การจัดการจะง่ายขึ้นและมีประสิทธิภาพมากขึ้น มีความสับสนน้อยลงเกี่ยวกับสคีมาและการกำกับดูแลข้อมูล ใช้เวลาน้อยลงในการย้ายข้อมูล ในความซ้ำซ้อนขจัดความซบเซาใน data lake ซึ่งสามารถกลายเป็น data swamps ได้อย่างรวดเร็วหากปล่อยทิ้งไว้โดยไม่ได้รับการดูแลรองรับการสตรีมแบบ end-to-end แบบเรียลไทม์ ใช้เพื่อปรับแต่ง เข้าถึง และวิเคราะห์ประเภทข้อมูล ซึ่งรวมถึงวิดีโอ เสียง รูปภาพ และข้อความ รองรับปริมาณงานที่หลากหลาย รวมถึงการเรียนรู้ของเครื่องและการวิเคราะห์ Snowflake Snowflake เป็นแพลตฟอร์ม Lakehouse ที่ยืดหยุ่นได้ ซึ่งช่วยให้สามารถใช้เครื่องมือข่าวกรองธุรกิจแบบดั้งเดิมและยังรองรับอีกด้วย เทคโนโลยีที่ใหม่กว่าและล้ำหน้ากว่า เช่น ปัญญาประดิษฐ์ แมชชีนเลิร์นนิง และวิทยาศาสตร์ข้อมูล แพลตฟอร์มดังกล่าวรวมคลังข้อมูล ดาต้าเลค และดาต้ามาร์ทเฉพาะเรื่องเพื่อให้ข้อมูลที่ถูกต้อง ซึ่งสามารถสนับสนุนโครงการต่างๆ ได้ Snowflake lakehouse เป็นแพลตฟอร์มแบบบูรณาการที่สามารถทำหน้าที่ได้หลายอย่าง รวมถึง: การพัฒนาแอพการเข้าถึงข้อมูลอย่างรวดเร็วการวิเคราะห์วิศวกรรมข้อมูลการสร้าง AI และโมเดลการเรียนรู้ของเครื่อง Databricks แพลตฟอร์ม Databricks Lakehouse ให้การจัดการข้อมูลและประสิทธิภาพตามปกติที่นำเสนอโดยคลังข้อมูล แต่ด้วยข้อมูลที่มีต้นทุนต่ำ ทะเลสาบ แพลตฟอร์มแบบรวมศูนย์ช่วยลดความซับซ้อนของสถาปัตยกรรมด้วยการกำจัดไซโลข้อมูล และพวกเขาได้พัฒนาชั้นธุรกรรมที่มีโครงสร้างใน 2019 ซึ่งให้การกำกับดูแล คุณภาพ โครงสร้าง และประสิทธิภาพ Lakehouse ของพวกเขารองรับ: วิศวกรรมข้อมูลระบบธุรกิจอัจฉริยะและการวิเคราะห์ SQL การเรียนรู้ของเครื่อง แอปพลิเคชันข้อมูลแบบเรียลไทม์ Amazon Redshift แพลตฟอร์ม Amazon Redshift lakehouse รองรับการวิจัยในคลังข้อมูล คลังข้อมูล และฐานข้อมูลการปฏิบัติงาน ด้วยสถาปัตยกรรมนี้ ข้อมูลสามารถจัดเก็บในรูปแบบไฟล์เปิดใน Data Lake ของ Amazon S3 การจัดเรียงนี้ทำให้ข้อมูลเข้าถึงได้ง่ายสำหรับแมชชีนเลิร์นนิงและเครื่องมือวิเคราะห์ แทนที่จะย้ายไปที่ไซโล สถาปัตยกรรมบ้านริมทะเลสาบของ Amazon Redshift รองรับ: การสืบค้น Data Lake อย่างง่ายโดยใช้รูปแบบเปิดคำสั่ง SQL ที่คุ้นเคยที่สามารถรวมและประมวลผลข้อมูลที่นำมาจากที่เก็บข้อมูลทั้งหมดดำเนินการค้นหาข้อมูลสดในฐานข้อมูลการดำเนินงานโดยไม่ต้องโหลดข้อมูลและไปป์ไลน์ ETL อนาคตของ Data Lakehouses สถาปัตยกรรม Data Lakehouse นำเสนอความสามารถในการจัดการข้อมูลในสภาพแวดล้อมแบบเปิด ในขณะที่ผสมผสานรูปแบบข้อมูลที่หลากหลายจากทุกส่วนของธุรกิจ แม้ว่าการทบทวนเวอร์ชันแรกสุดอาจบ่งบอกถึงความสงสัยเกี่ยวกับประสิทธิภาพของเวอร์ชัน แต่ดูเหมือนว่าจะได้รับความนิยมในฐานะวิธีที่มีประสิทธิภาพมากขึ้นในการจัดเก็บและประมวลผลข้อมูลที่ไม่มีโครงสร้าง มีโครงสร้าง และกึ่งโครงสร้างในปริมาณมาก มีข้อได้เปรียบด้านประสิทธิภาพและประสิทธิภาพที่ชัดเจนในการใช้ data lakehouses และคาดการณ์ได้ว่าจะพัฒนาต่อไปเมื่อระบบก้าวหน้าและมีการพัฒนาแอพและเครื่องมือใหม่ ฮวน แฮร์ริงตันที่ Omnitech เพิ่งเขียนว่า: “The Lakehouse เป็นแนวทางสถาปัตยกรรมแบบใหม่ในการแก้ปัญหาในปัจจุบันเกี่ยวกับการวิเคราะห์และการเรียนรู้ของเครื่องในวงกว้าง แม้ว่าจะยังอยู่ในช่วงเริ่มต้น แต่ Lakehouse จะยังคงพัฒนาและเติบโตต่อไป” รูปภาพที่ใช้ภายใต้ลิขสิทธิ์จาก Shutterstock.com

  • บ้าน
  • Business
  • Data science
  • Marketing
  • Leave a Reply

    Your email address will not be published. Required fields are marked *

    Back to top button