Data science

Lakehouses ป้องกันการล้นของข้อมูล Bill Inmon Says

Bill Inmon ซึ่งเป็นที่รู้จักอย่างกว้างขวางว่าเป็นบิดาแห่งคลังข้อมูล ได้แชร์คำเตือนสำหรับองค์กรที่รักข้อมูลในการประชุมสุดยอด Data + AI ครั้งล่าสุด: หากคุณไม่นำกฎเกณฑ์ของ Data Lake House มาใช้ แสดงว่าคุณตกอยู่ในความเสี่ยง Data Lake กลายเป็น Data Swamp “หากคุณนำ Data Lake ของคุณไปสร้างเป็นบ้านริมทะเลสาบ ตอนนี้คุณก็เริ่มได้รับเงินอย่างคุ้มค่าแล้ว” Inmon กล่าวในการสนทนากับ Ali Ghodsi ซีอีโอของ Databricks ซึ่งเป็นผู้สนับสนุนงาน “ถ้าคุณไม่เปลี่ยนมันให้เป็นบ้านริมทะเลสาบ มันก็จะกลายเป็นหนองน้ำ” Data Lake น้อยมากที่ประสบความสำเร็จ ผู้เขียน “การสร้างคลังข้อมูล” กล่าว ส่วนใหญ่ทำ ” อินมอนบอก Ghodsi “ทุกๆ ครั้งคุณจะเห็นสิ่งที่ไม่ทำ แต่ส่วนใหญ่เห็น” ปัญหาเกี่ยวกับ Data Lake เป็นเรื่องทางสถาปัตยกรรม Inmon กล่าว “จากมุมมองทางเทคนิค ฉันคิดว่า data lake… นั้นใช้ได้ ไม่มีอะไรผิดปกติกับมัน” เขากล่าว “แต่ในเชิงสถาปัตยกรรม มีหลายสิ่งที่ขาดหายไปจากดาต้าเลค และเนื่องจากพวกมันหายไป มันจึงทำให้ data lake ไม่ไร้ประโยชน์ แต่มันทำให้ยากมากที่จะดึงข้อมูลออกมา” Inmon กำลังเขียนหนังสือเกี่ยวกับ data lakehouses ไม่น่าแปลกใจเลยที่ผู้คนใน Databricks ซึ่งเดิมเป็นผู้บัญญัติศัพท์นี้ กำลังช่วย Inmon ในเรื่องหนังสือ ซึ่งจะเป็นหนังสือของเขา 61 Ali Ghodsi ซีอีโอของ Databricks (ซ้าย) และ Bill Inmon บิดาแห่งคลังข้อมูล ที่งาน Data + AI Summit May , 2021 บ้านริมทะเลสาบตามที่ Databricks อธิบายไว้ เป็นการผสมผสานระหว่าง Data Lake และคลังข้อมูล ในด้านหนึ่ง มันให้ความยืดหยุ่นในการจัดการประเภทข้อมูลที่มีโครงสร้างน้อยกว่า เช่น ไฟล์ข้อความและรูปภาพ ซึ่งมักใช้ในโครงการวิทยาศาสตร์ข้อมูลและแมชชีนเลิร์นนิง แต่ยังยืมมาจากระเบียบวินัยของคลังข้อมูล โดยเฉพาะอย่างยิ่งในแง่ของการรับรองคุณภาพของข้อมูล และตรวจสอบให้แน่ใจว่ามีการติดตามและควบคุมสายเลือดของข้อมูล อาจจะไม่แปลกใจเลยที่ Inmon ไม่ได้เป็นแฟนตัวยงของ ELT (แยก โหลด และแปลง) วิธีการรวมข้อมูลที่กำลังได้รับความสนใจจากผู้ปฏิบัติงาน Data Lake แทนที่จะแปลงข้อมูลก่อนโหลดลงในคลังข้อมูลก่อน ซึ่งเป็นวิธี ETL มาตรฐาน ผู้สนับสนุนของ ELT จะโหลดข้อมูลลงใน Data Lake ก่อน โดยคาดหวังว่าพวกเขาจะแปลงข้อมูล (เช่น ทำความสะอาดและเตรียมพร้อมสำหรับการวิเคราะห์หรือการเรียนรู้ของเครื่อง) ในภายหลัง “ผมเคย เป็นแฟนตัวยงของ ETL เนื่องจากข้อเท็จจริงที่ว่า ETL บังคับให้คุณแปลงข้อมูลก่อนที่คุณจะใส่ลงในรูปแบบที่คุณสามารถใช้งานได้” Inmon กล่าว “แต่บางองค์กรต้องการเพียงแค่นำข้อมูลมาใส่ลงในฐานข้อมูล แล้วทำการแปลง…ฉันเคยเห็นหลายกรณีเกินไปที่องค์กรบอกว่า โอ้ เราจะใส่ข้อมูลเข้าไปและแปลงในภายหลัง และเดาสิ หกเดือนต่อมา ข้อมูลนั้นไม่เคยถูกแตะต้องเลย” ข้อมูลบางประเภท ข้อมูล โดยเฉพาะข้อความ แทบจะโหลดลงในโฆษณาไม่ได้ ata warehouse (หรือ data lake หรือ data lakehouse) โดยใช้อะไรก็ได้ยกเว้น ETL Inmon กล่าว “ข้อความเป็นสัตว์ร้ายที่ต่างออกไปโดยสิ้นเชิง” เขากล่าว “ฉันไม่เชื่อว่าคุณสามารถทำ ELT ด้วยข้อความได้ ฉันบอกคุณแล้ว: ถ้าคุณทำได้ ฉันไม่รู้วิธี” data lakehouse architecutre (ข้อความที่ตัดตอนมาจากหนังสือที่กำลังจะมีขึ้นของ Inmon) ยิ่งมีโครงสร้างข้อมูลมากเท่าไหร่ โอกาสที่คุณจะประสบความสำเร็จกับ ELT ก็จะยิ่งดีขึ้นเท่านั้น เพราะคุณสามารถนำ SQL มาใช้กับมันได้ Ghodsi กล่าว “ด้วย SQL คุณสามารถทำการเปลี่ยนแปลงได้มากมายจริงๆ” Ghodsi กล่าวระหว่างการสนทนา Data + AI Summit กับ Inmon “แต่อย่างที่คุณชี้ให้เห็น สำหรับประเภทข้อมูลที่ซับซ้อนเหล่านี้ ข้อความ เสียง และวิดีโอ และปริมาณงานด้านวิทยาศาสตร์ข้อมูลอื่น ๆ ทั้งหมด เป็นการยากมากที่จะแสดงพวกมันด้วย SQL” Inmon จบการสนทนาด้วยคำเตือน “มันไม่ได้เป็นปัญหามากนักว่าพวกเขากำลังจะสร้างบ้านข้อมูล [lake] หรือไม่ มันจะเป็นสิ่งที่เกิดขึ้นถ้าพวกเขาไม่สร้างบ้านริมทะเลสาบ” เขากล่าว “เพราะถ้าพวกเขาไม่สร้างบ้านริมทะเลสาบ พวกเขาก็จะมีข้อมูลจำนวนมหาศาลตั้งอยู่ตรงนั้น และไม่มีใครสามารถทำอะไรกับมันได้… ฉันเชื่อว่าบ้านริมทะเลสาบจะปลดล็อกข้อมูลที่อยู่ตรงนั้น และกำลังจะนำเสนอโอกาสอย่างที่เราไม่เคยเห็นมาก่อน และนั่นจะเป็นผลของการสร้างบ้านริมทะเลสาบ” รายการที่เกี่ยวข้อง: Databricks เปิดตัว Data Sharing, ETL และ Governance Solutions Data Lake หรือ Warehouse? Databricks นำเสนอ Data Lakes แบบที่สามซึ่งเป็นเทคโนโลยีดั้งเดิม ซีอีโอ Fivetran กล่าว

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button