Data science

ในการค้นหากองข้อมูลสมัยใหม่

กองข้อมูลที่ทันสมัยมีหลายสิ่งหลายอย่างสำหรับหลาย ๆ คน เป็นมัลติคลาวด์! มันคือตาข่ายข้อมูล! มันคือ BI บวก AI! เพื่อให้มองเห็นได้ชัดเจนยิ่งขึ้นว่ากองข้อมูลสมัยใหม่คืออะไร มีวิวัฒนาการอย่างไร และเหตุใดจึงมีความสำคัญ เราจึงมองหา “กองข้อมูลสมัยใหม่แบบมัลติคลาวด์: การแชทแบบ Fireside กับผู้บุกเบิกอุตสาหกรรม” ของ Fivetran เพื่อดูข้อมูลเชิงลึก สำหรับ Ali Ghodsi ซีอีโอและผู้ร่วมก่อตั้ง Databricks สิ่งต่าง ๆ ค่อนข้างชัดเจน: กองข้อมูลสมัยใหม่คือสถาปัตยกรรมบ้านริมทะเลสาบแบบเปิด ซึ่งรวมองค์ประกอบของคลังข้อมูลและ Data Lake เพื่อให้ข้อมูลคุณภาพสูงเพื่อรองรับ BI และ ปริมาณงาน AI มันคือทั้งหมดที่เกี่ยวกับการทำให้สิ่งต่าง ๆ ง่ายขึ้น “จะเกิดอะไรขึ้นในอีกห้าปีข้างหน้า” Ghodsi กล่าวระหว่างการสนทนาข้างกองไฟ “คือ “บริษัทต่างๆ เช่น Fivetran และ Databricks และบริษัทอื่นๆ อีกมากมายที่กำลังจะเกิดขึ้น จะลองนึกภาพใหม่ว่าสิ่งต่างๆ เป็นอย่างไรในโครงสร้างพื้นฐานใหม่ที่น่าตื่นตาตื่นใจนี้ที่เรามี และมันจะง่ายกว่ามาก คุณจะสามารถทำอะไรกับมันได้มากขึ้น และเคลื่อนไหวเร็วขึ้น” George Fraser ซีอีโอและผู้ร่วมก่อตั้งบริษัท Fivetran ที่ใช้ระบบคลาวด์ของ ELT ซึ่งเป็นเจ้าภาพในการแชท ไม่จำเป็นต้องแบ่งปันมุมมองของ Ghodsi เกี่ยวกับบ้านริมทะเลสาบ สำหรับ Fraser ความพยายามในการรวมศูนย์หลายครั้งล้มเหลว ซึ่งเขาเคยกล่าวไว้ในอดีตว่า Data Lake อย่าง S3 และ ADLS เป็นเทคโนโลยีแบบเก่า “ฉันคิดว่าแกนหลักของกองข้อมูลสมัยใหม่คือคลังข้อมูลบนคลาวด์ที่ทันสมัยจริงๆ และฉันจะรวม Databricks ไว้ในหมวดหมู่นั้นด้วย” เฟรเซอร์กล่าว (เสริมว่า “คุณสามารถตะโกนใส่ฉันทีหลังได้นะ อาลี”) “ร้านวิเคราะห์ที่ทันสมัยเหล่านี้เร็วกว่ามาก คุณสามารถถอดปลั๊ก OLAP cube ของคุณ คุณไม่จำเป็นต้องทำอย่างนั้นอีกต่อไป…มีองค์ประกอบเหล่านี้ที่เคยมีอยู่แล้วหายไป” ตามเข็มนาฬิกาจากซ้ายบน: George Fraser จาก Fivetran, Martin Casado จาก 16z, Ali Ghodsi ของ Databricks, Sudhir Hasbe Martin Casado จาก Google Cloud ผู้ดูแล 16 z การลงทุนทั้งใน Databricks และ Fivetran ไม่ค่อยแน่ใจว่ากองข้อมูลสมัยใหม่จะรวมตัวกันรอบ ๆ คลังข้อมูลเช่น Snowflake, Databricks, Google Cloud, AWS และ Microsoft Azure “คุณคิดว่าคลังข้อมูลเป็นศูนย์กลาง และมันสำคัญอย่างชัดเจน” เขาบอกเฟรเซอร์ “แต่ในการตรวจสอบของเรา เมื่อเราพูดคุยกับลูกค้ากลุ่มหนึ่ง มันค่อนข้างชัดเจนสำหรับเราว่าเราเห็นการจัดเก็บข้อมูลจำนวนมากที่มีอยู่ และสถาปัตยกรรมใหม่ที่เกิดขึ้นใหม่ อาจไม่ใช่คลังข้อมูล ไม่ชัดเจนสำหรับฉันแน่นอนว่านั่นจะเป็นแกนหลัก” ในฐานะผู้อำนวยการอาวุโสด้านบริการวิเคราะห์ข้อมูลของ Google Cloud Sudhir Hasbe ทำให้มือของเขาสกปรกในผลิตภัณฑ์ต่างๆ มากมาย: BigQuery, Dataflow, Dataproc, Composer, Data Fusion, Data Catalog, Dataprep และ PubSub เขามีมุมมองที่เน้น Google อย่างไม่สะทกสะท้านถึงสิ่งที่กองข้อมูลสมัยใหม่สร้างขึ้น “ฉันคิดว่าฉันชอบที่จะมีข้อมูลทั้งหมดบน Google Cloud” Hasbe กล่าว “มันจะไม่เกิดขึ้น” อันที่จริง Google Cloud เป็นยักษ์ใหญ่ด้านคลาวด์ที่ก้าวหน้าที่สุดในการสนับสนุนกลยุทธ์มัลติคลาวด์ ด้วยการเสนอ DataPlex ทำให้ Google Cloud ยังเป็นผู้นำในการนำ data fabric (หรือ data mesh) มาใช้ในการรวมการจัดการข้อมูลที่จัดเก็บไว้ในสถานที่ต่างๆ “ข้อมูลถูกแจกจ่ายในองค์กรผ่านระบบคลาวด์ต่างๆ และนั่นจะคงอยู่เป็นเวลานาน” Hasbe กล่าว “ดังนั้น คำถามที่แท้จริงก็คือ เราจะสามารถช่วยให้องค์กรต่างๆ สามารถใช้ประโยชน์จากข้อมูลทั้งหมดบนทุกแพลตฟอร์มเหล่านี้ได้อย่างไร และมอบความสามารถที่จะราบรื่นได้อย่างไร” มุมมองเชิงตรรกะของสแต็กข้อมูลสมัยใหม่มีความซับซ้อนมากขึ้นเมื่อพิจารณาคำถามเพิ่มเติมสองข้อ: ใครจะใช้ และข้อมูลจะได้รับการจัดการอย่างไร สิ่งเหล่านี้อาจเป็นความคิดภายหลังสำหรับทีมขนาดเล็ก แต่ในองค์กรขนาดใหญ่ที่มีหลายแผนกซึ่งไม่จำเป็นต้องเห็นข้อมูลตรงกัน (และอาจแข่งขันกันอย่างแข็งขัน) จะกลายเป็นคำถามที่ยาก “เมื่อคุณมีสำเนาข้อมูลเพียงชุดเดียวที่สามารถเข้าถึงได้โดยกลไกต่างๆ ปัญหาคือผู้คนจะสร้างสำเนาหลายชุด” Hasbe กล่าว “ผู้คนรู้สึกทึ่งเมื่อเห็นจำนวนสำเนาที่สร้างโดยผู้ใช้ต่างๆ ภายในองค์กร และนั่นสร้างปัญหามากมายในการกำกับดูแล การจัดการ และการรักษาการปฏิบัติตามที่องค์กรต้องการ” (ZinetroN/Shutterstock) ในความเห็นของ Hasbe วิธีที่ดีที่สุดคือการรักษาระดับการจัดเก็บข้อมูลแบบรวมศูนย์ ร่วมกับแค็ตตาล็อกข้อมูลทั่วไปและชุดนโยบายการกำกับดูแลที่สอดคล้องกันสำหรับข้อมูลที่รวมศูนย์นั้น การรักษาความเป็นส่วนตัวและความปลอดภัยถือเป็นส่วนสำคัญของกองข้อมูลสมัยใหม่ Ghodsi กล่าว “บางครั้งผมก็ล้อเล่นว่า Databricks เป็นบริษัทด้านความเป็นส่วนตัว” เขากล่าว “ความปลอดภัย ความเป็นส่วนตัว อธิปไตย ธรรมาภิบาล – ทั้งหมดนั้น ทุกบริษัทที่ฉันคุยด้วย การสนทนาส่วนใหญ่เกี่ยวกับเรื่องนี้ นั่นจะเป็นซุปเปอร์เซ็นทรัล” มีผู้ขายไม่กี่รายที่ทำงานในพื้นที่นั้น และผู้ให้บริการแพลตฟอร์มเช่น Databricks, Google Cloud และ Snowflake ทำงานร่วมกับพวกเขาในจำนวนที่พอใช้ Hasbe พูดถึงงานที่ทำกับ Collibra ในขณะที่ Snowflake เข้ารับตำแหน่งใน Alation ความเป็นส่วนตัวในฐานะผู้ให้บริการ เช่น Immuta, Privacera และ BigID ก็รวมปัจจัยในสมการด้วยเช่นกัน คำถามสำหรับ Ghodsi คือทุกอย่างจะสั่นคลอนอย่างไร “ทุกคนรู้ดีว่าผู้ขายรายใดมีอำนาจเหนือกว่าจะมีอำนาจมาก” เขากล่าว “แล้วใครจะได้มันล่ะ? และทุกคนต่างก็มุ่งไปสู่สิ่งนั้น และฉันคิดว่าจะต้องมีมาตรฐานเปิดสำหรับสิ่งนั้นเช่นกัน และฉันคิดว่านั่นจะเป็นมัลติคลาวด์ด้วย ผู้ชนะที่โดดเด่นชัดเจนยังไม่มีความชัดเจนในกองข้อมูลสมัยใหม่ มีทางเลือกที่แตกต่างกันมากมาย แต่ฉันคิดว่านั่นจะเป็นสิ่งสำคัญอย่างยิ่งที่บริษัทของ Fraser จะต้องทำให้การนำเข้าข้อมูลง่ายขึ้นอย่างมาก แต่เมื่ออยู่ในฐานข้อมูล หรือในทะเลสาบ หรือที่เก็บอ็อบเจ็กต์ มันไม่ใช่ธุรกิจของ Fivetran อีกต่อไป แม้ว่ามันจะทำงานเพื่อให้แน่ใจว่าข้อมูลเมตาทั้งหมดจากระบบต้นทางถูกป้อนเข้าสู่ปลายทางการวิเคราะห์อย่างถูกต้อง “เรามีมุมมองที่น่าสนใจเกี่ยวกับเรื่องนี้ที่ Fivetran เพราะในอดีต ปัญหาการกำกับดูแลนี้มักจะได้รับการแก้ไขในเลเยอร์การเคลื่อนไหวของข้อมูล” เขากล่าว “ระหว่างทาง คุณต้องจัดการกับธรรมาภิบาลก่อน ในตอนเริ่มต้น คุณจะปกปิดข้อมูลและสิ่งต่างๆ เช่นนั้น “และในกองข้อมูลสมัยใหม่ เราเปลี่ยนจากสิ่งนั้นไปสู่การทำซ้ำทุกอย่าง แล้วมาจัดการกันหลังจากที่มันไปถึงที่นั่น” เขากล่าวต่อ “ดังนั้น ปัญหาการกำกับดูแลข้อมูลจึงเป็นเพียงเล็กน้อยของ Wild West ในตอนนี้ ส่วนหนึ่งเป็นความผิดของเรา เพราะเราได้เตะมันทิ้งท้ายน้ำ ฉันคิดว่าเรากำลังจะหาทางออกที่ดีกว่า แต่ตอนนี้เป็นพื้นที่ที่กำลังพัฒนา” อีกด้านของสแต็กข้อมูลสมัยใหม่ที่ต้องการนวัตกรรมอยู่ในเลเยอร์ DataOps นั่นเป็นความจริงอย่างยิ่งในสภาพแวดล้อมมัลติคลาวด์ เพียงเพราะความไม่ลงรอยกันของสแต็คของผู้ให้บริการคลาวด์ “ในอดีต DataOps จำนวนมากทำโดยใช้กำลังดุร้าย” Fraser กล่าว “คุณย้ายชุดข้อมูลทั้งหมดทุกคืน คุณคัดลอกอีกครั้ง นั่นคือรูปแบบคลาสสิกที่องค์กรขนาดใหญ่ส่วนใหญ่ทำในปัจจุบัน และรูปแบบนั้นก็ตายไปแล้วจริงๆ คุณไม่สามารถทำได้ในสภาพแวดล้อมแบบมัลติคลาวด์ คุณไม่สามารถทำอย่างนั้นได้ในสภาพแวดล้อมที่คุณกำลังจำลองฐานข้อมูลดั้งเดิมภายในองค์กรไปยังฐานข้อมูลการวิเคราะห์บนคลาวด์….การจำลองแบบสแนปชอตไม่ใช่ตัวเลือกอีกต่อไป” Sudhir ของ Google Cloud ตกลงว่า สำหรับลูกค้ามัลติคลาวด์ ไม่มีโซลูชัน DataOps ที่ดีที่สามารถมองเห็นข้อมูล hte ทั้งหมดและนโยบายความปลอดภัยโดยรอบได้อย่างสมบูรณ์ “ผมคิดว่านวัตกรรมต่อไปจะเกิดขึ้นในพื้นที่การสังเกตข้อมูล” เขากล่าว “มีสตาร์ทอัพจำนวนมากที่ทำงานเกี่ยวกับวิธีใช้การสังเกตข้อมูลเป็นแพลตฟอร์มในการดำเนินการด้านข้อมูลและการจัดการ DataOps ที่ดีขึ้น ฉันคิดว่านั่นคือนวัตกรรมระดับถัดไปที่จะเกิดขึ้นในอุตสาหกรรมนี้ และฉันกำลังเฝ้าดูพื้นที่นั้นอย่างใกล้ชิดและเห็นว่าจะเกิดอะไรขึ้น” คุณสามารถดู “Multi-Cloud Modern Data Stack: Fireside Chat with Industry Trailblazers” ของ Fivetran ได้ที่ลิงค์นี้ รายการที่เกี่ยวข้อง: Data Fabrics ปรากฏขึ้นเพื่อบรรเทาการจัดการข้อมูลบนคลาวด์ ฝันร้ายของ Google Cloud จัดการกับการรวมข้อมูลด้วยข้อเสนอใหม่ กลับไปสู่พื้นฐาน: การจัดการ Big Data ใน Hybrid, Multi-Cloud World

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button