Data science

กลับสู่พื้นฐาน: การจัดการข้อมูลขนาดใหญ่ในระบบไฮบริด มัลติคลาวด์

ผลที่คาดว่าจะได้รับจากการวิเคราะห์ขั้นสูงและ AI กำลังผลักดันให้องค์กรเข้าควบคุมข้อมูลของตน พวกเขาเข้าใจถูกต้องว่าหากไม่มีระบบการจัดการข้อมูลที่มั่นคงและกฎเกณฑ์การกำกับดูแล การกลายเป็นบริษัทที่ขับเคลื่อนด้วยข้อมูลนั้นเป็นความฝันของไปป์มากกว่าเป้าหมายที่เป็นจริง ปัญหาคือ การเปลี่ยนแปลงอย่างรวดเร็วสู่สภาพแวดล้อมข้อมูลแบบไฮบริดและมัลติคลาวด์ ทำให้เกิดอุปสรรคที่แท้จริงในการจัดการข้อมูลขนาดใหญ่ การจัดการบิ๊กดาต้าเป็นสิ่งที่ท้าทายในสถานการณ์ที่ดีที่สุด ลองนึกถึงสภาพแวดล้อมในองค์กรที่แหล่งข้อมูลค่อนข้างจำกัด เป็นที่รู้จักดี และเปลี่ยนแปลงไม่บ่อยนัก แต่เมื่อขอให้ผู้เชี่ยวชาญด้านไอทีจัดการคลัสเตอร์ที่ขยายใหญ่โตของข้อมูลที่เปลี่ยนแปลงตลอดเวลาในหลายคลาวด์และสภาพแวดล้อมภายในองค์กร พวกเขามักจะเผชิญกับฝันร้ายของบิ๊กดาต้าสมัยใหม่ Buno Pati ซีอีโอของ Infoworks เห็นสถานการณ์นี้เกิดขึ้นซ้ำแล้วซ้ำเล่าในหมู่ลูกค้าของเขา ซึ่งรวมถึงชื่อใหญ่ๆ อย่าง Macy's, Aflac, CVS และ Pepsico “ปัญหาที่เราเห็นในองค์กรขนาดใหญ่ส่วนใหญ่เหล่านี้คือ พวกเขามีแหล่งข้อมูลนับพันและมีแนวคิดมากมายเกี่ยวกับวิธีใช้ข้อมูลเพื่อประโยชน์ของธุรกิจ แต่ติดอยู่กับเครื่องมือและทีมพัฒนาที่ใช้ ในอดีต” ปาตีกล่าว “นั่นเป็นความท้าทายสำหรับพวกเขา โดยเฉพาะอย่างยิ่งสิ่งที่พวกเขาต้องทำคือส่งข้อมูลไปยังที่ที่ถูกต้องในเวลาที่เหมาะสม โดยไม่ต้องสร้างโครงการข้อมูลแยกกันหลายร้อยโครงการ” แพลตฟอร์มระบบคลาวด์ เช่น AWS, Microsoft Azure และ Google Cloud มีข้อได้เปรียบที่น่าสนใจ ซึ่งรวมถึงแพลตฟอร์มข้อมูลที่สร้างไว้ล่วงหน้าซึ่งมีความสามารถด้านการจัดการและการวิเคราะห์ที่หลากหลาย ไม่ต้องพูดถึงพื้นที่จัดเก็บและการประมวลผลที่ไร้ขีดจำกัด บริษัทต่างๆ ต่างเรียกร้องที่จะใช้ประโยชน์จากความสามารถของระบบคลาวด์เหล่านี้ แต่ก็เป็นพรที่หลากหลาย Pati กล่าว “สิ่งที่เพิ่มระดับความซับซ้อนให้กับสิ่งนั้นคือสภาพแวดล้อมไฮบริดมัลติคลาวด์ ซึ่งลูกค้าทุกคนของเรากำลังทำงานอยู่” เขากล่าว “ไม่มีสิ่งใดที่เป็นเมฆก้อนเดียว ไม่มีรายการใดในองค์กรเท่านั้น มีหลายสิ่งหลายอย่างผสมปนเปกัน นั่นก็อยู่ที่นี่เช่นกัน” (ใครคือ Danny/Shutterstock) การสร้างระบบเพื่อจัดการและควบคุมข้อมูลในสภาพแวดล้อมที่หลากหลายมากเป็นไปได้ บริษัทเจ้าของภาษาดิจิทัลอย่าง Google มีวิศวกรที่มีความเชี่ยวชาญด้านเทคนิคเพื่อสร้างระบบที่สามารถยกข้อมูลจำนวนมากที่จำเป็นก่อนที่นักวิเคราะห์ นักวิทยาศาสตร์ด้านข้อมูล และผู้เชี่ยวชาญด้าน AI จะสามารถทำสิ่งต่างๆ ได้ Pati กล่าว แต่บริษัทระดับโลกโดยเฉลี่ย 500 ขาดทักษะเหล่านี้ แนวทางของ Infoworks ต่อความท้าทายนี้คือการสร้างแพลตฟอร์มการจัดการข้อมูลเดียวที่สามารถสัมผัสกับสภาพแวดล้อมที่เกี่ยวข้องเหล่านี้ได้ บริษัทใน Palo Alto รัฐแคลิฟอร์เนียกล่าวว่าการดำเนินการด้านข้อมูลระดับองค์กรและแพลตฟอร์มการประสานจัดการข้อมูลในแง่มุมต่างๆ ของการจัดการข้อมูล รวมถึงการออนบอร์ดและการกำกับดูแลข้อมูล การแปลงข้อมูลและการสร้างแบบจำลอง และการพัฒนาและปรับใช้ไปป์ไลน์ข้อมูล “เราจัดเตรียมชั้นของนามธรรมที่ผู้คนสามารถพัฒนาสิ่งต่างๆ ได้โดยไม่ต้องเขียนโค้ดแม้แต่บรรทัดเดียว” Pati กล่าว “ฟังก์ชันพื้นฐานของแพลตฟอร์มคือข้อมูลออนบอร์ด เตรียมข้อมูล และดำเนินการข้อมูล แต่ทำในลักษณะที่ให้บริการสภาพแวดล้อมมัลติคลาวด์แบบไฮบริด” Pati กล่าว เนื่องจากผลิตภัณฑ์ของ Infoworks ได้รับการพัฒนาให้ทำงานร่วมกับสภาพแวดล้อมคลาวด์สาธารณะต่างๆ ได้ จึงทำให้ลูกค้าไม่จำเป็นต้องสร้างการผสานรวมเหล่านั้นด้วยตนเอง “คุณสามารถส่งข้อมูลไปยังแพลตฟอร์มใดก็ได้ที่คุณต้องการ เช่น Google, Databricks เพราะทุกแอปพลิเคชันหรือกรณีการใช้งานเหล่านั้นมีที่ที่ดีที่สุดในการทำงาน” Pati กล่าว “มีเหตุผลที่คุณต้องการทำสิ่งต่าง ๆ ใน Snowflake กับ Databricks และในทางกลับกัน” Pati กล่าวว่าลูกค้ารายหนึ่งของ Infoworks ซึ่งเป็นผู้ผลิตอาหารและเครื่องดื่มระดับโลก เพิ่งย้ายปริมาณงานข้อมูลขนาดใหญ่จากสภาพแวดล้อม Microsoft Azure HDI (Hortonworks) ไปยัง Databricks พวกเขาใช้เวลาเพียง สัปดาห์ในการย้ายปริมาณงาน 2 200 ไปยังแพลตฟอร์มใหม่ เทียบกับ 12 เดือนที่พวกเขาตั้งงบประมาณไว้ “ตั้งแต่นั้นมา พวกมันก็มีประสิทธิผลอย่างน่าทึ่ง” Pati กล่าว “พวกเขาได้เห็นการเติบโตของงานการผลิต 500% และการเติบโต 870% ของเวิร์กโฟลว์ปีต่อปี พวกเขากำลังเรียกสิ่งนี้ว่าโครงสร้างข้อมูลแบบบูรณาการทั่วทั้งองค์กรซึ่งเป็นความพยายามทั่วทั้งองค์กร” Data Fabric มอบชั้นนามธรรมที่ปกป้องผู้ใช้จากความซับซ้อนในการจัดการสภาพแวดล้อมมัลติคลาวด์และไฮบริดคลาวด์ (amiak/Shutterstock) Pati กล่าวว่าตลาดข้อมูลสอดคล้องกับวิสัยทัศน์ที่วางไว้เมื่อหลายปีก่อนโดย Amar Arsikere ผู้ก่อตั้ง Dataworks Arsikere วิศวกรของ Google ที่สร้างผลิตภัณฑ์แรกบน BigTable ซึ่งเป็น CTO และประธานเจ้าหน้าที่ฝ่ายผลิตภัณฑ์ของ Infoworks ได้จินตนาการถึงโซลูชันที่สามารถขจัดความซับซ้อนทางเทคนิคส่วนใหญ่ที่เกี่ยวข้องกับการย้าย การเปลี่ยนแปลง และการจัดการข้อมูล “มันไม่เกี่ยวกับเครื่องมือชี้จุดและการเข้ารหัส มันเกี่ยวกับแพลตฟอร์มและระบบอัตโนมัติ” Pati กล่าว “ไม่ใช่โซลูชันระบบคลาวด์เดียว เท่าที่ Azure ต้องการให้คุณคิดอย่างนั้น และ AWS อยากให้คุณคิดอย่างนั้น เป็นมัลติคลาวด์และไฮบริด Gartner พยายามอย่างมาก อย่าซื้อเครื่องมือเฉพาะบนคลาวด์ รับจากผู้จำหน่ายซอฟต์แวร์อิสระเพราะคุณจะเป็นไฮบริดมัลติคลาวด์และคุณไม่ต้องการที่จะติดขัด” ผู้ให้บริการข้อมูลในสปอตไลท์ ผู้จำหน่ายบุคคลที่สามรายอื่นที่ช่วยลูกค้าสำรวจแนวข้อมูลขนาดใหญ่ที่ทันสมัยคือ Zaloni Matthew Monahan ผู้อำนวยการฝ่ายจัดการผลิตภัณฑ์ของ Zaloni กล่าวว่าการขยายตัวอย่างรวดเร็วของ data lake เป็นปัจจัยหลักที่เอื้อต่อการต่อสู้ของลูกค้า “เราสร้างวิวัฒนาการนี้จากคลังข้อมูล ซึ่งมุ่งเน้นไปที่กรณีการใช้งานที่เป็นที่รู้จักและเป็นระบบที่แข็งแกร่งมาก ไปจนถึง Data Lake ซึ่งข้อมูลทั้งหมดถูกรวมไว้ในที่เดียว” Monahan กล่าว “นั่นยอดเยี่ยมสำหรับข้อมูลปริมาณมาก แต่การจัดการนั้นยากมาก” แต่การจัดการข้อมูลใน Data Lake เดียวนั้นง่ายกว่าการจัดการสิ่งที่ลูกค้าเผชิญอยู่ในปัจจุบัน ซึ่งก็คือกลุ่มของทะเลสาบ วิธีที่ดีที่สุดในการจัดการกับความซับซ้อนของข้อมูลขนาดใหญ่นี้คือการสร้างเฟรมเวิร์กที่พิจารณาสินทรัพย์ข้อมูลทั้งหมดในลักษณะองค์รวม และอนุญาตให้ใช้นโยบายการกำกับดูแลข้อมูลทั่วทั้งทะเลสาบ เขากล่าว (LeoWolfert/Shutterstock) “สิ่งที่คุณต้องการคือกลยุทธ์เดียว” Monahan กล่าว “คุณต้องการเฟรมเวิร์กเดียวที่คุณสามารถสร้างแนวทางการกำกับดูแลข้อมูลได้ ดังนั้นทุกคนจึงทำในลักษณะเดียวกัน” นอกจากซอฟต์แวร์การจัดการข้อมูลที่สามารถทำงานข้ามระบบที่ต่างกันเหล่านี้แล้ว Zaloni ยังมองว่าผู้ดูแลข้อมูลกำลังเข้ามาเติมเต็มบทบาทสำคัญในโลกของข้อมูลแบบกระจายใหม่นี้ การรวมกันของผู้ดูแลข้อมูลและซอฟต์แวร์การกำกับดูแลจะมีความสำคัญอย่างยิ่งต่อการช่วยให้ลูกค้าได้รับคุณค่าจากข้อมูลของพวกเขา “ผู้ดูแลข้อมูลโดยทั่วไปไม่ใช่ผู้สร้าง พวกเขาไม่ใช่คนที่มีเทคนิคเชิงลึกของคุณ นั่นจะเป็นวิศวกรข้อมูลของคุณ” Monahan กล่าว “เรามีโครงการนำร่องสำหรับข้อเสนอใหม่ใน AWS ที่มุ่งเน้นเฉพาะด้านการกำกับดูแลเพื่อให้ชั้นนามธรรมที่ผู้ดูแลข้อมูลต้องการบนชั้นเทคนิค มันทำงานได้บนสภาพแวดล้อมคลาวด์หลายชั้น ทั้งแบบพรีม ไฮบริดคลาวด์ ฯลฯ นั่นคือสิ่งที่ฉันคิดว่าเราจะเห็นมากขึ้นเรื่อยๆ ในอีก 1-2 ปีข้างหน้า” การเปิดใช้งานการเข้าถึงข้อมูลที่เชื่อถือได้และอยู่ภายใต้การควบคุมยังคงเป็นเรื่องท้าทาย และสิ่งหนึ่งที่ Zaloni กำลังช่วยเหลือลูกค้าในการจัดการเมื่อรอยเท้าบนระบบคลาวด์เติบโตขึ้น เป้าหมายที่ช่วยให้ลูกค้าเข้าถึงข้อมูลทั้งหมดของตนในลักษณะที่น่าเชื่อถือ ปลอดภัย และบูรณาการได้ อาจไม่มีทางไปถึงได้ แต่เป็นความพยายามที่คู่ควร Monahan กล่าว “คุณไม่เคยละทิ้งความฝัน” เขากล่าว “เรารับทราบว่าจะมีข้อมูลเข้ามามากขึ้นเสมอ จะมีการสร้างข้อมูลใหม่อยู่เสมอ และเราไม่ได้จะมี 12% เสมอไป ของมัน แต่นั่นเป็นเป้าหมายเสมอ เป้าหมายคือการพาเราเข้าใกล้ที่สุดเท่าที่จะทำได้และเพื่อให้เข้าใกล้เราต่อไปให้ไกลที่สุดเท่าที่จะทำได้ ดังนั้นเมื่อคุณเข้าไปในแพลตฟอร์มแล้วพูดว่า 'แสดงข้อมูล PII ทั้งหมดให้ฉันดู แสดงสถานที่ทั้งหมดที่คุณมี หมายเลขประกันสังคม' ที่คุณมีความมั่นใจพอสมควรว่าคุณได้รับมันทั้งหมด” การขยายตัวของข้อมูลอย่างต่อเนื่องนำเสนอทั้งโอกาสและความท้าทาย ด้วยการขยายตัวของคลาวด์คอมพิวติ้ง อุปสรรคในการเข้าสู่การวิเคราะห์ขั้นสูงและการเรียนรู้ของเครื่องจึงต่ำกว่าที่เคย ปัจจัยเหล่านี้กระตุ้นให้เกิดกิจกรรมที่ขับเคลื่อนด้วยข้อมูลเพิ่มขึ้น อย่างไรก็ตาม หากไม่มีการจัดการข้อมูลที่ดี การกำกับดูแล และการบูรณาการโปรแกรม การวิเคราะห์และการเรียนรู้ของเครื่องทั้งหมดในโลกจะไม่ช่วยคุณ ซึ่งเป็นสาเหตุที่ผู้ขายเช่น Infoworks และ Zaloni ประสบความสำเร็จโดยการช่วยให้ลูกค้ามุ่งเน้นไปที่พื้นฐานของข้อมูลขนาดใหญ่ รายการที่เกี่ยวข้อง: Lakehouses ป้องกันการล้นของข้อมูล Bill Inmon กล่าวว่าการทำความเข้าใจตัวเลือกของคุณสำหรับการจัดการข้อมูลแบบ Multi- และ Hybrid-Cloud ในการจัดการข้อมูล Governance ใน Multi-Cloud DW World

  • บ้าน
  • Business
  • Data science
  • Marketing
  • Leave a Reply

    Your email address will not be published. Required fields are marked *

    Back to top button