Data science

ตัวต่อตัวกับ Irina Farooq ผู้อำนวยการผลิตภัณฑ์ Google Cloud

ในเดือนพฤษภาคม Google Cloud ได้ประกาศ Dataplex ซึ่งเป็นการเข้าสู่โลกของ data fabrics เมื่อเร็วๆ นี้ Datanami ได้ติดต่อกับ Irina Farooq ซึ่งเข้าร่วม Google Cloud ในตำแหน่งผู้อำนวยการฝ่ายการจัดการผลิตภัณฑ์ของการวิเคราะห์อัจฉริยะที่ Google Cloud เพื่อหารือเกี่ยวกับสถานะของการจัดการข้อมูลขนาดใหญ่ บทบาทของ data fabrics และการเปิดตัว Dataplex ที่รอดำเนินการ Datanami: Irina ยินดีที่ได้รู้จัก ในมุมมองของคุณ อะไรคือความท้าทายที่ใหญ่ที่สุดที่องค์กรต่างๆ เผชิญเมื่อเกี่ยวข้องกับข้อมูลของพวกเขา Irina Farooq: องค์กรต่างๆ กำลังเผชิญกับทางเลือกในการรวมข้อมูลของตนเข้าด้วยกัน และด้วยเหตุนี้จึงมีการกำกับดูแลที่เป็นหนึ่งเดียว เมตาดาต้า และความสามารถในการเข้าถึง หรือการกระจายข้อมูล ซึ่งส่งผลให้ข้อมูลกระจายไปทั่วระบบนิเวศที่แตกต่างกัน อย่างไรก็ตาม ความจริงก็คือองค์กรส่วนใหญ่มีการกระจายข้อมูล และจะยังคงเป็นเช่นนี้ต่อไปในอนาคตอันใกล้ ด้วยเหตุนี้ องค์กรต่างๆ จึงเผชิญกับความท้าทายอย่างต่อเนื่องว่า “ฉันจะเปิดใช้งานผู้ใช้ปลายทางทั้งหมดของฉันด้วยข้อมูลคุณภาพสูงได้อย่างไร” นอกจากนี้ จำนวนเครื่องมือและจำนวนประเภทของผู้ใช้ปลายทางจะยังคงเพิ่มขึ้นแบบทวีคูณ เมื่อปริมาณข้อมูลเพิ่มขึ้น เราต้องการให้ผู้ใช้เข้าถึงข้อมูลคุณภาพสูง และทำให้แน่ใจว่าจะไม่กระทบต่อนโยบายการกำกับดูแลหรือความปลอดภัยใดๆ องค์กรต่างๆ พยายามสร้างกาวจำนวนมากด้วยตนเองเพื่อสร้างท่อและจัดการธรรมาภิบาล ซึ่งจะทำให้นวัตกรรมช้าลง นั่นคือชนิดของ ที่เราเห็นและนี่คือเหตุผลที่เราคิดว่าพวกเขาต้องการแพลตฟอร์มข้อมูลแบบรวมศูนย์เพื่อช่วยแก้ปัญหาเหล่านี้ Datanami: บริษัทต่างๆ สามารถใช้เครื่องมือและเทคนิคที่เคยใช้ในอดีตได้หรือไม่ หรือ 20 ปี ในอนาคต หรือต้องใช้เครื่องมือและเทคนิคใหม่ๆ ในการทำงานหรือไม่ Farooq: สิบถึง 20 ปีที่แล้ว ขนาดของข้อมูลแตกต่างไปจากเดิมอย่างสิ้นเชิง ข้อมูลยังถูกแบ่งกลุ่มมากขึ้น เกือบจะเหมือนกับห้องเดียวในบ้านของคุณ เมื่อเทียบกับการเป็นรากฐานสำหรับทุกสิ่งที่คุณทำ ขนาด ความซับซ้อน ลักษณะการกระจาย และประเภทของข้อมูลมีการเปลี่ยนแปลงอย่างมาก ขณะนี้มีข้อมูลจากแหล่งต่างๆ มากมาย เช่น การประมวลผลภาพและการประมวลผลวิดีโอ ไปจนถึงข้อมูลที่มีโครงสร้าง และกรณีการใช้งานและนวัตกรรมต่างๆ ทั้งหมดที่เรากำลังพยายามเปิดใช้งานภายในองค์กร Datanami: อะไรที่คุณเห็นเป็นโอกาสสำหรับธุรกิจในการปรับปรุงกลยุทธ์ข้อมูลของพวกเขา? Farooq: โอกาสหนึ่งคือการคิดถึงวิธีหลีกเลี่ยงการปิดกั้นตัวเอง และวิธีสร้างแพลตฟอร์มที่เปิดกว้าง ยืดหยุ่น และปลอดภัย โอกาสในการพิจารณาอีกประการหนึ่งคือการทำให้แน่ใจว่าคุณสามารถใช้ประโยชน์จากนวัตกรรมล่าสุดในเครื่องมือและเฟรมเวิร์กและบริการต่างๆ ได้ แต่ไม่กระทบต่อธรรมาภิบาลและความปลอดภัย ที่ต้องสนับสนุนการแก้ปัญหา การจัดการและควบคุมชุดข้อมูลที่หลากหลายสำหรับการวิเคราะห์และกรณีการใช้งาน AI เป็นสิ่งที่ท้าทาย (แหล่งรูปภาพ: Google Cloud) ขณะที่เราพิจารณาสิ่งเหล่านั้น การคิดเกี่ยวกับสิ่งที่ธุรกิจกำลังพยายามทำจะช่วยได้ Etsy เป็นตัวอย่างที่สมบูรณ์แบบ พวกเขาเสร็จสิ้นการโยกย้ายไปยัง Google Cloud เมื่อสองปีที่แล้ว แต่ในความเป็นจริง สิ่งที่พวกเขาทำได้คือกะ 15% ของพนักงานของพวกเขาจากการคิดเกี่ยวกับโครงสร้างพื้นฐาน การจัดการเพื่อคิดเกี่ยวกับประสบการณ์ของลูกค้า คำถามในตอนนี้คือ “ฉันจะใช้ข้อมูลเพื่อสร้างประสบการณ์ของลูกค้าใหม่ และเพิ่มจำนวนการทดลองไอทีได้อย่างไร 100%' Datanami: ดูเหมือนว่าจะมีความตึงเครียดระหว่างการปล่อยให้ผู้ใช้ปล่อยข้อมูลเพื่อทำสิ่งที่น่าสนใจ แล้วยังคงควบคุมข้อมูลนั้นไว้ คุณจะโจมตีปัญหานั้นอย่างไร? Farooq: นี่คือหน้าที่ของการประกาศล่าสุดบางส่วนที่ใกล้เคียงกับหัวใจของฉันมีบทบาท หนึ่งผลิตภัณฑ์ที่ฉันทำงานอยู่คือ Dataplex เราเปิดตัวในปีนี้ที่งาน Google Data Cloud Summit ครั้งแรกของเรา มันกำลังส่งผลกระทบในการช่วยให้ธุรกิจต่างๆ สามารถจัดการข้อมูลได้อย่างมีประสิทธิภาพโดยอัตโนมัติ เพื่อช่วยจัดการกับการแลกเปลี่ยนนั้น คุณต้องจัดการข้อมูลของคุณแบบรวมศูนย์บนรอยเท้าแบบกระจาย และตรวจสอบให้แน่ใจว่าเครื่องมือทั้งหมดสามารถเข้าถึงข้อมูลได้ด้วยการจัดการที่นำข้อมูลเมตา Datanami: Data Fabric กำลังได้รับความนิยมเพิ่มขึ้น แต่ไม่ใช่กระสุนเงิน data fabric ไม่สามารถแก้ปัญหาทั้งหมดของฉันได้อย่างน่าอัศจรรย์ใช่ไหม Farooq: แน่นอน มันเป็นคนและกระบวนการเสมอ โครงสร้างข้อมูลไม่ได้กำหนดกลยุทธ์การกำกับดูแลของคุณอย่างน่าอัศจรรย์ แต่จะช่วยให้สามารถกำกับดูแลได้ Data Fabric จะช่วยให้กระบวนการและการตัดสินใจของคุณเป็นไปโดยอัตโนมัติและแนวทางปฏิบัติที่ดีที่สุดที่คุณพยายามจะนำไปใช้ Datanami: คุณช่วยอธิบายให้ฉันฟังได้ไหมว่าจะส่งผลกระทบต่อผู้ใช้แต่ละรายและเวิร์กโฟลว์ของพวกเขาอย่างไร Farooq: Equifax เป็นตัวอย่างที่ดี Equifax ใช้ Dataplex เพื่อช่วยจัดการและกำกับดูแลข้อมูลโดยอัตโนมัติ ทำให้ผู้ดูแลข้อมูลสามารถกำหนดนโยบายที่เป็นทางการในข้อมูลของตน จากนั้นผู้ใช้แต่ละรายจะสามารถเข้าถึงข้อมูลในเครื่องมือที่ตนเลือกได้ พวกเขารู้ว่าพวกเขามีสิทธิ์เข้าถึงข้อมูลที่ถูกต้อง ข้อมูลคุณภาพสูงที่พวกเขาสามารถเชื่อถือได้ และความสมบูรณ์ของข้อมูลที่พวกเขาควรจะเข้าถึงได้ โดยไม่คำนึงถึงเครื่องมือที่พวกเขาใช้ Data Fabric ซึ่งเป็นชั้นการจัดการทั่วไปสำหรับสินทรัพย์ข้อมูลที่หลากหลาย กำลังได้รับความนิยมเพิ่มขึ้น (amiak/Shutterstock) Datanami: โครงสร้างข้อมูลนี้เหมาะสมกับกลยุทธ์มัลติคลาวด์และไฮบริดคลาวด์ของ Google Cloud อย่างไร Farooq: ดังที่คุณทราบ เรามุ่งมั่นที่จะริเริ่มระบบคลาวด์แบบมัลติคลาวด์และไฮบริด ผ่านบริการของเรา เช่น BigQuery Omni ในขณะที่คุณสร้าง data fabric ของคุณ Google Cloud จะช่วยคุณในเรื่องการกระจายแบบกระจายตามที่คุณจะมีในคลาวด์เดียว Datanami: การเชื่อมต่อ Dataplex กับระบบเหล่านี้เกี่ยวข้องกันมากแค่ไหน? Farooq: มีงานและสติปัญญามากมายที่เรากำลังสร้างขึ้น เกือบจะเหมือนกับว่าเรากำลังทำให้งานที่ไม่น่าสนใจเป็นไปโดยอัตโนมัติ ความฉลาดมากมายที่จริง ๆ แล้วมีความเข้าใจระบบพื้นฐาน เชื่อมโยงข้อมูลเมตา เผยแพร่ข้อมูลเมตา และให้การรับรองว่าคุณมีความเข้าใจอย่างถ่องแท้และเข้าใจข้อมูลของคุณ เราได้พูดกับลูกค้าของเราว่าข้อมูลเมตาเป็นข้อมูลใหม่ หากคุณกำลังจะจัดการรอยเท้าแบบกระจายของคุณ คุณต้องเข้าใจข้อมูลเมตาของคุณ และจากที่นั่น คุณสามารถจัดการข้อมูลของคุณเพื่อควบคุมและเผยแพร่ข้อมูลนั้นได้ ส่วนใหญ่เป็นการทำงานอัตโนมัติหรือกาวที่ลูกค้ากำลังทำเองและทำให้เข้าถึงข้อมูลได้มากขึ้น Datanami: ดูเหมือนว่าเราจะย้อนกลับไปในยุคคลังข้อมูล ข้อมูลต้องมีโครงสร้างสูงและควบคุมได้อย่างสมบูรณ์ก่อนที่จะเปิดเผยต่อผู้ใช้ในคลังข้อมูล Farooq: สิ่งที่แตกต่างคือความหลากหลายและรอยเท้าของข้อมูลของคุณ นั่นคือประเด็น เราทำคลังข้อมูล จากนั้นภายในคลังข้อมูลนั้น คุณมีข้อมูลเมตา การกำกับดูแล ฯลฯ คุณมี Data Lake และวิธีที่กำหนดได้ในการทำเช่นนั้น แต่ความจริงก็คือ ข้อมูลลูกค้าถูกกระจายไปทั่วโกดัง ดาต้าเลค และดาต้ามาร์ท และทั่วทั้งมัลติคลาวด์นั้น เช่นเดียวกับระบบคลาวด์แบบไฮบริด ความแตกต่างก็คือตอนนี้เรายอมรับความหลากหลายของข้อมูลที่ทันสมัย ​​เช่นเดียวกับการกระจายข้อมูล เคยเป็นที่ BI เป็นปลายทางสำหรับคลังข้อมูล ตอนนี้คุณมีนักวิทยาศาสตร์ข้อมูลแล้ว คุณมีแอปพลิเคชันอัจฉริยะ คุณมีวิศวกรข้อมูลทุกประเภท ผู้ใช้ปลายทางทุกประเภท ที่ต้องการเข้าถึงข้อมูลทั้งหมดที่เผยแพร่ Datanami: คุณพูดถึงความจำเป็นในการรวมศูนย์ การรวมศูนย์จะรั้งคนไว้หรือไม่? Google Cloud DataPlex เป็นข้อเสนอแฟบริกข้อมูลที่ให้บริการบุคคลหลายคนที่เกี่ยวข้องกับซัพพลายเชนข้อมูลสมัยใหม่ (ที่มาของรูปภาพ: Google Cloud) Farooq: เราไม่ได้รวมศูนย์ข้อมูล และเราไม่ได้รวมศูนย์การเข้าถึงข้อมูล สิ่งที่คุณกำลังรวมศูนย์คือส่วนควบคุมที่จะช่วยปรับใช้นโยบาย แต่คุณไม่ได้รวมศูนย์ไว้ที่ร่างเดียว ดังนั้นสำหรับลูกค้าที่ต้องการใช้สถาปัตยกรรม data mesh และสถาปัตยกรรมแบบกระจายมากขึ้น พวกเขาสามารถอนุญาตให้เจ้าของข้อมูลที่แตกต่างกันภายในองค์กรเหล่านั้น จัดให้มีการกำกับดูแล คุณภาพของข้อมูลรอบๆ ข้อมูลของพวกเขา และเปิดเผยต่อองค์กร Datanami: นั่นฟังดูเป็นความท้าทายครั้งใหญ่หรือไม่ว่านี่เป็นปัญหาทางเทคโนโลยีที่แก้ไขได้หรือไม่? Farooq: แน่นอนเราเชื่อว่ามันเป็น และเราไม่ได้คิดค้นล้อใหม่ เรากำลังยืนอยู่บนไหล่ของยักษ์ มีการลงทุนที่เราทำใน Google Cloud และกับพอร์ตโฟลิโอที่เหลือของเรา นึกถึงความสามารถในการปรับขนาดของ BigQuery และ Spanner การผสานรวมที่เราทำไว้ภายในระบบคลาวด์เพื่อให้แน่ใจว่าเราสามารถรวมกลุ่มได้ และเราทำให้ข้อมูลเป็นประชาธิปไตยด้วย BigQuery และ Looker และมีความสามารถเข้าถึงได้ง่ายนั้น Datanami: AI ใช้กับสิ่งนี้ได้อย่างไร มันมีบทบาทสำคัญในการจัดการข้อมูลใช่ไหม? Farooq: แน่นอน และเรากำลังลงทุนในความสามารถด้านข้อมูลอัจฉริยะเพื่อช่วยให้คุณเข้าใจคุณภาพและความละเอียดอ่อนของข้อมูลของคุณ ดังนั้นคุณจึงสามารถใช้นโยบายกับข้อมูลที่อาจมีความละเอียดอ่อนภายในสภาพแวดล้อมของคุณได้โดยอัตโนมัติ แม้ว่าคุณอาจต้องการใช้ Machine Learning และ AI กับข้อมูลของคุณ ก่อนอื่นเราจะนำ Machine Learning และ AI มาใช้กับข้อมูลของคุณ เพื่อให้แน่ใจว่าคุณมีข้อมูลคุณภาพสูงตั้งแต่แรก คุณต้องการทำ AI กับข้อมูล แต่คุณต้องใช้ AI เพื่อให้รู้ว่าคุณมีข้อมูลที่ถูกต้อง Datanami: แนวทางนี้จะนำไปใช้กับผลิตภัณฑ์ข้อมูลการสตรีม เช่น คลาวด์ Dataflow รวมถึงข้อมูลที่เหลือและฐานข้อมูล Data Lake ฯลฯ หรือไม่ Farooq: แน่นอน เป้าหมายคือการเริ่มต้นด้วยการวิเคราะห์ และ Dataplex out of the gate จะรวมเข้ากับผลิตภัณฑ์ต่างๆ เช่น Dataflow, DataFusion, BigQuery, GCS, Google Cloud AI และอื่นๆ และเราจะขยายขอบเขตของสิ่งนั้นเท่านั้น แต่เป้าหมายคือข้อมูลทั้งหมดของคุณ ดังนั้นข้อมูลสตรีมมิงและแบทช์ รวมถึงข้อมูลที่มีโครงสร้างและไม่มีโครงสร้างและกึ่งโครงสร้าง ดังนั้นคุณจึงมีการรวมความสามารถนั้นเข้าด้วยกัน Datanami: ดูเหมือนว่าจะอยู่ในแผนงาน แต่อาจจะยังไม่ถึงขนาดนั้น? Farooq: Dataplex อยู่ในตัวอย่าง ดังนั้นโปรดคอยติดตามการประกาศความสามารถทั้งหมด แต่ความสามารถเบื้องต้นเหล่านี้มีอยู่มากมายในผลิตภัณฑ์แสดงตัวอย่างของเรา Datanami: คุณบอกฉันได้ไหมว่าเมื่อ Dataplex จะกลายเป็น GA? Farooq: เรายังไม่เปิดเผยวันที่ แต่คอยติดตาม ดังที่คุณทราบ Google Cloud Next จะมีการประชุมใหญ่ของเรา ดังนั้นเราจะแชร์การอัปเดตมากมายเกี่ยวกับกลุ่มผลิตภัณฑ์ทั้งหมดของเราที่นั่น Datanami: ผู้ค้าเครื่องมือจำนวนมากกำลังไล่ตามปัญหาเดียวกัน จะมีที่สำหรับพวกเขาใน Dataplex หรือเป็นโซลูชันเฉพาะของ Google หรือไม่ Farooq: แนวทางการเปิดกว้างเป็นกุญแจสำคัญสำหรับเรา เราต้องการเปิดใช้งานพันธมิตร ดังนั้นแม้ในขณะที่เราเปิดตัวในตัวอย่าง มีระบบนิเวศของพันธมิตรในวงกว้าง เช่น Starburst และ Collibra และผู้ขายรายอื่นที่เรากำลังดำเนินการอยู่ ดังนั้น Dataplex จึงมี API แบบเปิด metastore และพันธมิตรทั้งหมดที่รวมเข้ากับ metastore ที่มีอยู่ของเราสามารถใช้ประโยชน์จากสิ่งนั้นได้ จากนั้นเป้าหมายของเราคือการเปิดเผยนโยบายแก่ผู้ขายเช่น Collibra หรือเครื่องมือวิเคราะห์เช่น Starburst และพันธมิตรของเราในระบบนิเวศที่กว้างขึ้น Datanami: ขอบคุณ Irina ที่สละเวลา รายการที่เกี่ยวข้อง: Data Fabrics ปรากฏขึ้นเพื่อบรรเทาการจัดการข้อมูลบนคลาวด์ ฝันร้ายของ Google Cloud จัดการกับการรวมข้อมูลด้วยข้อเสนอใหม่ Big Data Fabrics ปรากฏขึ้นเพื่อบรรเทา Hadoop Pain

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button