Data science

Presto อนาคตของ Open Data Analytics Foundation กล่าว

การเปิดกว้างของ Presto การยึดมั่นในมาตรฐาน SQL และความแพร่หลายและประสิทธิภาพของการจัดเก็บข้อมูลบนคลาวด์ที่ทันสมัย ​​ได้รวมเอา Presto ไว้ในที่นั่งคนขับของกองการวิเคราะห์บิ๊กดาต้าสำหรับอนาคตอันใกล้ ผู้นำของ Presto Foundation กล่าว ในการต่อสู้เพื่อแย่งชิงปริมาณงานการวิเคราะห์ขั้นสูง Presto เข้าข้าง Data Lake ซึ่งเป็นที่เก็บข้อมูลขนาดใหญ่ที่สร้างขึ้นบนระบบไฟล์แบบกระจายและที่เก็บอ็อบเจ็กต์ เนื่องจาก Presto เป็นเพียงเอ็นจิ้นการสืบค้นแบบกระจาย จึงต้องจับคู่กับแพลตฟอร์มการจัดเก็บข้อมูลของบริษัทอื่น ผู้ใช้ Presto หลายคนเรียกใช้งานบนที่เก็บอ็อบเจ็กต์บนคลาวด์เช่น S3 ในขณะที่ผู้ใช้อื่นๆ รวมถึง Facebook (ซึ่งพัฒนา Presto ให้เป็นผลสืบเนื่องมาจาก Apache Hive) ให้เรียกใช้ Presto บนคลัสเตอร์ Hadoop ที่แก้ไขแล้ว อีกด้านหนึ่งของสมรภูมิการวิเคราะห์ขั้นสูงคือคลังข้อมูลเฉพาะที่รวมการประมวลผลและการจัดเก็บเข้าด้วยกัน ผู้จำหน่ายอย่าง Snowflake และ Teradata และผู้จัดหาคลังข้อมูลระบบคลาวด์ เช่น Google Cloud และ Amazon Web Services กล่าวว่าประสิทธิภาพการวิเคราะห์สูงสุดสามารถทำได้โดยใช้รูปแบบการจัดเก็บข้อมูลที่เป็นกรรมสิทธิ์ (แม้ว่าหลายๆ บริษัท โดยเฉพาะอย่างยิ่ง แพลตฟอร์มคลาวด์ กำลังส่งเสริมการผสมผสานประเภทการจัดเก็บและ เครื่องมือวิเคราะห์ปริมาณงาน) ในการสัมภาษณ์ล่าสุดกับ Datanami ประธานร่วมของมูลนิธิ Presto Dipti Borkar และ Girish Baliga ได้แบ่งปันความคิดของพวกเขาเกี่ยวกับสิ่งที่ขับเคลื่อนการเติบโตของเครื่องยนต์ Presto และชุมชน Presto ในวงกว้าง “ปรัชญาของ Presto คือการเป็นเครื่องมือที่ดีที่สุดสำหรับ Data Lake” Borkar ซึ่งเป็นผู้ร่วมก่อตั้ง Ahana ซึ่งโฮสต์ Presto บนคลาวด์สำหรับลูกค้ากล่าว “เราเป็นหัวใจสำคัญของกลุ่ม open data lake คุณสามารถพิจารณาว่าเป็นคลังข้อมูลโอเพ่นซอร์ส ภายใน Uber และ Facebook พวกเขาเรียกมันว่าคลังข้อมูลโอเพ่นซอร์สจริงๆ นั่นมันเพรสโต้” Baliga ซึ่งเป็นงานประจำวันนำทีม Presto ที่ Uber กล่าวว่าในขณะที่คลังข้อมูลเฉพาะที่จับคู่การประมวลผลและการจัดเก็บข้อมูลเข้าด้วยกันจะมีความได้เปรียบด้านประสิทธิภาพเหนือระบบวิเคราะห์ที่แยกการคำนวณและการจัดเก็บออกจากกัน แต่ต้นทุนของวิธีการนั้นไม่สามารถป้องกันได้ในปัจจุบัน ปริมาณข้อมูลจำนวนมาก “มีการแลกเปลี่ยนทั้งสองวิธี” บาลิกากล่าว “ใช่ พวกเขาสามารถทำบางสิ่งได้เร็วขึ้น แต่คุณถามตัวเองว่า: นั่นคือสิ่งที่คุณต้องการหรือไม่? คุณยินดีจ่ายราคาสำหรับการแลกเปลี่ยนนั้นหรือไม่? ทุกอย่างในระบบเป็นการแลกเปลี่ยน นั่นคือการแลกเปลี่ยนในใจของฉัน” มีค่าใช้จ่ายในการจัดการข้อมูลที่เกี่ยวข้องกับการใช้คลังข้อมูลเฉพาะตาม Baliga เว้นแต่องค์กรจะจัดเก็บข้อมูลทั้งหมดในคลังสินค้า (ซึ่งไม่น่าเป็นไปได้อย่างยิ่ง) จากนั้นพวกเขาจะใช้สื่อจัดเก็บข้อมูลอื่น (อาจเป็น Data Lake) เพื่อจัดเก็บข้อมูลจำนวนมาก แล้วจึงใช้กระบวนการ ETL เพื่อย้ายข้อมูลเข้า คลังสินค้าสำหรับการวิเคราะห์ “ทุกครั้งที่คุณมีสำเนาข้อมูลเพิ่มเติม คุณจะต้องจ่ายในราคานั้น” บาลิกากล่าว “คุณต้องรักษาความสม่ำเสมอ มีความล่าช้า เป็นปัจจัยที่ล่าช้าในข้อมูล สิ่งเหล่านี้ไม่มีอยู่จริงหากคุณมีสำเนาข้อมูลเพียงชุดเดียวใน Data Lake ของคุณ” คุณลักษณะ I/O ของ Data Lake สมัยใหม่ได้รับการปรับปรุงในช่วงไม่กี่ปีที่ผ่านมาจนถึงจุดที่เทียบเท่ากับคลังข้อมูลการวิเคราะห์เฉพาะเมื่อไม่กี่ปีที่ผ่านมา Baliga กล่าว “เทคโนโลยีการจัดเก็บมีการพัฒนา ดังนั้นวันนี้ หากคุณใส่ข้อมูลบน S3 หรือ Google Cloud Storage คุณจะได้รับประสิทธิภาพ I/O ที่เทียบได้กับร้านค้าเฉพาะเมื่อไม่กี่ปีก่อน” บาลิกา ซึ่งเคยทำงานเกี่ยวกับเครื่องมือวิเคราะห์ภายในองค์กรด้วย Google. “ใช่ มันช้ากว่า แต่ราคาถูกกว่า และสิ่งต่างๆ จะดีขึ้นเสมอ ดังนั้นจะมีจุดที่ประสิทธิภาพอาจไม่คุ้มกับราคา” เนื่องจากที่เก็บอ็อบเจ็กต์ปรับปรุงประสิทธิภาพและความสามารถ คลังข้อมูลเฉพาะก็เช่นกัน ซึ่งหมายความว่าความได้เปรียบด้านประสิทธิภาพของโกดังเฉพาะบนสแต็กแบบแยกส่วนจะคงอยู่ต่อไปในอนาคต เราเห็นการเล่นนี้กับ Snowflake ซึ่งเพิ่งเปิดตัวการอัปเกรดการบีบอัดข้อมูลซึ่งส่งผลให้ประสิทธิภาพการจัดเก็บข้อมูลเพิ่มขึ้น 14% สำหรับลูกค้าทั้งหมดทั่วทั้งกระดาน การปรับปรุงดังกล่าวจะทำให้ลูกค้า Snowflake ประหยัดเงิน 14 ล้านดอลลาร์ตลอดทั้งปี บริษัทเพิ่งบอกกับ Datanami ในท้ายที่สุด ลูกค้ากำลังมองหาประสิทธิภาพด้านราคาที่เหมาะสม Borkar กล่าว “ในสแต็กที่แยกจากกัน คุณจะไม่ใกล้เคียงกับประสิทธิภาพเท่าสแต็กที่จับคู่กันอย่างแน่นหนา” เธอกล่าว “แต่นั่นก็เพียงพอแล้วในราคาหนึ่งในสาม [That] นั่นคือเหตุผลที่ทำให้ Presto ได้รับความนิยมอย่างมาก” Presto กำลังเข้าสู่กระแสหลัก Presto Foundation กล่าว (มูลนิธิ Presto ที่มีมารยาทกราฟิก) มูลนิธิ Presto ก่อตั้งขึ้นใน 2019 โดยมีสมาชิกสี่คนรวมถึง Facebook, Uber, Twitter และอาลีบาบา เมื่อเวลาผ่านไป กลุ่มได้เพิ่มสมาชิกเพิ่มเติม รวมถึง Ahana, Alluxio, Upsolver, Intel และ Starburst Intel สนใจที่จะเข้าร่วมกับ Presto Foundation เพื่อช่วยสนับสนุนประสิทธิภาพของเอ็นจิ้น SQL บนโปรเซสเซอร์ X64 ที่เป็นมาตรฐานอุตสาหกรรม ในขณะเดียวกัน Starburst ก็เข้าร่วมกับกลุ่มที่ได้รับการสนับสนุนจาก Linux Foundation แม้ว่าจะมุ่งเน้นที่การพัฒนาส้อมของ Presto ที่เรียกว่า Trino (เดิมชื่อ PrestoSQL) การเปลี่ยนชื่อช่วยลดความสับสนในตลาดได้ Borkar และ Baliga กล่าว ข้อดีอีกอย่างที่สำคัญของ Presto ก็คือความเปิดกว้าง แม้ว่ามันจะยากกว่าที่จะกำหนดราคาตามมูลค่าของมัน แทนที่จะจัดเก็บข้อมูลในรูปแบบที่เป็นกรรมสิทธิ์ เช่นเดียวกับฐานข้อมูลการวิเคราะห์เชิงคอลัมน์ทั้งหมด ผู้ใช้ Presto สามารถปล่อยให้ข้อมูลของตนอยู่ใน Data Lake ในรูปแบบเปิด เช่น Parquet หรือ ORC ซึ่งเป็นโอเพ่นซอร์สที่ได้รับความนิยมมากที่สุด 2 รายการ รูปแบบข้อมูลที่จะออกมาจากยุค Hadoop ผู้ใช้ Presto สามารถเรียกใช้เครื่องมือประมวลผลข้อมูลที่แตกต่างกันหลายชุดบนชุดข้อมูล ORC และ Parquet ซึ่งหมายความว่าองค์กรสามารถใช้เฟรมเวิร์กต่างๆ เช่น TensorFlow เพื่อสร้างโมเดลการเรียนรู้ของเครื่องบนชุดข้อมูลเดียวกันกับที่ Presto เข้าถึงได้ Borkar กล่าว “ความยืดหยุ่นของการไม่ถูกล็อคในรูปแบบเปิด การมีความยืดหยุ่นในการประมวลผลประเภทต่าง ๆ ในข้อมูลเดียวกันโดยไม่จำเป็นต้องแปลงเป็นสาเหตุที่เราเชื่อว่านี่คือสิ่งต่อไป 10 ถึง ปีแห่งการวิเคราะห์” Borkar กล่าว “Presto จะเป็นหัวใจของสแต็กนี้จากมุมมองของ SQL จากนั้นจะมีเวิร์กโหลดแมชชีนเลิร์นนิง จะมีปริมาณงานการจำลองเสมือน จะมีภาระงานอื่นที่ทำงานอยู่ด้านบน” ในทางใดทางหนึ่ง Presto กำลังดำเนินการเปิดคบเพลิงโอเพ่นซอร์สที่ Hadoop เคยถืออยู่ หลายองค์กรซื้อคำมั่นสัญญาของ Hadoop ในการมี Data Lake แบบเปิด ซึ่งเครื่องมือคำนวณต่างๆ มากมายสามารถทำงานบนชุดข้อมูลเดียวกันได้ อย่างไรก็ตาม ความเป็นจริงของการรันคลัสเตอร์ Hadoop ที่มีความซับซ้อนทางเทคนิคและปัญหาความเข้ากันได้ของซอฟต์แวร์ในระดับสูง ในที่สุดก็ขัดขวางวิสัยทัศน์นั้น สิ่งที่เกิดขึ้นตั้งแต่ยุค Hadoop สิ้นสุดลง – สแต็กการประมวลผลและสตอเรจแบบแยกส่วนที่ทำงานบนคลาวด์สาธารณะ ซึ่งมักใช้ Kubernetes เป็นตัวจัดการเวิร์กโหลด – มีประโยชน์หลายอย่างเช่นเดียวกันกับที่ Hadoop นำมาใช้ในตอนแรก แต่ไม่เปิดเผยความซับซ้อนทางเทคนิคมากนักจนถึงจุดสิ้นสุด ผู้ใช้ “ตัวเปลี่ยนเกมที่นี่คือการเปลี่ยนไปใช้คลาวด์” บาลิกากล่าว “Cloudera, Horton, พวกนั้นทั้งหมด – พวกเขามุ่งเน้นไปที่การทำให้ใช้งานได้ภายในองค์กรเป็นหลัก นั่นกลายเป็นเรื่องที่ซับซ้อนมากเมื่อคุณมีเว็บเทคโนโลยีและไม่สามารถควบคุมวิธีที่ระบบของคุณถูกใช้และใครเป็นผู้ใช้งาน และลูกค้าก็ต้องมีทีมเฉพาะเพื่อตั้งค่าและจัดการการปรับใช้เหล่านี้ทั้งหมด” ตอนนี้ลูกค้าได้เปลี่ยนไปใช้ระบบคลาวด์แล้ว ความซับซ้อนทางเทคนิคก็ลดลง และยังลดต้นทุนในการปรับใช้และการดำเนินงานอีกด้วย เขากล่าว รายการที่เกี่ยวข้อง: การจมน้ำใน Data Lake? นักวิเคราะห์ของ Gartner เสนอ Presto รักษาชีวิตพร้อมรับมือปีแห่งการฝ่าวงล้อมเนื่องจากการระเบิดของข้อมูลยังคงดำเนินต่อไป ชุมชน Presto จะกลับมาเป็นหนึ่งเดียวกันอีกไหม หมายเหตุบรรณาธิการ: เรื่องราวนี้ได้รับการแก้ไขแล้ว Girish Baliga ไม่เคยทำงานที่ Facebook Datanami เสียใจกับข้อผิดพลาด เรื่องราวได้รับการปรับปรุงเพื่อให้สอดคล้องกับข้อเท็จจริงที่ว่าในขณะที่ Trino เป็นส้อมของ Presto มันไม่ใช่ส้อมของ Starburst

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button