Data science

Dremio Charts Open Course กับ Dart

เมื่อสัปดาห์ที่แล้ว Dremio ได้เปิดตัวผลิตภัณฑ์แรกที่ส่งมอบได้ภายใต้การนำของ Dart ซึ่งเป็นความคิดริเริ่มใหม่ในการเสริมประสิทธิภาพของเครื่องมือวิเคราะห์ SQL สำหรับ data lake ลดต้นทุน และปิดช่องว่างด้านประสิทธิภาพด้วยคลังข้อมูลเฉพาะ ในฐานะที่เป็นกลไกจัดการฐานข้อมูล Dremio ไม่รวมที่เก็บข้อมูล เช่นเดียวกับข้อเสนอ Presto แบบโอเพ่นซอร์ส Dremio ถือว่าผู้ใช้จัดเก็บข้อมูลใน S3 หรือ Data Lake อื่นที่สามารถจัดเก็บ S3 ได้ แนวทางนี้นำมาซึ่งข้อดีบางประการ เช่น ลดความจำเป็นในการประมวลผล ETL/ELT อย่างกว้างขวาง แต่ยังนำข้อเสียเปรียบเมื่อเปรียบเทียบกับคลังข้อมูลเฉพาะ ซึ่งโดยทั่วไปจะจัดเก็บข้อมูลในรูปแบบที่ปรับให้เหมาะสมที่สุด ด้วยความคิดริเริ่มของ Dart Dremio กำลังมองหาการขจัดข้อได้เปรียบด้านประสิทธิภาพที่เหลืออยู่ของคลังข้อมูล ซึ่งส่วนใหญ่มีอยู่ในกรณีการใช้งานที่ผู้ใช้จำนวนมากต้องการผลลัพธ์ที่รวดเร็วในการสืบค้น SQL ของพวกเขา สำหรับผู้เริ่มต้น Dremio กำลังแนะนำการแคชแผนแบบสอบถาม ซึ่งบริษัทกล่าวว่าช่วยขจัดค่าใช้จ่ายในการวางแผนและเวลาแฝงสำหรับการสืบค้นซ้ำ “สิ่งนี้ส่งผลกระทบเป็นพิเศษสำหรับกรณีการใช้งานแดชบอร์ด BI ซึ่งผู้ใช้จำนวนมากพร้อมกันเริ่มการสืบค้นที่คล้ายกันกับเอ็นจิน SQL ขณะที่พวกเขานำทางผ่านแดชบอร์ด” บริษัทกล่าวในการแถลงข่าววันที่ 3 มิถุนายน Dart ยังนำเสนอคอมไพเลอร์ใหม่ที่จะช่วยให้ลูกค้าเรียกใช้ “คำสั่ง SQL ที่ใหญ่และซับซ้อนมากขึ้น” ด้วยความต้องการทรัพยากรที่ลดลง บริษัท กล่าว ความครอบคลุมของมาตรฐาน ANSI SQL ยังได้รับการปรับปรุงด้วยฟังก์ชันและตัวดำเนินการเพิ่มเติม ซึ่งรวมถึงหน้าต่างใหม่และฟังก์ชันรวม Dremio กล่าวว่าตัวดำเนินการ ฟังก์ชัน และคาสต์ของ SQL เกือบทั้งหมดได้รับการสนับสนุนภายใน Gandiva ซึ่งเป็นชุดเครื่องมือที่ใช้ LLVM ภายในรูปแบบข้อมูลคอลัมน์ในหน่วยความจำ Apache Arrow ผู้ใช้จะประหยัดเงินด้วย Dart เมื่อพูดถึงค่าใช้จ่ายในการเข้าถึงข้อมูล S3 และ Azure Data Lake Storage (ADLS) ตาม Dremio การอ่านข้อมูล S3 และ ADLS สามารถประกอบ 30% ถึง 60% ของต้นทุนรวมของการดำเนินการค้นหา ภาระงาน ด้วยการใช้ความสามารถในการกดลงตัวกรองการสแกนใหม่ ความคิดริเริ่มของ Dart สามารถกินค่าใช้จ่ายในการอ่านข้อมูลบนคลาวด์เหล่านั้น คุณสมบัติใหม่อื่น ๆ ที่จะมาสู่ Dremio โดยเป็นส่วนหนึ่งของโครงการ Dart รวมถึงการสนับสนุนสำหรับขนาดตารางที่ไม่จำกัดด้วยพาร์ติชั่นและไฟล์ที่ไม่จำกัดจำนวน และการจัดการอัตโนมัติของโครงสร้างข้อมูลการเร่งคิวรี่ใน Dremio (องค์ประกอบ “การสะท้อน”) การปรับปรุงเอ็นจิน Dremio หลักเพื่อรองรับปริมาณงาน SQL ขององค์กรเป็นธีมสำหรับ Dremio เมื่อ 7 เดือนที่แล้ว ด้วยการเปิดตัวในช่วงฤดูใบไม้ร่วง 2020 บริษัทได้เปิดเผยการปรับปรุงหลายอย่างที่มุ่งสู่การเสริมประสิทธิภาพ รวมถึงการรองรับการแคชข้อมูลในรูปแบบ Apache Arrow; ความสามารถในการขยายขนาดการวางแผนการสืบค้น และเปิดใช้งานการกรองรันไทม์ นอกเหนือจากการสนับสนุนเอ็นจิ้น Dremio หลักแล้ว บริษัทยังทำงานที่ชั้นข้อมูล รวมถึงการรองรับรูปแบบตาราง Apache Iceberg ซึ่งทำให้เอ็นจิ้นหลายตัวสามารถทำงานร่วมกันบนข้อมูลเดียวกันในลักษณะที่สอดคล้องกันในการทำธุรกรรม และ Project Nessie ซึ่งนำความหมายที่เหมือน Git มาสู่ Data Lake Tomer Shiran ผู้ก่อตั้งและประธานเจ้าหน้าที่ฝ่ายผลิตภัณฑ์ของ Dremio กล่าวว่า การปรับปรุง Dart นั้นเกี่ยวกับการให้ประสิทธิภาพในระดับเดียวกันแก่ลูกค้าใน data Lake แบบเปิดแบบเปิดตามที่คาดหวังจากคลังข้อมูลแบบปิด “เราได้กำจัดข้อเสียของการเปิดกว้าง” Shiran บอก Datanami ในการสัมภาษณ์เมื่อเร็ว ๆ นี้ “ยังคงมีข้อดีบางประการสำหรับคลังข้อมูลในแง่ของการทำธุรกรรมและการแทรกและการอัพเดทระดับระเบียน แต่ทั้งหมดที่ได้รับการแก้ไขในขณะนี้ ฉันคิดว่าปีหน้า ฉันไม่เห็นว่าทำไมผู้คนถึงยังคงใช้คลังข้อมูลต่อไป นอกเสียจากที่พวกเขาคุ้นเคย” รายการที่เกี่ยวข้อง: ลูกค้าต้องการแพลตฟอร์มข้อมูลแบบเปิดหรือไม่ Dremio เป็น 'ยูนิคอร์น' อย่างเป็นทางการเมื่อถึงมูลค่า 1 พันล้านดอลลาร์ Dremio เพิ่งทำให้คลังข้อมูลล้าสมัยหรือไม่?

  • บ้าน
  • Business
  • Data science
  • Marketing
  • Leave a Reply

    Your email address will not be published. Required fields are marked *

    Back to top button