Data science

DataStax Taps Pulsar สำหรับแพลตฟอร์มข้อมูลสตรีมมิ่ง

DataStax เปิดตัว Astra Streaming แพลตฟอร์มการสตรีมเหตุการณ์ใหม่ที่ใช้ Apache Pulsar แพลตฟอร์มข้อมูลเผยแพร่และสมัครรับข้อมูล (pub-sub) ที่แข่งขันกับ Apache Kafka Astra Streaming ถูกรวมไว้ล่วงหน้าในคลาวด์ด้วย Astra DB ซึ่งเป็นฐานข้อมูล Apache Cassandra NoSQL แบบไม่ใช้เซิร์ฟเวอร์และมัลติคลาวด์ของ DataStax การจัดการกับความต้องการของข้อมูลในอดีตในด้านหนึ่ง และการสตรีมข้อมูลเหตุการณ์แบบเรียลไทม์ในอีกทางหนึ่ง เป็นหนึ่งในอุปสรรคสำคัญที่สถาปนิกบิ๊กดาต้าพยายามเอาชนะ ปัญหาคือแพลตฟอร์มข้อมูลสตรีมมิงไม่ใช่สถานที่ในอุดมคติสำหรับการเก็บข้อมูล stateful ที่ไม่ค่อยมีการเปลี่ยนแปลง ในขณะที่ฐานข้อมูลแบบดั้งเดิมที่ออกแบบมาเพื่อเก็บข้อมูล stateful จะถือว่าข้อมูลเหตุการณ์เป็นองค์ประกอบอัตราที่สอง การรวมระบบและประเภทข้อมูลทั้งสองเข้าด้วยกันเป็นสิ่งจำเป็นในการให้บริการประสบการณ์การใช้งานที่ขับเคลื่อนด้วยข้อมูลที่เกิดขึ้นใหม่สำหรับผู้ใช้ ซึ่งรวมถึงระบบที่เกี่ยวข้องกับเทคโนโลยี AI และ IoT แต่ก็ไม่ใช่เรื่องง่าย ตอนนี้ DataStax ได้ขยายขอบเขตไปยังวงแหวนข้อมูลการสตรีมด้วย Astra Streaming ซึ่งเป็นเวอร์ชันโฮสต์ของ Pulsar ที่สร้างไว้ล่วงหน้าเพื่อรวมเข้ากับ Astra DB ซึ่งเป็นข้อเสนอฐานข้อมูลในฐานะที่เป็นฐานข้อมูลของ Cassandra อย่างใกล้ชิด Chris Latimer รองประธานฝ่ายผลิตภัณฑ์สำหรับการสตรีมของ DataStax กล่าวว่า Astra Streaming ช่วยให้ลูกค้าได้รับขนาดและประสิทธิภาพแบบเดียวกับที่พวกเขาคาดหวังจาก Cassandra ซึ่งถือว่าเป็นหนึ่งในฐานข้อมูลที่ปรับขนาดได้มากที่สุด ด้วยการออกแบบทางวิศวกรรมให้ทำงานร่วมกัน DataStax กล่าวว่าลูกค้าสามารถเพลิดเพลินกับประโยชน์ของข้อมูลของทั้งสองระบบในขณะที่ลดต้นทุน “DataStax ได้สร้างตัวเชื่อมต่อโอเพ่นซอร์ส Cassandra sink ที่ใช้ภายใน Astra Streaming ทำให้ผู้ใช้สามารถสตรีมข้อมูลไปยังอินสแตนซ์ Astra DB ของพวกเขาได้” Latimer บอก Datanami “ในขณะเดียวกัน เรากำลังสร้างความสามารถแบบสองทิศทางเต็มรูปแบบ เพื่อให้นักพัฒนาสามารถสตรีมการเปลี่ยนแปลงที่เกิดขึ้นบนฐานข้อมูล Astra DB ของพวกเขาไปยัง Astra Streaming เป็นสตรีมเหตุการณ์ได้” การเข้าถึงโครงสร้างการสืบค้นแบบ SQL จะทำให้ Astra Streaming คุ้นเคยกับผู้ใช้ที่คุ้นเคยกับ SQL มากขึ้น Ed Anuff หัวหน้าเจ้าหน้าที่ผลิตภัณฑ์ของ DataStax กล่าว “ลักษณะสำคัญของการประมวลผลแบบสตรีมคือความสามารถในการโต้ตอบกับบันทึกเหตุการณ์ในลักษณะที่คุ้นเคยกับทุกคนที่มีประสบการณ์เกี่ยวกับเทคโนโลยีฐานข้อมูล” Anuff กล่าวในการแถลงข่าว “ในขณะที่โซลูชันที่มีอยู่ทำงานถึงจุดหนึ่ง แต่โดยทั่วไปไม่สามารถแข่งขันกับขนาด ประสิทธิภาพ และความน่าเชื่อถือที่มาจาก Apache Cassandra…ด้วย Astra Streaming คุณสามารถบรรลุประโยชน์การใช้งานเดียวกันกับอินเทอร์เฟซการประมวลผลสตรีมแบบ SQL ด้วย ความสามารถในการคงอยู่แบบข้ามคลาวด์ที่มีประสิทธิภาพสูงของ Astra DB” Apache Pulsar ได้รับการพัฒนาครั้งแรกที่ Yahoo ให้เป็นแพลตฟอร์มการส่งข้อความแบบกระจายเพื่อให้ข้อมูลสำหรับบริการต่างๆ เช่น Yahoo Finance, Yahoo Mail และ Flickr Yahoo เปิดตัว Pulsar เป็นโอเพ่นซอร์สใน 400 Apache Software Foundation นำมาใช้เป็นโครงการระดับบนสุดใน 2018 และตั้งแต่นั้นเป็นต้นมา บริษัทต่างๆ ก็ได้นำไปใช้ในกรณีการใช้งานจริง เช่น Tencent, Comcast, Appen และ Overstock Kafka เป็นระบบส่งข้อความแบบ Pub-sub ที่โดดเด่นและถูกใช้โดย 70% ของ Fortune 500 อ้างอิงจาก Confluence ชุดโฆษณาที่อยู่เบื้องหลัง Kafka Confluence พุ่งขึ้นสู่การประเมินมูลค่า 4.5 พันล้านดอลลาร์และการเสนอขายหุ้น IPO ที่รอดำเนินการอยู่ด้านหลังตำแหน่งที่โดดเด่นในข้อมูลการสตรีม แต่นั่นไม่ได้หยุดคู่แข่งของ Kafka จากการพยายามแย่งชิงตำแหน่งนั้น การเข้าร่วมในโครงการ Pulsar เกินกว่าการมีส่วนร่วมในโครงการ Kafka ตามรายงานผู้ใช้ Apache Pulsar 2021 ของ StreamNative 2021 DataStax กล่าวว่า Pulsar เปรียบเทียบในเกณฑ์ดีกับ Kafka ได้หลายประการ รวมถึงการรองรับความหมายการส่งข้อความของ MQ โซลูชั่นตาม Latimer กล่าว “Pulsar ยังรวมความสามารถที่ Apache Kafka ขาดหายไปจากกล่อง เช่น การจำลองทางภูมิศาสตร์และการเช่าหลายพื้นที่ และการแก้ปัญหาชั่วคราวนั้นมีค่าใช้จ่ายสูงและต้องใช้ทรัพยากรมาก” เขากล่าว การวิจัยของ GigaOm แสดงให้เห็นว่า Apache Pulsar มีข้อได้เปรียบเหนือ Kafka ทั้งในด้านราคาและประสิทธิภาพ ตามที่ William McKnight นักวิเคราะห์ของ GigaOm “เราเห็น Pulsar กลายเป็นตัวเลือกที่นิยมมากขึ้นสำหรับแอปพลิเคชั่นสตรีมมิ่ง” McKnight กล่าวในการแถลงข่าว นอกจาก DataStax แล้ว ยังมีบริษัทอื่นๆ อีกจำนวนหนึ่งที่ให้บริการโซลูชั่น Pulsar เชิงพาณิชย์ ซึ่งรวมถึง StreamNative ซึ่งเปิดตัวข้อเสนอ Pulsar-as-a-service ในช่วงฤดูใบไม้ร่วงของ 2020 และว่าจ้างผู้ผูกมัดในโครงการ Apache Pulsar เช่นเดียวกับ Pandio ซึ่งให้บริการโฮสต์ รุ่นพัลซาร์ Splunk เข้าซื้อกิจการผู้ให้บริการ Pulsar Streamlio ใน 2019 และใน 2020 ได้นำ Pulsar มาใช้เป็นเทคโนโลยีพื้นฐานหลักสำหรับ Splunk Data Stream Processor (ดีเอสพี). ในขณะเดียวกัน โครงการโอเพ่นซอร์ส Apache Pulsar ก็ดำเนินต่อไป Pulsar บรรลุเป้าหมายสองประการในสัปดาห์นี้ รวมถึงการยอมรับผู้มีส่วนร่วม ซึ่งเกินจำนวนผู้มีส่วนร่วมสำหรับ Kafka นอกจากนี้ยังใช้ความหมายเพียงครั้งเดียวกับธุรกรรมใน Pulsar เวอร์ชัน 2.8 ตามบล็อก StreamNative DataStax ยอมรับคำขอเข้าร่วมในบริการ Astra Streaming รุ่นเบต้า ข้อมูลเพิ่มเติมมีอยู่ในเว็บไซต์ รายการที่เกี่ยวข้อง: Cassandra ได้รับการอัปเกรดการจัดทำดัชนี Apache Pulsar Cloud ฟรีที่เสนอโดย StreamNative Apache Pulsar พร้อมสำหรับ Prime Time

  • บ้าน
  • Business
  • Data science
  • Marketing
  • Leave a Reply

    Your email address will not be published. Required fields are marked *

    Back to top button