Data science

จาก Wall Street สู่ Main Street: Inside Deephaven's Big Data Journey

ในโลกหลัง Hadoop นี้ เราได้เห็นสถาปัตยกรรมข้อมูลจำนวนหนึ่งเกิดขึ้นและได้รับแรงฉุดลาก หนึ่งในสิ่งที่น่าสนใจกว่านั้นคือ Deephaven ซึ่งเดิมได้รับการพัฒนาเมื่อสิบปีที่แล้วเพื่อขับเคลื่อนกองทุนเฮดจ์ฟันด์เชิงปริมาณ และขณะนี้ได้เสนอให้ทั่วโลกเป็นแพลตฟอร์มเปิดสำหรับการวิเคราะห์แบบเรียลไทม์และการเรียนรู้ของเครื่อง Pete Goddard ก่อตั้ง Walleye Capital ใน 2004 ด้วยแนวคิดในการใช้ข้อมูลจำนวนมากและคอมพิวเตอร์ที่รวดเร็วเพื่อสร้างรายได้มากมายให้กับลูกค้าของเขา ก็อดดาร์ดดูแลการพัฒนาระบบที่เรียกว่า Deephaven ซึ่งช่วยให้นักวิเคราะห์ของ Walleye สามารถสืบค้นข้อมูลจำนวนมากที่เคลื่อนไหวอย่างรวดเร็วในแบบเรียลไทม์ ซึ่งจะทำให้ลูกค้าของเขาได้เปรียบในการแข่งขันในตลาดหุ้น เขาทำเงินมากมายให้กับลูกค้าของเขา ใน 2016 Goddard ได้แยก Deephaven Data Labs ออกมาเป็นบริษัทของตัวเอง โดยมีแนวคิดในการใช้ระบบ Deephaven เพื่อแก้ปัญหาความท้าทายด้านข้อมูลด้วยวิธีอื่น ในช่วงห้าปีที่ผ่านมา บริษัทได้ดึงดูดลูกค้าจำนวนมากในหลากหลายอุตสาหกรรม รวมถึงการดูแลสุขภาพ การผลิต และแม้กระทั่งการแข่งรถ ตอนนี้บริษัทกำลังมองหาการขยายการแสดงตนและการใช้ผลิตภัณฑ์โดยเปิดรับชุมชนโอเพ่นซอร์ส สถาปัตยกรรม Deephaven “เป็นเรื่องที่น่าสนใจและสนุกอย่างแน่นอนที่ได้เป็นผู้บริหารของบริษัทการค้าและใช้เทคโนโลยีนี้ รวมไปถึงเทคโนโลยีอื่นๆ ที่เรามีเพื่อสร้างรายได้ ฉันทำมันมานานแล้ว” ก็อดดาร์ดบอกดาตานามิ “เราคิดว่าเราอยู่ในจุดที่ไม่เหมือนใครในขณะนี้ เราเข้าใจวิธีการทำสิ่งต่าง ๆ เราเคยเห็นมันทำงาน เรารู้ว่ามันทรงพลังแค่ไหน และตอนนี้เราต้องการนำมันไปสู่ชุมชนอย่างเปิดเผย” Data Framework ใหม่ Deephaven คืออะไร? นั่นไม่ใช่คำถามที่ตอบง่าย เว็บไซต์ของบริษัทกล่าวว่า Deephaven เป็นฐานข้อมูลเชิงคอลัมน์ โฆษกของบริษัทอธิบายว่าเป็นฐานข้อมูลอนุกรมเวลา เมื่อขอให้ขยายความ Goddard ป้องกันความเสี่ยงเล็กน้อย “โดยพื้นฐานแล้วมันต่างกันสองอย่าง” เขากล่าว “มันเป็นเอ็นจิ้นข้อมูล แล้วก็เป็นเฟรมเวิร์กข้อมูล” ในฐานะที่เป็นเอ็นจิ้นข้อมูล Deephaven ทำงานคล้ายกับเอ็นจินคอมพิวเตอร์อื่น ๆ เช่น Apache Spark หรือเอ็นจิ้นการสืบค้น SQL Goddard กล่าว ผู้ใช้สามารถสืบค้นข้อมูล ซึ่งโดยทั่วไปแล้วจะจัดเก็บไว้ในรูปแบบ Parquet และแม้กระทั่งนำโมเดลการเรียนรู้ของเครื่องที่พัฒนาใน Python หรือ Tensorflow มาเทียบกับข้อมูลนั้น แต่แตกต่างจากผลิตภัณฑ์ข้อมูลขนาดใหญ่อื่นๆ ที่ไม่มี Spark อยู่ใน Deephaven และไม่มีส่วนต่อประสาน SQL “เป็นวิธีใหม่ในการทำงานกับข้อมูลเพื่อสร้างการวิเคราะห์ พัฒนาแอพพลิเคชั่น” ก็อดดาร์ดกล่าว “มันไม่ได้อยู่เหนือเครื่องมือข้อมูลอื่นๆ มันเป็นเวอร์ชั่นของมันเอง” ในฐานะเฟรมเวิร์ก Deephaven ซึ่งพัฒนาขึ้นใน Java มี “สิ่ง” อื่นๆ มากมายที่ผู้ใช้จำเป็นต้องทำงานอย่างมีประสิทธิภาพด้วยซอฟต์แวร์ ซึ่งรวมถึงตัวเชื่อมต่อข้อมูล, API, ความสามารถในการทำงานร่วมกับเครื่องมืออื่นๆ และอินเทอร์เฟซผู้ใช้ที่อนุญาตให้ผู้ใช้ทำงานโดยตรงกับข้อมูลที่นำเข้าเข้าสู่ระบบ เมื่อพูดถึงแมชชีนเลิร์นนิง ซอฟต์แวร์สามารถรันโมเดลที่พัฒนาใน Python, Tensorflow และ Numba แต่นั่นไม่ใช่คำอธิบายแบบเต็มของสิ่งที่ Deephaven ทำเช่นกัน ตามข้อมูลของ Goddard สิ่งที่ Deephaven ทำได้ยอดเยี่ยมจริงๆ คือการเปิดใช้งานการวิเคราะห์และการเรียนรู้ของเครื่องกับข้อมูลแบบเรียลไทม์ “เราไม่เหมือนกับระบบข้อมูลอื่น ๆ ที่มีอยู่ในความสามารถของเราในการจัดการข้อมูลแบบเรียลไทม์ ข้อมูลแบบไดนามิก และเพื่อให้ผู้ใช้สามารถย้ายระหว่างข้อมูลสแตติกในอดีตและข้อมูลแบบเรียลไทม์แบบไดนามิกได้อย่างราบรื่น” Goddard กล่าว . “เราอยู่ภายใต้การปกปิด การสังเกตการเพิ่ม การลบ การอัปเดต การแก้ไข และเรากำลังรักษาสถานะด้วยวิธีที่น่าสนใจ เพื่อให้เราสามารถคำนวณสิ่งต่าง ๆ เพิ่มขึ้นแทนที่จะทำการคำนวณทั้งหมดอีกครั้งในวงจรบางประเภท” Data Stamping Time การติดตามเมื่อเหตุการณ์เกิดขึ้นเป็นสิ่งสำคัญในการดำเนินการกลยุทธ์การซื้อขาย และกำลังมีความสำคัญมากขึ้นในอุตสาหกรรมอื่นๆ โดยเฉพาะอย่างยิ่งสำหรับองค์กรที่ต้องการบีบอัดข้อมูลเชิงลึกจากข้อมูลเหตุการณ์ที่มีปริมาณมาก สำหรับก็อดดาร์ด สิ่งสำคัญที่ส่งมอบได้คือการทำให้ลูกค้าของเขาสามารถระลึกถึงสถานะของโลกได้ตลอดเวลา “อาจมีแหล่งข้อมูลสองแห่งที่คุณสนใจ หรืออาจมีแหล่งข้อมูลนับพัน” เขากล่าว “ฉันเพิ่งทำการค้าใน Apple เกิดอะไรขึ้นบน Twitter หนึ่งวินาทีก่อนที่ฉันจะซื้อขายใน Apple? มีปริมาณ Twitter เพิ่มขึ้นทั่ว Apple หรือไม่และนั่นอาจเป็นคำใบ้สำหรับฉันว่าโลกรู้บางอย่างที่ฉันไม่รู้และฉันเพิ่งถูกโจมตี? “มีข้อมูลที่ชัดเจนทั้งหมดในโลกที่สามารถไหลได้หลายวิธี” เขากล่าวต่อ “และฉันต้องสามารถนำมารวมกันได้เป็นอย่างดีโดยอิงจากการประทับเวลา ซึ่งหมายความว่าพวกเขาอยู่ที่นี่แล้ว หรือฉันต้องการ ทำการศึกษานี้จาก 10 นาทีที่แล้ว นั่นอาจมีความสำคัญทีเดียว” ในระดับเทคนิค Deephaven มีความสามารถในการรับกระแสข้อมูลแบบเรียลไทม์จากระบบผับ/ย่อย เช่น Kafka หรือ Solace และรวมเข้ากับข้อมูลแบบสแตติกที่อยู่ในไฟล์ Parquet และ “ในลักษณะที่เบามาก ไม่เหมือนกับ KSQL ส่งมอบสตรีมที่ได้รับบนสตรีมไปยังผู้บริโภค ไม่ว่าจะผ่านทาง API หรือผ่านประสบการณ์ของผู้ใช้” Goddard กล่าว “สิ่งนั้นจะคงอยู่นอกกรอบ” Deephaven ซึ่งทำงานในลักษณะกระจาย ยังเล่นได้ดีกับข้อมูลที่จัดเก็บในรูปแบบข้อมูล Apache Arrow และ Arrow Flight และ Goddard กำลังมองหาที่จะขยายการแสดงตนของ Deephaven ในมุมเล็ก ๆ ของชุมชนโอเพ่นซอร์ส อันที่จริง Deephaven ได้สนับสนุนคุณลักษณะใหม่ให้กับโครงการ Arrow ที่ช่วยให้รูปแบบข้อมูลเข้าใจการเปลี่ยนแปลงของข้อมูลได้ดียิ่งขึ้น บริษัทกำลังทำให้ Deephaven พร้อมใช้งานภายใต้ใบอนุญาต “source Available” แนวคิดคือการดึงดูดผู้ใช้ให้มาที่ Deephaven มากขึ้น ด้วยความหวังว่านักพัฒนาจะมีส่วนร่วมและช่วยในการรวมเข้ากับชุมชนโอเพ่นซอร์สเพิ่มเติม “มีทรัพย์สินทางปัญญาที่น่าสนใจอยู่ไม่น้อยภายใต้หน้าปก และส่วนสำคัญของสิ่งนั้นก็เปิดให้ผู้คนสามารถเห็นได้ในฐานรหัสของเรา” ก็อดดาร์ดกล่าว “แต่ฉันไม่คิดว่านักพัฒนาหรือสมาชิกในชุมชนจำนวนมากจะสนใจวิธีการทำงาน พวกเขาจะสามารถใช้มันและรู้สึกตื่นเต้นที่มันใช้งานได้” Data Meets Software Goddard ดูเหมือนจะพอใจกับสถานะของเขาในฐานะบุคคลภายนอก หลังจากใช้เวลากว่าทศวรรษในหม้อความดันของ Wall Street ชาวอิลลินอยส์ดูเหมือนจะไม่สนใจที่จะปรับให้เข้ากับแนวคิดอุปาทานของประเภทซอฟต์แวร์ของ Silicon Valley Pete Goddard เป็น CEO ของ Deephaven Data Labs เมื่อพูดถึงข้อมูล ไม่ว่า Deephaven ควรอธิบายว่าเป็นฐานข้อมูลเชิงคอลัมน์ ฐานข้อมูลอนุกรมเวลา หรือเฟรมเวิร์กการวิเคราะห์การสตรีม หรือระบบประมวลผลตามเวลาจริงแบบไฮบริด คำพูดเหล่านั้นไม่ได้หมายความว่า มากเพื่อก็อดดาร์ด “ความแตกต่างใหญ่ระหว่างเรากับคนอื่นๆ คือเรามาจากภายนอก ดังนั้นเราจึงคิดว่าสิ่งนี้มีความต่อเนื่อง” เขากล่าว “ฉันแค่นึกถึงสิ่งที่ขับเคลื่อนด้วยข้อมูลเมื่อข้อมูลมาบรรจบกับซอฟต์แวร์ คนอื่น ๆ วางมันลงในกล่อง แบบว่า ฉันไม่สนหรอกว่านั่นจะเป็นกล่องอะไร ข้อมูลที่ตรงกับซอฟต์แวร์อาจเป็นแบบเรียลไทม์หรือเป็นชุดก็ได้ ซอฟต์แวร์ตรงตามข้อมูลอาจเป็นแอปพลิเคชัน อาจเป็นการวิเคราะห์ อาจเป็นภาพสำหรับนักวิเคราะห์ธุรกิจหรืออาจเป็นวิทยาศาสตร์ข้อมูลหรืออะไรก็ได้” บริษัทได้ทำงานร่วมกับลูกค้าหลายกลุ่ม รวมถึงลูกค้าในตลาดทุน เทเลเมติกส์ด้านการดูแลสุขภาพ และแม้แต่ทีมรถแข่ง Formula 1 คุณลักษณะทั่วไปที่เชื่อมโยงลูกค้าเหล่านี้ทั้งหมดคือความปรารถนาที่จะได้รับข้อมูลเชิงลึกเกี่ยวกับข้อมูลที่เคลื่อนไหวอย่างรวดเร็วจำนวนมาก “นี่ไม่ใช่โครงการวิทยาศาสตร์” ก็อดดาร์ดกล่าว “นี่เป็นเทคโนโลยีที่ใช้งานได้จริงซึ่งบริษัทยักษ์ใหญ่ในตลาดทุนบางรายกำลังใช้สำหรับเส้นทางที่สำคัญ…..นี่คือสิ่งที่ลูกค้าปัจจุบันของเรากำลังทำอยู่ และพวกเขาก็เป็นคนที่มีความซับซ้อนมากที่สามารถเลือกสิ่งอื่นที่จะใช้ได้ ” รายการที่เกี่ยวข้อง: มองดูอนาคตของการสตรีมข้อมูลแบบเรียลไทม์ของสถาปัตยกรรม Open Data, Kafka และ Analytics ส่วนที่หนึ่ง: การสตรีมข้อมูล 101 ภัยคุกคามตามเวลาจริงจากการเรียนรู้ของเครื่อง การตรวจจับกราฟธนาคาร การวิเคราะห์กราฟเพิ่มพลังให้ข้อมูลเชิงลึกในบริการทางการเงิน

  • บ้าน
  • Business
  • Data science
  • Marketing
  • Leave a Reply

    Your email address will not be published. Required fields are marked *

    Back to top button