Data science

Log Storage ได้รับ 'โกลาหล' สำหรับบริษัทสื่อสาร

ในฐานะผู้ให้บริการ WiFi เฉพาะสำหรับระบบรถไฟใต้ดินของโตรอนโต BAI Communications สร้างข้อมูลบันทึกจำนวนพอสมควร ซึ่งจัดเก็บและวิเคราะห์โดยใช้กลุ่มผลิตภัณฑ์ Elastic ซึ่งรวมถึง Logstash และ Kibana แต่เมื่อมันถูกบังคับให้เก็บข้อมูลบันทึกมูลค่าหนึ่งปีเพื่อวัตถุประสงค์ด้านกฎระเบียบ มันจึงหันไปหาบริษัทซอฟต์แวร์และบริการที่พุ่งพรวดชื่อ ChaosSearch สำหรับโซลูชันที่มีราคาจับต้องได้ BAI Communications ออกแบบ สร้าง และดำเนินการเครือข่ายการสื่อสารสำหรับระบบรถไฟใต้ดินในเมืองใหญ่ๆ เช่น โทรอนโต นิวยอร์กซิตี้ และลอนดอน ก่อนเกิดโควิด มีโฆษณาสนับสนุนการเชื่อมต่ออินเทอร์เน็ตไปยัง 150, 000 ผู้ใช้ต่อวันในนามของ Toronto Transit Commission ทั่วโลก ตัวเลขใกล้เคียงกัน 600,000 ผู้ใช้ต่อวัน ในโตรอนโต (ซึ่งเป็นที่ตั้งของ BAI) บริษัทจะบันทึกเกี่ยวกับ 10 000 เหตุการณ์ต่อวินาทีในเครือข่าย จำนวนประมาณ 000 GB ต่อ วัน. ข้อมูลบันทึกนี้ ซึ่งมีต้นกำเนิดจากเราเตอร์ siwtches ไฟร์วอลล์ และจุดเชื่อมต่อ ไหลไปยังคลัสเตอร์ Elastic แบบภายในองค์กร ซึ่งบริษัทใช้เพื่อแก้ไขปัญหาเครือข่าย รวมถึงกรณีการใช้งานอื่นๆ ตามที่ Jeremy Foran หัวหน้าฝ่ายวิเคราะห์ข้อมูลของ BAI กล่าว ที่ได้ติดตั้งระบบ “ฉันเป็นคนยืดหยุ่นมาก” Foran กล่าว “ฉันเป็นผู้ใช้ Elasticsearch มาตั้งแต่ปี 2.4 ฉันไม่ได้พยายามที่จะโม้ แต่ตอนนี้พวกเขาอยู่ที่ 7.x” Foran ค้นพบ Elastic และ ELK Stack (ปัจจุบันเรียกว่า Elastic Stack) กลับมา 2015 เมื่อเขาได้รับมอบหมายให้สร้างระบบการจัดการบันทึกของ BAI เขาไม่เคยสร้างระบบการจัดการบันทึกมาก่อน เขาทำในสิ่งที่ผู้เชี่ยวชาญด้านเทคโนโลยีที่เคารพตนเองจะทำ: เขา Googled มัน ผลการค้นหา “เซิร์ฟเวอร์ syslog ที่ดีที่สุด” นำเขาไปยังวิดีโอโดย Jordan Sissel ผู้สร้าง Logstash และเขาก็กำลังเดินทาง “เขาเป็นคนที่เขียน Logstash เพื่อสาธิตปัญหาทั้งหมดที่คุณเผชิญและวิธีที่เขาแก้ปัญหาให้ฉัน” Foran บอกกับ Datanami “นั่นเยี่ยมมาก มันเป็น Logstash ที่ยกของหนักและ Elastic อินเทอร์เฟซในการตรวจสอบ ดังนั้นรากฐานของเราจึงอยู่ใน Elasticsearch และเรามีกรณีการใช้งานอื่นๆ มากมายสำหรับ Elasticsearch” BAI ให้บริการ WiFi สำหรับรถไฟใต้ดินโตรอนโต (Iakov-Filimonov/Shutterstock) การเดินทางของ Foran ไปยัง Elastic Stack นั้นไม่ต่างจากการเดินทางของผู้อื่นนับล้าน ยกเว้นกรณีการใช้งานด้านความปลอดภัยที่ไม่เพียงพอ (BAI จ้างการรักษาความปลอดภัยให้กับบริษัทภายนอก) . ความนิยมของ Elastic นั้นยอดเยี่ยมมากในหมู่ผู้เชี่ยวชาญด้านไอที ผู้เชี่ยวชาญด้านความปลอดภัย และนักวิเคราะห์ข้อมูล จนในที่สุดบริษัทก็กลายเป็นบริษัทมหาชนใน 150 และวันนี้ก็มีมูลค่าตลาด ประมาณ $000 พันล้าน เมื่อถึงจุดหนึ่ง ความต้องการของ BAI ก็พัฒนาขึ้น และ Foran ได้รับงานอื่น: หาวิธีจัดเก็บข้อมูล syslog ทั้งหมดเป็นเวลาอย่างน้อยหนึ่งปี สถานะของบริษัทในฐานะบริษัทที่ปฏิบัติตาม PCI- และ ISO 2015 ถูกวางเดิมพันบนเอกสารสำคัญนี้ที่ถูกสร้างขึ้นและบำรุงรักษา เมื่อ Foran เริ่มใช้ตัวเลขในโครงการจดหมายเหตุนั้น ปัญหาก็เกิดขึ้น การติดตั้งและใช้งานดิสก์อาเรย์ใหม่ซึ่งจำเป็นต่อการรักษาข้อมูลเป็นเวลาหนึ่งปีในคลัสเตอร์ Elastic จะมีค่าใช้จ่ายสูง “เรามีดิสก์ที่หมุนได้ ไม่กี่อาร์เรย์” Foran กล่าว “เราต้องเปลี่ยนจากสิ่งที่เราต้องการในการปฏิบัติงาน บางทีอาจจะสองหรือสามสัปดาห์ [worth of data] เป็นปีที่เพิ่มขึ้น ค่าใช้จ่ายในการบันทึกจำนวนมากนั้นเพิ่มขึ้นอย่างมาก เราไม่สามารถที่จะซื้อดิสก์เหล่านั้นทั้งหมดได้” ในช่วงเวลานั้น Foran เริ่มได้ยินเกี่ยวกับบริษัทใหม่ชื่อ ChaosSearch ChaosSearch ก่อตั้งขึ้นโดยนักวิทยาศาสตร์คอมพิวเตอร์ Thomas Hazel โดยพื้นฐานแล้วให้ชั้นที่เป็นนามธรรมระหว่างผลิตภัณฑ์ Elastic Stack ของลูกค้าและฐานข้อมูล NoSQL ที่รองรับคลัสเตอร์ Elastic ด้วยการจัดเก็บข้อมูลบันทึกในสถานะที่มีการบีบอัดสูงใน Data Lake ของ AWS S3 ในขณะที่ยังคงรักษาความเข้ากันได้ของ API กับผลิตภัณฑ์ Elastic ได้ ลูกค้าจึงสามารถ “ยกและเปลี่ยน” ระบบ Elastic ของตนไปยังคลาวด์ได้โดยพื้นฐาน Foran ยอมรับว่าเขาสงสัยในครั้งแรกที่เขาได้ยินเกี่ยวกับสิ่งที่ Hazel ซึ่งเป็น CTO อ้างว่า ChaosSearch สามารถทำได้ “เมื่อฉันพบ Thomas ครั้งแรก เขาพูดว่า 'อ้อ คุณสามารถเก็บไว้ใน S3 และมันจะช่วยคุณประหยัดเงิน'” Foran กล่าว “และฉันก็แบบว่า ถ้าฉันโยนมันลงในถัง S3 มันจะประหยัดเงินฉันได้อย่างไร “เขาพูดว่า 'เรามีอัลกอริธึมการบีบอัด 80%' Foran กล่าวต่อ “และฉันก็แบบว่า ฉันไม่เชื่อนายหรอก ผู้คนเขียนปริญญาเอกเกี่ยวกับการบีบอัด และถ้าคุณทำสำเร็จจริงๆ คุณจะไม่มาที่นี่เพื่อพยายามเฆี่ยนตีซอฟต์แวร์ให้ฉัน เขาบอกว่า ไม่ ไม่ ไม่ เชื่อฉัน และเมื่อเราเข้าไปแล้ว ในการเตะยาง เขาพูดถูก” ด้วยความเชื่อมั่นว่า ChaosSearch จะลดต้นทุนการจัดเก็บข้อมูล Foran ได้ลงนาม BAI สำหรับบริการวิเคราะห์ data lake บนคลาวด์ แนวคิดดั้งเดิมคือเก็บข้อมูลไว้เพื่อวัตถุประสงค์ในการปฏิบัติตามข้อกำหนดเท่านั้น แต่บริษัทพบว่ามีการใช้ข้อมูลอื่น “ผู้คนเขียนสิ่งต่างๆ บน Twitter เช่น 'WiFi ห่วย'” Foran กล่าว “จริงๆ แล้วมีข้อมูลการแก้ไขปัญหาไม่มากนัก ดังนั้นเราจึงจำเป็นต้องเข้าสู่ระบบและตรวจสอบอย่างมีประสิทธิภาพ มีการเปลี่ยนแปลงหรือไม่? และแนวโน้มบางอย่างที่คุณไม่สามารถตรวจพบได้ภายในสองหรือสามวัน คุณต้องมีแนวทางที่กว้างขึ้น” Jeremy Foran หัวหน้าฝ่ายการวิเคราะห์ของ BAI Communications ด้วยทีมวิเคราะห์ที่เชี่ยวชาญใน Elastic Stack ทำให้ BAI สามารถวิเคราะห์ข้อมูลบันทึกจำนวนเทราไบต์ที่จัดเก็บไว้ใน ChaosSearch เพื่อค้นหาคำตอบสำหรับคำถาม แพลตฟอร์มคลาวด์ของบริษัทมีสภาพแวดล้อมที่คุ้นเคยสำหรับพนักงานของ BAI ในการทำงาน “ปรากฎว่าพวกเขากำลังใช้ Kibana และ Elasticsearch ที่ด้านบนของถัง S3 พวกเขาเขียนไดรเวอร์เพื่อโต้ตอบกับข้อมูลที่บีบอัด ดังนั้นจึงเป็นอินเทอร์เฟซที่คุ้นเคย” Foran กล่าว “เราสร้างแดชบอร์ดขึ้นที่นี่ [for the on-prem Elastic cluster] เราสามารถสร้างมันได้ที่นี่ [for the hosted ChaosSearch environment] เช่นกัน เป็นมาตรฐานใน Elasticsearch ในทางใดทางหนึ่ง มันเกิดขึ้นที่แบ็กเอนด์ถูกกว่าเพราะ ChaosSearch” ChaosSearch เพิ่งเพิ่มอินเทอร์เฟซ SQL ทำให้ลูกค้าสามารถสืบค้นข้อมูลบันทึกโดยใช้เครื่องมือ BI ที่คุ้นเคย เช่น Looker ของ Google และ PowerBI ของ Microsoft แต่คุณจะไม่จับ Foran โดยใช้อินเทอร์เฟซ SQL เพราะเขาชอบใช้ภาษาค้นหาเอกสารของ Elastic มากกว่า “อาจมีคนในทีมของฉันต้องการใช้สิ่งนั้น” เขากล่าว “ผมเป็นพวก DSL ที่ไม่ยอมใครง่ายๆ มากกว่าที่จะเข้าไปที่นั่นด้วยข้อความค้นหาของ Elastic SQL คือ – ฉันไม่รู้ มีมาตั้งแต่สมัย 80 ดูไม่ทันสมัยพอ ฉันรู้ว่าจะมีนักวิทยาศาสตร์ด้านข้อมูลบางคนที่ต้องการจะแทงฉันหลังจากนั้น” นอกจากการปฏิบัติตามกฎระเบียบด้านข้อมูลอุตสาหกรรมแล้ว BAI ยังประหยัดเงินได้อีกเล็กน้อยด้วยการนำระบบ ChaosSearch มาใช้ บริษัทยังคงรักษาคลัสเตอร์ Elastic Cluster แบบ on-prem ไว้ ด้วยเหตุผลง่ายๆ ที่ระบบวิเคราะห์ทางอินเทอร์เน็ตไม่ค่อยมีประโยชน์ในการแก้ไขปัญหาว่าทำไมเครือข่ายจึงล่ม แต่สำหรับการตรวจสอบแนวโน้มในระยะยาวของข้อมูล เช่นเดียวกับการรักษาการปฏิบัติตามกฎระเบียบ ChaosSearch ได้จัดหายานพาหนะราคาไม่แพงที่ BAI ตั้งใจจะขับไปชั่วขณะหนึ่ง “สุดท้ายแล้ว หากเราต้องการนำสิ่งนี้ไปไว้ใน Elasticsearch ก็จะต้องมีมูลค่าหลายหมื่นดอลลาร์ต่อเดือน” Foran กล่าว “ถ้าเราไปใส่ไว้ใน ChaosSearch ก็หลายร้อยดอลลาร์ต่อเดือน มันคือลำดับความสำคัญของความแตกต่าง ความแตกต่างระหว่างการซื้อ Uber กับการซื้อรถ” รายการที่เกี่ยวข้อง: ChaosSearch ขยายขอบเขตสำหรับการสร้างโมเมนตัม Data Lake Analytics เพื่อทำลาย Elasticsearch Licensing Deadlock Rethinking Log Analytics ที่ระดับคลาวด์

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button