Data science

จาก Amazon สู่ Uber บริษัทต่างๆ ต่างหันมาใช้ Ray

จะเกิดอะไรขึ้นถ้าคุณสามารถใช้ไลบรารีแมชชีนเลิร์นนิงที่คุณชื่นชอบเพื่อเขียนโค้ดโปรแกรม AI บนแล็ปท็อปของคุณ และโอนย้ายโดยอัตโนมัติเพื่อรันในรูปแบบขนาดใหญ่ที่กระจายบนคลาวด์ นั่นคือแนวคิดทั่วไปที่อยู่เบื้องหลัง Ray ซึ่งเป็นเฟรมเวิร์กโอเพ่นซอร์สที่ดึงดูดบริษัทชั้นนำจำนวนมากขึ้นเรื่อยๆ ซึ่งรวมถึง Amazon และ Uber ซึ่งทั้งคู่จะแบ่งปันเรื่องราวของพวกเขาที่งาน Ray Summit ในสัปดาห์นี้ Uber เป็นผู้ใช้ที่รู้จักกันดีของบิ๊กดาต้า การวิเคราะห์แบบเรียลไทม์ และเทคโนโลยี AI และวิศวกรของ Uber ยังได้มีส่วนร่วมในการสร้างข้อมูลขนาดใหญ่ให้กับชุมชนโอเพ่นซอร์ส ด้วยเหตุนี้ จึงเป็นเรื่องที่น่าสนใจที่จะทราบว่า Uber วางเดิมพันอย่างหนักกับ Ray ที่จะเป็นซับสเตรตการคำนวณแบบกระจายสำหรับสภาพแวดล้อมการเรียนรู้ของเครื่องรุ่นต่อไป Ion Stoica ศาสตราจารย์ด้านวิทยาการคอมพิวเตอร์ของ UC Berkeley และผู้ร่วมก่อตั้ง Anyscale ผู้อยู่เบื้องหลังการประชุมสุดยอด Ray และ Ray Summit กล่าวว่า “Uber มีโครงการแพลตฟอร์มการเรียนรู้ด้วยเครื่องใหม่ชื่อ Canvas และพวกเขาตัดสินใจเลือก Ray เพื่อสร้างแพลตฟอร์มนี้ 2021 ซึ่งฟรีและจะจัดขึ้นทางออนไลน์ในเดือนมิถุนายน 22-24. Uber ได้นำ Ray มาใช้กับแพลตฟอร์ม ML รุ่นต่อไปที่เรียกว่า Canvas (Lutsenko_Oleksandr/Shutterstock) “พวกเขายังทำงานค่อนข้างมากในการย้ายเฟรมเวิร์กบางส่วนมาไว้บน Ray” Stoica บอก Datanami เกี่ยวกับ Uber “หนึ่งคือ Horovod ซึ่งเป็นกรอบการฝึกอบรมแบบกระจายที่เป็นที่นิยม XGBoost อาจเป็นห้องสมุดการเรียนรู้ที่ไม่ใช่เชิงลึกที่ได้รับความนิยมมากที่สุด ….และพวกเขาใช้ Dask ซึ่งทำงานบน Ray ด้วย” งานเพื่อให้ Dask ทำงานบน Ray นั้นนำโดยวิศวกรที่ Descartes Lab ซึ่งเป็นบริษัทข่าวกรองเชิงพื้นที่ที่แยกตัวออกจากห้องปฏิบัติการแห่งชาติ Los Alamos ใน 200 บริษัทประสบปัญหาในการปรับขนาด Dask และกำลังมองหาวิธีแก้ไข “วิศวกรคนหนึ่งของพวกเขาตัดสินใจว่า เฮ้ ให้ฉันลองใช้งาน Ray เพื่อดูว่าจะช่วยปรับขนาดได้หรือไม่” Robert Nishahara ซีอีโอและผู้ร่วมก่อตั้ง Anyscale และผู้ร่วมสร้าง Ray กล่าว “และเขาเขียนโค้ด 22 เพียงเพื่อขจัดปัญหาคอขวดของการปรับขนาด” เมื่องานเสร็จสิ้นเพื่อรวมเฟรมเวิร์กการคำนวณเข้ากับ Ray แล้ว ประโยชน์ก็จะเกิดขึ้นกับผู้ใช้เฟรมเวิร์กในภายหลังทั้งหมด ประโยชน์ที่ใหญ่ที่สุดคือความสามารถในการปรับขนาดได้ เนื่องจาก Ray จะจัดการรายละเอียดที่สำคัญของแอปพลิเคชันแบบขนานที่ไม่ได้ออกแบบมาให้ทำงานในลักษณะแบบกระจายโดยอัตโนมัติ รันไทม์ของ Ray ยังช่วยลดความยุ่งยากในการจัดการคลัสเตอร์ “เมื่อห้องสมุดของคุณทำงานบน Ray แล้ว ตอนนี้คุณสามารถใช้ห้องสมุดอื่นๆ ได้ทั้งหมด” Stoica กล่าว “มันง่ายเหมือนกับการเรียกใช้ฟังก์ชันอื่น มันง่ายมาก นั่นคือพลังที่แท้จริง” อีกวิธีหนึ่งในการคิดเกี่ยวกับ Ray คือทำให้ “แล็ปท็อปที่ไม่มีที่สิ้นสุด” Nishihara กล่าว การลดความซับซ้อนของการประมวลผลแบบกระจายและทำให้คนทั่วไปเข้าถึงได้เป็นเป้าหมายสูงสุดของ Ray (Timofeev Vladimir/Shutterstock) “ทุกอย่างกำลังเคลื่อนไปที่คลาวด์ของเขา และการประมวลผลแบบกระจายก็มีความสำคัญมากขึ้นเรื่อยๆ” Nishihara กล่าว “[But] มีช่องว่างขนาดใหญ่ระหว่างสิ่งที่ต้องใช้ในการเขียนโปรแกรมบนแล็ปท็อปของคุณกับสิ่งที่ต้องใช้ในการเขียนโปรแกรมที่ปรับขนาดได้ซึ่งทำงานบนเครื่องหลายร้อยเครื่อง หลังใช้ความเชี่ยวชาญจำนวนมาก “เรากำลังพยายามสร้างมันขึ้นมา ดังนั้นหากคุณรู้วิธีเขียนโปรแกรมบนแลปทอป ก็เพียงพอแล้ว” เขากล่าวต่อ “จากนั้นคุณสามารถใช้ประโยชน์จากทรัพยากรระบบคลาวด์ทั้งหมด ด้วยประสบการณ์การเขียนโปรแกรมบนแล็ปท็อปของคุณที่คุ้นเคยสำหรับนักพัฒนา คุณไม่จำเป็นต้องเป็นผู้เชี่ยวชาญ” มีที่เก็บข้อมูลทั่วไปสองกลุ่มที่การรวม Ray ตกอยู่ใน: การรวมแบบตื้นและลึก การผสานรวมแบบตื้น ซึ่งคิดเป็นประมาณสองในสามของไลบรารีชุมชนที่มีอยู่ซึ่งผสานรวมกับ Ray ให้ผลตอบแทนจากการลงทุนที่เร็วที่สุด เนื่องจากต้องการการเปลี่ยนแปลงโค้ดเพียงประมาณหนึ่งวัน (ไม่นับการทดสอบ QA) “น้ำตื้นอาจฟังดูแย่ แต่จริงๆ แล้วเป็นสิ่งที่ดีเพราะมันง่ายกว่า” นิชิฮาระกล่าว “คุณได้รับประโยชน์ทั้งหมดจากการผสานรวมที่ง่ายมาก ดูแลรักษาง่ายและน้ำหนักเบา” จำเป็นต้องมีการบูรณาการที่ลึกซึ้งยิ่งขึ้นเพื่อบีบผลประโยชน์ทั้งหมดของการวิ่งบน Ray โดยเฉพาะอย่างยิ่งเมื่อพูดถึงประสิทธิภาพและความเสถียร Stoica กล่าว ในที่สุดการรวม Dask ก็เสร็จสมบูรณ์ในระดับลึก ผู้เข้าร่วม Ray Summit จะได้ยินเกี่ยวกับการปรับใช้ Dask on Ray ที่ Amazon ผู้ค้าปลีกออนไลน์ยอดนิยมรายหนึ่งมีงาน Dask ที่มีมูลค่า 1 ล้านเหรียญเพื่อดำเนินการ Nishihara กล่าว มันเปรียบเทียบว่างาน Dask ที่ทำงานบน Ray และพบว่ามีประโยชน์อย่างมากจากมุมมองด้านต้นทุน (แม้ว่าอาจจะไม่เป็นประโยชน์ต่อรายได้ของ AWS ในเครือก็ตาม) Ion Stoica ผู้ร่วมก่อตั้ง Anyscale กล่าวว่า Ray สามารถลดความซับซ้อนในการประมวลผลแบบกระจายได้ “เพียงแค่เปลี่ยนมันออกและทำงานบน Ray ก็ลดต้นทุนลงเหลือหนึ่งในสาม ซึ่งประหยัดได้มากกว่าครึ่งล้านต่องาน” Nishihara กล่าว “มันทำให้สามารถปรับขนาดได้มากขึ้นและทุกอย่างเพียงแค่สลับกับ Ray” ปัจจุบัน เกี่ยวกับ 20 แมชชีนเลิร์นนิงและเฟรมเวิร์กการเรียนรู้เชิงลึกได้ถูกรวมเข้ากับ Ray แล้ว ท่านสามารถดูรายการเต็มรูปแบบที่นี่. งานยังคงดำเนินต่อไปในไลบรารีเบื้องหลังเพิ่มเติม ซึ่งรวมถึง TensorFlow Ray ยังมาพร้อมกับไลบรารีแมชชีนเลิร์นนิงในตัวหลายตัว รวมถึง Tune สำหรับการปรับแต่งไฮเปอร์พารามิเตอร์ RLIb ห้องสมุดการเรียนรู้เสริมกำลัง RaySGD ชุดฝึกอบรมแบบกระจาย; และ Ray Serve สำหรับการให้บริการที่ปรับขนาดได้และตั้งโปรแกรมได้ Ray เป็นเฟรมเวิร์กการคำนวณทั่วไป แต่ส่วนใหญ่จะใช้ในการเรียนรู้ของเครื่องและปริมาณงาน AI ซึ่งมีความต้องการความสามารถในการปรับขนาดสูง Stoica กล่าวว่าไม่มีแผนที่จะผลักดันให้ฐานข้อมูลหรือระบบธุรกรรมทำงานบน Ray อย่างไรก็ตาม จากที่กล่าวมา มีความจำเป็นต้องสนับสนุนตรรกะทางธุรกิจและบริการขนาดเล็กภายใน Ray “เป้าหมายหลักของเราคือคนที่กำลังสร้างเครื่องมือเหล่านี้ ซึ่งกำลังสร้างแพลตฟอร์มเหล่านี้อยู่เหนือเรา และคนที่กำลังสร้างแอปพลิเคชันแบบ end-to-end” Stoica ผู้ซึ่งเคยเป็น

กล่าว Datanami คนที่น่าจับตามอง “คุณจะเห็นตัวอย่างมากมายที่การประชุมสุดยอดเรย์ นั่นเป็นเหตุผลว่าทำไมด้านการผลิตจึงมีความสำคัญมาก เพราะท้ายที่สุดแล้ว นั่นคือสิ่งที่แอปพลิเคชันต้องการ” การลงทะเบียนสำหรับการประชุมสุดยอด Ray 2021 ซึ่งไม่มีค่าใช้จ่าย กำลังดำเนินการอยู่ประมาณสองเท่าของงานปีที่แล้ว ซึ่ง Stoica ให้ความสำคัญกับการเติบโตของชุมชน ขณะนี้โปรเจ็กต์มีผู้มีส่วนร่วม 22 และมันเป็นกรอบการแจกจ่ายคอมพิวเตอร์ที่เติบโตเร็วที่สุดในแง่ของ GitHub Stars เขากล่าว หากต้องการเรียนรู้เพิ่มเติมเกี่ยวกับ Ray Summit หรือลงทะเบียน ไปที่ Rayummit.anyscale.com รายการที่เกี่ยวข้อง: การปรับขนาดให้สูงขึ้นที่การประชุมสุดยอด Ray ทำไมนักพัฒนา Python ทุกคนจะรัก Ray พบกับ Ray การแทนที่การเรียนรู้ด้วยเครื่องแบบเรียลไทม์สำหรับ Spark

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button