Data science

Yandex พบวิธีที่ดีกว่าในการฝึกโมเดล ML ผ่านอินเทอร์เน็ต

ข้อเสนอใหม่จาก Yandex ยักษ์ใหญ่ด้านเทคโนโลยีสามารถเอาชนะอุปสรรคสำคัญในความก้าวหน้าของการเรียนรู้ด้วยเครื่องโดยนำกระบวนการนี้ไปใช้กับผู้คนจำนวนมาก เพื่อให้ทุกคนที่มีคอมพิวเตอร์ที่บ้านสามารถช่วยฝึกอบรมโครงข่ายประสาทเทียมขนาดใหญ่ได้ แอปพลิเคชันการเรียนรู้เชิงลึกสมัยใหม่ต้องการ GPU จำนวนมาก ซึ่งอาจมีค่าใช้จ่ายสูง และโดยปกติแล้วจะเข้าถึงได้เฉพาะบริษัทและสถาบันที่ได้รับทุนสนับสนุนดีเท่านั้น เพื่อให้แน่ใจว่าการฝึกอบรมโมเดล ML ไม่ได้เป็นเพียงโดเมนขององค์กรขนาดใหญ่ที่สามารถซื้อเทคโนโลยีที่จำเป็นได้ นักพัฒนาจึงได้ทดลองกับการรวบรวมทรัพยากรการคำนวณของกลุ่มอาสาสมัคร การคำนวณแบบกริดหรือแบบอาสาสมัครเป็นความคิดที่ดี แต่มีปัญหาเกี่ยวกับเวลาแฝงสูง แบนด์วิดท์ที่ไม่สมดุล และความท้าทายเฉพาะสำหรับการประมวลผลแบบอาสาสมัคร Yandex กำลังเสนอโซลูชันที่เรียกว่า Distributed Deep Learning ใน Open Collaborations (DeDLOC) ซึ่งจัดการกับความท้าทายเหล่านั้นโดยใช้คุณลักษณะที่ดีที่สุดของข้อมูลคู่ขนานใน GPU และปรับปรุงเทคนิคการฝึกอบรมแบบกระจายที่เป็นที่นิยม DeDLOC ทำให้ทุกคนในชุมชน ML สามารถดำเนินการฝึกอบรมล่วงหน้าแบบกระจายขนาดใหญ่กับเพื่อนของตนได้ เฟรมเวิร์กอัลกอริธึมใหม่ปรับตัวเองให้เข้ากับเครือข่ายและการตั้งค่าฮาร์ดแวร์ต่างๆ ของผู้เข้าร่วมเพื่อการถ่ายโอนข้อมูลอย่างมีประสิทธิภาพ DeDLOC ได้รับการทดสอบเรียบร้อยแล้ว ทีมนักวิจัยของ Yandex ร่วมกับ Hugging Face ศาสตราจารย์จากมหาวิทยาลัยโตรอนโตและคนอื่นๆ ใช้วิธีนี้ในการฝึก sahajBERT ซึ่งเป็นแบบจำลองสำหรับภาษาเบงกาลีด้วย อาสาสมัคร ในงานดาวน์สตรีม โมเดลมีคุณภาพเทียบเท่ากับโมเดลขนาดใหญ่กว่ามากโดยใช้ตัวเร่งความเร็วระดับสูงหลายร้อยตัว DeDLOC อาจมีความสำคัญสำหรับ NLP หลายภาษา ตอนนี้ ชุมชนสำหรับภาษาใดๆ สามารถฝึกโมเดลของตนเองได้โดยไม่ต้องใช้ทรัพยากรด้านการคำนวณจำนวนมากรวมอยู่ในที่เดียว สามารถดู repo GitHub ที่เชื่อมโยงกับ DeDLOC ได้ ที่นี่ เอกสารการวิจัย DeDLOC สามารถพบได้ที่นี่: https://arxiv.org/abs/2106.10207 ลงทะเบียนฟรี ภายในจดหมายข่าว BIGDATA เข้าร่วมกับเราบน Twitter: @InsideBigData1 – https://twitter.com/InsideBigData1

  • บ้าน
  • Business
  • Data science
  • Marketing
  • Leave a Reply

    Your email address will not be published. Required fields are marked *

    Back to top button