Data science

Nvidia Inference Engine รักษา BERT Latency ภายในมิลลิวินาที

เป็นเรื่องน่าละอายที่นักวิทยาศาสตร์ด้านข้อมูลของคุณใช้ความแม่นยำของโมเดลการเรียนรู้เชิงลึกในระดับที่สูงมาก เพียงเพื่อจะบังคับให้ใช้โมเดลสำหรับการอนุมานเนื่องจากข้อจำกัดด้านทรัพยากร แต่นั่นจะไม่ค่อยเกิดขึ้นกับเอ็นจิ้นการอนุมาน TensorRT ของ Nvidia รุ่นล่าสุด ซึ่งสามารถรันรุ่นหม้อแปลง BERT-Large ได้ในเวลาแฝงน้อยกว่ามิลลิวินาที ผู้ผลิตระบบ AI ประกาศในวันนี้ “ตามเนื้อผ้า การฝึกอบรมสำหรับ AI มักจะทำในศูนย์ข้อมูล” Siddharth Sharma หัวหน้าฝ่ายการตลาดผลิตภัณฑ์สำหรับซอฟต์แวร์ AI ของ Nvidia กล่าวในการบรรยายสรุปเมื่อวานนี้ “คุณเริ่มต้นด้วยข้อมูลระดับเพทาไบต์ ข้อมูลคำพูดหลายแสนชั่วโมง คุณฝึกโมเดลให้มีความแม่นยำสูงสุด และเมื่อคุณฝึกฝนมัน คุณจะโยนมันทิ้งไปเพื่อการอนุมานจริงๆ” แม้ว่าการสร้างโมเดลการเรียนรู้ของเครื่องอาจเป็นส่วนที่ยากที่สุดของไปป์ไลน์ AI แต่งานยังไม่เสร็จสิ้น ณ จุดนั้น อันที่จริง เมื่อคุณโยนแบบจำลองข้ามกำแพงเพื่อให้วิศวกรซอฟต์แวร์ใช้ค้อนทุบโค้ดที่ปรับใช้ได้ ก็ยังมีทางเลือกที่ค่อนข้างยากที่จะทำ นั่นเป็นเพราะปริมาณงานการอนุมานที่แท้จริงจะทำงานบนระบบที่มีประสิทธิภาพน้อยกว่าที่โมเดลได้รับการฝึกอบรมมามาก ซึ่งรวมถึงระบบฝังตัว บนรถยนต์ และอุปกรณ์ขอบอื่นๆ “คุณจะต้องทำการเลือกที่ยากมากเหล่านี้ในพารามิเตอร์ต่างๆ ขณะที่คุณพยายามปรับใช้” ชาร์มากล่าว “นี่เป็นหนึ่งในความท้าทายที่ยิ่งใหญ่ที่สุดในการปรับใช้แอปพลิเคชั่น AI ในปัจจุบัน: คุณจะเพิ่มหรือรักษาจำนวนความแม่นยำที่คุณสร้างขึ้นจากทีมวิจัยของคุณที่คุณฝึกฝนด้วยได้อย่างไร จากนั้นจึงนำเสนอให้กับลูกค้าของคุณด้วยจำนวนน้อยที่สุด เวลาแฝงที่คุณสามารถเรียกใช้ได้” TensorRT เชื่อมช่องว่างระหว่างการพัฒนาการเรียนรู้เชิงลึกและการปรับใช้ (เอื้อเฟื้อภาพ Nvidia) TensorRT เป็นซอฟต์แวร์ของ Nvidia ที่นำเสนอสำหรับการอนุมานปริมาณงาน รองรับโมเดลต่างๆ ทุกประเภท รวมถึงโครงข่ายประสาทที่เกิดซ้ำ โครงข่ายประสาทพร้อมกัน และหม้อแปลงรุ่นล่าสุด เช่น BERT ที่พัฒนาขึ้นในหลายภาษา ตั้งแต่ PyTorch ไปจนถึง TensorFlow ผลิตภัณฑ์มีอายุ 5 ปี และ TensorRT เวอร์ชัน 7 ซึ่งเป็นรีลีสล่าสุด ยังคงเป็นเจ้าของบันทึกการวัดประสิทธิภาพหลายรายการเพื่อความถูกต้องและประสิทธิภาพ เกณฑ์มาตรฐานเหล่านี้ดูเหมือนจะไม่นานสำหรับโลกนี้ อย่างไรก็ตาม เนื่องจาก Nvidia พร้อมที่จะส่งมอบ TensorRT 8 ซึ่งปรับปรุง TensorRT 7 ในหลาย ๆ ด้านที่สำคัญ รวมถึงการเพิ่มขึ้น 2 เท่าของประสิทธิภาพดิบ เพิ่มขึ้น 2 เท่า ปรับปรุงความแม่นยำโดยใช้จำนวนเต็มแปดบิตและรองรับแบบบางบน Ampere GPU การปรับปรุงดังกล่าวจะใช้ได้ดีเท่าๆ กันกับกรณีการใช้งาน AI ต่างๆ รวมถึงการเข้าใจภาษา การมองเห็นด้วยคอมพิวเตอร์ การถ่ายภาพทางการแพทย์ และระบบการแนะนำต่างๆ ชาร์มา กล่าว “TensorRT 8 เป็นโซลูชันการอนุมานที่ทันสมัยที่สุดที่มีอยู่ในตลาดในปัจจุบัน” เขากล่าว “และด้วยความสำเร็จเหล่านี้ เรารู้สึกตื่นเต้นมากที่จะได้เห็นว่านักพัฒนาจะทำอะไรได้บ้าง” การรองรับแบบบางแบบใหม่สำหรับ Ampere GPU ของ Nvidia จะช่วยให้สามารถตัดส่วนต่างๆ ของโมเดลออกได้โดยไม่กระทบต่อประสิทธิภาพการทำงาน “ดังนั้น ไม่ใช่ทุกส่วนของรูปแบบการเรียนรู้เชิงลึกที่มีความสำคัญเท่าเทียมกัน” ชาร์มากล่าว “น้ำหนักบางอย่างสามารถลดลงเหลือศูนย์ได้ นั่นหมายความว่า … คุณไม่จำเป็นต้องทำการคำนวณน้ำหนักเฉพาะเหล่านั้น นั่นน่าสนใจเพราะว่าตอนนี้ทำให้มีการคำนวณน้อยลง หน่วยความจำน้อยลง แบนด์วิดท์น้อยลง” ความแม่นยำที่เพิ่มขึ้น 2 เท่าเมื่อใช้จำนวนเต็มแปดบิต (INT8) มาจากสิ่งที่ Nvidia เรียกว่า Quantization Aware Training (QAT) จากข้อมูลของ Sharma นั้น Nvidia ได้ค้นพบวิธีที่จะบีบความแม่นยำในระดับเดียวกันเมื่อใช้ single-precision, 32-bit numbers (FP ) เมื่อใช้รูปแบบข้อมูล INT8 “หนึ่งในเทคนิคที่ใช้ใน Tensor RT คือการใช้การหาปริมาณ” ชาร์มากล่าว “แทนที่จะใช้ FP32 คุณพยายามใช้หนึ่งในสี่ของขนาดหน่วยความจำในการคำนวณ หมายความว่าตอนนี้คุณกำลังใช้บิตสองสามบิตเพื่อแทนจำนวนมหาศาลเหล่านี้ ดังนั้นการแยกย่อยจึงแตกต่างกันมาก TensorRT นำเสนอการสนับสนุนสำหรับการรันโมเดลแบบเบาบางบน Ampere GPU “เนื่องจากคุณใช้ตัวเลขน้อยลง คุณจึงมักจะสูญเสียความแม่นยำ” เขากล่าวต่อ “แต่การใช้เทคนิคนี้ คุณสามารถรักษาความแม่นยำแบบเดียวกับที่คุณมีกับ FP32 นี่เป็นเรื่องเหลือเชื่อเพราะแทบไม่เคยได้ยินมาก่อนในอุตสาหกรรมนี้ ดังนั้นฉันจะบอกว่านี่เป็นความสำเร็จที่น่าทึ่งจริงๆ ซึ่งช่วยให้เรารักษาความแม่นยำในขณะที่ให้ประสิทธิภาพสูงจริงๆ ด้วย TensorRT8” การปรับปรุงความเร็วและความแม่นยำใน TensorRT8 นั้นยอดเยี่ยมมากจนสามารถส่งมอบเวลาแฝงที่ต่ำกว่ามิลลิวินาทีสำหรับ BERT ได้ Sharma กล่าว นั่นอาจหมายถึงความแตกต่างระหว่างการมอบประสบการณ์การอนุมานที่ประสบความสำเร็จและน่าพอใจสำหรับผู้ใช้ผลิตภัณฑ์การเรียนรู้เชิงลึก และการตัดสินเพื่อรับประสบการณ์อัตราที่สองที่มองข้ามความแม่นยำหรือความเร็ว “BERT-Large บรรลุความแม่นยำที่เหนือกว่าความแม่นยำพื้นฐานของมนุษย์ในแอพพลิเคชั่นต่างๆ ที่หลากหลาย” ชาร์มากล่าว “แต่เนื่องจากมันมีขนาดใหญ่ บริษัทต่างๆ จึงต้องตัดสินใจอย่างหนักจริงๆ ว่าพวกเขาจะปรับใช้อะไร” ตัวอย่างเช่น บางบริษัทต้องลดขนาดของโมเดล BERT-Large ของตนลง 50% หรือมากกว่าเพื่อให้เวลาแฝงอยู่ในช่วงที่จัดการได้ พูดได้ว่าสองหรือสามมิลลิวินาที Sharma กล่าว ดังนั้นลูกค้าที่มีรูปแบบการเรียนรู้เชิงลึกชั้นสูง 12 ที่ได้รับการฝึกฝนมาเป็นอย่างดีอาจต้องตัดโมเดลเก้าตัวออกและออกสู่ตลาดด้วยแบบจำลองที่มีเพียง สามชั้นเพื่อให้เวลาแฝงอยู่ในช่วง “คุณสามารถจินตนาการถึงความแม่นยำที่พวกเขาสูญเสียไป” ชาร์มากล่าว “ความแม่นยำในการค้นหาหมายความว่าระบบค้นหาของคุณไม่เข้าใจสิ่งที่คุณพูด คำแนะนำโฆษณาของคุณหมายความว่าคำแนะนำที่คุณได้รับนั้นแย่กว่ามาก เนื่องจากคำอธิบายของออบเจ็กต์ของคุณไม่ตรงกับข้อความค้นหาที่คุณขอ บอทแชทเมื่อคุณพูดกับแอปพลิเคชันต่างๆ พวกเขาไม่เข้าใจความแตกต่างกันเล็กน้อย พวกเขาไม่เข้าใจสิ่งที่คุณพูดเช่นกัน ดังนั้นจึงนำไปสู่ประสบการณ์ที่ต่ำกว่ามาตรฐานทั่วกระดาน” แต่ความสามารถในการปรับใช้โมเดล BERT-Large ทั้งหมด และรักษาเวลาตอบสนองภายในหนึ่งมิลลิวินาทีจะมีผลกระทบอย่างมาก เขากล่าว “นั่นเป็นเรื่องใหญ่และฉันเชื่อว่านั่นจะนำไปสู่แอปพลิเคชั่น AI การสนทนารุ่นใหม่อย่างสมบูรณ์ ระดับความฉลาด ระดับเวลาแฝงที่ไม่เคยได้ยินมาก่อน” ชาร์มากล่าว ผู้แนะนำกำลังขยายตัวตามรายงานของ Nvidia Nvidia ยังประกาศว่าหนึ่งในทีมวิทยาศาสตร์ข้อมูลของตนชนะการแข่งขันหลายรายการรวมถึง Booking.com Challenge และใช้จุดข้อมูลที่ไม่ระบุชื่อนับล้านเพื่อทำนายเมืองสุดท้ายที่นักท่องเที่ยวในยุโรปจะเลือก เยี่ยมชมและ SIGIR eCommerce Data Challenge ซึ่งพยายามตรวจจับสัญญาณการซื้อในข้อมูลที่รวบรวมจากเซสชันอีคอมเมิร์ซของลูกค้า ในช่วงปลายเดือนมิถุนายน Nvidia ชนะการแข่งขันครั้งที่สามในรอบห้าเดือนเมื่อได้อันดับหนึ่งใน ACM RecSys Challenge การแข่งขันนี้เกี่ยวข้องกับการคาดการณ์ว่าทวีตใดที่ผู้ใช้ Twitter ต้องการหรือรีทวีต โดยอิงจากชุดการฝึกอบรมที่รวมจุดข้อมูลสี่ล้านจุดต่อวันเป็นเวลา 23 วัน ทีมงานมีหน่วยความจำ 20GB, CPU ตัวเดียว, a 12-ชั่วโมง เวลาที่ จำกัด. ใช้ 23 ชั่วโมงและ 40 นาที และได้โมเดลที่ชนะ Benedikt Schifferer หนึ่งในสมาชิกทีม Data Science ของ Nvidia กล่าว “อีเมลเข้ามาใต้เสียงกริ่ง — 20 นาทีต่อมา และเราจะหมดเวลา” Chris Deotte สมาชิกในทีมอีกคนที่เป็น Kaggle ปรมาจารย์. ต่อมา ทีมงานใช้รุ่นเดียวกันบน GPU Nvidia A100 ตัวเดียว ใช้เวลาเพียงห้านาทีครึ่ง รายการที่เกี่ยวข้อง: Cloudera ทีมงาน Nvidia เพื่อเร่งความเร็ว Cloud AI ผ่าน Spark จาร์วิสของ Nvidia เสนอผู้เชี่ยวชาญด้านการแปลด้วยเครื่องแบบเรียลไทม์ไม่เห็นด้วยกับยูทิลิตี้ของโมเดลภาษาขนาดใหญ่

  • บ้าน
  • Business
  • Data science
  • Marketing
  • Leave a Reply

    Your email address will not be published. Required fields are marked *

    Back to top button