Data science

ที่สุดของ arXiv.org สำหรับ AI, Machine Learning และ Deep Learning – กรกฎาคม 2021

ในคุณลักษณะรายเดือนที่เกิดซ้ำนี้ เรากรองเอกสารการวิจัยล่าสุดที่ปรากฏบนเซิร์ฟเวอร์การพิมพ์ล่วงหน้า arXiv.org สำหรับหัวข้อที่น่าสนใจที่เกี่ยวข้องกับ AI การเรียนรู้ของเครื่อง และการเรียนรู้เชิงลึก จากสาขาวิชาต่างๆ รวมถึงสถิติ คณิตศาสตร์ และวิทยาการคอมพิวเตอร์ และมอบ “สิ่งที่ดีที่สุด” ที่มีประโยชน์ ของ” รายการสำหรับเดือนที่ผ่านมา นักวิจัยจากทั่วโลกมีส่วนร่วมในพื้นที่เก็บข้อมูลนี้เป็นบทนำสู่กระบวนการตรวจสอบโดยเพื่อนเพื่อตีพิมพ์ในวารสารแบบดั้งเดิม arXiv มีขุมสมบัติที่แท้จริงของวิธีการเรียนรู้ทางสถิติที่คุณอาจใช้ในวันหนึ่งในการแก้ปัญหาวิทยาศาสตร์ข้อมูล บทความที่แสดงด้านล่างนี้เป็นเพียงส่วนเล็กๆ ของบทความทั้งหมดที่ปรากฏบนเซิร์ฟเวอร์การพิมพ์ล่วงหน้า มีการระบุไว้ในลำดับที่ไม่เจาะจงพร้อมลิงก์ไปยังเอกสารแต่ละฉบับพร้อมกับภาพรวมโดยย่อ ลิงก์ไปยังที่เก็บ GitHub มีให้เมื่อพร้อมใช้งาน บทความที่เกี่ยวข้องโดยเฉพาะจะมีไอคอน “ยกนิ้วให้” พิจารณาว่าเอกสารเหล่านี้เป็นงานวิจัยทางวิชาการ ซึ่งโดยทั่วไปแล้วจะเน้นไปที่นักศึกษาระดับบัณฑิตศึกษา เอกสารทางไปรษณีย์ และผู้เชี่ยวชาญที่ช่ำชอง โดยทั่วไปแล้วจะมีวิชาคณิตศาสตร์ในระดับสูง ดังนั้นจงเตรียมพร้อม สนุก! Learning with Multiclass AUC: Theory and Algorithms The Area under the ROC curve (AUC) เป็นตัวชี้วัดการจัดอันดับที่รู้จักกันดีสำหรับปัญหาต่างๆ เช่น การเรียนรู้ที่ไม่สมดุลและระบบผู้แนะนำ วิธีการเรียนรู้ของเครื่องที่ใช้ AUC-optimization-based machine learning ที่มีอยู่ส่วนใหญ่จะเน้นเฉพาะกรณีของไบนารีคลาส โดยไม่พิจารณากรณีแบบหลายคลาส เอกสารนี้เริ่มต้นการทดลองใช้ในช่วงแรกเพื่อพิจารณาปัญหาของการเรียนรู้ฟังก์ชันการให้คะแนนแบบหลายคลาสผ่านการเพิ่มประสิทธิภาพเมตริก AUC แบบหลายคลาส รากฐานของเราอิงตามเมตริก M ซึ่งเป็นส่วนขยายหลายคลาสที่รู้จักกันดีของ AUC บทความนี้กล่าวถึงตัวชี้วัดนี้อีกครั้ง ซึ่งแสดงให้เห็นว่าสามารถขจัดปัญหาความไม่สมดุลออกจากคู่ของชนกลุ่มน้อยได้ ด้วยแรงจูงใจจากสิ่งนี้ จึงขอเสนอกรอบการลดความเสี่ยงจากตัวแทนเสมือนเชิงประจักษ์เพื่อเพิ่มประสิทธิภาพเมตริก M โดยประมาณ ในทางทฤษฎี มันแสดงให้เห็นว่า: (i) การเพิ่มประสิทธิภาพการสูญเสียตัวแทนเสมือนที่ได้รับความนิยมส่วนใหญ่นั้นเพียงพอแล้วที่จะไปถึงฟังก์ชันการให้คะแนนที่ดีที่สุดของ Bayes โดยไม่มีการแสดงอาการ; (ii) กรอบงานการฝึกอบรมมีข้อผิดพลาดทั่วไปที่คำนึงถึงความไม่สมดุล ซึ่งให้ความสำคัญกับตัวอย่างคอขวดของชนกลุ่มน้อยมากกว่าเมื่อเทียบกับผลลัพธ์ O(√(1/N)) แบบดั้งเดิม ในทางปฏิบัติ เพื่อจัดการกับความสามารถในการปรับขยายที่ต่ำของการดำเนินการทางคอมพิวเตอร์ มีการเสนอวิธีการเร่งความเร็วสำหรับฟังก์ชันการสูญเสียตัวแทนเสมือนยอดนิยมสามฟังก์ชัน ซึ่งรวมถึงการสูญเสียแบบเอ็กซ์โพเนนเชียล การสูญเสียกำลังสอง และการสูญเสียส่วนพับ เพื่อเร่งการประเมินการสูญเสียและการไล่ระดับสี สุดท้าย ผลการทดลองบน 11 ชุดข้อมูลในโลกแห่งความเป็นจริง แสดงให้เห็นถึงประสิทธิภาพของกรอบการทำงานที่เราเสนอ การประเมินโมเดลภาษาขนาดใหญ่ที่ฝึกด้วยโค้ด เอกสารนี้จะแนะนำ Codex ซึ่งเป็นโมเดลภาษา GPT ที่ปรับแต่งอย่างละเอียดในโค้ดที่เผยแพร่ต่อสาธารณะจาก GitHub และศึกษาความสามารถในการเขียนโค้ด Python Codex เวอร์ชันที่ใช้งานจริงที่โดดเด่นคือ GitHub Copilot ใน HumanEval ชุดการประเมินใหม่ที่เปิดตัวเพื่อวัดความถูกต้องของฟังก์ชันสำหรับการสังเคราะห์โปรแกรมจากเอกสาร ตัวแบบจะแก้ปัญหา 28 8% ของปัญหา ในขณะที่ GPT- 3 แก้ 0% และ GPT-J แก้ 11.4%. นอกจากนี้ การสุ่มตัวอย่างซ้ำจากแบบจำลองยังเป็นกลยุทธ์ที่มีประสิทธิภาพอย่างน่าประหลาดใจสำหรับการผลิตโซลูชันการทำงานไปจนถึงการแจ้งปัญหาที่ยาก ใช้วิธีนี้ 70.2% ของปัญหาได้รับการแก้ไขด้วย 100 ตัวอย่างต่อปัญหา การตรวจสอบโมเดลอย่างละเอียดถี่ถ้วนเผยให้เห็นข้อจำกัด ซึ่งรวมถึงความยากลำบากในเอกสารประกอบที่อธิบายการดำเนินการที่ยาวเหยียดและการดำเนินการผูกมัดกับตัวแปร สุดท้ายนี้ จะมีการหารือถึงผลกระทบที่อาจเกิดขึ้นในวงกว้างของการปรับใช้เทคโนโลยีการสร้างโค้ดที่มีประสิทธิภาพ ซึ่งครอบคลุมความปลอดภัย การรักษาความปลอดภัย และเศรษฐศาสตร์ สมมติฐานตั๋วลอตเตอรีทั่วไป บทความนี้นำเสนอภาพรวมของสมมติฐานตั๋วลอตเตอรีซึ่งแนวคิดของ “ความกระปรี้กระเปร่า” ผ่อนคลายโดยการเลือกพื้นฐานโดยพลการในช่องว่างของพารามิเตอร์ มีการเสนอหลักฐานว่าผลลัพธ์ดั้งเดิมที่รายงานสำหรับเกณฑ์ตามบัญญัติยังคงมีอยู่ในการตั้งค่าที่กว้างขึ้นนี้ มีการอธิบายวิธีการตัดแต่งกิ่งแบบมีโครงสร้าง ซึ่งรวมถึงหน่วยการตัดแต่งกิ่งหรือการแยกตัวประกอบชั้นที่เชื่อมต่ออย่างสมบูรณ์ลงในผลิตภัณฑ์ของเมทริกซ์ระดับต่ำ สามารถใช้เป็นตัวอย่างเฉพาะของสมมติฐานตั๋วลอตเตอรี “ทั่วไป” นี้ได้ YOLOX: Exceeding YOLO Series in 2021 บทความนี้นำเสนอการปรับปรุงที่มีประสบการณ์ในซีรีส์ YOLO โดยสร้างเครื่องตรวจจับประสิทธิภาพสูงตัวใหม่ — YOLOX เครื่องตรวจจับ YOLO ถูกสลับไปใช้ลักษณะที่ไม่มีจุดยึดและดำเนินการเทคนิคการตรวจจับขั้นสูงอื่นๆ เช่น หัวแยกและกลยุทธ์การกำหนดฉลากชั้นนำ SimOTA เพื่อให้ได้ผลลัพธ์ที่ล้ำสมัยในรุ่นต่างๆ มากมาย: สำหรับ YOLO -นาโนที่มีเพียง 0.91พารามิเตอร์ M และ 1.G FLOPs, 25 พบ AP 3% บน COCO แซงหน้า NanoDet 1.8% AP; สำหรับ YOLOv3 ซึ่งเป็นหนึ่งในเครื่องตรวจจับที่ใช้กันอย่างแพร่หลายมากที่สุดในอุตสาหกรรม และได้รับการปรับปรุงเป็น 47 3% AP บน COCO ซึ่งมีประสิทธิภาพเหนือกว่าแนวปฏิบัติที่ดีที่สุดในปัจจุบัน 3.0% เอพี; สำหรับ YOLOX-L ที่มีจำนวนพารามิเตอร์ใกล้เคียงกับ YOLOv4-CSP, YOLOv5-L, 25.0% AP บน COCO ทำได้ด้วยความเร็ว 68.9 FPS บน Tesla V100 เกิน YOLOv5-L 1.8% AP สามารถดู repo GitHub ที่เกี่ยวข้องกับบทความนี้ได้ ที่นี่ CBNetV2: สถาปัตยกรรมเครือข่ายแบ็คโบนแบบคอมโพสิตสำหรับการตรวจจับวัตถุ เครื่องตรวจจับวัตถุที่มีประสิทธิภาพสูงสมัยใหม่พึ่งพาเครือข่ายแกนหลักอย่างมาก ซึ่งความก้าวหน้านำมาซึ่งประสิทธิภาพที่เพิ่มขึ้นอย่างต่อเนื่องผ่านการสำรวจโครงสร้างเครือข่ายที่มีประสิทธิภาพมากขึ้น เอกสารนี้เสนอเฟรมเวิร์กแบ็คโบนที่แปลกใหม่และยืดหยุ่น ได้แก่ CBNetV2 เพื่อสร้างเครื่องตรวจจับประสิทธิภาพสูงโดยใช้แบ็คโบนที่ได้รับการฝึกอบรมล่วงหน้าแบบโอเพนซอร์สที่มีอยู่ภายใต้กระบวนทัศน์การปรับแต่งแบบละเอียดก่อนการฝึกอบรม โดยเฉพาะอย่างยิ่ง สถาปัตยกรรม CBNetV2 จะจัดกลุ่มแบ็คโบนที่เหมือนกันหลายตัว ซึ่งเชื่อมต่อผ่านการเชื่อมต่อแบบผสม โดยเฉพาะอย่างยิ่ง มันรวมคุณสมบัติระดับสูงและระดับต่ำของเครือข่ายแกนหลักหลายเครือข่าย และค่อยๆ ขยายฟิลด์ที่เปิดกว้างเพื่อดำเนินการตรวจจับวัตถุได้อย่างมีประสิทธิภาพมากขึ้น ข้อเสนอยังเป็นกลยุทธ์การฝึกอบรมที่ดีขึ้นโดยมีผู้ช่วยกำกับดูแลสำหรับเครื่องตรวจจับที่ใช้ CBNet หากไม่มีการฝึกอบรมล่วงหน้าเพิ่มเติมของแกนหลักคอมโพสิต CBNetV2 สามารถปรับให้เข้ากับแกนหลักต่างๆ (แบบ CNN เทียบกับแบบ Transformer-based) และการออกแบบส่วนหัวของเครื่องตรวจจับกระแสหลักส่วนใหญ่ (แบบหนึ่งขั้นตอนกับแบบสองขั้นตอน แบบยึดกับจุดยึดเทียบกับแบบสมอ -ฟรีตาม) สามารถดู repo GitHub ที่เกี่ยวข้องกับบทความนี้ได้ ที่นี่ Global Filter Networks for Image Classification ความก้าวหน้าล่าสุดในโมเดลการใส่ใจตนเองและโมเดล Perceptrons หลายชั้น (MLP) สำหรับการมองเห็นได้แสดงให้เห็นศักยภาพที่ยอดเยี่ยมในการบรรลุประสิทธิภาพที่มีแนวโน้มดีโดยมีอคติเชิงอุปนัยน้อยลง โมเดลเหล่านี้โดยทั่วไปอิงจากการเรียนรู้ปฏิสัมพันธ์ระหว่างสถานที่เชิงพื้นที่จากข้อมูลดิบ ความซับซ้อนของการใส่ใจตนเองและ MLP จะเพิ่มขึ้นเป็นสองเท่าเมื่อขนาดภาพเพิ่มขึ้น ซึ่งทำให้โมเดลเหล่านี้ปรับขนาดได้ยากเมื่อต้องใช้คุณสมบัติความละเอียดสูง เอกสารนี้นำเสนอ Global Filter Network (GFNet) ซึ่งเป็นสถาปัตยกรรมที่เรียบง่ายแต่มีประสิทธิภาพในการคำนวณ ซึ่งเรียนรู้การพึ่งพาเชิงพื้นที่ในระยะยาวในโดเมนความถี่ที่มีความซับซ้อนเชิงบันทึกเชิงเส้น สถาปัตยกรรมแทนที่เลเยอร์การเอาใจใส่ตนเองในหม้อแปลงวิชั่นด้วยการทำงานหลักสามประการ: การแปลงฟูริเยร์แบบแยก 2 มิติ การคูณองค์ประกอบอย่างชาญฉลาดระหว่างคุณสมบัติโดเมนความถี่และตัวกรองทั่วโลกที่เรียนรู้ได้ และการแปลงฟูริเยร์ผกผัน 2 มิติ มีการแสดงการแลกเปลี่ยนความแม่นยำ/ความซับซ้อนที่น่าพอใจของโมเดลทั้งในงาน ImageNet และดาวน์สตรีม ผลลัพธ์แสดงให้เห็นว่า GFNet สามารถเป็นทางเลือกที่แข่งขันได้มากสำหรับโมเดลรูปแบบหม้อแปลงไฟฟ้าและ CNN ในด้านประสิทธิภาพ ความสามารถทั่วไป และความคงทน สามารถดู repo GitHub ที่เกี่ยวข้องกับบทความนี้ได้ ที่นี่ Perceiver IO: สถาปัตยกรรมทั่วไปสำหรับอินพุตและเอาต์พุตที่มีโครงสร้าง โมเดล Perceiver ที่เสนอเมื่อเร็วๆ นี้ได้รับผลลัพธ์ที่ดีในหลายโดเมน (ภาพ เสียง หลายรูปแบบ จุดคลาวด์) ในขณะที่ปรับขนาดเป็นเส้นตรงในการประมวลผลและหน่วยความจำด้วยขนาดอินพุต แม้ว่า Perceiver จะสนับสนุนอินพุตหลายประเภท แต่ก็สามารถสร้างผลลัพธ์ที่ง่ายมากเท่านั้น เช่น คะแนนในชั้นเรียน Perceiver IO เอาชนะข้อ จำกัด นี้โดยไม่สูญเสียคุณสมบัติที่น่าสนใจของต้นฉบับโดยการเรียนรู้ที่จะค้นหาพื้นที่แฝงของแบบจำลองอย่างยืดหยุ่นเพื่อสร้างผลลัพธ์ที่มีขนาดและความหมายโดยพลการ Perceiver IO ยังคงแยกความลึกของโมเดลออกจากขนาดข้อมูล และยังคงปรับขนาดเชิงเส้นตามขนาดข้อมูล แต่ตอนนี้ เกี่ยวกับขนาดอินพุตและเอาต์พุต โมเดล Perceiver IO แบบเต็มให้ผลลัพธ์ที่ดีในงานที่มีพื้นที่เอาต์พุตที่มีโครงสร้างสูง เช่น ภาษาธรรมชาติและความเข้าใจด้วยภาพ, StarCraft II และโดเมนมัลติทาสก์และมัลติโมดอล ในฐานะไฮไลท์ Perceiver IO จะจับคู่พื้นฐาน BERT ที่ใช้ Transformer บนเกณฑ์มาตรฐานภาษา GLUE โดยไม่จำเป็นต้องใช้โทเค็นอินพุตและบรรลุประสิทธิภาพอันล้ำสมัยในการประมาณการไหลของแสงของ Sintel สามารถดู repo GitHub ที่เกี่ยวข้องกับบทความนี้ได้ ที่นี่ การต่อต้านปัญหาข้อมูลที่ไม่อยู่ในการกระจายในการก่อกวนของ XAI ด้วยการพัฒนาอย่างรวดเร็วของปัญญาประดิษฐ์ eXplainable (XAI) อัลกอริธึม XAI ที่อิงการก่อกวนจึงได้รับความนิยมอย่างมากเนื่องจากประสิทธิภาพและความง่ายในการใช้งาน เทคนิค XAI ที่อิงการก่อกวนส่วนใหญ่เผชิญกับความท้าทายของข้อมูล Out-of-Distribution (OoD) ซึ่งเป็นสิ่งประดิษฐ์ของข้อมูลที่รบกวนแบบสุ่มไม่สอดคล้องกับชุดข้อมูลดั้งเดิม ข้อมูล OoD นำไปสู่ปัญหาความมั่นใจมากเกินไปในการคาดการณ์แบบจำลอง ทำให้แนวทาง XAI ที่มีอยู่ไม่น่าเชื่อถือ ปัญหาข้อมูล OoD ในอัลกอริธึม XAI ที่ก่อกวนยังไม่ได้รับการแก้ไขอย่างเพียงพอในเอกสาร บทความนี้กล่าวถึงปัญหาข้อมูล OoD นี้โดยการออกแบบโมดูลเพิ่มเติมซึ่งระบุความสัมพันธ์ระหว่างข้อมูลที่รบกวนและการกระจายชุดข้อมูลดั้งเดิม ซึ่งรวมอยู่ในกระบวนการรวมกลุ่ม โซลูชันนี้แสดงให้เห็นว่าเข้ากันได้กับอัลกอริธึม XAI ที่ได้รับความนิยมมากที่สุด เช่น RISE, OCCLUSION และ LIME การทดลองยืนยันว่าวิธีการที่เสนอนี้แสดงให้เห็นถึงการปรับปรุงที่สำคัญในกรณีทั่วไปโดยใช้เมตริกทั้งการคำนวณและการรับรู้ LocalGLMnet: การเรียนรู้เชิงลึกที่ตีความได้สำหรับข้อมูลแบบตาราง โมเดลการเรียนรู้เชิงลึกได้รับความนิยมอย่างมากในการสร้างแบบจำลองทางสถิติ เพราะมันนำไปสู่ตัวแบบการถดถอยที่มีการแข่งขันสูง ซึ่งมักจะทำได้ดีกว่าตัวแบบทางสถิติแบบดั้งเดิม เช่น ตัวแบบเชิงเส้นทั่วไป ข้อเสียของโมเดลการเรียนรู้เชิงลึกคือโซลูชันของพวกเขานั้นตีความและอธิบายได้ยาก และการเลือกตัวแปรนั้นทำได้ยากเนื่องจากโมเดลการเรียนรู้เชิงลึกจะแก้ปัญหาวิศวกรรมคุณลักษณะและการเลือกตัวแปรภายในด้วยวิธีที่ไม่โปร่งใส บทความนี้ได้รับแรงบันดาลใจจากโครงสร้างที่น่าดึงดูดใจของโมเดลเชิงเส้นทั่วไป บทความนี้จึงเสนอสถาปัตยกรรมเครือข่ายใหม่ซึ่งใช้คุณลักษณะที่คล้ายคลึงกันในรูปแบบโมเดลเชิงเส้นทั่วไป แต่ให้พลังการทำนายที่เหนือกว่าซึ่งได้ประโยชน์จากศิลปะของการเรียนรู้แบบเป็นตัวแทน สถาปัตยกรรมใหม่นี้ช่วยให้สามารถเลือกตัวแปรของข้อมูลแบบตารางและสำหรับการตีความแบบจำลองการเรียนรู้เชิงลึกที่ปรับเทียบแล้ว อันที่จริง วิธีการดังกล่าวทำให้เกิดการสลายตัวเพิ่มเติมในจิตวิญญาณของค่า Shapley และการไล่ระดับสีแบบบูรณาการ ลงทะเบียนเพื่อรับจดหมายข่าว InsideBIGDATA ฟรี เข้าร่วมกับเราบน Twitter: @InsideBigData1 – https://twitter.com/InsideBigData1

  • บ้าน
  • Business
  • Data science
  • Marketing
  • Leave a Reply

    Your email address will not be published. Required fields are marked *

    Back to top button