Data science

สุดยอดของ arXiv.org สำหรับ AI, Machine Learning และ Deep Learning – สิงหาคม 2021

ในคุณลักษณะรายเดือนที่เกิดซ้ำนี้ เรากรองเอกสารการวิจัยล่าสุดที่ปรากฏบนเซิร์ฟเวอร์การพิมพ์ล่วงหน้า arXiv.org สำหรับหัวข้อที่น่าสนใจที่เกี่ยวข้องกับ AI การเรียนรู้ของเครื่อง และการเรียนรู้เชิงลึก จากสาขาวิชาต่างๆ รวมถึงสถิติ คณิตศาสตร์ และวิทยาการคอมพิวเตอร์ และมอบ “สิ่งที่ดีที่สุด” ที่มีประโยชน์ ของ” รายการสำหรับเดือนที่ผ่านมา นักวิจัยจากทั่วโลกมีส่วนร่วมในพื้นที่เก็บข้อมูลนี้เป็นบทนำสู่กระบวนการตรวจสอบโดยเพื่อนเพื่อตีพิมพ์ในวารสารแบบดั้งเดิม arXiv มีขุมสมบัติที่แท้จริงของวิธีการเรียนรู้ทางสถิติที่คุณอาจใช้ในวันหนึ่งในการแก้ปัญหาวิทยาศาสตร์ข้อมูล บทความที่แสดงด้านล่างนี้เป็นเพียงส่วนเล็กๆ ของบทความทั้งหมดที่ปรากฏบนเซิร์ฟเวอร์การพิมพ์ล่วงหน้า มีการระบุไว้ในลำดับที่ไม่เจาะจงพร้อมลิงก์ไปยังเอกสารแต่ละฉบับพร้อมกับภาพรวมโดยย่อ ลิงก์ไปยังที่เก็บ GitHub มีให้เมื่อพร้อมใช้งาน บทความที่เกี่ยวข้องโดยเฉพาะจะมีไอคอน “ยกนิ้วให้” พิจารณาว่าเอกสารเหล่านี้เป็นงานวิจัยทางวิชาการ ซึ่งโดยทั่วไปแล้วจะเน้นไปที่นักศึกษาระดับบัณฑิตศึกษา เอกสารทางไปรษณีย์ และผู้เชี่ยวชาญที่ช่ำชอง โดยทั่วไปแล้วจะมีวิชาคณิตศาสตร์ในระดับสูง ดังนั้นจงเตรียมพร้อม สนุก! เกี่ยวกับโอกาสและความเสี่ยงของแบบจำลองพื้นฐาน AI กำลังอยู่ระหว่างการเปลี่ยนกระบวนทัศน์ด้วยโมเดลที่เพิ่มขึ้น (เช่น BERT, DALL-E, GPT-3) ที่ได้รับการฝึกอบรมเกี่ยวกับข้อมูลในวงกว้างและสามารถปรับให้เข้ากับงานปลายน้ำได้หลากหลาย . โมเดลเหล่านี้ถือได้ว่าเป็นแบบจำลองพื้นฐานเพื่อเน้นย้ำถึงคุณลักษณะที่เป็นจุดศูนย์กลางที่สำคัญแต่ยังไม่สมบูรณ์ เอกสารนี้ให้รายละเอียดเกี่ยวกับโอกาสและความเสี่ยงของแบบจำลองพื้นฐาน ตั้งแต่ความสามารถ (เช่น ภาษา วิสัยทัศน์ วิทยาการหุ่นยนต์ การใช้เหตุผล ปฏิสัมพันธ์ของมนุษย์) และหลักการทางเทคนิค (เช่น สถาปัตยกรรมแบบจำลอง ขั้นตอนการฝึกอบรม ข้อมูล ระบบ ความปลอดภัย การประเมิน ทฤษฎี) กับการประยุกต์ใช้ (เช่น กฎหมาย การดูแลสุขภาพ การศึกษา) และผลกระทบทางสังคม (เช่น ความไม่เท่าเทียม การใช้ในทางที่ผิด ผลกระทบทางเศรษฐกิจและสิ่งแวดล้อม การพิจารณาทางกฎหมายและจริยธรรม) แม้ว่าแบบจำลองพื้นฐานจะขึ้นอยู่กับการเรียนรู้เชิงลึกที่เป็นมาตรฐานและการถ่ายโอนการเรียนรู้ แต่ขนาดของโมเดลนั้นส่งผลให้เกิดความสามารถใหม่ ๆ และประสิทธิภาพในการทำงานจำนวนมากนั้นกระตุ้นให้เกิดการทำให้เป็นเนื้อเดียวกัน การทำให้เป็นเนื้อเดียวกันนั้นให้แรงงัดที่ทรงพลังแต่ต้องการความระมัดระวัง เนื่องจากข้อบกพร่องของแบบจำลองพื้นฐานนั้นสืบทอดมาจากรุ่นปลายน้ำที่ได้รับการดัดแปลงทั้งหมด แม้จะมีการนำโมเดลฐานรากไปใช้อย่างกว้างขวาง แต่ในปัจจุบันเรายังขาดความเข้าใจที่ชัดเจนเกี่ยวกับวิธีการทำงาน เวลาที่ล้มเหลว และสิ่งที่พวกเขาสามารถทำได้เนื่องจากคุณสมบัติที่เกิดขึ้นใหม่ เพื่อจัดการกับคำถามเหล่านี้ การวิจัยเชิงวิพากษ์เกี่ยวกับแบบจำลองพื้นฐานจำนวนมากจะต้องอาศัยการทำงานร่วมกันแบบสหวิทยาการอย่างลึกซึ้งซึ่งสอดคล้องกับลักษณะพื้นฐานทางสังคมเทคนิคของพวกมัน Vision Transformers ดูเหมือนโครงข่ายประสาทเทียมหรือไม่? จนถึงขณะนี้ Convolutional Neural Network (CNNs) เป็นแบบจำลองโดยพฤตินัยสำหรับข้อมูลภาพ ผลงานล่าสุดแสดงให้เห็นว่า (Vision) Transformer models (ViT) สามารถบรรลุประสิทธิภาพเทียบเท่าหรือเหนือกว่าในงานจำแนกภาพ สิ่งนี้ทำให้เกิดคำถามสำคัญ: Vision Transformers แก้ปัญหาเหล่านี้อย่างไร? พวกเขาทำตัวเหมือนเครือข่ายที่บิดเบี้ยวหรือเรียนรู้การแสดงภาพที่แตกต่างไปจากเดิมอย่างสิ้นเชิงหรือไม่? การวิเคราะห์โครงสร้างการแสดงภาพภายในของ ViT และ CNN ในเกณฑ์มาตรฐานการจัดประเภทรูปภาพ พบความแตกต่างที่โดดเด่นระหว่างสถาปัตยกรรมทั้งสอง เช่น ViT ที่มีการแสดงที่เหมือนกันมากขึ้นในทุกเลเยอร์ เอกสารนี้สำรวจว่าความแตกต่างเหล่านี้เกิดขึ้นได้อย่างไร ค้นหาบทบาทสำคัญที่เล่นโดยความสนใจตนเอง ซึ่งช่วยให้สามารถรวบรวมข้อมูลทั่วโลกได้ตั้งแต่เนิ่นๆ และการเชื่อมต่อที่เหลือของ ViT ซึ่งเผยแพร่คุณลักษณะอย่างมากจากเลเยอร์ที่ต่ำกว่าถึงระดับสูง บทความนี้ศึกษาการแตกสาขาของการแปลเชิงพื้นที่ โดยแสดงให้เห็นว่า ViTs ประสบความสำเร็จในการเก็บรักษาข้อมูลเชิงพื้นที่อินพุต โดยมีผลที่เห็นได้ชัดเจนจากวิธีการจำแนกประเภทต่างๆ สุดท้ายนี้ บทความนี้จะศึกษาผลกระทบของขนาดชุดข้อมูล (pretraining) ที่มีต่อคุณลักษณะขั้นกลางและการถ่ายโอนการเรียนรู้ และสรุปด้วยการอภิปรายเกี่ยวกับการเชื่อมต่อกับสถาปัตยกรรมใหม่ เช่น MLP-Mixer ระบายสีหม้อแปลง: ป้อนภาพวาดประสาทไปข้างหน้าด้วยการทำนายโรคหลอดเลือดสมอง ภาพวาดระบบประสาทหมายถึงขั้นตอนของการสร้างชุดของจังหวะสำหรับภาพที่กำหนดและไม่ใช่ภาพถ่าย-จริงสร้างใหม่โดยใช้โครงข่ายประสาทเทียม ในขณะที่ตัวแทนที่ใช้การเรียนรู้การเสริมแรง (RL) สามารถสร้างลำดับจังหวะทีละขั้นตอนสำหรับงานนี้ การฝึกตัวแทน RL ที่เสถียรนั้นไม่ใช่เรื่องง่าย ในทางกลับกัน วิธีการเพิ่มประสิทธิภาพจังหวะจะค้นหาชุดของพารามิเตอร์จังหวะซ้ำๆ ในพื้นที่การค้นหาขนาดใหญ่ ประสิทธิภาพที่ต่ำดังกล่าวจำกัดความแพร่หลายและการใช้งานได้จริงอย่างมีนัยสำคัญ แตกต่างจากวิธีการก่อนหน้านี้ บทความนี้กำหนดงานเป็นปัญหาการทำนายชุดและเสนอเฟรมเวิร์กที่อิงกับ Transformer ใหม่ซึ่งมีชื่อว่า Paint Transformer เพื่อทำนายพารามิเตอร์ของชุดจังหวะด้วยเครือข่ายฟีดฟอร์เวิร์ด ด้วยวิธีนี้ โมเดลสามารถสร้างชุดของสโตรกแบบขนานและได้ภาพวาดขนาดสุดท้าย 512 512 ในเวลาที่ใกล้เคียงกับเวลาจริง ที่สำคัญกว่านั้น เนื่องจากไม่มีชุดข้อมูลสำหรับการฝึกอบรม Paint Transformer การวิจัยจึงคิดค้นไปป์ไลน์การฝึกอบรมด้วยตนเอง เพื่อให้สามารถฝึกฝนได้โดยไม่ต้องใช้ชุดข้อมูลนอกชั้นวางในขณะที่ยังคงบรรลุความสามารถในการสรุปที่ยอดเยี่ยม การทดลองแสดงให้เห็นว่าวิธีการของเรามีประสิทธิภาพการวาดภาพได้ดีกว่าวิธีก่อนหน้าด้วยค่าใช้จ่ายในการฝึกอบรมและการอนุมานที่ถูกกว่า สามารถดู repo GitHub ที่เกี่ยวข้องกับบทความนี้ได้ ที่นี่ ร่าง GAN ของคุณเอง ผู้ใช้สามารถสร้างแบบจำลองเชิงลึกโดยร่างตัวอย่างเดียวได้หรือไม่? ตามเนื้อผ้า การสร้างแบบจำลอง GAN จำเป็นต้องมีการรวบรวมชุดข้อมูลขนาดใหญ่ของตัวอย่างและความรู้เฉพาะทางในการเรียนรู้เชิงลึก ในทางตรงกันข้าม การร่างภาพอาจเป็นวิธีที่เข้าถึงได้ในระดับสากลมากที่สุดในการถ่ายทอดแนวคิดเกี่ยวกับภาพ เอกสารนี้นำเสนอวิธีการ GAN Sketching สำหรับเขียน GAN ใหม่ด้วยภาพสเก็ตช์ตั้งแต่หนึ่งภาพขึ้นไป เพื่อให้การฝึกอบรม GAN ง่ายขึ้นสำหรับผู้ใช้มือใหม่ โดยเฉพาะอย่างยิ่ง น้ำหนักของโมเดล GAN ดั้งเดิมจะเปลี่ยนไปตามแบบร่างของผู้ใช้ เอาต์พุตของโมเดลได้รับการสนับสนุนเพื่อให้ตรงกับภาพร่างของผู้ใช้ผ่านการสูญเสียของฝ่ายตรงข้ามข้ามโดเมน นอกจากนี้ยังมีการสำรวจวิธีการทำให้เป็นมาตรฐานที่แตกต่างกันเพื่อรักษาความหลากหลายและคุณภาพของภาพต้นแบบไว้ การทดลองแสดงให้เห็นว่าวิธีนี้สามารถหล่อหลอม GAN ให้เข้ากับรูปร่างและท่าทางที่ระบุโดยภาพร่าง ในขณะที่ยังคงความสมจริงและความหลากหลายไว้ สามารถดู repo GitHub ที่เกี่ยวข้องกับบทความนี้ได้ ที่นี่ แสง กล้อง แอ็คชั่น! กรอบงานเพื่อปรับปรุงความแม่นยำของ NLP เหนือเอกสาร OCR การแปลงเอกสารเป็นดิจิทัลเป็นสิ่งจำเป็นสำหรับการเปลี่ยนแปลงทางดิจิทัลในสังคมของเรา แต่ขั้นตอนสำคัญในกระบวนการ Optical Character Recognition (OCR) ก็ยังไม่สมบูรณ์แบบ แม้แต่ระบบ OCR เชิงพาณิชย์ก็สามารถสร้างผลงานที่น่าสงสัยได้ ทั้งนี้ขึ้นอยู่กับความถูกต้องของเอกสารที่สแกน เอกสารนี้แสดงให้เห็นถึงกรอบงานที่มีประสิทธิภาพสำหรับการบรรเทาข้อผิดพลาด OCR สำหรับงาน NLP ดาวน์สตรีม โดยใช้ Named Entity Recognition (NER) เป็นตัวอย่าง ประเด็นแรกที่กล่าวถึงคือปัญหาการขาดแคลนข้อมูลสำหรับการฝึกโมเดลโดยการสร้างไปป์ไลน์การสังเคราะห์เอกสาร สร้างข้อมูลที่สมจริงแต่เสื่อมโทรมด้วยป้ายกำกับ NER ความแม่นยำที่ลดลงของ NER นั้นประมาณการที่ระดับการลดระดับต่างๆ และแสดงให้เห็นว่าแบบจำลองการกู้คืนข้อความซึ่งได้รับการฝึกอบรมเกี่ยวกับข้อมูลที่เสื่อมโทรม จะปิดช่องว่างความแม่นยำของ NER ที่เกิดจากข้อผิดพลาด OCR ได้อย่างมาก รวมถึงชุดข้อมูลที่อยู่นอกโดเมน เพื่อประโยชน์ของชุมชน จะมีการจัดทำไปป์ไลน์การสังเคราะห์เอกสารเป็นโครงการโอเพนซอร์ส สามารถดู repo GitHub ที่เกี่ยวข้องกับบทความนี้ได้ ที่นี่ บทนำเบื้องต้นเกี่ยวกับเรขาคณิตสารสนเทศ แบบสำรวจนี้อธิบายโครงสร้างเชิงอนุพันธ์-เรขาคณิตพื้นฐานของท่อร่วมข้อมูล ระบุทฤษฎีบทพื้นฐานของเรขาคณิตข้อมูล และแสดงตัวอย่างกรณีการใช้งานของชุดข้อมูลเหล่านี้ในวิทยาการสารสนเทศ นิทรรศการมีความสมบูรณ์ในตัวเองโดยการแนะนำแนวคิดที่จำเป็นของเรขาคณิตเชิงอนุพันธ์อย่างกระชับ แต่การพิสูจน์จะถูกละเว้นเพื่อความกระชับ การตรวจจับโฆษณาชวนเชื่อที่ตีความได้ในบทความข่าว ผู้ใช้ออนไลน์ในปัจจุบันมักพบเห็นบทความข่าวและสื่อโฆษณาชวนเชื่อที่ทำให้เข้าใจผิดและเผยแพร่เป็นประจำทุกวัน เพื่อตอบโต้ จึงมีการออกแบบแนวทางจำนวนหนึ่งเพื่อให้ได้รับข่าวสารออนไลน์และการบริโภคสื่อที่ดีต่อสุขภาพและปลอดภัยยิ่งขึ้น ระบบอัตโนมัติสามารถสนับสนุนมนุษย์ในการตรวจจับเนื้อหาดังกล่าว กระนั้น อุปสรรคสำคัญต่อการนำไปใช้ในวงกว้างก็คือ นอกจากความถูกต้องแล้ว การตัดสินใจของระบบดังกล่าวยังต้องสามารถตีความได้ เพื่อให้ผู้ใช้ได้รับความเชื่อถือและนำไปใช้อย่างกว้างขวาง เนื่องจากเนื้อหาที่ทำให้เข้าใจผิดและโฆษณาชวนเชื่อมีอิทธิพลต่อผู้อ่านผ่านการใช้เทคนิคการหลอกลวงหลายอย่าง บทความนี้จึงเสนอให้ตรวจจับและแสดงการใช้เทคนิคดังกล่าวเพื่อเสนอความสามารถในการตีความ มนุษย์กับเครื่องจักร: บทบาทของผู้เชี่ยวชาญ AutoML และมนุษย์ในการเรียนรู้ด้วยเครื่องตรวจหาฟิชชิ่ง (ML) ได้พัฒนาขึ้นอย่างรวดเร็วในช่วงไม่กี่ปีที่ผ่านมา และประสบความสำเร็จในการใช้งานที่หลากหลาย รวมถึงการตรวจหาฟิชชิง อย่างไรก็ตาม การสร้างระบบการตรวจจับตาม ML ที่มีประสิทธิภาพนั้นไม่ใช่เรื่องง่าย และต้องการนักวิทยาศาสตร์ข้อมูลที่มีความรู้เกี่ยวกับโดเมนที่เกี่ยวข้อง เฟรมเวิร์กการเรียนรู้ของเครื่องอัตโนมัติ (AutoML) ได้รับความสนใจอย่างมากในช่วงไม่กี่ปีที่ผ่านมา ทำให้ผู้เชี่ยวชาญที่ไม่ใช่ ML สามารถสร้างโมเดลการเรียนรู้ของเครื่องได้ สิ่งนี้ทำให้เกิดคำถามที่น่าสนใจว่า AutoML สามารถทำได้ดีกว่าผลลัพธ์ที่นักวิทยาศาสตร์ข้อมูลมนุษย์ทำได้หรือไม่ เอกสารนี้เปรียบเทียบประสิทธิภาพของกรอบงาน AutoML ที่เป็นที่รู้จักและล้ำสมัยหกชุดในชุดข้อมูลฟิชชิ่งที่แตกต่างกัน 10 ชุด เพื่อดูว่าโมเดลที่ใช้ AutoML มีประสิทธิภาพเหนือกว่าโมเดลการเรียนรู้ของเครื่องที่สร้างขึ้นด้วยตนเองหรือไม่ ผลลัพธ์ระบุว่าโมเดลที่ใช้ AutoML สามารถทำงานได้ดีกว่าโมเดลการเรียนรู้ของเครื่องที่พัฒนาด้วยตนเองในงานการจำแนกประเภทที่ซับซ้อน โดยเฉพาะอย่างยิ่งในชุดข้อมูลซึ่งคุณลักษณะไม่ค่อนข้างแยกแยะ และชุดข้อมูลที่มีคลาสที่ทับซ้อนกันหรือระดับที่ไม่เป็นเชิงเส้นค่อนข้างสูง การจดจำใบหน้า 3 มิติ: การจดจำใบหน้าแบบสำรวจเป็นหนึ่งในหัวข้อการวิจัยที่มีการศึกษามากที่สุดในชุมชน ในช่วงไม่กี่ปีที่ผ่านมา การวิจัยเกี่ยวกับการจดจำใบหน้าได้เปลี่ยนไปใช้พื้นผิวใบหน้า 3 มิติ เนื่องจากข้อมูลทางเรขาคณิต 3 มิติสามารถแสดงคุณลักษณะที่เลือกปฏิบัติได้มากขึ้น แบบสำรวจนี้เน้นที่การทบทวนเทคนิคการจดจำใบหน้า 3 มิติที่พัฒนาขึ้นในช่วงสิบปีที่ผ่านมา ซึ่งโดยทั่วไปจะแบ่งออกเป็นวิธีการทั่วไปและวิธีการเรียนรู้เชิงลึก เทคนิคการจัดหมวดหมู่จะได้รับการประเมินโดยใช้คำอธิบายโดยละเอียดของงานตัวแทน ข้อดีและข้อเสียของเทคนิคต่างๆ ได้สรุปไว้ในแง่ของความแม่นยำ ความซับซ้อน และความทนทานในการเผชิญกับการเปลี่ยนแปลงต่างๆ (การแสดงออก ท่าทางและการบดเคี้ยว เป็นต้น) การมีส่วนร่วมหลักของแบบสำรวจนี้คือครอบคลุมทั้งวิธีการทั่วไปและวิธีการเรียนรู้เชิงลึกเกี่ยวกับการจดจำใบหน้า 3 มิติอย่างครอบคลุม นอกจากนี้ยังมีการทบทวนฐานข้อมูลใบหน้า 3 มิติที่มีอยู่พร้อมกับการอภิปรายเกี่ยวกับความท้าทายและทิศทางการวิจัยในอนาคต การทำความเข้าใจลักษณะทั่วไปของ Adam ในการเรียนรู้โครงข่ายประสาทเทียมด้วยวิธีการทำให้เป็นมาตรฐานที่เหมาะสม วิธีการไล่ระดับแบบปรับเปลี่ยนได้ เช่น Adam ได้รับความนิยมเพิ่มขึ้นในการเพิ่มประสิทธิภาพการเรียนรู้เชิงลึก อย่างไรก็ตาม มีการสังเกตว่าเมื่อเปรียบเทียบกับการไล่ระดับการไล่ระดับสี (สุ่ม) อดัมสามารถมาบรรจบกับโซลูชันอื่นโดยมีข้อผิดพลาดในการทดสอบที่แย่กว่ามากในแอปพลิเคชันการเรียนรู้เชิงลึกจำนวนมาก เช่น การจัดประเภทรูปภาพ แม้จะมีการปรับให้เป็นมาตรฐานแล้วก็ตาม เอกสารนี้ให้คำอธิบายเชิงทฤษฎีสำหรับปรากฏการณ์นี้: แสดงให้เห็นว่าในการตั้งค่าแบบไม่นูนของการเรียนรู้โครงข่ายประสาทเทียมแบบสองชั้นที่มีพารามิเตอร์เกินกำหนดโดยเริ่มจากการเริ่มต้นแบบสุ่มเดียวกันสำหรับคลาสของการแจกแจงข้อมูล (ที่ได้รับแรงบันดาลใจจากข้อมูลภาพ) Adam และการไล่ระดับสี (GD) สามารถมาบรรจบกับโซลูชันระดับโลกที่แตกต่างกันของวัตถุประสงค์การฝึกอบรมด้วยข้อผิดพลาดทั่วไปที่แตกต่างกันอย่างพิสูจน์ได้ แม้จะมีการทำให้น้ำหนักลดลงเป็นมาตรฐาน ในทางตรงกันข้าม มันแสดงให้เห็นว่าหากวัตถุประสงค์ของการฝึกเป็นแบบนูน และใช้การทำให้เป็นมาตรฐานสำหรับการลดน้ำหนัก อัลกอริธึมการเพิ่มประสิทธิภาพใดๆ รวมถึง Adam และ GD จะหลอมรวมเป็นโซลูชันเดียวกันหากการฝึกประสบความสำเร็จ สิ่งนี้ชี้ให้เห็นว่าประสิทธิภาพการวางนัยทั่วไปที่ด้อยกว่าของอดัมนั้นเชื่อมโยงโดยพื้นฐานกับภูมิทัศน์ที่ไม่นูนของการเพิ่มประสิทธิภาพการเรียนรู้เชิงลึก ลงทะเบียนเพื่อรับจดหมายข่าว InsideBIGDATA ฟรี เข้าร่วมกับเราบน Twitter: @InsideBigData1 – https://twitter.com/InsideBigData1

  • บ้าน
  • Business
  • Data science
  • Marketing
  • Leave a Reply

    Your email address will not be published. Required fields are marked *

    Back to top button