Data science

DALL-E – หน่วยสืบราชการลับที่เหมือนมนุษย์ผ่าน Multimodality

ในคุณสมบัติพิเศษของแขกรับเชิญนี้ Sahar Mor ผู้ก่อตั้ง AirPaper กล่าวถึง DALL-E ซึ่งเป็น API อันทรงพลังใหม่จาก OpenAI ที่สร้างรูปภาพจากคำบรรยายข้อความ ด้วยเหตุนี้ Sahar กำลังวางแผนที่จะสร้างผลิตภัณฑ์บางอย่าง เช่น เครื่องสร้างแผนภูมิโดยใช้ข้อความและเครื่องมือแบบข้อความเพื่อสร้างภาพประกอบสำหรับหน้า Landing Page Sahar มีประสบการณ์ด้านวิศวกรรม + การจัดการผลิตภัณฑ์ 100 มาหลายปี โดยทั้งคู่มุ่งเน้นที่ผลิตภัณฑ์ที่มี AI เป็นแกนหลัก ก่อนหน้านี้เขาทำงานเป็นผู้จัดการฝ่ายวิศวกรรมในบริษัทที่เพิ่งเริ่มต้นและหน่วยข่าวกรองชั้นนำของอิสราเอล – 250 เมื่อหลายเดือนก่อน OpenAI ได้เผยแพร่โมเดลการวิจัยล่าสุดของพวกเขา DALL-E ซึ่งเป็นโครงข่ายประสาทเทียมขั้นสูงที่สร้างรูปภาพจากข้อความแจ้งและความก้าวหน้าตามธรรมชาติของโมเดลภาษาอันทรงพลัง GPT-3 นอกจากนี้ OpenAI เพิ่งส่งสัญญาณว่าเร็วๆ นี้จะเปิดการเข้าถึง API ให้กับ DALL-E ในระยะเบต้าแบบปิด ไม่ต้องสงสัยเลยว่า API เวอร์ชันนี้จะสร้างแอปพลิเคชันที่น่าสนใจมากมาย แต่ก่อนหน้านั้น DALL-E ก็เป็นก้าวสำคัญในการวิจัย AI แล้ว โดยปลดล็อกทิศทางใหม่ที่มีแนวโน้มด้วยการผสมผสานรูปแบบต่างๆ เช่น ข้อความและการมองเห็น การปฏิวัติ Transformers DALL-E เป็นแบบจำลองภาษาของหม้อแปลงที่สร้างขึ้นตามสถาปัตยกรรม Transformers ซึ่งเป็นโครงข่ายประสาทที่เชี่ยวชาญในงานตามลำดับขั้นรวมถึงงานที่มีการพึ่งพาระยะยาวเช่นบทความยาว ๆ สิ่งนี้ให้ยืมตัวเองกับโดเมนเช่นภาษาและการมองเห็นคอมพิวเตอร์ซึ่งการพึ่งพาเกิดขึ้นระหว่างคำและพิกเซล DALL-E รับทั้งข้อความและรูปภาพเป็นสตรีมข้อมูลเดียว และได้รับการฝึกอบรมโดยใช้โอกาสสูงสุดในการสร้างโทเค็นที่ตามมาทั้งหมดทีละรายการ เพื่อฝึกฝน OpenAI ได้สร้างชุดข้อมูล 250 คู่ข้อความและรูปภาพนับล้านที่รวบรวมจากอินเทอร์เน็ต โมเดลแสดงความสามารถที่น่าประทับใจ ตัวอย่างเช่น สามารถวาดวัตถุหลายชิ้นพร้อมกันและควบคุมความสัมพันธ์เชิงพื้นที่ได้ ที่มา: บล็อก OpenAI ในอีกตัวอย่างหนึ่ง มันได้สร้างสัตว์ที่สังเคราะห์ขึ้นจากแนวคิดที่หลากหลาย รวมทั้งเครื่องดนตรี อาหาร และของใช้ในครัวเรือน: ที่มา: บล็อก OpenAI ภาพเหล่านี้เป็น 100% สังเคราะห์และสร้างขึ้นในจิตใจที่ลึกล้ำของ DALL-E เกี่ยวกับ 100 พันล้านพารามิเตอร์ น่าเสียดาย เนื่องจากไม่มีเกณฑ์มาตรฐานในการวัดประสิทธิภาพ จึงยากที่จะระบุได้ว่าแบบจำลองนี้ประสบความสำเร็จเพียงใดเมื่อเปรียบเทียบกับ GAN รุ่นก่อนและรุ่นการสร้างภาพในอนาคต อย่างไรก็ตาม ประสิทธิภาพที่น่าประทับใจของ DALL-E เป็นผลมาจากธรรมชาติหลายรูปแบบ ซึ่งทั้งข้อมูลที่เป็นข้อความและภาพถูกใช้เพื่อฝึกโครงข่ายประสาทที่อยู่เบื้องล่าง Multimodality กำลังเป็นที่นิยมอีกครั้งในวันที่ประสิทธิภาพของแอปพลิเคชั่น AI ส่วนใหญ่ลดลง ด้วยการใช้ข้อมูลเพียงประเภทเดียว เช่น ข้อความ เพื่อสร้างปัญญาประดิษฐ์ที่พิสูจน์ตัวเองว่ากระโดดสั้นเกินไป การรับรู้นี้กำลังได้รับความนิยมมากขึ้นเรื่อยๆ โดยรายงาน Radar Trends ล่าสุดของ Oreilly ระบุถึงความเป็นหลายรูปแบบเป็นขั้นตอนต่อไปใน AI และผู้เชี่ยวชาญด้านโดเมนอื่นๆ เช่น Jeff Dean (Google AI SVP) ที่แบ่งปันมุมมองที่คล้ายกัน โมเดลเอนกประสงค์ ถึงตอนนี้เป็นความเข้าใจทั่วไปว่า AI แบบแคบไม่ได้เป็นเพียงความเท่าเทียมกับความฉลาดของมนุษย์เท่านั้น และในหลายกรณีมีแนวโน้มว่าจะสามารถสรุปได้ ตัวอย่างเช่น แม้แต่โมเดลการเรียนรู้เชิงลึกล้ำสมัยสำหรับการตรวจหามะเร็งระยะเริ่มต้น (เช่น การมองเห็น) ก็ยังถูกจำกัดประสิทธิภาพเมื่อไม่มีแผนภูมิของผู้ป่วย (เช่น ข้อความ) จากระบบบันทึกสุขภาพอิเล็กทรอนิกส์ของเธอ Ilya Sutskever หัวหน้านักวิทยาศาสตร์ของ OpenAI ให้คำมั่นสัญญาว่าจะรวมภาษาและวิสัยทัศน์ว่าใน 2021 OpenAI จะพยายามสร้างและเปิดเผยแบบจำลองต่อสิ่งเร้าใหม่: “ข้อความเพียงอย่างเดียวสามารถแสดงออกได้มาก ของข้อมูลเกี่ยวกับโลกแต่ยังไม่สมบูรณ์เพราะเราอยู่ในโลกภาพเช่นกัน” จากนั้นเขาก็เสริมว่า “ความสามารถในการประมวลผลข้อความและรูปภาพร่วมกันนี้ควรทำให้โมเดลฉลาดขึ้น มนุษย์ไม่เพียงแต่ได้สัมผัสกับสิ่งที่พวกเขาอ่านเท่านั้น แต่ยังรวมถึงสิ่งที่พวกเขาเห็นและได้ยินด้วย หากคุณสามารถเปิดเผยแบบจำลองกับข้อมูลที่คล้ายกับที่มนุษย์ดูดซึมได้ พวกเขาควรเรียนรู้แนวคิดในลักษณะที่คล้ายกับมนุษย์มากกว่า” Multimodality ได้รับการสำรวจในอดีต เหตุผลหลักที่มันไม่ได้ทำการวิจัยและใช้งานอย่างกว้างขวางมากขึ้นเนื่องจากข้อบกพร่องในการรวบรวมอคติในชุดข้อมูล สิ่งนี้สามารถแก้ไขได้ด้วยข้อมูลที่มากขึ้น ซึ่งเริ่มมีมากขึ้นเรื่อยๆ แต่ที่สำคัญกว่านั้น ด้วยเทคนิคใหม่ๆ ที่ช่วยให้การเรียนรู้มีประสิทธิภาพมากขึ้นจากข้อมูลที่น้อยลง การรับรู้เหล่านี้นำไปสู่ความสนใจในการวิจัยต่อเนื่องหลายรูปแบบในช่วงหลายปีที่ผ่านมา ตัวอย่างหนึ่งคือเอกสารล่าสุดของห้องปฏิบัติการวิจัย AI (FAIR) ของ Facebook ที่สรุปแนวทางใหม่สำหรับการรู้จำเสียงพูดอัตโนมัติ (ASR) ซึ่งแสดงความคืบหน้าที่สำคัญโดยรวมเสียงและข้อความ DALL-E แสดงผลลัพธ์ที่น่าพึงพอใจภายในเวลาไม่ถึงหนึ่งปีนับตั้งแต่เปิดตัว GPT-3 เป็นข่าวดีสำหรับการวิจัย AI และปัญญาประดิษฐ์ทั่วไป (AGI) วิธีที่สร้างขึ้นโดยใช้ 'ความรู้สึก' ที่หลากหลายนั้นน่าตื่นเต้น และทำให้ OpenAI เข้าใกล้คำมั่นสัญญาในการสร้าง AGI ที่ยั่งยืนและปลอดภัยยิ่งขึ้นไปอีกขั้น นอกจากนี้ยังสร้างกระแสการวิจัยใหม่ๆ อย่างไม่รู้จบ ซึ่งหวังว่าจะได้รับเอกสารและการประยุกต์ใช้ AI ที่มีแนวโน้มมากขึ้นในอนาคตอันใกล้ แต่เหนือสิ่งอื่นใด และเมื่อปล่อยออกมาแล้ว เราทุกคนสามารถคาดหวังได้ว่าฟีด Twitter ของเราจะเต็มไปด้วยผู้คนที่รู้สึกทึ่งต่อหน้า gif ที่เหลือเชื่ออีกครั้ง คราวนี้ด้วยภาพที่สร้างขึ้นอย่างปลอมๆ แทนที่จะเป็นข้อความที่สร้างขึ้นเทียม ลงทะเบียนเพื่อรับจดหมายข่าว InsideBIGDATA ฟรี เข้าร่วมกับเราบน Twitter: @InsideBigData1 – https://twitter.com/InsideBigData1

  • บ้าน
  • Business
  • Data science
  • Marketing
  • Leave a Reply

    Your email address will not be published. Required fields are marked *

    Back to top button