Data science

วิทยาศาสตร์ข้อมูลคืออะไร? ผู้ได้รับรางวัลทัวริงแบ่งปันมุมมองของเขา

มีการใช้วลี “วิทยาศาสตร์ข้อมูล” ทุกวัน รวมทั้งในเอกสารเผยแพร่ฉบับนี้ด้วย เรารู้สึกว่าเรามีความคิดว่ามันคืออะไร แต่มันคืออะไรกันแน่? สำหรับคำตอบเดียว เราหันไปหาเจฟฟรีย์ อุลล์แมน ผู้ชนะรางวัลทัวริงใน 2020 “วิทยาศาสตร์ข้อมูลมาจากไหน” ถาม Ullman ศาสตราจารย์ด้านวิทยาการคอมพิวเตอร์ของมหาวิทยาลัยสแตนฟอร์ด ในระหว่างการกล่าวปาฐกถาพิเศษที่การประชุม ACM Special Interest Group on Knowledge Discovery and Data Mining (SIGKDD) ครั้งที่ 11 เรื่อง วันจันทร์. “ในช่วงเปลี่ยนสหัสวรรษ ผู้คนกำลังพูดถึงการขุดข้อมูลหรือการค้นพบความรู้ ซึ่ง SIGKDD ใช้ชื่อของมัน” เขากล่าวต่อ “หลังจากนั้น 2010 คุณไม่สามารถพูดได้ว่าคุณกำลังทำอย่างนั้นอีกต่อไป คุณต้องบอกว่าคุณกำลังทำข้อมูลขนาดใหญ่ และตอนนี้คุณต้องบอกว่าคุณกำลังทำวิทยาศาสตร์ข้อมูล แต่แนวคิดเบื้องหลังคำที่เปลี่ยนแปลงเหล่านี้ไม่ได้เปลี่ยนแปลงไปจริงๆ” แล้วมันหมายความว่าอย่างไร? ตามคำบอกของ Ullman วิทยาศาสตร์ข้อมูล ตามที่เข้าใจกันดี ครอบคลุมสาขาวิชาต่างๆ รวมถึงสถิติ คณิตศาสตร์ การเรียนรู้ของเครื่อง ปัญญาประดิษฐ์ การทำเหมืองข้อมูล การค้นพบความรู้ ประสบการณ์โดเมน และแน่นอน วิทยาการคอมพิวเตอร์และการวิจัยระบบฐานข้อมูล ซึ่งเป็นความเชี่ยวชาญของอุลแมน แต่องค์ประกอบใดบ้างที่จำเป็น และจำนวนเท่าใด สำหรับการอ้างสิทธิ์ในการทำ “วิทยาศาสตร์ข้อมูล” หรือสำหรับบุคคลที่อ้างว่าเป็น “นักวิทยาศาสตร์ข้อมูล” สำหรับเรื่องนั้น? มีการถกเถียงกันเกี่ยวกับองค์ประกอบและอัตราส่วนที่เหมาะสม ซึ่งโดยทั่วไปแล้วจะสื่อสารผ่านยานพาหนะแบบกราฟิกที่เรียกว่าแผนภาพเวนน์ “ปรากฎว่าทุกสาขามีคำจำกัดความของวิทยาศาสตร์ข้อมูล” Ullman กล่าว “และเป็นสาขาที่ขยายความสำคัญของสาขาของตนเอง และสามารถแสดงด้วยแผนภาพเวนน์ได้” ศาสตราจารย์ด้านวิทยาการคอมพิวเตอร์ของมหาวิทยาลัยสแตนฟอร์ด เจฟฟรีย์ อุลล์แมน ที่เห็นในการนำเสนอของ KDD2021 เมื่อวันจันทร์ เป็นผู้ชนะร่วมของรางวัลทัวริงใน 2020 ก่อนที่จะแบ่งปันแผนภาพเวนน์ของตัวเองเกี่ยวกับองค์ประกอบที่จำเป็นในวิทยาศาสตร์ข้อมูล Ullman ได้นำหนึ่งในนั้นมาทำงาน โดยเฉพาะแผนภาพเวนน์วิทยาศาสตร์ข้อมูลยอดนิยมที่สร้างโดย Drew Conway (ซึ่งคุณสามารถดูได้ที่ด้านบนสุดของบทความนี้) คุณอาจเคยเห็นแผนภาพเวนน์ของคอนเวย์แล้ว โดยมีวงกลมสามวงที่ซ้อนทับกันแสดงถึงทักษะการแฮ็ก ความรู้ทางคณิตศาสตร์และสถิติ และความเชี่ยวชาญที่สำคัญ (นี่คือผลลัพธ์แรกเมื่อคุณ Google “แผนภาพเวนน์วิทยาศาสตร์ข้อมูล” ของคุณ “เหตุผลที่ฉันเน้นเรื่องนี้ก็คือว่า หลายครั้งที่ฉันฟังนักสถิตินำเสนอแผนภาพนี้ว่าเป็นคำจำกัดความที่แท้จริงของวิทยาศาสตร์ข้อมูล” Ullman กล่าว “เกิดอะไรขึ้นกับมัน ปรากฎว่าทุกอย่างผิดปกติกับมัน” Ullman ระบุการคัดค้านหลายประการโดยเริ่มจาก Conway ใช้คำว่า “ความเชี่ยวชาญที่สำคัญ” ของ Conway ความชอบของ Ullman อยู่ที่ความรู้ในโดเมน แต่นี่เป็นเพียงเรื่องเล่น ๆ เมื่อ Ullman เพิ่งเริ่มต้น “นี่คือสิ่งที่ทำให้ฉันคลั่งไคล้จริงๆ” เขากล่าวต่อ “วิทยาการคอมพิวเตอร์คือ ไม่ใช่แค่การเขียนโค้ด เรามีโมเดล นามธรรม และอัลกอริธึมมากมาย ทั้งหมดนี้ทำให้การแก้ปัญหาด้านวิทยาศาสตร์ข้อมูลเป็นไปได้ ความเคารพเล็กน้อยน่าจะเป็นไปตามระเบียบ” Ullman ยังคัดค้านภูมิภาคที่ “แฮกกิน” ทักษะ g” และ “ความเชี่ยวชาญที่สำคัญ” ตัดกันซึ่งคอนเวย์เรียกว่า “เขตอันตราย” “คอนเวย์เรียกนักวิทยาศาสตร์คอมพิวเตอร์ที่พยายามช่วยนักวิทยาศาสตร์โดเมนบางคนให้ตกอยู่ในอันตรายหากพวกเขาไม่ทำงานภายใต้การแนะนำที่ชาญฉลาดของนักสถิติ” Ullman กล่าว . “ฉันจะเถียงว่าความสำเร็จส่วนใหญ่ของวิทยาศาสตร์ข้อมูลอยู่ในหมวดหมู่นี้จริงๆ ด้วยแผนภาพเวนน์ส่วนนี้ ในขณะที่คนหนึ่งได้รับความประทับใจอย่างชัดเจนว่า Ullman ไม่ได้ประทับใจนักสถิติมากเกินไป (หรืออย่างน้อยก็ว่าพวกเขามองถึงความสำคัญในด้านวิทยาศาสตร์ข้อมูลอย่างไร) เขาก็ไม่ต้องการละเลยพวกเขาทั้งหมด “ความสำเร็จของพวกเขามีมากมาย และเครื่องมือที่พวกเขาสร้างขึ้นก็มีการใช้งานที่สำคัญในด้านวิทยาศาสตร์ข้อมูลและวิทยาการคอมพิวเตอร์โดยทั่วไป” เขากล่าว “นักสถิติหลายคนเริ่มสนใจปัญหาด้านวิทยาการคอมพิวเตอร์ และสามารถมีส่วนร่วมสำคัญได้” มาร์กอัปของศาสตราจารย์ Ullman เกี่ยวกับแผนภาพเวนน์วิทยาศาสตร์ข้อมูลของ Conway ตัวอย่างเช่น Ullman ให้เครดิตเพื่อนร่วมงาน Stanford คนหนึ่งของเขาซึ่งเป็นนักสถิติ ด้วยการแนะนำให้เขารู้จักกับเทคนิคการลดข้อมูลอันทรงพลังที่เรียกว่าการแฮชที่มีความละเอียดอ่อนในพื้นที่ Ullman กล่าวว่า “เขาสามารถแสดงบางสิ่งที่เร่งความเร็วให้กับอัลกอริทึมที่สำคัญอย่างหนึ่งในสาขานั้นที่เรียกว่า min-hashing ได้อย่างมาก” “ฉันควรจะได้เห็นมันก่อนตัวเอง แต่ฉันไม่ได้ เขาทำ.” Ullman ยังวิพากษ์วิจารณ์ถึงจุดตัดระหว่างความรู้ทางคณิตศาสตร์และสถิติ และความเชี่ยวชาญที่สำคัญในแผนภาพเวนน์ของ Conways “นี่คือสิ่งที่คอนเวย์เรียกว่าการวิจัยแบบดั้งเดิม จัดทำสถิติสำหรับปัญหาโดยไม่ต้องเขียนโค้ดใดๆ” Ullman กล่าว “ฉันไม่รู้ว่าเป็นประเพณีของใคร แต่ฉันหวังว่าจะไม่ใช่ของคุณ ทั้งหมดที่ทำคือสร้างความบันเทิงให้กับนักสถิติหรือนักคณิตศาสตร์ และมันไม่ได้ให้คำตอบอะไรเลย” เหมือนกันสำหรับแมชชีนเลิร์นนิงเป็นจุดตัดของการแฮ็กและคณิตศาสตร์/สถิติ “แมชชีนเลิร์นนิงเป็นสิ่งที่ใช้ไม่ได้กับโดเมนใดๆ จริงหรือ” อุลแมนถาม “มีคนประสบความสำเร็จมากมายที่มองวิธีการในการเรียนรู้ของเครื่องมากกว่าที่จะนำไปใช้ ฉันคิดว่าเหตุผลที่ทุกคนต้องการมีส่วนร่วมในการเรียนรู้ของเครื่องในทุกวันนี้ เพราะมันมีประโยชน์มากในการแก้ปัญหาในหลากหลายโดเมน” หลังจากแยกส่วนแผนภาพเวนน์ของคอนเวย์ Ullman ได้จัดเตรียมของเขาเอง “มีวิทยาการคอมพิวเตอร์และมีโดเมนทางวิทยาศาสตร์ที่เราต้องการให้พวกเขาส่งผลกระทบ และที่อยู่ตรงกลางคือวิทยาศาสตร์ข้อมูล” เขากล่าว “ตอนนี้ แมชชีนเลิร์นนิงเป็นสาขาหนึ่งของวิทยาศาสตร์ข้อมูล มันถูกใช้สำหรับงานจำนวนมากที่กวนใจโดเมนของแอปพลิเคชัน แต่ก็ยังใช้ในเรื่องภายในอย่างหมดจดของวิทยาการคอมพิวเตอร์ซึ่งมักใช้ในแอปพลิเคชันที่เรียกว่าปัญญาประดิษฐ์มากกว่าการเรียนรู้ด้วยเครื่อง” ตัวอย่างเช่น แมชชีนเลิร์นนิงมีประโยชน์ในการตรวจจับการบุกรุกในระบบคอมพิวเตอร์ ซึ่ง Ullman กล่าวว่าเป็นหัวข้อที่อยู่ในวิทยาการคอมพิวเตอร์อย่างแท้จริง และไม่อยู่ในโดเมนของแอปพลิเคชันใดโดยเฉพาะ แมชชีนเลิร์นนิงยังมีประโยชน์ในการสร้างสิ่งทั่วไป เช่น แชทบอท ซึ่งไม่อยู่ในโดเมนใดโดเมนหนึ่ง “ตอนนี้ คณิตศาสตร์และสถิติต่างก็มีบทบาทในภาพนี้” Ullman กล่าวขณะขอโทษสำหรับขนาดของฟองสบู่ของเขา “แต่ประเด็นของฉันคือคณิตศาสตร์และสถิติมีแอปพลิเคชั่นมากมายในด้านวิทยาการคอมพิวเตอร์ แต่จะไม่ส่งผลต่อโดเมนด้วยตัวเอง พวกเขาทำผ่านอัลกอริธึมที่ช่วยออกแบบและวิเคราะห์” ในบางกรณี คณิตศาสตร์และสถิติมีความสำคัญต่อการพิสูจน์ว่าอัลกอริธึมที่พัฒนาด้วยวิทยาการคอมพิวเตอร์และทักษะการเรียนรู้ของเครื่อง แม้ว่าจะไม่ได้ใช้งานจริงในการพัฒนาอัลกอริทึมก็ตาม และไม่ใช่ว่าปัญหาของข้อมูลขนาดใหญ่ทั้งหมดจะต้องใช้โมเดลการเรียนรู้ของเครื่องเพื่อทำงาน Ullman กล่าว แผนภาพเวนน์วิทยาศาสตร์ข้อมูลของ Profssor Ullman ตัวอย่างเช่น เทคนิคการแฮชแบบไวต่อพื้นที่ (LSH) ที่กล่าวถึงก่อนหน้านี้และอัลกอริธึม Flajolet-Martin ซึ่งใช้สำหรับการนับโดยประมาณ ไม่ใช่อัลกอริธึมการเรียนรู้ของเครื่อง แต่มีประโยชน์สำหรับการแก้ปัญหาข้อมูลขนาดใหญ่ นอกจากนี้ยังมีข้อเรียกร้องที่ต้องการความแม่นยำในการคำนวณทางสถิติ “ตัวอย่างเช่น เมื่อคุณอ้างว่า 10% ของประชากรอยู่ในความยากจน คุณหมายความว่ามี 95% ความน่าจะเป็นที่เปอร์เซ็นต์ที่แท้จริงอยู่ระหว่าง 9 ถึง 11%? หรือว่ามีความเป็นไปได้ 11% ที่อยู่ระหว่าง 2% ถึง 20% ?” อุลแมนกล่าว “คุณต้องทำให้เรื่องราวถูกต้อง” อย่างไรก็ตาม มีข้อจำกัดในการบังคับใช้แนวทางทางสถิติ ตัวอย่างเช่น Ullman พูดคุยเกี่ยวกับ Hackathon เมื่อเร็ว ๆ นี้ซึ่งผู้เข้าร่วมใช้เวลาช่วงสุดสัปดาห์เพื่อค้นหา “สิ่งที่น่าสนใจ” ที่ซ่อนอยู่ในข้อมูล “ฉันเดาว่ามันน่าขบขันมากสำหรับการแข่งขัน” Ullman กล่าว “แต่จะดีกว่าหรือไม่ที่จะสนับสนุนให้นักเรียนนำข้อมูลเดียวกันนั้นไปใช้ในการแก้ปัญหาที่มีคนสนใจ ดังนั้นสำหรับความชอบของฉันเอง ฉันชอบแนวทางของ Kaggle ซึ่งผู้ที่ต้องการวิธีแก้ปัญหาจริงๆ สามารถโพสต์ชุดข้อมูลและผู้คนแข่งขันกันเพื่อแก้ปัญหาเพื่อรับรางวัลเงินสด” ผู้ที่มีแนวโน้มจะตีความข้อมูลทางสถิติได้ง่าย ดูเหมือนจะลืมด้านการทดลองของเหรียญ เขากล่าว “…. ata science เป็นส่วนใหญ่ แม้ว่าจะยังไม่สมบูรณ์ แต่ก็เป็นวิทยาศาสตร์เชิงทดลองเป็นส่วนใหญ่” เขากล่าว “ถ้าคุณต้องการทราบว่าความคิดของคุณแก้ปัญหาที่คุณกำลังทำงานอยู่ได้หรือไม่ ให้นำไปใช้ รันมัน และดู” ประสบการณ์เชิงปฏิบัติของวิทยาศาสตร์ข้อมูลถูกแสดงทุกวันผ่านกลไกป้องกันสแปมของ Google Ullman กล่าวว่าจุดตัดของการแฮ็คคอมพิวเตอร์และความเชี่ยวชาญด้านโดเมนจะพบว่าตัวเองอยู่ในเขตอันตรายของ Conway “ลองนึกถึงสิ่งที่จะสูญเสียไปจากการทิ้งซอฟต์แวร์นั้นทิ้งไป” เขากล่าว “ผู้คนจะตกหลุมพรางนักส่งสแปมทั่วโลก” หากคุณดูภายใต้ประทุนของ Google คุณจะพบองค์ประกอบทางสถิติในเครื่องมือตรวจจับสแปมนั้นอย่างแน่นอน “แต่คุณค่าของแนวคิดเหล่านี้รับรู้ได้จากการนำไปปฏิบัติเท่านั้น แต่ไม่ใช่โดยตรง” เขากล่าวต่อ กล่าวอีกนัยหนึ่ง ความสมบูรณ์แบบคือศัตรูของความดี หากวิทยาศาสตร์ข้อมูลต้องการการทดลองเป็นแหล่งที่มาของการปรับปรุงอย่างต่อเนื่อง บทบาทของสถิติโดยเน้นหนักไปที่การวิเคราะห์และค้นหาแนวทางที่สมบูรณ์แบบ จะต้องเป็นเพียงปัจจัยสนับสนุนเท่านั้น “สิ่งหนึ่งที่ฉันเรียนรู้จากการศึกษาด้านวิทยาศาสตร์ข้อมูลก็คือนักสถิติมักจะคิดด้วยใจของนักคณิตศาสตร์” Ullman กล่าว “นั่นคือ พวกเขาอยู่ที่นี่มากเกินไปที่เกี่ยวข้องกับการวิเคราะห์ และไม่เพียงพอกับการแก้ปัญหา” การประชุม KDD 2010 ดำเนินไปจนถึงวันนี้ รายการที่เกี่ยวข้อง: เหตุใด Data Science ยังคงเป็นงานอันดับต้น การพัฒนาชื่อ 'นักวิทยาศาสตร์ข้อมูล' ของ Data Science ที่วิวัฒนาการไปสู่สิ่งใหม่

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button