Data science

อะไรที่รั้งเราไว้ตอนนี้? 'มันเป็นข้อมูลโง่'

ข่าวดีก็คืออุปสรรคในการเข้าสู่วิทยาศาสตร์ข้อมูลลดลงอย่างมากในช่วงไม่กี่ปีที่ผ่านมา ต้องขอบคุณซอฟต์แวร์วิทยาศาสตร์ข้อมูลที่ดีขึ้นและการประมวลผลแบบคลาวด์ ข่าวร้ายก็คือการก้าวไปข้างหน้ากับข้อมูลขนาดใหญ่นั้น คุณต้องเดามันให้ได้—เข้าถึงข้อมูลได้มากขึ้นและดีขึ้น ในบางแง่มุม เรื่องราว “ข้อมูลเป็นตัวสร้างความแตกต่าง” ก็ไม่เปลี่ยนแปลง แม้ว่าองค์กรต่างๆ จะประสบปัญหาในการทำให้สภาพแวดล้อม Hadoop ทำงานได้ เมื่อหลายปีก่อน และทำให้ผลิตภัณฑ์ซอฟต์แวร์ต่างๆ ทำงานร่วมกันได้ เป้าหมายก็คือ สร้างแพลตฟอร์มเพื่อทำสิ่งที่สร้างสรรค์ สนุก หรือสร้างผลกำไรด้วยข้อมูลอยู่เสมอ ความแตกต่างในวันนี้คือสิ่งอื่น ๆ มากมายที่เคยขัดขวางการใช้ประโยชน์จากข้อมูล กล่าวคือ การประกอบฮาร์ดแวร์และซอฟต์แวร์สแต็คที่จำเป็นเพื่ออำนวยความสะดวกในการวิเคราะห์ขั้นสูงและการฝึกอบรมโมเดลการเรียนรู้ของเครื่อง ดีขึ้นมาก ด้วยทรัพยากรการประมวลผลที่แทบไม่จำกัดที่มีอยู่บนแพลตฟอร์มคลาวด์สาธารณะ และ “นวัตกรรมที่ล้นเหลือ” ที่ Gartner ได้ระบุวิทยาศาสตร์ข้อมูลและแอปพลิเคชันการเรียนรู้ของเครื่อง อุปสรรคของข้อมูลขนาดใหญ่แบบเก่าจึงถูกทำลายลง นี่เป็นวันที่วุ่นวายสำหรับผู้ปฏิบัติงานด้านวิทยาศาสตร์ข้อมูลและผู้ปฏิบัติงานด้านข้อมูลขนาดใหญ่อย่างแน่นอน ดังนั้นตอนนี้วิทยาศาสตร์ข้อมูลสำเร็จรูปและแพลตฟอร์มการวิเคราะห์ขั้นสูงที่สามารถบีบอัดข้อมูลจำนวนมหาศาลได้พร้อมให้บริการแล้ว อะไรที่ขัดขวางไม่ให้เราลงมือทำธุรกิจและทำสิ่งที่ยิ่งใหญ่ด้วยข้อมูล เพื่อแปลความที่ปรึกษาทางการเมือง “มันเป็นข้อมูล โง่” ปริมาณข้อมูลในโลกยังคงเติบโตอย่างรวดเร็ว ตาม IDC มี 64.2 เซตตาไบต์ของข้อมูลที่สร้างหรือจำลองแบบใน 2020 ในอีกห้าปีข้างหน้า IDC คาดการณ์ว่าข้อมูลจะเพิ่มขึ้นในอัตรา 23% ต่อปี จึงมีข้อมูลมากมาย คำถามใหญ่คือข้อมูลนั้นจะถูกแจกจ่ายอย่างไร และบริษัทใดจะใช้ประโยชน์จากข้อมูลนั้น คลาวด์คอมพิวติ้งได้บรรเทาฮาร์ดแวร์เนื่องจากคอขวดของบิ๊กดาต้า (Tommy Lee Walker/Shutterstock) ผู้จำหน่ายรายหนึ่งที่มุ่งหมายที่จะรับข้อมูลมากขึ้นเรื่อยๆ ในมือของทีมวิทยาศาสตร์ข้อมูลคือการเล่าเรื่อง บริษัทในนิวยอร์กซิตี้โฮสต์แพลตฟอร์มข้อมูลสตรีมมิงที่เชื่อมต่อผู้ซื้อข้อมูลกับผู้ขายข้อมูล ทำให้บริษัททุกขนาดสามารถแกว่งตัวเหนือน้ำหนัก (ข้อมูล) ของตนได้ Nick Jordan ซีอีโอและผู้ก่อตั้ง Narrative กล่าวว่า “เทคโนโลยีมีไว้สำหรับบริษัทขนาดเล็กที่จะแข่งขัน” กับ FAANGS ของโลก (แน่นอนว่า FAANG หมายถึงยักษ์ใหญ่ด้านเทคโนโลยีอย่าง Facebook, Amazon, Apple, Netflix และ Google .) “เพื่อที่จะแข่งขันกันจริงๆ พวกเขาต้องคิดหาวิธีที่จะมีความคล้ายคลึงกันของขนาดของข้อมูลที่ FAANG มี” แพลตฟอร์มของ Narrative ช่วยให้การผสานรวม การรักษาความปลอดภัย และงานด้านกฎระเบียบที่เกิดขึ้นเมื่อทำงานในตลาดข้อมูลบุคคลที่สามเป็นไปโดยอัตโนมัติ บริษัทมีความสมดุลระหว่างผู้ซื้อข้อมูลและผู้ขายข้อมูล Jordan กล่าว ปรากฎว่าเมื่อบริษัทเริ่มกระบวนการเพื่อเริ่มซื้อข้อมูลของบุคคลที่สาม พวกเขามักจะตระหนักว่าข้อมูลของพวกเขามีคุณค่าต่อผู้อื่นเช่นกัน “งานของเราคือทำให้คนที่ไม่คุ้นเคยกับเทคโนโลยีประเภทนี้สามารถทำได้ และดูเหมือนว่ามันเป็นเวทมนตร์ ไม่ยากอีกต่อไป” จอร์แดนกล่าว “ข้อมูลเคยเป็นขอบเขตของพวกเนิร์ด และนั่นก็เยี่ยมมาก แต่การจะเข้าใจถึงคุณค่าที่แท้จริงได้อย่างแท้จริง มันต้องใช้ทุกที่ในองค์กร ซึ่งหมายความว่าคนที่ไม่มีวุฒิการศึกษาด้านสถิติจะต้องสามารถคิดออกได้” ในขณะที่อุปสรรคทางเทคโนโลยีในการวิเคราะห์ขั้นสูงและ AI เริ่มลดลง บริษัทต่างๆ ก็เพิ่มระดับกิจกรรมของพวกเขา ตัวอย่างเช่น จำนวนแหล่งข้อมูลเฉลี่ยที่องค์กรใช้คือ 27 โดยมี สูง) จากการศึกษาล่าสุดโดย Precisely ประมาณ 75% ของหัวหน้าเจ้าหน้าที่ข้อมูล (CDO) ที่สำรวจกล่าวว่าการจัดการกับแหล่งข้อมูลหลายแหล่งและรูปแบบข้อมูลที่ซับซ้อนนั้น “ค่อนข้างยาก” หรือ “ค่อนข้างท้าทาย” ในทำนองเดียวกัน การศึกษาล่าสุดโดย Ascend.io พบว่าเกือบ 64% ของผู้เชี่ยวชาญด้านข้อมูลกล่าวว่าโครงสร้างพื้นฐานและระบบของพวกเขาสามารถปรับขนาดได้เพื่อตอบสนองความต้องการการประมวลผลปริมาณข้อมูลที่เพิ่มขึ้น จากการสำรวจพบว่า 96% ของผู้เชี่ยวชาญด้านข้อมูลมีขีดความสามารถหรือเกินความสามารถ กล่าวอีกนัยหนึ่งคอขวดได้เปลี่ยนไปเป็นบุคลากร การจัดการกับข้อมูลและสิ่งที่เกี่ยวข้องทั้งหมด (การรักษาความปลอดภัย การสำรองข้อมูล ระเบียบข้อบังคับ การกำกับดูแล การบูรณาการ การเปลี่ยนแปลง การเตรียมการ) เมื่อเทียบกับการสร้างอัลกอริธึมการเรียนรู้ด้วยเครื่องหรือการสร้างแบบจำลอง AI มีมากขึ้นในจุดที่คอขวดมีอยู่ “โมเดลคาดการณ์เกือบจะเป็นสินค้าโภคภัณฑ์” Maor Shlomo ซีอีโอของแพลตฟอร์มข้อมูลทางเลือก Explorium กล่าวซึ่งเมื่อเดือนที่แล้วเปิดตัวรอบการระดมทุน $ 23 ล้านดอลลาร์ . “วิทยาศาสตร์ข้อมูลและการวิเคราะห์ขั้นสูงกลายเป็นวิธีที่เข้าถึงได้ง่ายขึ้นและทำได้ง่ายขึ้น สร้างแบบจำลองการคาดการณ์ได้ง่ายขึ้น สร้างอัลกอริทึมได้ง่ายขึ้น” การมีข้อมูลที่ถูกต้องและผู้เชี่ยวชาญที่มีทักษะในการใช้งานนั้นเป็นอุปสรรคต่อความสำเร็จของ AI (ESB-Professional./Shutterstock) ด้วยโครงสร้างพื้นฐานจำนวนมากที่สร้างขึ้นและงานด้านวิทยาศาสตร์ข้อมูลเป็นสินค้าโภคภัณฑ์ เกมข้อมูลขนาดใหญ่ได้เปลี่ยนไป วันนี้เป็นเรื่องของการเชื่อมต่อองค์กรด้วยชุดข้อมูลที่ถูกต้องซึ่งสามารถสร้างผลกระทบได้ สำหรับ Explorium นั้นหวังว่าจะสามารถก้าวไปข้างหน้าได้ด้วยการจัดหาโซลูชันที่สามารถให้คำแนะนำโดยอัตโนมัติว่าชุดข้อมูลของบุคคลที่สามใดบ้างที่ลูกค้าต้องรับตามข้อมูลที่มีอยู่ “การวิเคราะห์จำนวนมากใน Explorium เริ่มต้นด้วยข้อมูลลูกค้า” Shlomo กล่าว “เรานำข้อมูลลีดการแข่งขัน เกี่ยวกับธุรกิจ ผู้คน ลูกค้า สถานที่ และสิ่งต่างๆ เช่นนั้น จากนั้นคุณจะเพลิดเพลินไปกับแพลตฟอร์มในการจับคู่และการรวมข้อมูลโดยอัตโนมัติ และการค้นพบความสัมพันธ์และตัวแปร” ในขณะที่ข้อมูลเป็นตัวสร้างความแตกต่างมากขึ้น แต่ก็ยังมีสิ่งที่ดีมากเกินไป การลดจักรวาลของข้อมูลให้เหลือเพียงสิ่งที่สามารถสร้างผลกระทบต่อลูกค้ารายใดรายหนึ่งได้คือวิธีที่ Explorium หวังที่จะช่วยเหลือลูกค้าและในที่สุดก็ทำให้ธุรกิจเติบโต “ถ้าฉันไปหาลูกค้าแล้วพูดว่า 'นี่คือตัวแปรที่แตกต่างกันกว่าล้านล้านตัว ให้สนุกกับมัน' นั่นจะทำให้ปัญหาของลูกค้าแย่ลงไปอีก” Shlomo กล่าว “เพราะตอนนี้พวกเขาต้องค้นหาข้อมูลของบุคคลที่หนึ่งและบุคคลที่สาม และทำความเข้าใจว่าข้อมูลอาจเชื่อมโยงถึงกันได้อย่างไร และตัวแปรใดบ้างที่คุณสามารถดึงออกมาจากสิ่งนั้นได้ และข้อมูลนั้นไม่ได้รับผลกระทบจริงสำหรับแบบจำลองการคาดการณ์เฉพาะที่พวกเขาเป็น พยายามสร้าง” ลักษณะของข้อมูลขนาดใหญ่กำลังเปลี่ยนแปลง ปริมาณและความหลากหลายในวันนี้มีขนาดใหญ่กว่าที่เคยเป็น เมื่อหลายปีก่อนแน่นอน ด้วยความก้าวหน้าทางเทคโนโลยีในด้านฮาร์ดแวร์และซอฟต์แวร์ อุปสรรคที่ใหญ่ที่สุดต่อความสำเร็จของข้อมูลคือตัวข้อมูลเอง รายการที่เกี่ยวข้อง: Data Pros เต็มพิกัด: สำรวจความสมบูรณ์ของข้อมูลเป็นข้อกังวลหลัก อย่างแม่นยำกล่าวว่า 'เหลือเฟือ' ของนวัตกรรมที่พบในแพลตฟอร์ม Data Science และ ML

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button