Data science

คลื่นเมฆที่ขับเคลื่อนด้วย COVID ส่งผลต่อข้อมูล

การโยกย้ายข้อมูลไปยังระบบคลาวด์ที่เพิ่มขึ้นอย่างรวดเร็วในช่วงหลายเดือนที่ผ่านมา ไม่ได้ถูกบังคับอย่างเด็ดขาด แต่ก็ไม่ได้เกิดขึ้นโดยสมัครใจแต่อย่างใด สำหรับหลายๆ บริษัท การเร่งการเปลี่ยนแปลงทางดิจิทัลในช่วงโควิดเป็นเรื่องของการอยู่รอด แต่การเดินทางไม่จำเป็นต้องปราศจากดราม่า โดยเฉพาะอย่างยิ่งเมื่อเกี่ยวข้องกับข้อมูล การเพิ่มขึ้นของคลาวด์ในช่วงโควิดได้รับการบันทึกไว้เป็นอย่างดี ณ จุดนี้ คำสั่ง Work from home บังคับให้พนักงานทั่วทั้งกระดานต้องออกจากอาคารสำนักงานและเข้าไปในห้องนอน ห้องนั่งเล่น และห้องครัวที่สำรองไว้ทั่วโลก ซึ่งรวมถึงพนักงานไอทีที่ปกติจะถูกขอให้กำหนดค่าโครงสร้างพื้นฐานการประมวลผลใหม่ แทนที่จะตั้งเซิร์ฟเวอร์ พวกเขามองไปที่คลาวด์สาธารณะและส่วนตัวเพื่อเรียกใช้โครงสร้างพื้นฐานสำหรับพวกเขา มีข้อมูลที่จะสำรองข้อมูลนี้ รายรับรายไตรมาสของ AWS นับตั้งแต่เริ่มมีการระบาดของโควิดเพิ่มขึ้นอย่างรวดเร็ว โดยแตะเกือบ $ พันล้านในไตรมาสล่าสุด Microsoft รายงานการเติบโต 51% ใน Azure สำหรับไตรมาสสิ้นสุดในเดือนมิถุนายน 30 สู่ 7.8 พันล้านดอลลาร์สำหรับกลุ่ม “คลาวด์อัจฉริยะ” การใช้จ่ายบนคลาวด์เพิ่มขึ้นเล็กน้อยถึงอย่างมีนัยสำคัญที่ 51% ของธุรกิจตามรายงานสถานะคลาวด์ของ Flexera 2021 การสำรวจในเดือนมิถุนายน 2021 Devo Technology พบว่า 19% ของผู้นำธุรกิจกล่าวว่า COVID เร่งไทม์ไลน์และแผนคลาวด์ของพวกเขา Jon Oltsik นักวิเคราะห์หลักอาวุโสและเพื่อนร่วมงานของ ESG Research กล่าวว่า “ไม่ชัดเจนนักจากการสนทนาของเรากับบริษัทเหล่านี้ว่าการพิจารณาระบบคลาวด์ไม่ใช่การตัดสินใจตามโครงการอีกต่อไป แต่เป็นกลยุทธ์ทางธุรกิจแบบครบวงจร” ซึ่งทำการสำรวจในนาม Devo Technology การเติบโตของรายได้ของ AWS (Statista เอื้อเฟื้อภาพ) และแน่นอนว่ายังมีความคิดเห็นที่ Satya Nadella CEO ของ Microsoft ได้กล่าวไว้ระหว่างการประชุมทางโทรศัพท์กับนักวิเคราะห์หลังจากผลประกอบการไตรมาสของ Microsoft ในฤดูใบไม้ผลิปี 2020 “เราเห็นคุณค่าของการเปลี่ยนแปลงทางดิจิทัลในระยะเวลา 2 ปีในสองเดือน” นาเดลลากล่าว Zoomin' to the Cloud COVID เผยให้เห็นปัญหามากมายเกี่ยวกับข้อมูลที่เดือดดาลอยู่ใต้พื้นผิว เราได้จัดทำแผนภูมิความกังวลด้านคุณภาพของข้อมูลที่แสดงโดยหน่วยงานด้านสาธารณสุขและกลุ่มการดูแลสุขภาพในการตอบสนองต่อ COVID รวมถึงการทดสอบ วิธีการติดตามและติดตาม และอัตราของการติดเชื้อ การรักษาในโรงพยาบาล และการเสียชีวิต ตามที่ปรากฎ บริษัทเอกชนกำลังเผชิญกับความท้าทายด้านการจัดการข้อมูลที่คล้ายกันในช่วงโควิด และส่วนใหญ่สามารถสืบย้อนไปถึงการเดินขบวนแบบเร่งรัดไปยังระบบคลาวด์ในช่วงที่มีการระบาดใหญ่ ตั้งแต่การแพร่หลายของการประชุม Zoom และ Teams ไปจนถึงการนำคลังข้อมูล Snowflake และ Redshift มาใช้ ไปจนถึง VPN และเกมออนไลน์ 2020 เป็นปีที่ไม่เหมือนใคร โควิดเรียกร้องให้บริษัทต่างๆ ปรับตัวเข้ากับความเป็นจริงใหม่ หรือเลิกทำธุรกิจ การปรับเปลี่ยนดังกล่าวในหลาย ๆ ด้าน หมายถึงการย้ายแอปพลิเคชันไปยังคลาวด์หรือสร้างแอปพลิเคชันใหม่ที่นั่น Krishna Tammana CTO ของ Talend กล่าวว่าบริษัทต่างๆ เร่งแผนระบบคลาวด์ที่มีอยู่ในช่วง COVID ด้วยวิธีง่ายๆ ในการดำเนินธุรกิจ “ทุกคนมีแผนที่จะย้ายไปยังคลาวด์ แต่การระบาดใหญ่ครั้งนี้ทำให้พวกเขาต้องเคลื่อนไหวเร็วขึ้น” เขากล่าว “ในบางกรณี มันไม่ใช่แม้แต่ตัวเลือก ดังนั้นเราจึงย้ายไปทันที ไม่เช่นนั้น สิ่งที่เรากำลังทำอยู่จะหยุดลง” Crouching Cloud, Hidden Data น่าเสียดายที่การโยกย้ายระบบคลาวด์ไม่ได้เป็นไปตามที่วางแผนไว้เสมอไป อย่างที่คุณคาดหวังระหว่างการเปลี่ยนแปลงที่เร่งรีบ องค์ประกอบบางอย่างของการเคลื่อนไหวนั้นทำได้ไม่ดี ในหลายบริษัท การจัดการข้อมูลเป็นผลสืบเนื่องมาจากการที่โควิด-19 ย้ายไปยังระบบคลาวด์ (solarseven/Shutterstock) เรามาที่นี่ได้อย่างไร Tammana กล่าวว่าปัจจัยหลายอย่างรวมกันทำให้เกิดปัญหาการจัดการข้อมูลบางอย่างเกี่ยวกับการเปลี่ยนผ่านคลาวด์อย่างรวดเร็ว ปัจจัยแรกคือการรู้ว่าข้อมูลใดมีอยู่และอยู่ที่ไหน “ในบางแวดวง เราเรียกมันว่าข้อมูลมืด เพราะมันเป็นเพียงข้อมูลที่มีอยู่ แต่ไม่มีใครรู้ว่ามันมีอยู่จริง” แทมมานากล่าว “ข้อมูลที่มีอยู่นั้นถูกล็อคในบางมุม” ยิ่งบริษัทใหญ่เท่าไหร่ ปัญหาด้านข้อมูลก็จะยิ่งมากขึ้นเท่านั้น บริษัทขนาดเล็กที่มีระบบคอมพิวเตอร์และมาตรฐานข้อมูลน้อยกว่าจะไม่มีปัญหาในการทำความเข้าใจข้อเท็จจริงให้ชัดเจน แต่บริษัทมหาชนที่ประกอบด้วยหลายหน่วยงานอาจต้องผ่านการฝึกแปลงข้อมูลเพื่อให้แน่ใจว่าพวกเขากำลังเปรียบเทียบแอปเปิ้ลกับแอปเปิ้ล ไม่ใช่ส้มหรือกล้วย “ถ้าคุณมีบริษัทในเครือสองแห่ง คำจำกัดความของลูกค้าและรหัสลูกค้าตรงตามข้อกำหนดหรือไม่? พวกเขาตรงกันหรือไม่ คำจำกัดความของรายได้จากระบบนี้และระบบนั้นตรงกันหรือไม่ หรือเราต้องผ่านการเปลี่ยนแปลงบางอย่าง” ทัมมานะกล่าว “ปัญหาที่สามคือตอนนี้เรากำลังรวบรวมข้อมูลมากขึ้นอย่างรวดเร็ว” เขากล่าวต่อ “คุณรวมสิ่งเหล่านี้สามสิ่งเข้าด้วยกัน และคุณมีพายุที่สมบูรณ์แบบในการสร้างข้อมูลมากขึ้น แต่ไม่จำเป็นต้องสามารถนำทุกอย่างมาทำงานในแบบที่คุณต้องการได้” การแก้แค้นของ Hadoop Lake Tammana มองเห็นความคล้ายคลึงกันระหว่างสิ่งที่เกิดขึ้นวันนี้ในระบบคลาวด์ กับสิ่งที่อุตสาหกรรมการวิเคราะห์ข้อมูลเพิ่งผ่านพ้นไปในแง่ของการนำ Hadoop data lake มาใช้ มันขึ้นอยู่กับวิธีที่บริษัทต่างๆ เข้าถึงกลยุทธ์การรวมข้อมูลของตน หรือว่าพวกเขาละทิ้งกลยุทธ์ไปพร้อม ๆ กันโดยเร่งรีบเพื่อไปที่ไหนสักแห่งอย่างรวดเร็ว มีตัวเลือกกว้างๆ สองทางที่บริษัทสามารถทำได้เกี่ยวกับกลยุทธ์การรวมข้อมูล: ETL หรือ ELT ในบางกรณี บริษัทสามารถใช้ทั้งสองอย่าง สิ่งเหล่านี้ไม่ได้เกิดขึ้นพร้อมกัน เนื่องจากความเร็วของการสร้างข้อมูล ความต้องการสำหรับการวิเคราะห์อย่างทันท่วงที และความเต็มใจที่จะยอมรับต้นทุนที่เกิดจากการแปลงข้อมูลล่วงหน้านั้นแตกต่างกันไปในแต่ละกรณี ด้วยกระบวนการ ETL แบบดั้งเดิม บริษัทต่างๆ เลือกที่จะแปลงข้อมูล (เช่น ล้าง ทำให้เป็นมาตรฐาน และทำให้เป็นมาตรฐาน) ข้อมูลก่อนที่จะลงจอดในคลังข้อมูลหรือในทะเลสาบ ซึ่งนักวิเคราะห์ข้อมูลและนักวิทยาศาสตร์ด้านข้อมูลสามารถใช้เพื่อให้บริการแดชบอร์ดและค้นหาแนวโน้มได้ สิ่งนี้มีความหมายเหมือนกันกับแนวทาง “สคีมาในการเขียน” ที่มีอยู่ก่อนยุค Hadoop เริ่มขึ้นใน 2011-2013 กรอบเวลา. ด้วยวิธีการแบบ ELT ที่ใหม่กว่า บริษัทต่างๆ จะนำข้อมูลไปที่ data lake หรือ data warehouse ก่อน แล้วจึงแปลงข้อมูลในภายหลัง เมื่อมีความจำเป็น นี่คือแนวทาง “สคีมาเมื่ออ่าน” ที่ Hadoop ได้รับความนิยมจากข้อมูลที่ไม่มีโครงสร้างและกึ่งโครงสร้างเป็นส่วนใหญ่ และยังคงดำเนินต่อไปในปัจจุบันด้วยดาต้าเลคจำนวนมากและการใช้งานคลังข้อมูล บทเรียนที่ได้เรียนรู้จาก Hadoop นั้นมีขนาดใหญ่มาก Tammana กล่าว แต่จะมีใครมาสนใจไหม? “ELT มักจะเกิดขึ้นเมื่อผู้คนทิ้งข้อมูลลงในทะเลสาบ แล้วพวกเขาต้องการประมวลผลในภายหลัง” เขากล่าว “แต่พวกเขาก็ระมัดระวังปัญหาที่เราพบเจอในฐานะอุตสาหกรรมที่มี Hadoop เป็นต้น ทุกคนใส่ข้อมูลจำนวนมากลงใน Hadoop และทุกคนก็ลืมความหมายของข้อมูลนั้น วิธีใช้งาน และแน่นอน นั่นทำให้ความจริงที่ว่าคุณต้องให้ Java Developer นำข้อมูลไปใช้ ทำให้ไม่สามารถหาคุณค่าจากสิ่งนั้นได้” เครื่องมือของเราดีขึ้นในปัจจุบัน และผู้ใช้ไม่ต้องการนักพัฒนา Java เพื่อรับข้อมูลอีกต่อไป SQL แบบตรงจะเพียงพอและรองรับแม้แต่ Python นักวิทยาศาสตร์ข้อมูลพลเมืองและการวิเคราะห์แบบฝังกำลังทำให้การเข้าถึงข้อมูลเป็นประชาธิปไตย แต่นั่นไม่ได้กล่าวถึงข้อเท็จจริงที่ว่าข้อมูลกำลังซ้อนอยู่ในคลังข้อมูลและคลังข้อมูลบนคลาวด์ และผู้คนอาจจำไม่ได้ว่าต้องติดตามข้อมูลทั้งหมด Tammana กล่าวว่า “การรวมกันของการไม่รู้ว่ามีข้อมูลใดบ้าง และต้องการทักษะทางเทคนิคบางอย่างเพื่อให้ได้คุณค่าจากสิ่งนั้น ทำให้เกิดปัญหาสำหรับ Hadoop” “แต่ปัญหาแรกในการใส่ข้อมูลทั้งหมดเข้าไป แล้วไม่รู้ว่าจะทำอย่างไรกับมัน ยังคงมีอยู่ในโลกนี้ แม้ว่าคุณจะใช้ Snowflake ก็ตาม Tammana มองโลกในแง่ดีว่าผู้คนได้เรียนรู้จากประสบการณ์ Hadoop และระมัดระวังข้อมูลของพวกเขามากขึ้น “แต่ฉันไม่สงสัยเลยว่าจะมีปัญหาในระดับหนึ่ง” เขากล่าว รายการที่เกี่ยวข้อง: ยังต้องการ: (มาก) ข้อมูล COVID ที่ดีขึ้น ข้อมูล Big Cloud บูมใหญ่ยิ่งขึ้น ขอบคุณ COVID- 19

  • บ้าน
  • Business
  • Data science
  • Marketing
  • Leave a Reply

    Your email address will not be published. Required fields are marked *

    Back to top button