Data science

ประวัติโดยย่อของคุณภาพข้อมูล

คำว่า “คุณภาพข้อมูล” เน้นที่ระดับความถูกต้องของข้อมูลเป็นหลัก แต่ยังรวมถึงคุณสมบัติอื่นๆ เช่น การเข้าถึงและประโยชน์ใช้สอย ข้อมูลบางอย่างไม่ถูกต้องเลย ซึ่งในทางกลับกัน ก็ส่งเสริมการตัดสินใจที่ไม่ดี บางองค์กรส่งเสริมการตรวจสอบข้อเท็จจริงและการกำกับดูแลข้อมูล และด้วยเหตุนี้ จึงมีการตัดสินใจที่ทำให้พวกเขาได้เปรียบ วัตถุประสงค์ของการรับรองข้อมูลที่ถูกต้องคือเพื่อสนับสนุนการตัดสินใจที่ดีทั้งในระยะสั้น (การตอบสนองลูกค้าแบบเรียลไทม์) และระยะยาว (ข่าวกรองธุรกิจ) ข้อมูลจะถือว่ามีคุณภาพสูงเมื่อแสดงถึงความเป็นจริงอย่างถูกต้อง ด้วยเหตุนี้ ผู้บริหารและผู้มีอำนาจตัดสินใจต้องพิจารณาถึงคุณภาพของข้อมูลของตน และความไม่สอดคล้องกันที่อาจเกิดขึ้นอาจส่งผลให้เกิดข้อมูลเชิงลึกทางธุรกิจที่ไม่น่าเชื่อถือ ตัวอย่างเช่น เมื่อทำงานกับการวิเคราะห์เชิงคาดการณ์ การคาดการณ์ควรยึดตามข้อมูลที่ถูกต้องและครบถ้วน เมื่อข้อมูลไม่ถูกต้องและครบถ้วน การคาดการณ์จะมีค่าจำกัด และการสันนิษฐานที่ผิดพลาดอาจทำให้องค์กรเสียหายอย่างร้ายแรง ประเด็นที่ต้องพิจารณาในด้านคุณภาพข้อมูล ได้แก่ AccessibilityCompletenessObjectivityReadability TimelinessUniquenessUsefulnessAccuracy บางองค์กรดำเนินการวิจัยที่สำคัญและกำหนดคุณภาพข้อมูลที่ดีอาจรวมถึงการพัฒนาโปรโตคอลเฉพาะสำหรับวิธีการวิจัย พฤติกรรมเหล่านี้จะเป็นส่วนหนึ่งของโปรแกรมการกำกับดูแลข้อมูลที่ดี ที่มาของคุณภาพข้อมูล ในปี 1865 ศาสตราจารย์ริชาร์ด มิลลาร์ เดเวนส์ ได้ก่อตั้งคำว่า “ข่าวกรองธุรกิจ” (ย่อมาจาก BI) ใน Cyclopædia of Commercial และเกร็ดเล็กเกร็ดน้อยทางธุรกิจ เขาใช้คำนี้เพื่ออธิบายว่าเซอร์ เฮนรี เฟอร์เนเซ รวบรวมข้อมูลอย่างไร แล้วดำเนินการกับข้อมูลดังกล่าวก่อนที่คู่แข่งจะทำ เพื่อเพิ่มผลกำไรของเขา ต่อมาใน Hans Peter Luhn ได้เขียนบทความที่อธิบายถึงศักยภาพในการรวบรวม BI โดยอาศัยเทคโนโลยี Business Intelligence เวอร์ชันทันสมัยใช้เทคโนโลยีในการรวบรวมและวิเคราะห์ข้อมูล และแปลงเป็นข้อมูลที่เป็นประโยชน์ ข้อมูลนี้จะถูกใช้ “ก่อนการแข่งขัน” เพื่อสร้างข้อได้เปรียบที่สำคัญ โดยพื้นฐานแล้ว ข้อมูลทางธุรกิจสมัยใหม่มุ่งเน้นไปที่การใช้เทคโนโลยีเพื่อการตัดสินใจที่มีข้อมูลครบถ้วนอย่างรวดเร็วและมีประสิทธิภาพ ใน 1968 ผู้ที่มีทักษะเฉพาะทางอย่างยิ่งคือคนเดียวที่สามารถแปลข้อมูลที่มีอยู่ให้เป็นข้อมูลที่เป็นประโยชน์ได้ ในขณะนั้น โดยปกติข้อมูลที่นำมาจากหลายแหล่งจะถูกเก็บไว้ในไซโล การค้นคว้าข้อมูลประเภทนี้มักเกี่ยวข้องกับการทำงานกับข้อมูลที่กระจัดกระจาย ไม่ปะติดปะต่อ และสร้างรายงานที่น่าสงสัย Edgar Codd ตระหนักถึงปัญหานี้และนำเสนอวิธีแก้ปัญหาใน 1970 ซึ่งเปลี่ยนวิธีที่ผู้คนคิดเกี่ยวกับฐานข้อมูล โซลูชันของเขาแนะนำให้สร้าง “แบบจำลองฐานข้อมูลเชิงสัมพันธ์” ซึ่งได้รับความนิยมอย่างมากและได้รับการยอมรับทั่วโลก ระบบจัดการฐานข้อมูล ระบบสนับสนุนการตัดสินใจ (DSS) ถูกอธิบายว่าเป็นระบบการจัดการฐานข้อมูลที่เก่าที่สุด นักประวัติศาสตร์หลายคนแนะนำว่า Business Intelligence สมัยใหม่นั้นสร้างขึ้นบนฐานข้อมูล DSS ใน 1968 จำนวนผู้จำหน่าย BI เพิ่มขึ้นอย่างมาก นักธุรกิจได้ค้นพบคุณค่าของ Big Data และ Business Intelligence ที่ทันสมัย ในช่วงเวลานี้ มีการสร้างและพัฒนาเครื่องมือที่หลากหลาย โดยมุ่งเน้นที่เป้าหมายในการเข้าถึงและจัดระเบียบข้อมูลด้วยวิธีที่มีประสิทธิภาพและง่ายขึ้น ระบบข้อมูลผู้บริหาร, OLAP และคลังข้อมูลเป็นตัวอย่างของเครื่องมือบางอย่างที่พัฒนาขึ้น ความสำคัญของคุณภาพข้อมูลช่วยจุดประกายการพัฒนาฐานข้อมูลเชิงสัมพันธ์ Data Quality-as-a-Service (DQaaS) In 1986 ก่อนการจัดเก็บข้อมูลราคาไม่แพง คอมพิวเตอร์เมนเฟรมขนาดใหญ่ได้รับการบำรุงรักษาซึ่งมีข้อมูลชื่อและที่อยู่ที่ใช้สำหรับบริการจัดส่ง อนุญาตให้ส่งจดหมายไปยังปลายทางที่ถูกต้อง เมนเฟรมเหล่านี้ออกแบบมาเพื่อแก้ไขคำที่สะกดผิดและข้อผิดพลาดทั่วไปในชื่อและที่อยู่ ในขณะเดียวกันก็ติดตามลูกค้าที่เสียชีวิต ย้ายถิ่น เข้าคุก หย่าร้าง หรือแต่งงานแล้ว นี่เป็นเวลาที่หน่วยงานของรัฐเปิดเผยข้อมูลไปรษณีย์ให้กับ “บริษัทที่ให้บริการ” เพื่อการอ้างอิงโยงกับทะเบียน NCOA (การเปลี่ยนแปลงที่อยู่แห่งชาติ) การตัดสินใจนี้ช่วยบริษัทขนาดใหญ่หลายแห่งประหยัดเงินได้หลายล้านเหรียญ เนื่องจากการแก้ไขข้อมูลลูกค้าด้วยตนเองไม่จำเป็นอีกต่อไป และไม่ต้องเสียค่าไปรษณีย์ไปเปล่าๆ ความพยายามในการปรับปรุงความถูกต้อง/คุณภาพของข้อมูลในช่วงแรกเริ่มขายเป็นบริการ อินเทอร์เน็ตนำเสนอข้อมูลมากมาย ในช่วงปลาย 1968 และต้น 1990 หลายองค์กรเริ่มตระหนัก มูลค่าของข้อมูลและการทำเหมืองข้อมูล ซีอีโอและผู้มีอำนาจตัดสินใจพึ่งพาการวิเคราะห์ข้อมูลมากขึ้น นอกจากนี้ กระบวนการทางธุรกิจยังสร้างข้อมูลจำนวนมากขึ้นเรื่อยๆ จากแผนกต่างๆ เพื่อวัตถุประสงค์ที่แตกต่างกัน ยิ่งไปกว่านั้น อินเทอร์เน็ตก็ได้รับความนิยม ใน 1990 อินเทอร์เน็ตได้รับความนิยมอย่างมาก และฐานข้อมูลเชิงสัมพันธ์ที่เป็นของบริษัทขนาดใหญ่ไม่สามารถตามกระแสข้อมูลจำนวนมหาศาลที่มีอยู่ได้ ปัญหาเหล่านี้ประกอบขึ้นด้วยความหลากหลายของประเภทข้อมูลและข้อมูลที่ไม่สัมพันธ์กันที่เกิดขึ้นในช่วงเวลานี้ ฐานข้อมูลที่ไม่สัมพันธ์กันซึ่งมักเรียกว่า NoSQL มาเป็นโซลูชัน ฐานข้อมูล NoSQL สามารถแปลข้อมูลประเภทต่างๆ ได้อย่างรวดเร็ว และหลีกเลี่ยงความเข้มงวดของฐานข้อมูล SQL โดยการกำจัดพื้นที่จัดเก็บที่ “จัดระเบียบ” และให้ความยืดหยุ่นมากขึ้น ฐานข้อมูลที่ไม่สัมพันธ์กันพัฒนาขึ้นเพื่อตอบสนองต่อข้อมูลอินเทอร์เน็ต ความจำเป็นในการประมวลผลข้อมูลที่ไม่มีโครงสร้าง และความต้องการในการประมวลผลที่รวดเร็วขึ้น โมเดล NoSQL อิงตามระบบฐานข้อมูลแบบกระจาย โดยใช้คอมพิวเตอร์หลายเครื่อง ระบบที่ไม่สัมพันธ์กันนั้นเร็วกว่า จัดระเบียบข้อมูลโดยใช้วิธีการเฉพาะกิจ และประมวลผลข้อมูลประเภทต่างๆ จำนวนมาก สำหรับการวิจัยทั่วไป NoSQL เป็นตัวเลือกที่ดีกว่าเมื่อทำงานกับชุดข้อมูลขนาดใหญ่ที่ไม่มีโครงสร้าง (ข้อมูลขนาดใหญ่) มากกว่าฐานข้อมูลเชิงสัมพันธ์เนื่องจากความเร็วและความยืดหยุ่น คำว่า “ข้อมูลขนาดใหญ่” กลายเป็นคำอย่างเป็นทางการใน 2005 ข้อมูลพื้นฐานสามประการสำหรับการควบคุมคุณภาพข้อมูล ปัจจุบันมีวิธีการพื้นฐานสามวิธีในการบรรลุคุณภาพข้อมูลที่แท้จริง ช่วยอย่างมากในการให้ข้อมูลที่ถูกต้องซึ่งสามารถใช้ในการรวบรวมข้อมูลทางธุรกิจที่เป็นประโยชน์และในการตัดสินใจที่ดี แนวทางเหล่านี้ในการพัฒนาและรักษาคุณภาพข้อมูล ได้แก่ การทำโปรไฟล์ข้อมูลเป็นกระบวนการของการประเมินความสมบูรณ์และสภาพของข้อมูล เป็นที่ยอมรับกันโดยทั่วไปว่าเป็นขั้นตอนแรกที่สำคัญในการควบคุมคุณภาพข้อมูลขององค์กร กระบวนการนี้เน้นความโปร่งใสของข้อมูล รวมถึงข้อมูลเมตาและแหล่งที่มา Data Stewardship จัดการวงจรชีวิตข้อมูลตั้งแต่การดูแลจัดการจนถึงเลิกใช้งาน Data Stewardship กำหนดและรักษาโมเดลข้อมูล จัดทำเอกสารข้อมูล ล้างข้อมูล และกำหนดกฎเกณฑ์และนโยบาย ขั้นตอนเหล่านี้ช่วยในการส่งข้อมูลคุณภาพสูงให้กับทั้งแอปพลิเคชันและผู้ใช้ปลายทาง การเตรียมข้อมูลเกี่ยวข้องกับการล้างข้อมูล การทำให้เป็นมาตรฐาน การเพิ่มคุณค่า และ/หรือการแปลงข้อมูล เครื่องมือการเตรียมข้อมูลที่นำเสนอการเข้าถึงแบบบริการตนเองกำลังถูกใช้เพื่อทำงานให้สำเร็จตามที่ผู้เชี่ยวชาญด้านข้อมูลเคยทำ การกำกับดูแลข้อมูล โดย 2010 ปริมาณข้อมูลและความซับซ้อนยังคงขยายตัว และในการตอบสนอง ธุรกิจก็มีความซับซ้อนมากขึ้นในการใช้ข้อมูล พวกเขาพัฒนาวิธีการรวม จัดการ จัดเก็บ และนำเสนอข้อมูล นี่คือจุดเริ่มต้นของการกำกับดูแลข้อมูล บริษัทที่มองการณ์ไกลได้จัดตั้งองค์กรกำกับดูแลเพื่อรักษาข้อมูลของธุรกิจ และพัฒนากระบวนการทำงานร่วมกันเพื่อใช้ข้อมูลที่จำเป็นสำหรับธุรกิจ แต่ที่สำคัญกว่านั้นคือ พวกเขาได้พัฒนา “แนวทางที่เน้นนโยบายเป็นศูนย์กลาง” สำหรับมาตรฐานคุณภาพข้อมูล โมเดลข้อมูล และความปลอดภัยของข้อมูล กลุ่มแรกๆ เหล่านี้ละเลยวิสัยทัศน์ของที่เก็บขนาดใหญ่และซับซ้อนกว่าที่เคย และมุ่งเน้นไปที่นโยบายที่กำหนด นำไปใช้ และบังคับใช้ขั้นตอนอัจฉริยะสำหรับข้อมูล ขั้นตอนเดียวทำให้การจัดเก็บข้อมูลประเภทเดียวกันในหลาย ๆ แห่งเป็นที่ยอมรับได้ โดยต้องเป็นไปตามนโยบายเดียวกัน ด้วยเหตุนี้ ธุรกิจต่างๆ จึงมีความรับผิดชอบต่อเนื้อหาข้อมูลของตนมากขึ้นเรื่อยๆ ปัจจุบันข้อมูลได้รับการยอมรับอย่างกว้างขวางว่าเป็นทรัพย์สินที่มีค่าขององค์กร การกำกับดูแลข้อมูลครอบคลุมการจัดการข้อมูลโดยรวมในแง่ของการใช้งาน ความสมบูรณ์ ความพร้อมใช้งาน และความปลอดภัย โปรแกรมการกำกับดูแลข้อมูลที่ดีได้จัดตั้งหน่วยงานกำกับดูแลของบุคคลที่มีข้อมูลดีและพัฒนาการตอบสนองในสถานการณ์ต่างๆ พฤติกรรมการกำกับดูแลข้อมูลต้องกำหนดไว้อย่างชัดเจนเพื่ออธิบายอย่างมีประสิทธิภาพว่าข้อมูลจะได้รับการจัดการ จัดเก็บ สำรอง และป้องกันโดยทั่วไปจากข้อผิดพลาด การโจรกรรม และการโจมตี ต้องพัฒนาขั้นตอนการทำงานโดยกำหนดวิธีการใช้ข้อมูลและโดยบุคลากร นอกจากนี้ ต้องมีชุดของการควบคุมและขั้นตอนการตรวจสอบเพื่อให้แน่ใจว่ามีการปฏิบัติตามนโยบายข้อมูลภายในและระเบียบข้อบังคับของรัฐบาลภายนอกอย่างต่อเนื่อง และรับประกันว่าข้อมูลจะถูกใช้ในลักษณะที่สอดคล้องกันในแอปพลิเคชันองค์กรหลายตัว แมชชีนเลิร์นนิงได้กลายเป็นวิธีที่นิยมในการนำ Data Governance ไปปฏิบัติ Data Governance สะท้อนถึงกลยุทธ์ขององค์กร โดยทีม Data Governance จัดระเบียบเพื่อใช้นโยบายและขั้นตอนใหม่ในการจัดการข้อมูล ทีมเหล่านี้ประกอบด้วยผู้จัดการข้อมูลและผู้จัดการธุรกิจ ตลอดจนลูกค้าที่ใช้บริการขององค์กร สมาคมที่มุ่งมั่นที่จะส่งเสริมแนวทางปฏิบัติที่ดีที่สุดเกี่ยวกับกระบวนการกำกับดูแลข้อมูล ได้แก่ DAMA International (สมาคมการจัดการข้อมูล) สถาบันการกำกับดูแลข้อมูล และองค์กรผู้เชี่ยวชาญด้านการกำกับดูแลข้อมูล เครื่องมือคุณภาพข้อมูล เครื่องมือคุณภาพข้อมูลแบบสแตนด์อโลนมักจะให้การแก้ไขสำหรับสถานการณ์เดียว แต่จะไม่แก้ปัญหาหลายอย่างในระยะยาว การค้นหาและใช้เครื่องมือคุณภาพข้อมูลร่วมกันอย่างเหมาะสมมีความสำคัญต่อการเพิ่มคุณภาพข้อมูลสูงสุดและประสิทธิภาพโดยรวมขององค์กร การค้นหาเครื่องมือคุณภาพข้อมูลที่เหมาะสมที่สุดอาจเป็นเรื่องท้าทาย การเลือกเครื่องมือคุณภาพข้อมูลที่ชาญฉลาดและขับเคลื่อนด้วยเวิร์กโฟลว์ โดยควรมีการควบคุมคุณภาพแบบฝังไว้ จะช่วยส่งเสริมระบบของความไว้วางใจที่ “ขยาย” ฉันทามติทั่วไปว่าเครื่องมือคุณภาพข้อมูลแบบสแตนด์อโลนเพียงเครื่องมือเดียวจะไม่ให้ผลลัพธ์ที่ดีที่สุด รูปภาพที่ใช้ภายใต้ลิขสิทธิ์จาก Shutterstock.com

  • บ้าน
  • Business
  • Data science
  • Marketing
  • Leave a Reply

    Your email address will not be published. Required fields are marked *

    Back to top button