Data science

คุณอยากเป็น Data Curator ไหม?

การดูแลข้อมูลมุ่งเน้นอย่างมากที่การรักษาและจัดการข้อมูลเมตา ไม่ใช่ตัวฐานข้อมูลเอง ดังนั้น การจัดการข้อมูลส่วนใหญ่จึงเกี่ยวข้องกับสิ่งต่างๆ เช่น การสื่อสารที่ดีและความนิยมในการใช้บริการหรือบทความ ผู้ดูแลข้อมูลไม่เพียงแต่สร้าง จัดการ และบำรุงรักษาข้อมูลเท่านั้น แต่ยังอาจมีส่วนร่วมในการกำหนดแนวทางปฏิบัติที่ดีที่สุดสำหรับการทำงานกับข้อมูลนั้นด้วย ผู้ดูแลข้อมูลมักจะทำงานกับข้อมูลโดยใช้รูปแบบภาพ เช่น แผนภูมิหรือแดชบอร์ด และจัดเก็บ “วัตถุ” ด้วยข้อมูลเมตาที่แนบมา แทนที่จะเป็นไฟล์ ผู้ดูแลข้อมูลเชื่อมโยงโลกของเทคโนโลยีสารสนเทศ (IT) และวิทยาศาสตร์ข้อมูล/ข่าวกรองธุรกิจ ข้อมูลจำนวนมหาศาลอาจมีให้พร้อม แต่ถ้าไม่ได้จัดหมวดหมู่และดูแลจัดการอย่างถูกต้อง ข้อมูลนั้นก็ไร้ประโยชน์ แผนกไอทีจะมีปัญหาในการค้นหาและการให้ข้อมูลที่ร้องขอ และนักวิทยาศาสตร์ข้อมูลที่ต้องการทำงานกับข้อมูลเพื่อสร้างรายงานที่ให้ข้อมูลและถูกต้องจะได้รับข้อมูลที่ไม่ถูกต้อง เนื่องจากองค์กรมีวิวัฒนาการในการใช้ข้อมูล ผู้ดูแลข้อมูลจึงกลายเป็นสิ่งจำเป็น การใช้และวิจัยข้อมูลขนาดใหญ่ยังค่อนข้างใหม่ โดยเริ่มต้นในปี 2005 ด้วยการเปิดตัว Hadoop ดังนั้น การพัฒนาตำแหน่งใหม่เพื่อรองรับความรับผิดชอบใหม่ยังคงดำเนินต่อไปเมื่อสายงานเติบโตขึ้น ในอนาคตอันใกล้นี้ ตำแหน่งใหม่ของผู้ดูแลข้อมูลจะกลายเป็นสิ่งจำเป็นสำหรับบางองค์กร หากไม่มีผู้ดูแลข้อมูล นักวิทยาศาสตร์ข้อมูลและนักวิเคราะห์ข้อมูลจะใช้เวลามหาศาลในการทำงานด้านองค์กร แทนที่จะค้นหา จัดเตรียม และเพิ่มประสิทธิภาพข้อมูลเพื่อการวิเคราะห์ ปรัชญาขององค์กร แคตตาล็อกบัตรก่อนดิจิทัลที่ใช้ในห้องสมุดเมื่อไม่กี่สิบปีที่ผ่านมาเป็นตัวอย่างที่ดีของข้อมูลเมตา โดยพื้นฐานแล้วข้อมูลเมตาจะอธิบาย “ข้อมูลเกี่ยวกับข้อมูลที่นำเสนอ” โดยทั่วไป metadata จะให้ข้อมูลว่าอย่างไร เมื่อไร อะไร ที่ไหน และทำไม ข้อมูลเมตาคือข้อมูลจำนวนสั้นๆ ที่ใช้ในระบบการทำรายการ เพื่อให้ข้อมูลพื้นฐานที่สุดในสรุป ทำให้ค้นหาและติดตามข้อมูลได้ง่ายขึ้น พจนานุกรมข้อมูล (ใช้งานอยู่) คือที่เก็บข้อมูลเมตาส่วนกลาง โดยใช้ซอฟต์แวร์ทั่วไปเพื่อให้ข้อมูลเกี่ยวกับความสัมพันธ์ของข้อมูล ที่มา การใช้งาน และรูปแบบ ระบบพจนานุกรมข้อมูลที่ใช้โดยนักออกแบบ นักวิจัย และผู้ดูแลระบบเท่านั้น และ “ไม่ใช่ส่วนหนึ่งของซอฟต์แวร์ DBMS” เรียกว่า “พจนานุกรมข้อมูลแบบพาสซีฟ” (สิ่งเหล่านี้ได้รับการอัปเดตด้วยตนเองโดยไม่มีการเปลี่ยนแปลง DBMS) พจนานุกรมข้อมูลมักถูกจัดระเบียบโดยใช้รูปแบบสเปรดชีต โดยแต่ละแอตทริบิวต์จะแสดงเป็นแถว และแต่ละคอลัมน์จะมีป้ายกำกับเป็นองค์ประกอบ องค์ประกอบทั่วไปที่รวมอยู่ในพจนานุกรมข้อมูลคือ: ชื่อแอตทริบิวต์: แต่ละแอตทริบิวต์จะได้รับตัวระบุที่ไม่ซ้ำกัน (แอตทริบิวต์คือข้อกำหนดที่กำหนดคุณสมบัติของวัตถุ) ตัวเลือก/จำเป็น: ระบุข้อมูลที่จำเป็นก่อนที่จะบันทึกได้ ประเภทแอตทริบิวต์: กำหนด ประเภทของข้อมูลที่อนุญาตในฟิลด์ (วันที่/เวลา, ข้อความ, ตัวเลข, รายการแจงนับ, บูลีน และตัวระบุที่ไม่ซ้ำ) เมื่อการวิจัยบิ๊กดาต้าขยายตัว แคตตาล็อกข้อมูลก็ได้รับความนิยมเพิ่มขึ้น แค็ตตาล็อกข้อมูลพัฒนาแนวคิดในการจัดระเบียบข้อมูลเมตาโดยทำหน้าที่เป็นทั้งเครื่องมือค้นหาและวิกิ (โปรแกรมเซิร์ฟเวอร์ที่อนุญาตให้ผู้ใช้ทำงานร่วมกันในการสร้างเนื้อหาสำหรับเว็บไซต์) และทำให้นักวิเคราะห์สามารถค้นหาข้อมูลที่ต้องการได้ง่ายขึ้น แค็ตตาล็อกข้อมูลมีให้สำหรับผู้ใช้ทุกคน โดยเป็นจุดแรกระหว่างการวิจัยข้อมูล และโดยปกติแล้วจะอยู่ภายในคลาวด์หรือเซิร์ฟเวอร์ภายในองค์กร มันสร้างดัชนีระบบข้อมูลโดยอัตโนมัติ เครื่องมือค้นหาชิ้นส่วน แค็ตตาล็อกข้อมูลจะรวบรวมข้อมูลผ่านฐานข้อมูลและระบบ BI เพื่อค้นหาข้อมูลที่ต้องการ ผู้ดูแลข้อมูลคือบุคคลที่นำการจัดระเบียบข้อมูลเมตาไปอีกระดับและทำงานร่วมกับพจนานุกรมข้อมูลและแคตตาล็อกข้อมูล ภัณฑารักษ์ต้องมีความเข้าใจที่ดีเกี่ยวกับระบบที่จัดเก็บข้อมูลและเครื่องมือที่พร้อมใช้งานสำหรับการประมวลผลข้อมูล ความรู้ล่าสุดเกี่ยวกับชุดข้อมูล ฐานข้อมูล และการจัดการข้อมูลเป็นสิ่งจำเป็น ผู้ดูแลข้อมูลยังเข้าใจถึงการวิเคราะห์ประเภทต่างๆ ที่ดำเนินการ เช่นเดียวกับความคาดหวังของนักวิทยาศาสตร์ข้อมูลและผู้บริหาร ในท้ายที่สุด ผู้ดูแลข้อมูลช่วยให้นักวิทยาศาสตร์ข้อมูลมีประสิทธิผลมากขึ้น ผู้แนะนำข้อมูล ปรับปรุงกระบวนการวิเคราะห์ ผู้แนะนำข้อมูลเติมเต็มช่องว่างระหว่างนักวิทยาศาสตร์ข้อมูลและนักวิเคราะห์ข้อมูล โดยทั่วไปแล้ว พวกเขาจะมีความเข้าใจข้อมูลและปริมาณงานในการวิเคราะห์ได้ดีกว่าวิศวกรข้อมูล เนื่องจากพวกเขาทำงานอย่างใกล้ชิดกับการจัดการและการตลาด นักวิทยาศาสตร์ข้อมูลค้นหาความหมายในข้อมูล แต่อาศัยไอทีในการให้ข้อมูล เป็นเรื่องปกติสำหรับนักวิทยาศาสตร์ด้านข้อมูลที่จะเริ่มต้นโครงการวิเคราะห์โดยเริ่มต้นคำของานกับฝ่ายไอที คำขอจะอธิบายข้อมูลที่จำเป็นสำหรับโครงการ ตลอดจนข้อกำหนดการจัดรูปแบบโดยละเอียด ความถี่ในการอัปเดต และเครื่องมือที่จำเป็นสำหรับการวิเคราะห์ จากนั้น IT จะมอบหมายคำขอให้กับวิศวกรข้อมูล ซึ่งจะตรวจสอบข้อกำหนดเพิ่มเติม จากนั้นจึงค้นหาข้อมูลที่ร้องขอ อย่างไรก็ตาม หากข้อมูลไม่เป็นระเบียบ ก็มักจะมีความสับสนพอสมควร เนื่องจากนักวิทยาศาสตร์ด้านข้อมูลพยายามสื่อสารความต้องการของตนไปยังแผนกไอที วิศวกรข้อมูลมาพร้อมกับความเข้าใจในโครงสร้างพื้นฐาน และนักวิทยาศาสตร์ข้อมูลเข้าใจความหมายของข้อมูล แต่หากไม่มีข้อมูลที่มีการจัดระเบียบ ทั้งสองกลุ่มก็มีปัญหาในการสื่อสารความต้องการของพวกเขา ผู้ดูแลข้อมูลมีระบบที่ช่วยให้ไอทีและนักวิทยาศาสตร์ข้อมูลทำงานร่วมกันได้อย่างราบรื่นและมีประสิทธิภาพ (โดยส่วนใหญ่) เครื่องมือสำหรับผู้แนะนำข้อมูล เมื่อองค์กรปรับตัวเพื่อรวมบิ๊กดาต้า ภัณฑารักษ์ข้อมูลจึงกลายเป็นสิ่งจำเป็นในการทำให้องค์กรและบุคคลมีประสิทธิภาพและประสิทธิผลมากขึ้น พวกเขาให้บริการภายในองค์กร ภัณฑารักษ์ข้อมูลมีเครื่องมือและเว็บไซต์ที่หลากหลายสำหรับการทำงาน: Digital Curation Resources: แคตตาล็อกเครื่องมือสำหรับภัณฑารักษ์ดิจิทัลและผู้สร้างข้อมูล DCC Tools: ชุดเครื่องมือ Curation และ Data Management OpenRefine: เครื่องมือโอเพ่นซอร์สฟรีที่ออกแบบมาสำหรับ ทำงานกับข้อมูลที่ซับซ้อนและยุ่งเหยิง (และแปลงรูปแบบ) ขยายข้อมูลด้วยอินเทอร์เน็ต และเชื่อมโยงไปยังฐานข้อมูลอื่น DMPTool: แอปพลิเคชันออนไลน์โอเพนซอร์ซฟรีสำหรับสร้างแผนการจัดการข้อมูลตามที่หน่วยงานให้ทุนสนับสนุนสำหรับ ใบสมัครยื่นข้อเสนอ The Qualitative Data Repository (QDR): ดูแล รักษา เผยแพร่ และส่งเสริมการดาวน์โหลดข้อมูลดิจิทัลในสังคมศาสตร์ พื้นที่เก็บข้อมูลให้คำแนะนำสำหรับการจัดการ การอ้างอิง และการใช้ data.re3data.org เชิงคุณภาพ: เข้าถึงและแบ่งปันข้อมูลกับที่เก็บข้อมูลการวิจัยมากกว่า 2000 การดูแลข้อมูลเทียบกับการดูแลจัดการเนื้อหา การดูแลจัดการข้อมูลเกี่ยวข้องกับการจัดระเบียบข้อมูลของธุรกิจ โรงพยาบาล หรือองค์กรอื่นๆ ในทางกลับกัน การดูแลจัดการเนื้อหาเกี่ยวข้องกับการรวบรวมข้อมูลที่เกี่ยวข้องและเป็นประโยชน์จากเว็บไซต์อื่นและแบ่งปันผ่านลิงก์ เพื่อปรับปรุงประสบการณ์ของผู้เยี่ยมชม การดูแลจัดการเนื้อหามีลิงก์ไปยังบทความหรือแหล่งข้อมูลอื่นๆ มัน “อ้างอิง” ผู้เข้าชมบทความหรือข้อมูลที่น่าสนใจ เป็นวิธีง่ายๆ ในการจัดหาเนื้อหาที่น่าสนใจซึ่งสร้างขึ้นบนเว็บไซต์อื่น การดูแลจัดการเนื้อหาช่วยให้เว็บไซต์ครอบคลุมหัวข้อต่างๆ ได้กว้างขึ้นโดยใช้ความพยายามเพียงเล็กน้อย เนื้อหาที่ดูแลจัดการสามารถใช้ร่วมกับการแนะนำหรือความคิดเห็นได้ การแยกข้อมูลเมตาและการเรียนรู้ด้วยเครื่องและข้อมูลเชิงลึกของข้อมูลเมตาวางรากฐานสำหรับโมเดลการเรียนรู้ของเครื่อง (ML) เมื่อแบบจำลองได้รับการฝึกอบรมอย่างเพียงพอแล้ว สามารถใช้เพื่อให้การค้นหาและการตอบสนองเร็วขึ้น การค้นหาโดยใช้รูปแบบ “ไฟล์” แบบดั้งเดิมที่มีลำดับชั้นนั้นไม่มีประสิทธิภาพและเงอะงะ วิธีการตามไฟล์ในการค้นหาข้อมูลโดยพื้นฐานแล้วไม่มีข้อมูลเมตา การจัดการข้อมูลโดยการเปรียบเทียบนั้นมีประสิทธิภาพอย่างน่าทึ่ง การจัดการข้อมูลจะจัดการข้อมูลเป็นออบเจ็กต์และให้ตัวเลือกพิเศษสำหรับการจัดเก็บข้อมูลที่ไม่มีโครงสร้าง แพลตฟอร์มการจัดเก็บอ็อบเจ็กต์ใช้ข้อมูลทั้งหมด ไม่ว่าจะเป็นเอกสาร รูปภาพ วิดีโอ หรือข้อมูลที่ไม่มีโครงสร้างอื่นๆ และจัดเก็บเป็นออบเจ็กต์เดียว ข้อมูลเมตาจะอยู่ภายในข้อมูลที่ได้มา และมาพร้อมกับข้อมูลเชิงพรรณนาเกี่ยวกับออบเจกต์และตัวข้อมูลเอง ข้อมูลเมตาถูกยึดไว้ภายในข้อมูลที่จับได้หรือวัตถุ ด้วยเหตุนี้ พื้นที่จัดเก็บอ็อบเจ็กต์จึงเปิดใช้ “การกำหนดเวอร์ชัน” ซึ่งเป็นคุณลักษณะที่สำคัญในการฝึกอบรม Machine Learning นักวิทยาศาสตร์ด้านข้อมูลสามารถใช้คุณลักษณะเฉพาะนี้ในการจัดเก็บออบเจ็กต์ในเวอร์ชันข้อมูล ซึ่งช่วยให้ผู้ทำงานร่วมกันสร้างผลลัพธ์ได้ในภายหลัง คุณลักษณะการกำหนดเวอร์ชันนี้ช่วยลดเวลาการวิจัยและได้ผลลัพธ์ที่ต้องการเร็วขึ้น นอกจากนี้ยังส่งเสริมไปป์ไลน์การเรียนรู้ของเครื่องที่ทำซ้ำได้ เช่นเดียวกับการตรวจสอบความถูกต้องของข้อมูล รูปภาพที่ใช้ภายใต้ลิขสิทธิ์จาก Shutterstock.com

  • บ้าน
  • Business
  • Data science
  • Marketing
  • Leave a Reply

    Your email address will not be published. Required fields are marked *

    Back to top button