Data science

วิธีเลือกกองข้อมูลที่เหมาะสมสำหรับธุรกิจของคุณ

ข้อมูลมีหลายรูปแบบและหลายรูปแบบ แต่โครงสร้างหลักสองแบบคือสแต็กและคิว คำจำกัดความของ TechTarget ระบุดังต่อไปนี้ “ในการเขียนโปรแกรม สแต็กคือพื้นที่ข้อมูลหรือบัฟเฟอร์ที่ใช้สำหรับจัดเก็บคำขอที่ต้องจัดการ” และอะไรอยู่ภายในกองข้อมูลนั้น? ไม่ใช่แค่คลังข้อมูล กองข้อมูลประกอบด้วยเครื่องมือที่ทำหน้าที่สำคัญสี่อย่าง รวบรวม จัดเก็บ สร้างแบบจำลอง และรายงาน แต่สแต็กเองและคลังข้อมูลเป็นสองสิ่งที่เราจะเน้นในบทความนี้เนื่องจากมีความสำคัญสูง เพื่อให้เข้าใจถึงสาเหตุที่จำเป็นต้องมุ่งเน้นไปที่กองข้อมูลและคลังข้อมูลของคุณ เราได้พูดคุยกับ Archit Goyal หัวหน้าฝ่ายสถาปัตยกรรมโซลูชันที่ Snowplow Analytics เพื่อทำความเข้าใจเพิ่มเติม โอกาสและความท้าทายที่เกิดขึ้นเมื่อเลือกและพัฒนากองข้อมูลมีอะไรบ้าง “การเลือกกองข้อมูลจะขึ้นอยู่กับปัจจัยหลายประการ: กรณีการใช้งานหลักของบริษัท ขนาดและความสามารถของทีมข้อมูล งบประมาณ วุฒิภาวะของข้อมูล และอื่นๆ” Goyal กล่าว “หนึ่งในตัวเลือกหลักคือการเลือกระหว่างโซลูชันการวิเคราะห์แบบแพ็คเกจ (คิดว่า GA หรือ Adobe) กับส่วนประกอบแบบโมดูลาร์ที่รวมกันเป็นกองข้อมูล ข้อได้เปรียบหลักของผลิตภัณฑ์แบบแพ็คเกจคือ พวกเขามีเครื่องมือวิเคราะห์จำนวนมากที่พร้อมจะใช้งานทันที อย่างไรก็ตาม ข้อเสียเปรียบหลักคือคุณยอมเสียการควบคุมและความยืดหยุ่นในการจัดการข้อมูลของคุณ เพื่อสนับสนุนความเรียบง่ายและใช้งานง่าย การเลือกและตั้งค่าเครื่องมือที่ดีที่สุดหลายตัวเพื่อสร้างสแต็กการวิเคราะห์นั้นยากกว่า แต่จะช่วยให้คุณควบคุมสินทรัพย์ข้อมูลของคุณได้ดียิ่งขึ้นในระยะยาว” คลังข้อมูลคืออะไร และทำไมบริษัทต่างๆ ถึงต้องการมัน ตัวอย่างเช่น คลังข้อมูลและฐานข้อมูล MySQL ต่างกันอย่างไร “คลังข้อมูลเป็นที่เก็บข้อมูลแบบรวมศูนย์ซึ่งสามารถสอบถามเพื่อประโยชน์ทางธุรกิจได้” Goyal กล่าว “พวกเขาสามารถมีข้อมูลจากแหล่งที่แตกต่างกัน เช่น SQL, ไฟล์ CSV, ไฟล์ข้อความ และอื่นๆ คลังข้อมูลเป็นฐานข้อมูลแบบเสาและ MySQL เป็นฐานข้อมูลเชิงสัมพันธ์ ซึ่งหมายความว่าคลังข้อมูลได้รับการปรับให้เหมาะสมสำหรับการวิเคราะห์ข้อมูลในอดีต เนื่องจากง่ายต่อการรวมค่าระหว่างแถวต่างๆ (เช่น นับเซสชันในช่วงเวลา) ในขณะที่ฐานข้อมูล MySQL นั้นดีสำหรับการจัดเก็บและดึงข้อมูลแต่ละรายการเป็นที่เก็บธุรกรรมในแอป” ตัวอย่างคลังข้อมูลที่ยอดเยี่ยมมีอะไรบ้าง “สามรายใหญ่ (ปัจจุบันอยู่ในที่เกิดเหตุ) คือ BigQuery ของ Google, Redshift ของ Amazon และ Snowflake” Goyal กล่าว “โดยทั่วไปจะใช้เพื่อจัดเก็บข้อมูลของบริษัทในรูปแบบคอลัมน์เพื่อให้สามารถวิเคราะห์และรายงานได้ง่าย เมื่อใช้เป็นแหล่งความจริงสำหรับบริษัทในการตอบคำถามทางธุรกิจ โดยเฉพาะอย่างยิ่งเกี่ยวกับผู้ใช้ จะมีพลังมหาศาล” นั่นครอบคลุมถึงคลังสินค้า แต่คำจำกัดความของกองข้อมูลของเราคืออะไร และอะไรควรอยู่ในกองข้อมูลที่ดี “ที่ Snowplow เราคิดถึงกองข้อมูลในสี่ขั้นตอนที่แตกต่างกัน” Goyal กล่าว “ก่อนอื่น เรารวบรวม คุณภาพของข้อมูลมีความสำคัญ ด้วยข้อมูลคุณภาพสูงและครบถ้วน รูปแบบการระบุแหล่งที่มาจึงแม่นยำ ติดตามและเข้าใจพฤติกรรมของผู้ใช้ได้ง่าย และสามารถเพิ่มประสิทธิภาพประสบการณ์ของลูกค้าได้ นั่นคือเหตุผลที่ลูกค้าของเราเลือก Snowplow เนื่องจากเราให้ความยืดหยุ่นในการรวบรวมข้อมูลจากหลายแพลตฟอร์มและช่องทางต่างๆ รวมถึงการให้ข้อมูลที่สะอาดและมีโครงสร้าง” “ถ้าอย่างนั้นเราเก็บ Snowflake, BigQuery, Redshift และ S3 ล้วนเป็นตัวอย่างเครื่องมือสำหรับการจัดเก็บข้อมูลที่รวบรวมไว้” “ขั้นตอนที่สามคือการสร้างแบบจำลอง การสร้างแบบจำลองข้อมูลสามารถช่วยทีมทำให้ข้อมูลของพวกเขาเป็นประชาธิปไตย ที่ Snowplow ลูกค้าของเราใช้เครื่องมือเช่น Snowplow SQL Runner, dbt และ Dataform เพื่อสร้างแบบจำลองข้อมูลของพวกเขา” “ในที่สุด เรารายงาน ในขั้นตอนนี้ ทีมข้อมูลต้องการเปิดใช้งานการวิเคราะห์แบบบริการตนเองภายในองค์กร ซึ่งรวมถึงการใช้เครื่องมือต่างๆ เช่น Looker, Redash, PowerBI และ Amplitude” “ไม่มีขนาดใดที่เหมาะกับทุกแนวทาง” Goyal กล่าว “หลายทีมเลือกใช้โซลูชันแบบสำเร็จรูปที่กล่าวถึงก่อนหน้านี้ ในขณะที่ทีมข้อมูลที่ซับซ้อนมากขึ้นเรื่อยๆ กำลังรวมส่วนประกอบแบบแยกส่วนที่ระบุไว้ด้านบนเพื่อสร้างกองข้อมูลที่แข็งแกร่งซึ่งพวกเขาสามารถควบคุมได้ตั้งแต่เริ่มต้น” กรณีการใช้งาน data stack ที่ยอดเยี่ยมคืออะไร? “ลูกค้า Snowplow และผู้เชี่ยวชาญด้านการตลาดการจัดหางาน VONQ ต้องการใช้ข้อมูลเพื่อดึงดูดผู้มีความสามารถและโฆษณางานในนามของลูกค้าของพวกเขา” Goyal กล่าว “เพื่อให้คำแนะนำที่ดีขึ้นและให้ข้อมูลเชิงลึกที่นำไปปฏิบัติได้สำหรับนายหน้า VONQ ได้ลงทุนในคลังข้อมูลและแบบจำลองข้อมูลที่ตรงกับความต้องการทางธุรกิจของพวกเขา สำหรับกรณีการใช้งาน VONQ เลือกใช้คลังข้อมูล Snowflake โดยอ้างถึงรูปแบบการกำหนดราคา การจัดการผู้ใช้ และประสิทธิภาพเป็นปัจจัยขับเคลื่อนหลักบางประการที่อยู่เบื้องหลังการตัดสินใจของพวกเขา” “นอกเหนือจากการนำ Snowflake มาใช้ VONQ ยังต้องการวิธีการให้บริการข้อมูลของพวกเขา เช่นเดียวกับการตอบสนองที่เกือบจะเรียลไทม์สำหรับลูกค้าของพวกเขา พวกเขาตัดสินใจนำข้อมูลจำนวนเล็กน้อยจากคลังข้อมูลของตนมาใส่ในฐานข้อมูล Postgres ซึ่งพวกเขาสามารถกำหนดค่าดัชนีได้ เป็นต้น สำหรับการเคลื่อนย้ายข้อมูลนี้ พวกเขาใช้ Airflow เนื่องจากการทำงานกับ ETL แบบกลุ่ม เมื่อข้อมูลของพวกเขาอยู่ใน Postgres ก็อนุญาตให้ทีมข้อมูลสร้างบริการวิเคราะห์เพื่อให้บริการข้อมูลที่นำไปดำเนินการได้กับทีมในวงกว้าง” “Natalia วิศวกรข้อมูลที่ VONQ ได้แบ่งปันเส้นทางข้อมูลนี้กับเราในการสัมมนาผ่านเว็บล่าสุด – คุณสามารถรับชมได้ตามต้องการที่นี่” มีโมเดลข้อมูลใดบ้าง และคุณควรสำรวจโมเดลเหล่านี้อย่างไรเพื่อเป็นทางเลือกที่ดีที่สุดสำหรับข้อมูลเชิงลึกทางธุรกิจที่ดีขึ้น “การสร้างแบบจำลองข้อมูลเป็นขั้นตอนสำคัญในการสังคมข้อมูลระดับเหตุการณ์ทั่วองค์กรของคุณและดำเนินการวิเคราะห์ข้อมูล” Goyal กล่าว “ในรูปแบบพื้นฐานที่สุด การสร้างแบบจำลองข้อมูลเป็นวิธีการสร้างโครงสร้างให้กับข้อมูลดิบระดับเหตุการณ์ โครงสร้างนี้โดยพื้นฐานแล้วคือตรรกะทางธุรกิจของคุณที่ใช้กับข้อมูลที่คุณนำเข้ามาในคลังข้อมูลของคุณ ทำให้ง่ายต่อการสืบค้นและใช้สำหรับกรณีการใช้งานเฉพาะของคุณ” “มีหลายวิธีในการสร้างแบบจำลองข้อมูลของคุณเพื่อให้สืบค้นและใช้งานได้ง่ายขึ้น และในท้ายที่สุด วิธีที่คุณจะสร้างแบบจำลองจะขึ้นอยู่กับตรรกะทางธุรกิจและกรณีการใช้งานการวิเคราะห์ของคุณ หากคุณกำลังสร้างแบบจำลองข้อมูลของคุณสำหรับการแสดงภาพในเครื่องมือ BI คุณต้องทำตามตรรกะที่เครื่องมือ BI ต้องการ หรือสร้างแบบจำลองภายในเครื่องมือ BI เอง (เช่น การใช้ผลิตภัณฑ์ LookML ของ Looker)” “สำหรับผู้ค้าปลีกและบริษัทอีคอมเมิร์ซส่วนใหญ่ โมเดลข้อมูลของ Google และ Adobe จะเหมาะกับกรณีการใช้งานของพวกเขา ยักษ์ใหญ่เหล่านี้ได้สร้างแพลตฟอร์มและตรรกะสำหรับผู้ค้าปลีก — การแปลงและการติดตามเป้าหมาย การวิเคราะห์ช่องทาง ฯลฯ ได้รับการปรับให้เหมาะสมสำหรับเส้นทางของลูกค้าอีคอมเมิร์ซแบบดั้งเดิม ที่กล่าวว่า ธุรกิจจำนวนมากมีปัญหาในการทำให้ Google และ Adobe ทำงานให้กับพวกเขา เช่น หากคุณเป็นตลาดแบบสองด้านที่มีกลุ่มผู้ซื้อและผู้ขายสองกลุ่มที่แตกต่างกัน หรือธุรกิจการสมัครสมาชิก (มือถือ) ที่ต้องการทำความเข้าใจการเก็บข้อมูล” “สมมติว่าคุณเป็นตลาดจัดหางาน และคุณมีผู้หางานและผู้จัดหางานโต้ตอบกับแพลตฟอร์มของคุณ (กลุ่มผู้ใช้ที่แตกต่างกันสองกลุ่มที่มีพฤติกรรมต่างกัน) เมื่อผู้หางานกำลังมองหางาน การค้นหาหนึ่งครั้งบนเว็บไซต์อาจส่งผลให้มีการสมัครงานห้าครั้ง ซึ่งหมายความว่าช่องทางดั้งเดิมหรืออัตรา Conversion จะไม่สมเหตุสมผล” “ต่อไปนี้คือตัวอย่างบางส่วนของแบบจำลองข้อมูลที่เราเห็นกับลูกค้าของเรา: การสร้างแบบจำลองเหตุการณ์มาโครจากเหตุการณ์ย่อย (เช่น การดูวิดีโอ); การสร้างแบบจำลองเวิร์กโฟลว์ (เช่น ช่องทางการลงทะเบียน); เซสชั่นการสร้างแบบจำลอง; และผู้ใช้โมเดลลิ่ง” “ดูคำแนะนำของเราในการสร้างแบบจำลองข้อมูลเพื่อเรียนรู้เพิ่มเติมเกี่ยวกับแต่ละตัวอย่างและเคล็ดลับเกี่ยวกับวิธีการเปลี่ยนข้อมูลดิบของคุณให้เป็นชุดข้อมูลที่ใช้งานได้ง่าย” ผู้เชี่ยวชาญด้านข้อมูลควรใส่ใจอะไรเมื่อพัฒนากองข้อมูลและคลังข้อมูล “คำถามนี้มีคำตอบยาวเหยียดซึ่งเต็มไปด้วย 'มันขึ้นอยู่กับ'” Goyal กล่าว “อย่างไรก็ตาม การพิจารณาสองสิ่งเป็นสิ่งสำคัญ: คุณภาพของข้อมูลและความโปร่งใส การมีข้อมูลคุณภาพสูง สมบูรณ์และแม่นยำในรูปแบบที่ละเอียดมักเป็นกุญแจสำคัญในการตั้งค่าทีมวิทยาศาสตร์ข้อมูลเพื่อความสำเร็จ ความโปร่งใสในการประมวลผลข้อมูลต้นน้ำของแบบจำลองวิทยาศาสตร์ข้อมูลมีความสำคัญต่อการพิสูจน์ผลลัพธ์” Archit Goyal จะพูดที่ DN Unlimited Conference ในเดือนพฤศจิกายน 18-20, – พบเขาที่เส้นทาง Data Science ระหว่างการบรรยายเรื่อง “การสร้างความสามารถด้านข้อมูลเชิงกลยุทธ์”

  • บ้าน
  • Business
  • Data science
  • Marketing
  • Leave a Reply

    Your email address will not be published. Required fields are marked *

    Back to top button