Data science

การแสดงภาพสตรีมข้อความ – ดีกว่าที่จะได้พบคุณ!

คลิกเพื่อเรียนรู้เพิ่มเติมเกี่ยวกับผู้เขียนร่วม Andisa Dewi คลิกเพื่อเรียนรู้เพิ่มเติมเกี่ยวกับผู้เขียนร่วม Kilian Thiel แทบทุกคนเคยได้ยินเรื่อง หนูน้อยหมวกแดง นิทานเกี่ยวกับการเผชิญหน้าระหว่างเด็กสาวกับหมาป่าตัวโต หนึ่งในเวอร์ชันยอดนิยมของเรื่องนี้เขียนโดยพี่น้องกริมม์ แต่นิทานพื้นบ้านง่ายๆ เกี่ยวอะไรกับการแสดงภาพสตรีมข้อความ และการสร้างภาพข้อมูลกระแสคืออะไร? แผนภูมิพื้นที่แบบเรียงซ้อน หรือการแสดงภาพข้อมูลแบบสตรีม มีประโยชน์มากในการแสดงหัวข้อในเอกสารชุดเดียวหรือชุดที่เปลี่ยนแปลงและพัฒนาเมื่อเวลาผ่านไป เอกสารแต่ละฉบับถูกกำหนดไว้ที่จุดเดียวในเวลา – ตัวอย่างเช่น วันที่ตีพิมพ์ จากนั้นหัวข้อหรือคำสำคัญที่เฉพาะเจาะจง สามารถดู “ซ้อนกัน” ที่ด้านบนของแต่ละอื่น ๆ ตามความถี่ของเอกสาร แผนภูมิเดียวมักจะยึดตามเอกสารหลายฉบับ คุณคิดอย่างไรเกี่ยวกับการอ่านเรื่องราวของหนูน้อยหมวกแดงผ่านการแสดงภาพแบบสตรีม การใช้ตัวละครหลักของเรื่องเป็นคีย์เวิร์ดของเรา การสร้างภาพข้อมูลจะแสดงทุกครั้งที่ตัวละครเกิดขึ้นและเกิดขึ้นพร้อมกัน โดยเผยให้เห็นถึงความสำคัญตามลำดับ นี้จะให้ความคิดของหลักสูตรของเรื่องโดยไม่ต้องอ่านมันจริง ๆ ! เหตุผลที่หนูน้อยหมวกแดงเป็นตัวอย่างที่ดีคือมันมีเนื้อเรื่องที่ค่อนข้างเรียบง่ายโดยมีตัวละครหลักเพียงห้าตัว: หนูน้อยหมวกแดง แม่ของเธอ ยายของเธอ หมาป่าตัวโต และนักล่า การสร้างภาพเรื่องราว เพื่อเขย่าความทรงจำของคุณ: เรื่องราวเริ่มต้นด้วยเด็กหญิงตัวเล็ก ๆ ชื่อ หนูน้อยหมวกแดง ผู้ซึ่งแม่ของเธอบอกให้ไปเยี่ยมย่าที่ป่วยของเธอซึ่งอาศัยอยู่ในป่า ระหว่างทางไปที่นั่น เธอได้พบกับหมาป่า หมาป่าหลอกให้เธอหยุดเก็บดอกไม้ก่อนจะไปบ้านคุณยาย ขณะที่หนูน้อยหมวกแดงกำลังเก็บดอกไม้ หมาป่าไปที่บ้านของย่าและกินเธอ กลืนเธอในอึกเดียว จากนั้นเขาก็ปลอมตัวเป็นคุณยายและรอให้หนูน้อยหมวกแดงมาถึง เขาจัดการหลอกเด็กหญิงตัวเล็ก ๆ และกินเธอด้วย แล้วผล็อยหลับไป โชคดีที่นักล่าเดินผ่านมาและพบหมาป่า เขาเปิดท้องของหมาป่าที่หลับใหลด้วยมีด ทั้งคุณย่าและเด็กหญิงออกไปช่วยนายพรานเติมท้องหมาป่าด้วยหินก้อนใหญ่ เขาตาย! เวลาผ่านไปและเมื่อหนูน้อยหมวกแดงมาเยี่ยมย่าของเธออีกครั้ง เธอได้พบกับหมาป่าตัวร้ายอีกตัวหนึ่งที่กำลังวางแผนจะกินเธอ คราวนี้เธอดูแลและตรงไปที่บ้านย่าของเธอ ที่นั่นเธอกับยายวางแผนร่วมกันและฆ่าหมาป่า และพวกเขาทั้งหมด (ยกเว้นหมาป่า) อาศัยอยู่อย่างมีความสุขตลอดไป ในรูปที่ 1 คุณสามารถดูการแสดงภาพเหตุการณ์ที่เกิดขึ้นของตัวละครในเรื่องตามไทม์ไลน์ของเรื่องได้ เรากำหนดไทม์ไลน์ของเรื่องราวโดยแบ่งเรื่องราวออกเป็นถังขยะที่เรียงตามลำดับเวลา โดยแต่ละช่องจะมีประโยคจำนวนหนึ่ง แต่ละถังแสดงถึงขั้นตอนที่ไม่ต่อเนื่องในเอกสาร ตัวอย่างเช่น ช่องแรกประกอบด้วยสี่ประโยคแรก ช่องที่สองประกอบด้วยสี่ประโยคถัดไป และอื่นๆ จนถึงประโยคสุดท้าย ช่องเหล่านี้แสดงตามแนวแกน X ซึ่งแสดงถึงความคืบหน้าหรือไทม์ไลน์ของเรื่องราว แกน Y คือความถี่ของอักขระ (กล่าวคือ มีการกล่าวถึงอักขระแต่ละตัวในแต่ละถังกี่ครั้ง) ในแผนภูมิ อักขระแต่ละตัวจะแสดงด้วยสี คุณย่าเป็นสีฟ้า หมาป่าสีส้ม นายพรานเป็นสีเขียว หนูน้อยหมวกแดงเป็นสีแดง และแม่เป็นสีม่วง ภาพที่ 1: การแสดงภาพสตรีมข้อความของหนูน้อยหมวกแดงที่มีสี่ประโยคต่อถัง ไคลแม็กซ์ของเรื่องอยู่รอบๆ บิน 16 และ 17 ซึ่งเป็นตอนที่นักล่าปรากฏตัวและช่วยชีวิตหนูน้อยหมวกแดง ฮูดและคุณยาย ตัวอย่างเช่น แผนภูมิแสดงให้เห็นว่ามีการกล่าวถึงมารดาเพียงตอนต้นและอีกครั้งในตอนท้าย ในทางตรงกันข้าม คุณย่า หนูน้อยหมวกแดง และหมาป่ามักถูกกล่าวถึงร่วมกันและมีความสัมพันธ์กันสูงตลอดทั้งไทม์ไลน์ ยอดแหลมสัมพันธ์กับตำแหน่งที่เรื่องราวหยิบขึ้นมาและเหตุการณ์สำคัญเกิดขึ้น ตัวอย่างเช่น รอบๆ bin 3 ถึง bin 5 มีหนามแหลมในลำธารสำหรับคุณยาย หนูน้อยหมวกแดง และหมาป่า ในเรื่องนี้เป็นตอนที่หนูน้อยหมวกแดงได้พบกับหมาป่าเป็นครั้งแรกและพวกเขาก็พูดถึงคุณยายของเธอ แหลมอีกอันเกิดขึ้นที่บริเวณรอบๆ bin ซึ่งตรงกับจุดสำคัญของเรื่องราวที่หมาป่าปลอมตัวเป็นคุณยายและกินหนูน้อยหมวกแดง การแสดงภาพบ่งบอกว่าเรื่องมันวนกลับมาอีกรอบ 16 ถึง 17 ซึ่งเป็นช่วงที่นายพรานปรากฏตัวและช่วยชีวิต หนูน้อยหมวกแดงและคุณยาย นี่เป็นเพียงส่วนเดียวที่มีการกล่าวถึงนายพรานในเรื่อง หลังจากนั้นเรื่องราวก็ค่อยๆ มาถึงบทสรุป ซึ่งสะท้อนให้เห็นในแผนภูมิโดยจำนวนการกล่าวถึงตัวละครทั้งหมดลดลง ฉากจบที่แหลมอย่างกะทันหันเป็นเรื่องราวในส่วนที่สองของเรื่องที่หนูน้อยหมวกแดงพบกับหมาป่าอีกตัวหนึ่งและฆ่าเขาในเวลาต่อมา เวิร์กโฟลว์ รูปที่ 2 แสดงภาพรวมของเวิร์กโฟลว์ อันดับแรก อ่านเรื่องราวของหนูน้อยหมวกแดงจากตารางข้อมูล เราใช้ขั้นตอนก่อนการประมวลผลที่เกี่ยวข้องกับการแปลงเป็นตัวพิมพ์เล็กและการแยกประโยค ถัดไป โหนด Auto-Binner ใช้เพื่อแบ่งเรื่องราวออกเป็นถังขยะ จำนวนประโยคที่วางไว้ในถังเดียวจะแตกต่างกันไปตามเรื่องราวและผู้ใช้สามารถเปลี่ยนแปลงได้ ในเวิร์กโฟลว์ คุณสามารถดูสองตัวอย่าง: หนึ่งแบ่งเรื่องราวออกเป็นช่อง 17 โดยที่แต่ละถังมีหนึ่งประโยค ในขณะที่ตัวอย่างที่สองแยกเรื่องราวออกเป็น 21 ถังขยะที่แต่ละถังมีสี่ประโยค ในรูปที่ 1 คุณสามารถดูแผนภูมิที่ยึดตามช่อง 21 และรูปที่ 3 ด้านล่างแสดงแผนภูมิตามช่อง 86 คุณสามารถดาวน์โหลดเวิร์กโฟลว์หัวข้อเรื่อง River Red Riding Hood ได้จากฮับของเราที่นี่ รูปที่ 2: ภาพรวมเวิร์กโฟลว์: ประโยคสี่ประโยคที่ใช้ในสาขาบนสุดจะถูกใช้ต่อถัง สาขากลางแสดงการสร้างภาพด้วยหนึ่งประโยคต่อถัง ในสาขาด้านล่าง มีการดำเนินการวนซ้ำจากหนึ่งประโยคต่อถัง สองประโยค ฯลฯ มากถึงเพียงสามถังเท่านั้น จากผลลัพท์การแสดงภาพแบบวนซ้ำที่แตกต่างกัน เราสามารถระบุการตั้งค่าประโยคต่อช่องที่ดีที่สุดได้ รูปที่ 3: การแสดงภาพสตรีมข้อความของหนูน้อยหมวกแดงด้วยหนึ่งประโยคต่อถัง แทบไม่เห็นการเกิดขึ้นร่วมของอักขระ เมื่อเทียบกับรูปที่ 1 หนึ่งประโยคต่อถังมักจะละเอียดเกินไป ส่งผลให้ความถี่สูงผันผวนจากถังขยะหนึ่งไปยังอีกถังหนึ่ง เมื่อประโยคถูกแบ่งออกเป็นถังขยะเท่าๆ กัน เราใช้โหนด GroupBy เพื่อเชื่อมประโยคทั้งหมดในแต่ละช่องและแปลงเป็นเอกสาร โดยให้เอกสารหนึ่งฉบับสำหรับแต่ละถัง ตอนนี้ได้เวลาแท็กตัวละครหลักและนับการเกิดขึ้นโดยใช้โหนด Dictionary Tagger และสร้างชุดคำและคำนวณความถี่ของคำศัพท์โดยใช้โหนด TF ณ จุดนี้ เรามีข้อมูลทั้งหมดที่เราต้องการแล้ว – ความถี่สัมบูรณ์ของอักขระแต่ละตัวในแต่ละถัง – แต่ยังไม่ได้อยู่ในรูปแบบที่ถูกต้อง เราต้องการให้ชื่ออักขระเป็นชื่อคอลัมน์และแถวที่มีค่าความถี่ในแต่ละถัง เราใช้โหนด Pivoting สำหรับสิ่งนี้ กระบวนการทั้งหมดแสดงในรูปที่ 4 เมื่อการประมวลผลข้อมูลเสร็จสิ้นแล้ว สามารถใช้โหนดแผนภูมิพื้นที่แบบเรียงซ้อนเพื่อแสดงภาพสตรีมข้อความได้ รูปที่ 4: การคำนวณ Binning การกรอง และความถี่ของชื่ออักขระที่แยกออกมา การกำหนดจำนวนประโยคที่มีประโยชน์ในถังเดียวนั้นขึ้นอยู่กับเรื่องราวและอาจแตกต่างกันไปในแต่ละเอกสาร ในกรณีของหนูน้อยหมวกแดงซึ่งมี 86 ประโยคทั้งหมด เราพบว่าสี่ประโยคในแต่ละถังขยะส่งผลให้เกิดภาพที่อธิบายเรื่องราวได้ดี การวนซ้ำการตั้งค่าต่างๆ จะเป็นประโยชน์ในการค้นหาค่าที่ให้การแสดงภาพได้ดีที่สุด สรุป โดยสรุป การแสดงภาพข้อมูลแบบสตรีมไม่เพียงแต่ใช้ได้กับชุดเอกสารเท่านั้น แต่ยังใช้กับเอกสารชุดเดียวเพื่อแสดงความคืบหน้าของเอกสารได้อีกด้วย เป็นวิธีที่สะดวกในการค้นหาว่าส่วนใดของเอกสารที่ครอบคลุมหัวข้อหรือมีการกล่าวถึงอักขระใดโดยไม่ต้องอ่านข้อความ

  • บ้าน
  • Business
  • Data science
  • Marketing
  • Leave a Reply

    Your email address will not be published. Required fields are marked *

    Back to top button