Data science

เรียนรู้รหัสพื้นฐานในบทช่วยสอน Apache Spark นี้

ไม่ว่าคุณจะมีประสบการณ์หรือกำลังคิดเกี่ยวกับ Apache Spark บทช่วยสอน Apache Spark นี้จะแนะนำคุณตลอด: การดาวน์โหลดและเรียกใช้คอนโซลของ Sparklaunching Spark สถาปัตยกรรมพื้นฐานของภาษาของ Spark APIsDataFrames ของ Spark และ Toolset ของ SQLSpark Apache Spark คืออะไร Apache Spark เป็นเอ็นจิ้นการคำนวณแบบรวมศูนย์และชุดของไลบรารีสำหรับการประมวลผลข้อมูลแบบขนานบนคลัสเตอร์คอมพิวเตอร์ Spark เป็นเอ็นจิ้นโอเพนซอร์ซที่พัฒนาอย่างแข็งขันที่สุดสำหรับงานนี้ ทำให้เป็นเครื่องมือที่แท้จริงสำหรับนักพัฒนาหรือนักวิทยาศาสตร์ข้อมูลที่สนใจในข้อมูลขนาดใหญ่ Spark รองรับภาษาการเขียนโปรแกรมที่ใช้กันอย่างแพร่หลายหลายภาษา (Python, Java, Scala และ R) รวมถึงไลบรารีสำหรับงานที่หลากหลายตั้งแต่ SQL ไปจนถึงการสตรีมและการเรียนรู้ของเครื่อง และทำงานได้ทุกที่ตั้งแต่แล็ปท็อปไปจนถึงคลัสเตอร์ของเซิร์ฟเวอร์นับพัน สิ่งนี้ทำให้ระบบง่ายในการเริ่มต้นและขยายไปสู่การประมวลผลข้อมูลขนาดใหญ่หรือขนาดใหญ่อย่างไม่น่าเชื่อ นี่คือตัวอย่างง่ายๆ ของทุกสิ่งที่ Spark มอบให้กับผู้ใช้ปลายทาง โครงสร้าง / ที่มาของ Apache Spark: Databricks มาแบ่งย่อยคำอธิบายของเราเกี่ยวกับ Apache Spark – เอ็นจิ้นการคำนวณแบบรวมศูนย์และชุดของไลบรารีสำหรับบิ๊กดาต้า – ออกเป็นองค์ประกอบหลัก 1. Unified: เป้าหมายขับเคลื่อนหลักของ Spark คือการนำเสนอแพลตฟอร์มแบบครบวงจรสำหรับการเขียนแอปพลิเคชันบิ๊กดาต้า Spark ได้รับการออกแบบมาเพื่อรองรับงานวิเคราะห์ข้อมูลที่หลากหลาย ตั้งแต่การโหลดข้อมูลอย่างง่ายและการสืบค้น SQL ไปจนถึงการเรียนรู้ของเครื่องและการคำนวณแบบสตรีมมิ่ง บนเอ็นจิ้นการคำนวณเดียวกันและด้วยชุด API ที่สอดคล้องกัน 2. Computing Engine: ในขณะเดียวกันกับที่ Spark มุ่งมั่นในการรวมเป็นหนึ่ง Spark ก็จำกัดขอบเขตของมันไว้ที่เอ็นจิ้นการคำนวณอย่างระมัดระวัง ด้วยเหตุนี้ เราจึงหมายความว่า Spark จะจัดการเฉพาะการโหลดข้อมูลจากระบบจัดเก็บข้อมูลและดำเนินการคำนวณจากข้อมูลนั้น ไม่ใช่ที่เก็บข้อมูลถาวรในฐานะจุดสิ้นสุด 3. ไลบรารี: องค์ประกอบสุดท้ายของ Spark คือไลบรารี ซึ่งสร้างขึ้นจากการออกแบบเป็นเอ็นจิ้นแบบรวมศูนย์เพื่อจัดเตรียม API แบบครบวงจรสำหรับงานวิเคราะห์ข้อมูลทั่วไป Spark รองรับทั้งไลบรารีมาตรฐานที่มาพร้อมกับเอ็นจิ้น และไลบรารีภายนอกมากมายที่เผยแพร่เป็นแพ็คเกจของบุคคลที่สามโดยชุมชนโอเพ่นซอร์ส API ภาษาของ Spark API ภาษาของ Spark ช่วยให้คุณเรียกใช้โค้ด Spark จากภาษาอื่นได้ โดยส่วนใหญ่ Spark นำเสนอ “แนวคิด” หลักในทุกภาษาและแนวคิดเหล่านี้ได้รับการแปลเป็นโค้ด Spark ที่ทำงานบนคลัสเตอร์ของเครื่อง Scala Spark นั้นเขียนด้วยภาษา Scala เป็นหลัก ทำให้เป็นภาษา “เริ่มต้น” ของ Spark หนังสือเล่มนี้จะรวมตัวอย่างโค้ด Scala ในทุกที่ที่เกี่ยวข้อง Java แม้ว่า Spark จะเขียนด้วยภาษา Scala แต่ผู้เขียนของ Spark ก็ระมัดระวังเพื่อให้แน่ใจว่าคุณสามารถเขียนโค้ด Spark ใน Java ได้ หนังสือเล่มนี้จะเน้นที่ Scala เป็นหลัก แต่จะยกตัวอย่าง Java ที่เกี่ยวข้อง Python Python รองรับโครงสร้างเกือบทั้งหมดที่ Scala รองรับ หนังสือเล่มนี้จะรวมตัวอย่างโค้ด Python ทุกครั้งที่เรารวมตัวอย่างโค้ด Scala และมี Python API อยู่ API ภาษา Apache Spark / ที่มา: Databricks SQL Spark รองรับมาตรฐาน ANSI SQL ซึ่งช่วยให้นักวิเคราะห์และผู้ที่ไม่ใช่โปรแกรมเมอร์สามารถใช้ประโยชน์จากพลังข้อมูลขนาดใหญ่ของ Spark ได้อย่างง่ายดาย หนังสือเล่มนี้จะรวมตัวอย่างโค้ด SQL ในทุกที่ที่เกี่ยวข้อง R Spark มีไลบรารี R ที่ใช้กันทั่วไปสองไลบรารี อันหนึ่งเป็นส่วนหนึ่งของ Spark core (SparkR) และอีกอันเป็นแพ็กเกจที่ขับเคลื่อนด้วยชุมชน R (sparklyr) ดาวน์โหลดบทช่วยสอน Apache Spark แบบเต็มได้ฟรีที่นี่ หมายเหตุบรรณาธิการ: บทความประกอบด้วยข้อมูลเบื้องต้นเกี่ยวกับ Apache Spark จาก ebook ฟรีของ Databricks: “A Gentle Introduction to Apache Spark”

  • บ้าน
  • Business
  • Data science
  • Marketing
  • Leave a Reply

    Your email address will not be published. Required fields are marked *

    Back to top button