Data science

Open Data Hub: โครงการ Meta สำหรับงาน AI/ML

ซอฟต์แวร์โอเพ่นซอร์สเป็นทรัพยากรที่สำคัญในวิทยาศาสตร์ข้อมูลในปัจจุบัน แต่การรวมผลิตภัณฑ์โอเพ่นซอร์สต่างๆ เข้าด้วยกันอาจเป็นงานที่ซับซ้อน นี่คือสิ่งที่ผลักดันให้เร้ดแฮทพัฒนา Open Data Hub ซึ่งนำเครื่องมือที่ใช้กันทั่วไปมากกว่าสองโหลมารวมกันเป็นเฟรมเวิร์กเดียวที่ทำให้การเข้าถึง AI และความสามารถการเรียนรู้ของเครื่องง่ายขึ้นสำหรับผู้เชี่ยวชาญด้านข้อมูล Open Data Hub (ODH) ถือกำเนิดขึ้นเมื่อประมาณ 5 ปีที่แล้วในฐานะโครงการภายในของ Red Hat เพื่อจัดเก็บข้อมูลจำนวนมาก เพื่อให้นักวิทยาศาสตร์ด้านข้อมูลสามารถเข้าถึงได้เพื่อสร้างแบบจำลอง ตามคำกล่าวของ Will McGrath ผู้จัดการฝ่ายการตลาดผลิตภัณฑ์อาวุโสของ Red Hat . ในกรณีของเร้ดแฮท วิศวกรเลือก Ceph ซึ่งเป็นระบบจัดเก็บอ็อบเจ็กต์ S3 ที่เข้ากันได้ หลังจากได้รับการจัดการในด้านการจัดเก็บของข้อมูล ทีมของ Red Hat ได้นำเครื่องมือจำนวนหนึ่งมาไว้ในสมการ โดยเริ่มจาก Jupyter, Apache Spark และ TensorFlow ระบบรองรับกรณีการใช้งานภายในของ Red Hat เช่น การวิเคราะห์ไฟล์บันทึกจากการร้องเรียนของลูกค้าหรือเพื่อค้นหาฐานความรู้ภายใน McGrath กล่าว ในที่สุด คำพูดของการมีอยู่ของ ODH ก็รั่วไหลออกไปสู่ลูกค้า Red Hat จำนวนหนึ่งที่แสดงความสนใจในการทดลองใช้ซอฟต์แวร์ เขากล่าว ใน 2018 บริษัท ได้ตัดสินใจที่จะเปลี่ยน ODH ให้เป็นโครงการโอเพ่นซอร์สเต็มรูปแบบที่สามารถดาวน์โหลดและใช้งานโดยบุคคลทั่วไปรวมทั้งมีส่วนร่วมจาก ชุมชนโอเพ่นซอร์ส คุณสามารถดูประวัติโดยย่อของผลิตภัณฑ์ได้ในวิดีโอ Red Hat นี้ วันนี้ Red Hat เรียกเก็บเงิน ODH เป็น “พิมพ์เขียวสำหรับการสร้าง AI เป็นแพลตฟอร์มบริการ” เป็นไปตามเวิร์กโฟลว์ทั่วไปที่ผู้เชี่ยวชาญด้านข้อมูลจะคุ้นเคย โดยเริ่มจากการจัดเก็บข้อมูลและการนำเข้าข้อมูล นำไปสู่การวิเคราะห์ข้อมูล การสร้างแบบจำลอง และอบรมต้นแบบ ตามด้วยการตรวจสอบความถูกต้องของโมเดล การปรับใช้ และการให้บริการโมเดล ด้วยการติดตามและเพิ่มประสิทธิภาพอย่างต่อเนื่อง Open Data Hub รวบรวมส่วนประกอบซอฟต์แวร์ต่างๆ ที่ใช้ในการทำงานอัตโนมัติในเวิร์กโฟลว์ AI ทั่วไป ซอฟต์แวร์ ODH ทำงานบน OpenShift ซึ่งเป็นการแจกจ่าย Kubernetes โอเพ่นซอร์สของ Red Hat การรองรับ OpenShift เวอร์ชัน 4.x เป็นการพึ่งพา ODH ที่แท้จริงเพียงอย่างเดียว Red Hat แนะนำให้ใช้ Ceph Storage ซึ่งเป็นแพลตฟอร์มโอเพ่นซอร์ส Ceph แต่ที่เก็บอ็อบเจ็กต์ที่เข้ากันได้กับ S3 ควรใช้งานได้ บนรากฐานของ Kubernetes และ S3/Ceph ODH ได้รวบรวมโครงการโอเพ่นซอร์สอื่นๆ มากมายที่นักวิทยาศาสตร์ข้อมูล นักวิเคราะห์ข้อมูล และวิศวกรข้อมูลทั่วโลกใช้ ขึ้นอยู่กับฟังก์ชันข้อมูลเฉพาะที่ผู้ใช้มุ่งเน้น ODH สามารถเปิดเผยความสามารถที่แตกต่างกันได้ ตัวอย่างเช่น นักวิทยาศาสตร์ข้อมูลจะพบว่า ODH รองรับ Spark, TensorFlow, PyTorch, scikit-learn, Katlib, JupyterHub, Apache Superset, ส่วนขยาย Elyra ไปยัง Jupyter และ Seldon นักวิเคราะห์ข้อมูลจะพบการสนับสนุนสำหรับ Presto, Spark SQL, Elasticsearch, Kafka Streams, Hue, Grafana และ Kibana ที่มีอยู่ในผลิตภัณฑ์ วิศวกรข้อมูลได้รับประโยชน์จากการเข้าถึงแหล่งข้อมูลและเฟรมเวิร์กพื้นฐาน เช่น Apache Kafka, Strimzi (การกระจาย Kafka บน Kubernetes), Kubeflow, Apache Airflow, Hive metastore, Prometheus, ฐานข้อมูลเชิงสัมพันธ์ และอื่นๆ นอกจากนี้ยังมีเครื่องมือสำหรับผู้ดูแลข้อมูลและวิศวกร DevOps “มีประมาณ 100 ของเหล่านี้ ที่เราลงทุนในเทคโนโลยี จากนั้นเราก็รวมเข้าด้วยกันด้วยตัวดำเนินการเมตา” McGrath กล่าวกับ Datanami “ดังนั้น คุณสามารถไปที่อินเทอร์เฟซผู้ใช้เดียวและดาวน์โหลดส่วนประกอบต่าง ๆ ที่คุณต้องการใช้ มีการทำงานมากมายในการดำเนินการ เพื่อให้ผู้คนเริ่มทำวิทยาศาสตร์ข้อมูลด้วยวิธีโอเพนซอร์สได้ง่ายขึ้น” Open Data Hub มีความสามารถที่แตกต่างกันสำหรับบุคคลด้านข้อมูลที่แตกต่างกัน เมตาโอเปอเรเตอร์เป็นโค้ดที่พัฒนาโดยวิศวกรของเร้ดแฮทที่ช่วยให้โครงการโอเพ่นซอร์สเฉพาะสามารถผสานรวมกับ ODH ภายในสภาพแวดล้อม Kubernetes McGrath กล่าว เมตาโอเปอเรเตอร์เหล่านี้สร้างและดูแลโดยพนักงานของเร้ดแฮท และยังได้รับการออกแบบมาเพื่อลดความซับซ้อนบางส่วนจากการอัปเกรดเป็นโปรเจ็กต์โอเพ่นซอร์สรุ่นใหม่เมื่อเผยแพร่สู่สาธารณะ McGrath อธิบายว่า “มันเป็นวิธีที่จะทำให้การจัดการวงจรชีวิตของเครื่องมือต่างๆ ที่เป็นส่วนหนึ่งของมันง่ายขึ้น” “ดังนั้น เราจะมีโอเปอเรเตอร์ขนาดเล็กสำหรับสิ่งต่าง ๆ เช่น Spark ด้วยตัวเอง แต่จากนั้นโอเปอเรเตอร์โดยรวม เมตาโอเปอเรเตอร์ จะเชื่อมโยงเครื่องมือเหล่านั้นเข้าด้วยกัน” ODH ได้รับการดูแลโดยวิศวกรจำนวนหนึ่งที่ทำงานในสำนักงาน CTO ของ Red Hat, Chris Wright โครงการได้รับการจัดการที่ opendatahub.io ซึ่งผู้ใช้สามารถดาวน์โหลดซอฟต์แวร์และเริ่มต้นได้ McGrath กล่าวว่ามีคนเพียงไม่กี่คนที่นำ ODH มาใช้ทุกโครงการย่อย “ลูกค้าที่ซื้อกลยุทธ์นี้จะนำไปใช้บางส่วน” เขากล่าว “พวกเขาอาจพูดว่า เราชอบความสามารถของ JupyterHub ที่คุณให้ไว้เป็นส่วนหนึ่งของมัน แต่เราจะแยกส่วนจาก Kubeflow จากโครงการต้นน้ำ” ส่วนหนึ่งของงานเพื่อสนับสนุน ODH วิศวกรของเร้ดแฮทมักพบว่าตนเองมีส่วนสนับสนุนการอัปเดตโครงการต้นน้ำ ตัวอย่างเช่น ในเดือนกุมภาพันธ์ บริษัทได้สนับสนุนโค้ดสำหรับ Kubeflow เวอร์ชัน 1.3 เพื่อช่วยรักษาการแยกตัวในสภาพแวดล้อมที่มีผู้ใช้หลายคน McGrath กล่าวว่าเป็นส่วนหนึ่งของการอัปเดตดังกล่าว โปรเจ็กต์ ODH สามารถใช้การเปลี่ยนแปลงล่าสุดกับ Kubeflow ได้เร็วขึ้น เมื่อมีองค์กรจำนวนมากขึ้นเริ่มใช้ ODH เร้ดแฮทก็เริ่มได้รับคำขอสำหรับการสนับสนุนด้านเทคนิค บริษัทเปิดรับสิ่งนั้น และในเดือนเมษายน Red Hat ได้เปิดตัว ODH เวอร์ชันเชิงพาณิชย์ซึ่งขายเป็นบริการที่มีการจัดการที่ทำงานบน AWS “มีคนบอกว่า เฮ้ นี่มันเยี่ยมมาก เราต้องการซื้อมัน คุณไม่สามารถซื้อได้! เป็นโอเพ่นซอร์ส!” McGrath กล่าว “เราได้ยินมา…ถึงความลังเลที่จะใช้โครงการนี้เป็นโครงการโอเพ่นซอร์ส 100% นั่นเป็นเหตุผลที่เราตัดสินใจเพิ่มเวอร์ชันที่ได้รับการสนับสนุนในเชิงพาณิชย์ด้วยเช่นกัน” เวอร์ชันเชิงพาณิชย์ที่เรียกว่า Red Hat OpenShift Data Science รวมถึงชุดย่อยของความสามารถในโครงการโอเพนซอร์ส และเน้นที่ Tensorflow, JupyterHub และ PyTorch ข้อเสนอเชิงพาณิชย์ยังรวมถึงการผสานรวมกับผู้จำหน่ายเครื่องมือข้อมูลสี่ราย ได้แก่ IBM Watson, Starburst for Presto/Trino; Anaconda สำหรับการรวมเข้ากับชุมชนวิทยาศาสตร์ข้อมูล Python และ R Seldon สำหรับจัดการวงจรชีวิต DevOps ในบริบทการเรียนรู้ของเครื่อง และ Nvidia เพื่อรองรับ GPU “มีเครื่องมือที่ยอดเยี่ยมมากมาย” เขากล่าว “แต่ [ODH] มีไว้สำหรับผู้ที่พยายามทำความเข้าใจว่าพวกเขาต้องการใช้เครื่องมือประเภทใด และหากพวกเขาต้องการดำเนินการต่อและลงทุนในข้อเสนอเชิงพาณิชย์เหล่านี้ พวกเขาก็สามารถทำได้เช่นกัน เพื่อให้ผู้คนเริ่มใช้โอเพ่นซอร์สได้อย่างรวดเร็ว” ได้รับการสนับสนุนจากชุมชนโอเพ่นซอร์ส ODH ยังคงขยายตัวอย่างต่อเนื่อง โปรเจ็กต์โอเพนซอร์สใหม่และฟีเจอร์ใหม่ของโปรเจ็กต์ที่มีอยู่กำลังถูกเพิ่มลงในโปรเจ็กต์ ODH ผู้จำหน่ายเครื่องมือโอเพ่นซอร์สเชิงพาณิชย์สามารถเริ่มทำงานกับชุมชน ODH เพื่อรวมข้อเสนอของพวกเขาได้เช่นกัน รายการที่เกี่ยวข้อง: เหตุใดคุณจึงต้องมีการแปลงข้อมูลในการเรียนรู้ด้วยเครื่อง Machine Learning-Based Real-Time Threat Detection สำหรับธนาคาร การเข้าซื้อกิจการ Red Hat ของไอบีเอ็มมีความหมายต่อโอเพนซอร์สอย่างไร

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button