Data science

บริษัท FinTech สำรวจการสกัดเอนทิตีที่มีชื่อ

Digits Financial ก่อตั้งขึ้นใน 2018 ซึ่งตั้งอยู่ในซานฟรานซิสโก ซึ่งรวมแมชชีนเลิร์นนิงและการวิเคราะห์เพื่อให้ธุรกิจมีข้อมูลเชิงลึกเกี่ยวกับธุรกรรมของพวกเขา ระบุรูปแบบโดยอัตโนมัติ จำแนกข้อมูล และตรวจจับความผิดปกติในข้อมูลนั้นในแต่ละธุรกรรม ถูกเพิ่มลงในฐานข้อมูล ในบล็อกโพสต์ Hannes Hapke วิศวกรแมชชีนเลิร์นนิ่งของ Digits เปิดเผยว่า Digits ใช้การประมวลผลภาษาธรรมชาติ (NLP) อย่างไรเพื่อดึงข้อมูลสำหรับลูกค้าและสิ่งที่พวกเขาเรียนรู้จากการพัฒนาโมเดลของตนเอง Digits ใช้ประโยชน์จากการรู้จำเอนทิตีที่มีชื่อ (NER) เพื่อดึงข้อมูลจากข้อความที่ไม่มีโครงสร้างและเปลี่ยนเป็นหมวดหมู่ เช่น วันที่ ข้อมูลประจำตัว และสถานที่ “เราได้เห็นผลลัพธ์ที่โดดเด่นจากการนำ NER ไปประยุกต์ใช้กับอุตสาหกรรมอื่นๆ และเรากระตือรือร้นที่จะใช้โมเดล NER ที่เกี่ยวข้องกับการธนาคารของเราเอง” Hapke เขียน “แทนที่จะใช้โมเดล NER ที่ผ่านการฝึกอบรมมาแล้ว เรามองเห็นโมเดลที่สร้างขึ้นโดยมีการพึ่งพาจำนวนน้อยที่สุด หนทางนั้นจะช่วยให้เราอัปเดตโมเดลได้อย่างต่อเนื่องในขณะที่ยังคงควบคุม 'ชิ้นส่วนที่เคลื่อนไหวทั้งหมด'” ในท้ายที่สุด Digits ตัดสินใจว่าไม่มีโมเดลที่มีอยู่ก่อนจะพอเพียง แทนที่จะสร้างโมเดล NER ภายในของตัวเองตาม TensorFlow 2.x และไลบรารีระบบนิเวศที่เกี่ยวข้อง TensorFlow Text พวกเขายังทำหมายเหตุประกอบข้อมูลของตนเอง โดยใช้ doccano เพื่อแยกวิเคราะห์ข้อมูลธนาคารออกเป็นบริษัท URL ที่ตั้ง และอื่นๆ Hapke ยังอธิบายการตัดสินใจของ Digits ในการเลือกใช้สถาปัตยกรรม Transformer โดยเฉพาะ Bidirectional Encoder Representation จากสถาปัตยกรรม Transformers (BERT) สำหรับโมเดล NER เริ่มต้น “ทรานส์ฟอร์มเมอร์ช่วยปรับปรุง NLP ครั้งใหญ่เมื่อพูดถึงการเข้าใจภาษา” เขากล่าว “แทนที่จะประเมินประโยคโทเค็นต่อโทเค็น วิธีที่เครือข่ายที่เกิดซ้ำจะทำงานนี้ หม้อแปลงใช้กลไกความสนใจเพื่อประเมินการเชื่อมต่อระหว่างโทเค็น” นอกจากนี้ เขาอธิบายว่า BERT สามารถประเมินโทเค็นได้สูงสุด 512 พร้อมกัน หลังจากสร้างต้นแบบของโมเดลแล้ว พวกเขาได้แปลงโมเดลสำหรับการผลิตและเริ่มใช้งานครั้งแรก โดยปรับสถาปัตยกรรมให้เหมาะสมสำหรับปริมาณงานสูงและเวลาแฝงต่ำ ผลลัพธ์ที่ได้คือความสามารถพื้นฐานที่หลอกลวง: ให้ผู้ใช้ค้นหาบันทึกธุรกรรมของตนเพื่อหาผู้ขาย เว็บไซต์ สถานที่ตั้ง และอื่นๆ Digits ยังขยายโมเดลเพื่อรวมข้อมูลเชิงลึกอัตโนมัติและปรับให้เหมาะสมเพิ่มเติมสำหรับเวลาแฝง ตัวอย่างวิธีที่โมเดลของ Digits แยกวิเคราะห์ข้อมูลทางการเงินเป็นหมวดหมู่ ได้รับความอนุเคราะห์จาก Digits Hapke กล่าวว่า “โมเดลที่ได้รับการฝึกอบรมล่วงหน้าที่ใหม่กว่า (เช่น BART หรือ T5) อาจให้ความแม่นยำของโมเดลที่สูงขึ้น แต่ก็จะทำให้เวลาแฝงของโมเดลเพิ่มขึ้นอย่างมาก” Hapke กล่าว “เนื่องจากเรากำลังประมวลผลธุรกรรมหลายล้านรายการทุกวัน จึงเห็นได้ชัดเจนว่าเวลาแฝงของแบบจำลองมีความสำคัญสำหรับเรา” เนื่องจากการจัดการข้อมูลทางการเงิน Digits จึงอ่อนไหวต่อความกังวลเกี่ยวกับผลบวกที่ผิดพลาดและข้อผิดพลาดอื่นๆ ด้วยเหตุนี้ Hapke อธิบายว่า Digits ทำให้แน่ใจว่าจะสื่อสารผลลัพธ์ที่คาดการณ์โดย ML และอนุญาตให้ผู้ใช้เขียนทับคำแนะนำได้อย่างง่ายดาย

  • บ้าน
  • Business
  • Data science
  • Marketing
  • Leave a Reply

    Your email address will not be published. Required fields are marked *

    Back to top button