นักพัฒนาสร้างเครื่องมือ Python เพื่อแยกวิเคราะห์งบแสดงรายการ PDF ของ Poste Italiane หลังประสบปัญหาธนาคาร

ทีมชุมชน BigGo
นักพัฒนาสร้างเครื่องมือ Python เพื่อแยกวิเคราะห์งบแสดงรายการ PDF ของ Poste Italiane หลังประสบปัญหาธนาคาร

นักพัฒนาได้เปิดตัวเครื่องมือ Python แบบโอเพนซอร์สที่ออกแบบมาเพื่อแยกวิเคราะห์เอกสาร PDF จาก Poste Italiane ซึ่งเป็นบริการธนาคารไปรษณีย์ของอิตาลี โดยแปลงข้อมูลเหล่านั้นเป็นข้อมูลที่มีโครงสร้างในรูปแบบ JSON หรือ CSV โครงการนี้อุทิศให้กับ agli sventurati che hanno un conto postale (ผู้โชคร้ายที่มีบัญชีไปรษณีย์) อย่างตลกขบขัน ซึ่งสะท้อนถึงความไม่พอใจอย่างแพร่หลายต่อระบบธนาคารไปรษณีย์อิตาลี

ประเภทเอกสารที่รองรับ:

  • Estratto Conto BancoPosta (รายงานยอดคงเหลือธนาคาร)
  • Rendiconto Postepay Evolution (รายงาน Postepay )
  • Lista Movimenti Postepay Evolution (รายการธุรกรรม Postepay )

ปฏิกิริยาจากชุมชนเน้นย้ำปัญหาบริการธนาคาร

การเปิดตัวเครื่องมือนี้ได้จุดประกายการสนทนาอย่างมีนัยสำคัญเกี่ยวกับคุณภาพบริการของ Poste Italiane ผู้ใช้ได้แบ่งปันประสบการณ์ที่แย่มาก โดยมีคนหนึ่งอธิบายว่าเป็น ธนาคารที่แย่ที่สุดที่ฉันเคยเจอมาตลอดชีวิต เนื่องจากบริการที่แย่และเวลารอที่สาขาที่นานมาก การวิจารณ์ขยายไปเกินกว่าบริการธนาคาร โดยผู้ใช้สังเกตว่าบริการไปรษณีย์ของอิตาลีเองก็มีประสิทธิภาพต่ำเมื่อเปรียบเทียบกับประเทศอื่นๆ ในยุโรป

การสนทนาในชุมชนเผยให้เห็นการเปรียบเทียบที่น่าสนใจกับระบบไปรษณีย์อื่นๆ บริการไปรษณีย์ของ Germany ได้รับคำชมสำหรับนวัตกรรมต่างๆ เช่น แสตมป์พิมพ์ที่บ้าน บริการสแกนจดหมาย และการนำตู้พัสดุมาใช้ก่อนใคร ในขณะเดียวกัน ผู้ใช้สังเกตว่าผู้ขายชาวอิตาลีในตลาดออนไลน์นานาชาติมักจะขายในราคาลดเนื่องจากเวลาจัดส่งที่ช้ากว่าประเทศอื่นๆ ในยุโรป

การดำเนินการทางเทคนิคและความท้าทาย

ตัวแยกวิเคราะห์ใช้ไลบรารี PyMuPDF พร้อมการแมปพิกัดที่แม่นยำเพื่อดึงข้อมูลจากเอกสาร PDF วิธีการนี้ฮาร์ดโค้ดเลย์เอาต์เอกสาร ทำให้เสี่ยงต่อการเปลี่ยนแปลงรูปแบบ แต่โดยทั่วไปแล้วมีความเสถียรเนื่องจากเลย์เอาต์เอกสารทางการเงินไม่ค่อยเปลี่ยนแปลง เครื่องมือนี้ตรวจจับประเภทเอกสารโดยอัตโนมัติ ตรวจสอบข้อมูลทางการเงิน และรองรับการประมวลผลไฟล์หลายไฟล์แบบแบตช์

สำหรับผู้ที่อยากรู้ว่ามันทำงานอย่างไร มันใช้ pymupdf และการแมปที่แม่นยำของข้อมูลทั้งหมดในพิกัดพื้นที่ ดังนั้นเลย์เอาต์เอกสารจึงถูกฮาร์ดโค้ด

สมาชิกชุมชนได้หารือเกี่ยวกับความท้าทายที่กว้างขึ้นในการแยกวิเคราะห์งบแสดงรายการธนาคารและ PDF ทางการเงิน แม้กับ PDF ดิจิทัลที่มีตารางจริงแทนที่จะเป็นรูปภาพ การแยกวิเคราะห์ยังคงยากเนื่องจากการเปลี่ยนแปลงเลย์เอาต์บ่อยครั้งระหว่างงบแสดงรายการ แม้ว่าจะมีโซลูชันที่ใช้ LLM สมัยใหม่ แต่นักพัฒนาแสดงความลังเลใจที่จะไว้วางใจกับข้อมูลทางการเงินที่ละเอียดอ่อน

คุณสมบัติหลัก:

  • การตรวจจับประเภทเอกสารอัตโนมัติ
  • การตรวจสอบความถูกต้องของข้อมูลสำหรับการยืนยันยอดคงเหลือ
  • รูปแบบผลลัพธ์หลากหลาย ( JSON , CSV )
  • ความสามารถในการประมวลผลแบบกลุ่ม
  • การสนับสนุนส่วนติดต่อบรรทัดคำสั่งและไลบรารี Python

ผลกระทบที่กว้างขึ้นสำหรับการประมวลผลข้อมูลทางการเงิน

โครงการนี้เน้นย้ำความท้าทายที่ยังคงอยู่ในการทำระบบอัตโนมัติข้อมูลทางการเงิน วิธีการของนักพัฒนาที่ใช้การแยกวิเคราะห์แบบพิกัดแสดงถึงโซลูชันที่ใช้งานได้จริงสำหรับเอกสารประเภทเฉพาะ แม้ว่าจะต้องการการบำรุงรักษาเมื่อเลย์เอาต์เปลี่ยนแปลง โครงสร้างโค้ดที่สะอาดและตรงไปตรงมาทำให้ค่อนข้างง่ายต่อการแก้ไขเมื่อต้องการอัปเดต

เครื่องมือนี้รองรับเอกสารหลักสามประเภท: Estratto Conto BancoPosta (งบแสดงรายการธนาคาร), Rendiconto Postepay Evolution (รายงาน Postepay) และ Lista Movimenti Postepay Evolution (รายการธุรกรรม Postepay) มันมีฟีเจอร์ตรวจสอบข้อมูลเพื่อให้แน่ใจว่ายอดคงเหลือและยอดรวมตรงกับข้อมูลธุรกรรม ซึ่งตอบสนองความกังวลทั่วไปเกี่ยวกับความสมบูรณ์ของข้อมูลในการประมวลผลทางการเงินแบบอัตโนมัติ

โครงการนี้แสดงให้เห็นว่านักพัฒนารายบุคคลกำลังสร้างโซลูชันเพื่อแก้ไขช่องว่างในการดิจิทัลไลเซชันบริการทางการเงิน โดยเฉพาะเมื่อต้องจัดการกับสถาบันที่อาจล้าหลังในการให้เครื่องมือดิจิทัลสมัยใหม่แก่ลูกค้า

อ้างอิง: Poste Italiane Documents Parser