นักพัฒนาได้เปิดตัวเครื่องมือ Python แบบโอเพนซอร์สที่ออกแบบมาเพื่อแยกวิเคราะห์เอกสาร PDF จาก Poste Italiane ซึ่งเป็นบริการธนาคารไปรษณีย์ของอิตาลี โดยแปลงข้อมูลเหล่านั้นเป็นข้อมูลที่มีโครงสร้างในรูปแบบ JSON หรือ CSV โครงการนี้อุทิศให้กับ agli sventurati che hanno un conto postale (ผู้โชคร้ายที่มีบัญชีไปรษณีย์) อย่างตลกขบขัน ซึ่งสะท้อนถึงความไม่พอใจอย่างแพร่หลายต่อระบบธนาคารไปรษณีย์อิตาลี
ประเภทเอกสารที่รองรับ:
- Estratto Conto BancoPosta (รายงานยอดคงเหลือธนาคาร)
- Rendiconto Postepay Evolution (รายงาน Postepay )
- Lista Movimenti Postepay Evolution (รายการธุรกรรม Postepay )
ปฏิกิริยาจากชุมชนเน้นย้ำปัญหาบริการธนาคาร
การเปิดตัวเครื่องมือนี้ได้จุดประกายการสนทนาอย่างมีนัยสำคัญเกี่ยวกับคุณภาพบริการของ Poste Italiane ผู้ใช้ได้แบ่งปันประสบการณ์ที่แย่มาก โดยมีคนหนึ่งอธิบายว่าเป็น ธนาคารที่แย่ที่สุดที่ฉันเคยเจอมาตลอดชีวิต เนื่องจากบริการที่แย่และเวลารอที่สาขาที่นานมาก การวิจารณ์ขยายไปเกินกว่าบริการธนาคาร โดยผู้ใช้สังเกตว่าบริการไปรษณีย์ของอิตาลีเองก็มีประสิทธิภาพต่ำเมื่อเปรียบเทียบกับประเทศอื่นๆ ในยุโรป
การสนทนาในชุมชนเผยให้เห็นการเปรียบเทียบที่น่าสนใจกับระบบไปรษณีย์อื่นๆ บริการไปรษณีย์ของ Germany ได้รับคำชมสำหรับนวัตกรรมต่างๆ เช่น แสตมป์พิมพ์ที่บ้าน บริการสแกนจดหมาย และการนำตู้พัสดุมาใช้ก่อนใคร ในขณะเดียวกัน ผู้ใช้สังเกตว่าผู้ขายชาวอิตาลีในตลาดออนไลน์นานาชาติมักจะขายในราคาลดเนื่องจากเวลาจัดส่งที่ช้ากว่าประเทศอื่นๆ ในยุโรป
การดำเนินการทางเทคนิคและความท้าทาย
ตัวแยกวิเคราะห์ใช้ไลบรารี PyMuPDF พร้อมการแมปพิกัดที่แม่นยำเพื่อดึงข้อมูลจากเอกสาร PDF วิธีการนี้ฮาร์ดโค้ดเลย์เอาต์เอกสาร ทำให้เสี่ยงต่อการเปลี่ยนแปลงรูปแบบ แต่โดยทั่วไปแล้วมีความเสถียรเนื่องจากเลย์เอาต์เอกสารทางการเงินไม่ค่อยเปลี่ยนแปลง เครื่องมือนี้ตรวจจับประเภทเอกสารโดยอัตโนมัติ ตรวจสอบข้อมูลทางการเงิน และรองรับการประมวลผลไฟล์หลายไฟล์แบบแบตช์
สำหรับผู้ที่อยากรู้ว่ามันทำงานอย่างไร มันใช้ pymupdf และการแมปที่แม่นยำของข้อมูลทั้งหมดในพิกัดพื้นที่ ดังนั้นเลย์เอาต์เอกสารจึงถูกฮาร์ดโค้ด
สมาชิกชุมชนได้หารือเกี่ยวกับความท้าทายที่กว้างขึ้นในการแยกวิเคราะห์งบแสดงรายการธนาคารและ PDF ทางการเงิน แม้กับ PDF ดิจิทัลที่มีตารางจริงแทนที่จะเป็นรูปภาพ การแยกวิเคราะห์ยังคงยากเนื่องจากการเปลี่ยนแปลงเลย์เอาต์บ่อยครั้งระหว่างงบแสดงรายการ แม้ว่าจะมีโซลูชันที่ใช้ LLM สมัยใหม่ แต่นักพัฒนาแสดงความลังเลใจที่จะไว้วางใจกับข้อมูลทางการเงินที่ละเอียดอ่อน
คุณสมบัติหลัก:
- การตรวจจับประเภทเอกสารอัตโนมัติ
- การตรวจสอบความถูกต้องของข้อมูลสำหรับการยืนยันยอดคงเหลือ
- รูปแบบผลลัพธ์หลากหลาย ( JSON , CSV )
- ความสามารถในการประมวลผลแบบกลุ่ม
- การสนับสนุนส่วนติดต่อบรรทัดคำสั่งและไลบรารี Python
ผลกระทบที่กว้างขึ้นสำหรับการประมวลผลข้อมูลทางการเงิน
โครงการนี้เน้นย้ำความท้าทายที่ยังคงอยู่ในการทำระบบอัตโนมัติข้อมูลทางการเงิน วิธีการของนักพัฒนาที่ใช้การแยกวิเคราะห์แบบพิกัดแสดงถึงโซลูชันที่ใช้งานได้จริงสำหรับเอกสารประเภทเฉพาะ แม้ว่าจะต้องการการบำรุงรักษาเมื่อเลย์เอาต์เปลี่ยนแปลง โครงสร้างโค้ดที่สะอาดและตรงไปตรงมาทำให้ค่อนข้างง่ายต่อการแก้ไขเมื่อต้องการอัปเดต
เครื่องมือนี้รองรับเอกสารหลักสามประเภท: Estratto Conto BancoPosta (งบแสดงรายการธนาคาร), Rendiconto Postepay Evolution (รายงาน Postepay) และ Lista Movimenti Postepay Evolution (รายการธุรกรรม Postepay) มันมีฟีเจอร์ตรวจสอบข้อมูลเพื่อให้แน่ใจว่ายอดคงเหลือและยอดรวมตรงกับข้อมูลธุรกรรม ซึ่งตอบสนองความกังวลทั่วไปเกี่ยวกับความสมบูรณ์ของข้อมูลในการประมวลผลทางการเงินแบบอัตโนมัติ
โครงการนี้แสดงให้เห็นว่านักพัฒนารายบุคคลกำลังสร้างโซลูชันเพื่อแก้ไขช่องว่างในการดิจิทัลไลเซชันบริการทางการเงิน โดยเฉพาะเมื่อต้องจัดการกับสถาบันที่อาจล้าหลังในการให้เครื่องมือดิจิทัลสมัยใหม่แก่ลูกค้า
อ้างอิง: Poste Italiane Documents Parser