บริการ Web Scraping ที่ขับเคลื่อนด้วย AI เผชิญความสงสัยจากนักพัฒนาเรื่องความน่าเชื่อถือและปัญหาการบำรุงรักษา

ทีมชุมชน BigGo
บริการ Web Scraping ที่ขับเคลื่อนด้วย AI เผชิญความสงสัยจากนักพัฒนาเรื่องความน่าเชื่อถือและปัญหาการบำรุงรักษา

Parse.bot ได้เปิดตัวบริการที่สัญญาว่าจะเปลี่ยนเว็บไซต์ใดๆ ให้กลายเป็น API โดยใช้ปัญญาประดิษฐ์ แต่ชุมชนนักพัฒนากำลังแสดงความกังวลอย่างมากเกี่ยวกับข้อจำกัดพื้นฐานของ web scraping ในฐานะแหล่งข้อมูลที่เชื่อถือได้

บริการนี้ช่วยให้ผู้ใช้สามารถบรรยายข้อมูลที่ต้องการจากเว็บไซต์เป็นภาษาอังกฤษธรรมดา หลังจากนั้น AI agent จะวิเคราะห์โครงสร้างของเว็บไซต์และสร้าง scraper แบบกำหนดเองพร้อมกับ API endpoint แม้ว่าแนวคิดนี้จะดูเรียบง่าย แต่นักพัฒนาที่มีประสบการณ์กำลังตั้งคำถามว่าแนวทางนี้สามารถให้ความน่าเชื่อถือที่ระบบการผลิตต้องการได้หรือไม่

ขั้นตอนการทำงานของ Parse.bot :

  • ขั้นตอนที่ 1: ผู้ใช้ให้ URL และอธิบายข้อมูลที่ต้องการด้วยภาษาธรรมดา
  • ขั้นตอนที่ 2: AI agent วิเคราะห์โครงสร้างเว็บไซต์และสร้าง scraper แบบกำหนดเอง
  • ขั้นตอนที่ 3: บริการปรับใช้ API endpoint ส่วนตัวสำหรับการเข้าถึงข้อมูลที่มีโครงสร้าง

ปัญหาสัญญา: ทำไม Web Scraping จึงไม่สามารถเป็น API ที่แท้จริงได้

การวิจารณ์ที่สำคัญที่สุดมุ่งเน้นไปที่ความแตกต่างพื้นฐานระหว่าง web scraping และ API ที่แท้จริง ซึ่งแตกต่างจาก API อย่างเป็นทางการที่มาพร้อมกับข้อตกลงการบริการและสัญญาความเข้ากันได้แบบย้อนหลัง เว็บไซต์สามารถเปลี่ยนโครงสร้างได้ทุกเมื่อโดยไม่ต้องแจ้งให้ทราบ สิ่งนี้สร้างความเปราะบางโดยธรรมชาติที่ไม่มีวิศวกรรมที่ชาญฉลาดใดๆ สามารถแก้ไขได้อย่างสมบูรณ์

นักพัฒนาชี้ให้เห็นว่าแม้จะมีการตรวจสอบอย่างต่อเนื่อง ระบบที่สร้างขึ้นจากข้อมูลที่ scrape มาต้องจัดการกับความล้มเหลวที่คาดเดาไม่ได้ เว็บไซต์อาจทำการทดสอบ A/B เปลี่ยนวิธีการนำเสนอข้อมูล หรือปรับโครงสร้างหน้าเว็บใหม่ทั้งหมด การเปลี่ยนแปลงเหล่านี้สามารถทำลาย scraper ได้ทันที ทำให้แอปพลิเคชันที่ขึ้นอยู่กับมันไม่ได้รับคำเตือนหรือทางแก้ไข

การทดสอบ A/B: วิธีการที่เว็บไซต์แสดงเวอร์ชันที่แตกต่างกันให้กับผู้ใช้ที่แตกต่างกันเพื่อทดสอบว่าแบบไหนทำงานได้ดีกว่า

ข้อจำกัดทางเทคนิคและปัญหา AI Overfitting

นอกเหนือจากความกังวลเรื่องความน่าเชื่อถือแล้ว นักพัฒนาที่สร้าง scraper เป็นประจำยังเน้นปัญหาเชิงปฏิบัติของโค้ดสกัดข้อมูลที่ AI สร้างขึ้น ปัญหาหลักคือ AI มีแนวโน้มที่จะสร้าง selector ที่เฉพาะเจาะจงเกินไป ซึ่งทำงานได้อย่างสมบูรณ์แบบสำหรับหน้าปัจจุบัน แต่ล้มเหลวเมื่อเว็บไซต์มีการเปลี่ยนแปลงเล็กน้อย

ปัญหาคือสำหรับการใช้งานแนวคิดนี้อย่างจริงจัง การปรับแต่งด้วยตนเองมักจำเป็นเสมอ... บ่อยครั้งที่ผลลัพธ์ถูกปรับแต่งเฉพาะสำหรับหน้าใดหน้าหนึ่งและล้มเหลวในการสรุปทั่วไป (โดยพื้นฐานแล้วคือ 'overfitting')

ปัญหา overfitting นี้กลายเป็นเรื่องที่น่าปวดหัวเป็นพิเศษเมื่อระบบ AI เลือก CSS selector ที่ไม่เสถียร เช่น ชื่อ class ที่สร้างขึ้นแบบไดนามิกซึ่งเปลี่ยนแปลงบ่อยครั้ง หากไม่สามารถเข้าถึงโค้ดพื้นฐาน ผู้ใช้ไม่สามารถทำการปรับแต่งที่แม่นยำที่จำเป็นในการสร้าง scraper ที่แข็งแกร่งและคงทนได้

CSS selector: รูปแบบโค้ดที่ใช้เพื่อระบุองค์ประกอบเฉพาะบนหน้าเว็บ Overfitting: เมื่อระบบทำงานเฉพาะเจาะจงเกินไปสำหรับตัวอย่างหนึ่ง แต่ล้มเหลวในกรณีที่คล้ายกัน

ข้อมูลสำคัญที่หายไปทำให้เกิดคำถาม

เว็บไซต์ของบริการนี้ขาดรายละเอียดที่จำเป็นที่นักพัฒนาต้องการเพื่อประเมินความเป็นไปได้ ไม่มีข้อมูลเกี่ยวกับราคา วิธีการจัดการการยืนยันตัวตนของเว็บไซต์ การแบ่งหน้า หรือระบบป้องกันบอทอย่าง Cloudflare การขาดเอกสารที่ครอบคลุมบ่งชี้ว่าผลิตภัณฑ์อาจยังอยู่ในขั้นตอนการพัฒนาเบื้องต้น

นักพัฒนาบางคนสังเกตว่าอินเทอร์เฟซมือถือของเว็บไซต์มีปัญหาด้านการใช้งานอย่างมาก ซึ่งทำให้เกิดความกังวลเกี่ยวกับการดำเนินการทางเทคนิคของระบบ backend หากไม่ปฏิบัติตามแนวทางการพัฒนาเว็บพื้นฐาน ก็ทำให้เกิดคำถามว่าบริการนี้สามารถจัดการกับความท้าทายที่ซับซ้อนอย่างการแก้ captcha หรือการตรวจจับบอทที่ซับซ้อนได้หรือไม่

Cloudflare: บริการที่ปกป้องเว็บไซต์จากการเข้าชมแบบอัตโนมัติและบอท การแบ่งหน้า: เมื่อเนื้อหาถูกแบ่งออกเป็นหลายหน้า

ข้อกังวลหลักของนักพัฒนา:

  • ความน่าเชื่อถือ: เว็บไซต์สามารถเปลี่ยนโครงสร้างได้โดยไม่แจ้งให้ทราบล่วงหน้า ทำให้ scraper เสียหาย
  • ภาระในการบำรุงรักษา: ต้องมีการตรวจสอบและอัปเดตอย่างต่อเนื่อง
  • ข้อจำกัดของ AI: โค้ดที่สร้างขึ้นมักจะ overfit กับหน้าเว็บเฉพาะเจาะจง
  • ไม่สามารถเข้าถึงโค้ด: ผู้ใช้ไม่สามารถปรับแต่ง scraper ด้วยตนเองเพื่อการปรับปรุงประสิทธิภาพ
  • ขาดเอกสารประกอบ: ไม่มีรายละเอียดเกี่ยวกับราคา การยืนยันตัวตน หรือการจัดการ anti-bot

ผลกระทบในวงกว้างต่อเจ้าของเว็บไซต์

การอภิปรายยังเผยให้เห็นความกังวลจากผู้ดำแลเว็บไซต์ที่เผชิญแรงกดดันที่เพิ่มขึ้นจากทั้งการเปลี่ยนแปลงของเสิร์ชเอนจินและการ scraping แบบอัตโนมัติ เว็บไซต์อิสระพบว่าตัวเองติดอยู่ระหว่างการลดลงของการเข้าชมแบบออร์แกนิกและการโอเวอร์โหลดเซิร์ฟเวอร์ที่อาจเกิดขึ้นจากบริการ scraping ซึ่งสร้างความท้าทายเพิ่มเติมสำหรับธุรกิจออนไลน์

แม้ว่า Parse.bot จะเป็นตัวแทนของการประยุกต์ใช้ AI กับ web scraping ที่น่าสนใจ แต่ฉันทามติของชุมชนชี้ให้เห็นว่าข้อจำกัดพื้นฐานเกี่ยวกับความน่าเชื่อถือและการบำรุงรักษาทำให้ไม่เหมาะสำหรับแอปพลิเคชันที่สำคัญ บริการนี้อาจใช้งานได้สำหรับการรวบรวมข้อมูลแบบสบายๆ แต่ระบบการผลิตน่าจะต้องการทางเลือกที่เสถียรกว่าหรือความร่วมมือโดยตรงกับผู้ให้บริการข้อมูล

อ้างอิง: Turn Any Website Into An API.