เปิดโปง Web Scrapers: รหัสที่ถูกคอมเมนต์ออก เผยวิธีการเก็บข้อมูล AI

ทีมชุมชน BigGo

เปิดโปง Web Scrapers: รหัสที่ถูกคอมเมนต์ออก เผยวิธีการเก็บข้อมูล AI

การค้นพบที่น่าสนใจในบันทึกของเซิร์ฟเวอร์ได้จุดประเด็นถกเถียงร้อนแรงเกี่ยวกับจริยธรรมของการเว็บสแครปปิงและวิธีการที่บริษัท AI ใช้ในการรวบรวมข้อมูลสำหรับฝึกโมเดล เมื่อนักพัฒนาซอฟต์แวร์พบคำขอสำหรับไฟล์ JavaScript ที่มีอยู่เฉพาะในโค้ด HTML ที่ถูกคอมเมนต์ออก มันเผยให้เห็นว่าบอทจำนวนมากกำลังเพิกเฉยต่อโปรโตคอลมาตรฐานของเว็บและวิเคราะห์หน้าเว็บในรูปแบบที่คาดไม่ถึง เหตุการณ์นี้ได้กลายเป็นจุดสนใจของการอภิปรายในวงกว้างเกี่ยวกับความยินยอม การใช้ทรัพยากร และวิธีการตอบสนองต่อการเก็บข้อมูลอัตโนมัติ

สัญญาณบ่งชี้ของการสแครปปิงแบบไร้เดียงสา

การเปิดเผยทางเทคนิคหลักอยู่ที่ว่าระบบต่างๆ วิเคราะห์เนื้อหา HTML แตกต่างกันอย่างไร เมื่อนักพัฒนาคอมเมนต์โค้ดออกโดยใช้แท็ก  เบราว์เซอร์ที่ถูกต้องตามกฎหมายจะมองข้ามส่วนเหล่านี้ไปอย่างสิ้นเชิง อย่างไรก็ตาม บอทสแครปปิงจำนวนมากดูเหมือนจะใช้เทคนิคการจับคู่ข้อความแบบง่ายๆ แทนที่จะวิเคราะห์ HTML อย่างถูกต้อง ส่งผลให้พวกมันติดตาม URL ที่ไม่เคยมีจุดประสงค์ให้ใช้งานได้จริง พฤติกรรมนี้สร้างลายนิ้วมือเฉพาะที่ช่วยระบุตัวสแครปเปอร์อัตโนมัติที่แตกต่างจากผู้เยี่ยมชมที่เป็นมนุษย์

มันอาจจะเร็วกว่าที่จะค้นหาข้อความสำหรับ http/https แทนที่จะแยกวิเคราะห์ DOM ผู้แสดงความคิดเห็นหนึ่งคนระบุ พร้อมเน้นยึงการแลกเปลี่ยนด้านประสิทธิภาพที่อาจอธิบายแนวทางนี้ได้

ข้อโต้แย้งเรื่องประสิทธิภาพดูสมเหตุสมผลจากมุมมองการคำนวณ - regular expressions สามารถประมวลผลข้อความได้เร็วกว่าการแยกวิเคราะห์ DOM แบบเต็มอย่างมาก อย่างไรก็ตาม ทางลัดนี้มาพร้อมกับข้อเสียเปรียบสำคัญ รวมถึงการติดตามลิงก์ที่ตายแล้วและการรวบรวมข้อมูลที่ไม่เกี่ยวข้อง ความหลากหลายของ user agents ที่เกี่ยวข้อง ตั้งแต่บอทที่กำหนดเองไปจนถึงบอทที่ปลอมตัวเป็นเบราว์เซอร์ที่ถูกกฎหมาย บ่งชี้ว่ามีผู้เล่นหลายรายที่มีระดับความซับซ้อนแตกต่างกันกำลังใช้เทคนิคที่คล้ายกัน

ข้อมูลเชิงลึกด้านเทคนิค:

การดึงข้อมูลด้วย regular expression นั้นเร็วกว่าแต่มีความแม่นยำน้อยกว่าการแยกวิเคราะห์ DOM
การแยกวิเคราะห์ HTML ที่เหมาะสมจะเพิกเฉยส่วนที่เป็นคอมเมนต์โดยสิ้นเชิง
งานวิจัยล่าสุดชี้ให้เห็นว่าการโจมตีแบบ poisoning อาจต้องใช้ตัวอย่างน้อยกว่าที่เชื่อกันมาก่อนหน้านี้
สถานะทางกฎหมายของ robots.txt แตกต่างกันไปตามเขตอำนาจศาล โดยเยอรมนีให้การสนับสนุนทางกฎหมาย

จริยธรรมของ robots.txt และมารยาทบนเว็บ

จุดโต้แย้งหลักในการอภิปรายเกี่ยวข้องกับบทบาทและการให้ความเคารพต่อไฟล์ robots.txt มาตรฐานเว็บที่มีมาอย่างยาวนานนี้อนุญาตให้เจ้าของเว็บไซต์ระบุว่าส่วนใดของไซต์ที่ไม่ควรถูกเข้าถึงโดยครอว์เลอร์อัตโนมัติ แม้ในทางเทคนิคจะเป็นการขอความร่วมมือมากกว่าข้อตกลทางที่มีผลผูกพันตามกฎหมายในเขตอำนาจศาลส่วนใหญ่ สมาชิกในชุมชนหลายคนแย้งว่าการเพิกเฉยต่อมันแสดงถึงพฤติกรรมที่ไม่สุจริต

การอภิปรายเผยให้เห็นมุมมองพื้นฐานที่แตกต่างกันเกี่ยวกับการเผยแพร่บนเว็บ บางคนแย้งว่าการเผยแพร่เนื้อหาบนเซิร์ฟเวอร์สาธารณะโดยธรรมชาติแล้วเป็นการเชิญชวนให้เข้าถึงทุกประเภท ในขณะที่บางคนยืนยันว่าการให้บริการเนื้อหาสำหรับการบริโภคของมนุษย์ไม่ได้ให้อนุญาตอัตโนมัติสำหรับการเก็บรวบรวมขนาดใหญ่ ตามที่ผู้แสดงความคิดเห็นหนึ่งคนกล่าวไว้ มีความแตกต่างระหว่างผู้ใช้ปกติที่เรียกดูเว็บไซต์ของฉันกับหุ่นยนต์ที่ DDoSing พวกมัน สิ่งนี้เกี่ยวข้องกับข้อกังวลเชิงปฏิบัติเกี่ยวกับการบริโภคทรัพยากร เนื่องจากปฏิบัติการสแครปปิงสามารถส่งผลกระทบอย่างมีนัยสำคัญต่อประสิทธิภาพของเซิร์ฟเวอร์และค่าใช้จ่ายในการโฮสต์

มาตรการตอบโต้เชิงสร้างสรรค์และการปนเปื้อนข้อมูล

ในการตอบสนองต่อการสแครปปิงที่ไม่พึงประสงค์ ชุมชนได้เสนอกลยุทธ์การป้องกันที่หลากหลาย นอกเหนือจากการปิดกั้น IP ขั้นพื้นฐานแล้ว วิธีการที่ซับซ้อนมากขึ้นรวมถึงการให้บริการ decompression bombs - ไฟล์บีบอัดที่ออกแบบมาเพื่อใช้ทรัพยากรเกินควรเมื่อแตกไฟล์ - หรือการจงใจปนเปื้อนข้อมูลการฝึกด้วยเนื้อหาที่ทำให้เข้าใจผิด การวิจัยล่าสุดชี้ให้เห็นว่าการโจมตีด้วยการปนเปื้อนอาจมีประสิทธิภาพมากกว่าที่คิดไว้ก่อนหน้านี้ โดยใช้เอกสารที่ปนเปื้อนเพียง 250 ฉบับก็อาจทำให้โมเดลภาษาขนาดใหญ่เสียหายได้ โดยไม่คำนึงถึงขนาดข้อมูลการฝึกทั้งหมด

แนวทางการปนเปื้อนข้อมูลได้รับความสนใจเป็นพิเศษในฐานะวิธีต่อสู้กับการเก็บรวบรวมข้อมูลที่ไม่ได้รับความยินยอม โดยการให้บริการเนื้อหาที่สร้างขึ้นเป็นพิเศษซึ่งดูเหมือนถูกต้องตามกฎหมายสำหรับสแครปเปอร์แต่มีข้อผิดพลาดเล็กน้อยหรือข้อมูลที่ทำให้เข้าใจผิด เจ้าของเว็บไซต์อาจสามารถลดคุณภาพของโมเดลที่ฝึกด้วยเนื้อหาของพวกเขาได้ ผู้แสดงความคิดเห็นบางคนแนะนำความพยายามประสานงาน across หลายไซต์เพื่อขยายผลกระทบนี้ ในขณะที่บางคนกังวลเกี่ยวกับผลกระทบทางกฎหมายที่อาจเกิดขึ้น

กลยุทธ์ป้องกันการ Scraping ที่ไม่พึงประสงค์:

IP Filtering: การใช้เครื่องมืออย่าง Fail2Ban เพื่อบล็อกที่อยู่ IP ที่มีพฤติกรรมผิดปกติ
Decompression Bombs: การส่งไฟล์บีบอัดที่ออกแบบมาเพื่อใช้ทรัพยากรจำนวนมากเมื่อมีการแตกไฟล์
Data Poisoning: การใส่เนื้อหาที่ทำให้เข้าใจผิดโดยเจตนาเพื่อทำลายข้อมูลที่ใช้ในการฝึกโมเดล
Honeypot Links: การสร้างลิงก์ที่มองไม่เห็นซึ่งมีเพียงบอทเท่านั้นที่จะติดตาม
Resource Throttling: การกำหนดขอบเขตอัตราการร้องขอ

การแข่งขันด้านกฎหมายและเทคนิค

การอภิปรายมักจะกลับมาที่ความท้าทายในการแยกแยะระหว่างการเข้าถึงที่ต้องการและไม่ต้องการต่อเนื้อหาเว็บ ตามที่ผู้แสดงความคิดเห็นหนึ่งคนชี้ให้เห็น ฉันจะโฮสต์เว็บไซต์ที่ต้อนรับผู้เยี่ยมชมที่เป็นมนุษย์ แต่ปฏิเสธสแครปเปอร์ทั้งหมดได้อย่างไร ไม่มีกลไก! ข้อจำกัดทางเทคนิคนี้บังคับให้เจ้าของเว็บไซต์ต้องเข้าสู่เกมแห่งการตรวจจับและการหลบเลี่ยง

ภูมิทัศน์ทางกฎหมายเพิ่มความซับซ้อนอีกชั้นหนึ่ง ในขณะที่เยอรมนีได้บังคับใช้กฎหมายที่กำหนดให้ต้องเคารพการจองสิทธิ์ที่เครื่องสามารถอ่านได้ การบังคับใช้ across เขตอำนาจศาลยังคงเป็นความท้าทาย การสนทนาเผยให้เห็นความตึงเครียดระหว่างความสามารถทางเทคนิคและความรับผิดชอบทางจริยธรรม โดยผู้เข้าร่วมอภิปรายว่ากฎหมายปัจจุบันเพียงพอที่จะจัดการกับขนาดและผลกระทบของวิธีการฝึก AI สมัยใหม่หรือไม่

วิธีการตรวจจับบอทที่พบบ่อย:

ติดตามคำขอสำหรับทรัพยากรที่ถูกคอมเมนต์ออก
วิเคราะห์ user-agent strings เพื่อหาความไม่สอดคล้อง
ติดตาม IP addresses ที่เพิกเฉยต่อ robots.txt
ตั้งลิงก์กับดัก (honeypot) ด้วย CSS display:none
ใช้ Fail2Ban สำหรับการบลอก IP อัตโนมัติ

สรุป

การค้นพบสแครปเปอร์ที่ติดตามลิงก์ที่ถูกคอมเมนต์ออกได้เปิดหน้าต่างสู่วิธีการและจริยธรรมของการเก็บข้อมูลสมัยใหม่ สิ่งที่เริ่มต้นจากความอยากรู้ทางเทคนิคได้พัฒนากลายเป็นการอภิปรายที่กว้างขึ้นเกี่ยวกับบรรทัดฐานบนเว็บ การจัดสรรทรัพยากร และขอบเขตที่เหมาะสมของการเข้าถึงอัตโนมัติ ในขณะที่บริษัท AI ยังคงต้องการข้อมูลการฝึกอย่างต่อเนื่อง และเจ้าของเว็บไซต์พยายามปกป้องทรัพยากรและสิทธิของพวกเขา ความตึงเครียดระหว่างการเข้าถึงแบบเปิดและการใช้งานที่ควบคุมได้นี้มีแนวโน้มที่จะสร้างทั้งนวัตกรรมทางเทคนิคและการอภิปรายที่ร้อนแรงต่อไป การตอบสนองเชิงสร้างสรรค์ของชุมชน - ตั้งแต่เทคนิคการตรวจจับไปจนถึงมาตรการตอบโต้ - สาธิตให้เห็นว่าเจ้าของเว็บไซต์ไม่ใช่เหยื่อที่ยอมจำนนแต่เป็นผู้เข้าร่วมที่กระตือรือร้นในการกำหนดวิธีใช้เนื้อหาของพวกเขา

อ้างอิง: AI scrapers request commented scripts

ข่าวที่เกี่ยวข้อง

‌

‌
‌

‌

‌
‌

‌