Perplexity AI เพิกเฉยต่อกฎการบล็อกเว็บไซต์แม้จะอ้างในเอกสารประกอบ

ทีมชุมชน BigGo
Perplexity AI เพิกเฉยต่อกฎการบล็อกเว็บไซต์แม้จะอ้างในเอกสารประกอบ

การขู่ฟ้องร้องทางกฎหมายของ BBC ต่อ Perplexity AI ได้จุดประกายการถกเถียงอย่างเข้มข้นในชุมชน แต่ผู้เชี่ยวชาญด้านเทคโนโลยีกำลังมุ่งความสนใจไปที่การค้นพบที่น่าวิตกกว่า คือหลักฐานที่แสดงว่าบริษัท AI แห่งนี้ได้เปลี่ยนแปลงนโยบายเกี่ยวกับการเคารพกฎการบล็อกเว็บไซต์อย่างเงียบๆ

การเปลี่ยนแปลงเอกสารเผยให้เห็นการเปลี่ยนแปลงนโยบาย

การวิเคราะห์ของชุมชนได้เปิดเผยว่า Perplexity เพิ่งแก้ไขเอกสารทางเทคนิคระหว่างวันที่ 30 มกราคม ถึง 7 กุมภาพันธ์ 2025 บริษัทได้เพิ่มข้อความสำคัญเกี่ยวกับ crawler ชื่อ Perplexity-User ว่า เนื่องจากผู้ใช้ร้องขอการดึงข้อมูล ตัวดึงข้อมูลนี้จึงไม่ปฏิบัติตามกฎ robots.txt โดยทั่วไป การเพิ่มเติมนี้เกิดขึ้นในขณะที่แรงกดดันทางกฎหมายจากสำนักพิมพ์รายใหญ่กำลังเพิ่มขึ้น

ไฟล์ robots.txt เป็นโปรโตคอลเว็บมาตรฐานที่บอก crawler อัตโนมัติว่าควรหลีกเลี่ยงส่วนใดของเว็บไซต์ มันเหมือนป้าย ห้ามเข้า สำหรับบอท แม้ว่าการปฏิบัติตามจะยังคงเป็นไปโดยสมัครใจ BBC ใช้ไฟล์นี้เพื่อบล็อก crawler ของ Perplexity แต่บริษัท AI ดูเหมือนจะเพิกเฉยต่อคำแนะนำเหล่านี้

ไทม์ไลน์ของการเปลี่ยนแปลงเอกสาร:

  • 30 มกราคม 2025: เอกสาร Perplexity ไม่ได้กล่าวถึงการไม่สนใจ robots.txt
  • 7 กุมภาพันธ์ 2025: เพิ่มข้อความที่ระบุว่า Perplexity-User "โดยทั่วไปจะไม่สนใจกฎของ robots.txt"

เทคโนโลยี RAG อยู่ในจุดศูนย์กลางของข้อพิพาท

ความขัดแย้งมีจุดศูนย์กลางอยู่ที่ Retrieval-Augmented Generation (RAG) เทคโนโลยีที่ค้นหาเว็บแบบเรียลไทม์เพื่อตอบคำถามของผู้ใช้ ต่างจากเครื่องมือค้นหาแบบดั้งเดิมที่แสดงลิงก์ไปยังแหล่งข้อมูลต้นฉบับ Perplexity แสดงเนื้อหาโดยตรงภายในอินเทอร์เฟซ มักจะทำซ้ำส่วนสำคัญของบทความ

แนวทางนี้ได้รับการวิพากษ์วิจารณ์จากสำนักพิมพ์ที่โต้แย้งว่ามันลดการเข้าชมเว็บไซต์ของพวกเขาในขณะที่ยังคงใช้เนื้อหาของพวกเขา BBC อ้างว่า Perplexity ทำซ้ำเนื้อหาของตนตามตัวอักษรโดยไม่ได้รับอนุญาต ส่งผลเสียต่อความสัมพันธ์ของบริษัทกับผู้จ่ายค่าใบอนุญาตในสหราชอาณาจักรที่สนับสนุนการดำเนินงาน

ประเภท Crawler ของ Perplexity:

  • PerplexityBot: ออกแบบมาเพื่อค้นหาและเชื่อมโยงเว็บไซต์ในผลการค้นหา (ถูกบล็อกโดย robots.txt ของ BBC)
  • Perplexity-User: ดึงข้อมูลเนื้อหาเมื่อผู้ใช้ถามคำถาม (ปัจจุบันมีการบันทึกไว้ว่าไม่สนใจกฎของ robots.txt)

คำถามเรื่องขนาดและการใช้งานที่เป็นธรรม

การถกเถียงในชุมชนได้เน้นคำถามพื้นฐานเกี่ยวกับสิทธิดิจิทัลในยุค AI ในขณะที่บุคคลสามารถเรียกดูและสรุปเนื้อหาเว็บได้อย่างอิสระ ระบบ AI ทำงานในขนาดใหญ่มาก อาจประมวลผลบทความหลายล้านบทความต่อวัน

ลิขสิทธิ์เชื่อมโยงกับขนาดโดยธรรมชาติ การเพิ่มการใช้งานที่เป็นธรรมขึ้น 1,000,000 เท่า... อาจไม่ใช่การใช้งานที่เป็นธรรมอีกต่อไป

ผลกระทบจากขนาดนี้ทำให้เกิดความกังวลเกี่ยวกับความยั่งยืนระยะยาวของวารสารศาสตร์ หากระบบ AI สามารถให้สรุปโดยไม่ต้องนำการเข้าชมไปยังแหล่งข้อมูลต้นฉบับ สำนักพิมพ์กังวลเรื่องการสูญเสียรายได้ที่จำเป็นสำหรับการสนับสนุนการรวบรวมข่าวและการรายงาน

ผลกระทบต่ออุตสาหกรรมสำนักพิมพ์ของ UK:

  • มูลค่าอุตสาหกรรม: 4.4 พันล้าน GBP
  • การจ้างงาน: 55,000 คน
  • องค์กรตัวแทน: Professional Publishers Association (แบรนด์สื่อกว่า 300 แห่ง)

ปฏิกิริยาของผู้ใช้ที่หลากหลาย

แม้จะมีความกังวลทางกฎหมาย ผู้ใช้หลายคนชื่นชม Perplexity ในความสามารถในการตัดผ่านเว็บไซต์ที่ยุ่งเหยิงซึ่งเต็มไปด้วยโฆษณาและเนื้อหาที่ปรับให้เหมาะกับ SEO บางคนมองว่าบริการนี้เป็นทางแก้ไขสำหรับประสบการณ์เว็บที่เสื่อมโทรมซึ่งเกิดจากกลยุทธ์การสร้างรายได้ที่ก้าวร้าว

อย่างไรก็ตาม ความสะดวกสบายนี้มาพร้อมกับต้นทุนต่อผู้สร้างเนื้อหาที่พึ่งพาการเยี่ยมชมเว็บไซต์เพื่อรายได้ ความตึงเครียดระหว่างประสบการณ์ผู้ใช้และความยั่งยืนของสำนักพิมพ์ยังคงไม่ได้รับการแก้ไขในขณะที่การต่อสู้ทางกฎหมายดำเนินต่อไป

การดำเนินการของ BBC เป็นตัวแทนของความท้าทายทางกฎหมายครั้งแรกจากองค์กรข่าวระดับโลกต่อบริษัท AI เรื่องการใช้เนื้อหา ผลลัพธ์อาจสร้างแบบอย่างสำคัญสำหรับวิธีที่ระบบ AI โต้ตอบกับเนื้อหาที่มีลิขสิทธิ์ และว่าการคุ้มครองการใช้งานที่เป็นธรรมในปัจจุบันเพียงพอต่อการรับมือกับขนาดของการดำเนินงาน AI สมัยใหม่หรือไม่

อ้างอิง: BBC threatens AI firm with legal action over unauthorised content use

ผู้ใช้กำลังโต้ตอบกับสมาร์ทโฟน แสดงถึงการมีส่วนร่วมกับเทคโนโลยี AI ท่ามกลางการถกเถียงที่ยังคงดำเนินอยู่เกี่ยวกับการใช้เนื้อหาและความยั่งยืนของผู้เผยแพร่
ผู้ใช้กำลังโต้ตอบกับสมาร์ทโฟน แสดงถึงการมีส่วนร่วมกับเทคโนโลยี AI ท่ามกลางการถกเถียงที่ยังคงดำเนินอยู่เกี่ยวกับการใช้เนื้อหาและความยั่งยืนของผู้เผยแพร่