นักสร้างคอนเทนต์เผชิญหน้ากันเรื่องการขูดข้อมูลเว็บไซต์ของ LLM ขณะที่การถกเถียงเรื่องการระบุแหล่งที่มาของการเข้าชมทวีความรุนแรง

ทีมชุมชน BigGo
นักสร้างคอนเทนต์เผชิญหน้ากันเรื่องการขูดข้อมูลเว็บไซต์ของ LLM ขณะที่การถกเถียงเรื่องการระบุแหล่งที่มาของการเข้าชมทวีความรุนแรง

ชุมชนเทคโนโลยีกำลังติดอยู่ในการถกเถียงอย่างรุนแรงเกี่ยวกับว่าเจ้าของเว็บไซต์ควรปิดกั้น Large Language Models ( LLMs ) จากการขูดเนื้อหาของพวกเขาหรือไม่ การถกเถียงนี้ได้รับแรงผลักดันหลังจากข้อกล่าวหาล่าสุดที่ว่าบริษัทค้นหา AI ชื่อ Perplexity ได้ละเมิดไฟล์ robots.txt ที่ห้าม LLM crawlers เข้าถึงเว็บไซต์บางแห่งอย่างชัดเจน

ความขัดแย้งนี้มีจุดศูนย์กลางอยู่ที่ความไม่เห็นด้วยขั้นพื้นฐานเกี่ยวกับการแลกเปลี่ยนคุณค่าระหว่างนักสร้างคอนเทนต์และบริษัท AI ในขณะที่บางคนโต้แย้งว่า LLMs เป็นตัวแทนของอนาคตของการค้นหาและสามารถขับเคลื่อนการเข้าชมไปยังเว็บไซต์ได้ นักสร้างคอนเทนต์หลายคนรู้สึกว่าพวกเขาถูกเอาเปรียบโดยไม่ได้รับค่าตอบแทน

แพลตฟอร์มหลักที่กล่าวถึง:

  • Perplexity (ถูกกล่าวหาว่าละเมิด robots.txt)
  • ChatGPT (รายงานว่าเป็นแหล่งที่มาของการเข้าชมเว็บไซต์โดยธุรกิจบางแห่ง)
  • Google (เปรียบเทียบกับการค้นหาแบบดั้งเดิม)
  • Cloudflare (เสนอเครื่องมือสำหรับบล็อก LLM)

ปัญหาการระบุแหล่งที่มาแบ่งแยกชุมชน

ประเด็นหลักที่เกิดขึ้นจากการอภิปรายของชุมชนคือว่า LLMs ขับเคลื่อนการเข้าชมที่มีความหมายไปยังเว็บไซต์ต้นทางหรือไม่ นักสร้างคอนเทนต์หลายคนแสดงความผิดหวังที่งานของพวกเขาถูกสรุปและนำเสนอให้กับผู้ใช้โดยไม่ได้สร้างการคลิกหรือการเข้าชมไปยังไซต์ต้นฉบับของพวกเขา ข้อมูลการวิจัยสนับสนุนความกังวลเหล่านี้ โดยแสดงให้เห็นว่าผู้ใช้ไม่ค่อยคลิกผ่านไปยังลิงก์ต้นทางเมื่อระบบ AI ให้คำตอบโดยตรงต่อคำถามของพวกเขา

สิ่งนี้ตรงกันข้ามอย่างสิ้นเชิงกับเครื่องมือค้นหาแบบดั้งเดิมอย่าง Google ซึ่งทำหน้าที่หลักเป็นตัวกำกับการเข้าชม เมื่อ Google จัดทำดัชนีเว็บไซต์ มันมักจะส่งผู้ใช้ไปยังไซต์จริงเพื่อใช้เนื้อหาเต็ม อย่างไรก็ตาม LLMs มักจะให้คำตอบที่สังเคราะห์แล้วซึ่งอาจขจัดความจำเป็นที่ผู้ใช้จะต้องเยี่ยมชมแหล่งข้อมูลต้นฉบับ

ข้อมูลการระบุแหล่งที่มาของการเข้าชมเว็บไซต์:

  • บางธุรกิจรายงานว่าลูกค้าประมาณ 20% ในปัจจุบันมาจาก ChatGPT แทนที่จะเป็น Google
  • การวิจัยแสดงให้เห็นว่าผู้ใช้แทบจะไม่คลิกลิงก์แหล่งที่มาในการตอบกลับที่สร้างโดย AI
  • รายงานระบุว่าการเข้าชมที่สร้างโดย LLM มีอัตราการแปลงที่ดีกว่า แต่สร้างปริมาณการเข้าชมโดยรวมที่น้อยกว่า

ความขัดแย้งของโมเดลธุรกิจเป็นเชื้อเพลิงของความตึงเครียด

การถกเถียงนี้เผยให้เห็นความขัดแย้งขั้นพื้นฐานระหว่างแนวทางต่างๆ ในการสร้างรายได้จากเนื้อหาออนไลน์ เจ้าของเว็บไซต์ที่พึ่งพารายได้จากโฆษณา การดูหน้าเว็บ หรือการมีส่วนร่วมของผู้อ่านโดยตรง มองว่าการขูดข้อมูลของ LLM อาจสร้างความเสียหายอย่างรุนแรงต่อโมเดลธุรกิจของพวกเขา พวกเขาโต้แย้งว่าบริษัท AI กำลังสร้างบริการที่ทำกำไรได้บนหลังของนักสร้างคอนเทนต์ที่ไม่ได้รับค่าจ้าง

ผมไม่ได้ใส่ความพยายามในการเขียนเนื้อหาหลายย่อหน้าสำหรับเว็บไซต์ของตัวเองเพียงเพื่อให้มันถูกสรุปโดย LLM ผมเขียนมันเพราะผมต้องการให้มนุษย์คนอื่นๆ อ่านมัน

อย่างไรก็ตาม เจ้าของธุรกิจบางรายรายงานประสบการณ์เชิงบวกกับการเข้าชมที่ขับเคลื่อนโดย LLM โดยเฉพาะผู้ที่เสนอบริการระดับมืออาชีพ บริษัทในสาขาเฉพาะทางเช่นการบัญชีและการให้คำปรึกษาได้สังเกตว่าระบบ AI บางครั้งนำลูกค้าเป้าหมายที่มีคุณสมบัติสูงไปยังเว็บไซต์ของพวกเขาเมื่อผู้ใช้ถามคำถามเฉพาะอุตสาหกรรม

ความกังวลด้านเทคนิคและจริยธรรมเพิ่มขึ้น

นอกเหนือจากการพิจารณาทางธุรกิจแล้ว ชุมชนยังได้ยกประเด็นทางเทคนิคและจริยธรรมหลายประการเกี่ยวกับแนวปฏิบัติการขูดข้อมูลของ LLM ในปัจจุบัน นักวิจารณ์หลายคนชี้ให้เห็นว่าบริษัท AI บางแห่งถูกจับได้ว่าละเลยไฟล์ robots.txt และโปรโตคอลเว็บมาตรฐานอื่นๆ ที่ออกแบบมาเพื่อควบคุมการเข้าถึงเว็บไซต์แบบอัตโนมัติ

นอกจากนี้ยังมีความกังวลเกี่ยวกับความถูกต้องของเนื้อหาและการบิดเบือนข้อมูล เจ้าของเว็บไซต์กังวลว่า LLMs อาจนำเสนอข้อมูลของพวกเขาอย่างไม่ถูกต้องหรือไม่เหมาะสมกับบริบท ซึ่งอาจสร้างความเสียหายต่อชื่อเสียงของพวกเขาโดยที่พวกเขาไม่เคยรู้เรื่องเลย ความเสี่ยงนี้น่ากังวลเป็นพิเศษสำหรับผู้สร้างสรรค์ที่ได้ลงทุนเวลาและความเชี่ยวชาญอย่างมากในการผลิตเนื้อหาคุณภาพสูง

อนาคตของการกระจายเนื้อหาเว็บ

ขณะที่การถกเถียงนี้ดำเนินต่อไป มันสะท้อนคำถามที่กว้างขึ้นเกี่ยวกับความสัมพันธ์ในอนาคตระหว่างนักสร้างคอนเทนต์และระบบ AI สมาชิกชุมชนบางคนเชื่อว่าการปิดกั้น LLMs เป็นสิ่งที่ไร้ประโยชน์และนักสร้างสรรค์ควรปรับตัวให้เข้ากับความเป็นจริงใหม่นี้ คนอื่นๆ โต้แย้งว่าความยินยอมและค่าตอบแทนที่ยุติธรรมต้องเป็นจุดศูนย์กลางของโมเดลที่ยั่งยืนใดๆ

การอภิปรายนี้ยังเน้นย้ำถึงความจำเป็นในการมีมาตรฐานและโปรโตคอลที่ชัดเจนยิ่งขึ้นที่ควบคุมวิธีที่ระบบ AI โต้ตอบกับเนื้อหาเว็บ เมื่อ LLMs กลายเป็นที่แพร่หลายมากขึ้นในการค้นหาและการดึงข้อมูล การค้นหาสมดุลที่ให้บริการทั้งนักสร้างคอนเทนต์และนักพัฒนา AI น่าจะต้องการโซลูชันทางเทคนิคใหม่และอาจต้องมีกรอบการกำกับดูแล

ผลลัพธ์ของการถกเถียงนี้อาจส่งผลกระทบอย่างมีนัยสำคัญต่อวิธีที่ข้อมูลไหลผ่านอินเทอร์เน็ตในปีที่จะมาถึง โดยส่งผลกระทบต่อทุกคนตั้งแต่บล็อกเกอร์รายบุคคลไปจนถึงองค์กรสื่อขนาดใหญ่

อ้างอิง: Why blocking LLMs from your website is dumb