Cloudflare ได้เปิดตัวนโยบาย Content Signals Policy ซึ่งเป็นการเพิ่มเติมใหม่ในไฟล์ robots.txt ที่ช่วยให้เจ้าของเว็บไซต์สามารถระบุได้ว่าเนื้อหาของพวกเขาสามารถถูกใช้งานโดย AI crawlers และ data scrapers ได้อย่างไร อย่างไรก็ตาม ชุมชนเทคโนโลยีได้ระบุข้อบกพร่องสำคัญอย่างรวดเร็วที่อาจทำให้นโยบายนี้ขัดแย้งกับเป้าหมายที่ตั้งใจไว้
นโยบายนี้แนะนำสัญญาณเนื้อหาสามแบบ คือ search, ai-input และ ai-train ที่ผู้ดำเนินการเว็บไซต์สามารถใช้เพื่อแสดงความต้องการเกี่ยวกับวิธีการเข้าถึงและใช้งานเนื้อหาของพวกเขา แม้ว่าในทางทฤษฎีจะฟังดูเป็นประโยชน์ แต่การนำไปใช้งานกลับรวมถึงข้อกำหนดทางกฎหมายที่มีปัญหา ซึ่งระบุว่าการเข้าถึงเว็บไซต์หมายถึงการยอมรับที่จะปฏิบัติตามสัญญาณเนื้อหาเหล่านั้น
ประเภทของ Content Signal:
- search: อนุญาตให้ค้นหา สร้างลิงก์ และนำเสนอผลการค้นหา
- ai-input: อนุญาตให้ป้อนเนื้อหาสำหรับการสร้างเนื้อหาด้วย AI หรือคำตอบจากการค้นหา
- ai-train: อนุญาตให้ฝึกอบรมและปรับแต่งโมเดล AI
ช่องโหว่ทางกฎหมายอาจส่งเสริมให้ผู้ดำเนินการบอทเพิกเฉยต่อ Robots.txt
ปัญหาที่น่ากังวลที่สุดที่นักพัฒนาระบุคือ นโยบายนี้สร้างโครงสร้างแรงจูงใจที่บิดเบือน การรวมภาษาทางกฎหมายที่มีผลผูกพันในไฟล์ robots.txt ทำให้ Cloudflare โดยไม่ได้ตั้งใจได้ให้เหตุผลแก่ผู้ดำเนินการบอทในการหลีกเลี่ยงการดาวน์โหลดไฟล์ robots.txt ทั้งหมด หากพวกเขาไม่เคยเห็นข้อกำหนด พวกเขาจะไม่สามารถถูกตั้งข้อหาทางกฎหมายสำหรับการละเมิดข้อกำหนดเหล่านั้นได้
สิ่งนี้สร้างสถานการณ์ที่บริษัทที่พยายามทำหน้าที่อย่างรับผิดชอบโดยการตรวจสอบไฟล์ robots.txt กลับเผชิญกับความเสี่ยงทางกฎหมายมากกว่าบริษัทที่เพิกเฉยต่อมาตรฐานเว็บอย่างสมบูรณ์ ผลที่ตามมาโดยไม่ได้ตั้งใจอาจเป็นการที่บอทจำนวนน้อยลงเคารพข้อจำกัดของเว็บไซต์ใดๆ เลย
ความท้าทายในการบังคับใช้ยังคงไม่เปลี่ยนแปลง
นอกเหนือจากความซับซ้อนทางกฎหมายแล้ว ปัญหาการบังคับใช้พื้นฐานยังคงอยู่ นโยบาย Content Signals Policy ยังคงพึ่งพาการปฏิบัติตามโดยสมัครใจจากผู้ดำเนินการบอท เช่นเดียวกับไฟล์ robots.txt แบบดั้งเดิม นักวิจารณ์ชี้ให้เห็นว่าหากบอทใหญ่ใดๆ เพิกเฉยต่อสัญญาณเหล่านี้ เนื้อหาที่ได้รับการปกป้องจะหลีกเลี่ยงไม่ได้ที่จะลงเอยในชุดข้อมูลการฝึก AI อยู่ดี ทำให้ความพยายามทั้งหมดเป็นเพียงสัญลักษณ์เป็นส่วนใหญ่
นโยบายนี้ยังทำให้เกิดคำถามเกี่ยวกับประสิทธิภาพในระดับภูมิภาค กรอบทางกฎหมายอ้างอิงถึงคำสั่งลิขสิทธิ์ของสหภาพยุโรป ซึ่งอาจสร้างระบบที่จำกัดการพัฒนา AI ของยุโรปเป็นหลัก ในขณะที่ปล่อยให้บริษัทอเมริกันและจีนเสรีในการขูดเนื้อหาต่อไปสำหรับโมเดลของพวกเขา
การคาดการณ์การเข้าชม:
- คาดว่าการเข้าชมจากบอทจะเกินการเข้าชมจากมนุษย์ภายในสิ้นปี 2026
- ภายในปี 2031: กิจกรรมของบอทเพียงอย่างเดียวจะเกินการเข้าชมทั้งหมดของอินเทอร์เน็ตในปัจจุบัน
- แสดงถึงภาระค่าใช้จ่ายที่สำคัญสำหรับผู้ดำเนินการเว็บไซต์
ปฏิกิริยาที่หลากหลายจากชุมชนนักพัฒนา
การประกาศนี้ได้จุดประกายการถกเถียงเกี่ยวกับทิศทางที่กว้างขึ้นของความเปิดกว้างของเว็บ นักพัฒนาบางคนเศร้าโศกกับการเปลี่ยนแปลงจากปรัชญาอินเทอร์เน็ตยุคแรกของการแบ่งปันข้อมูลอย่างเสรี ในขณะที่คนอื่นๆ โต้แย้งว่าผู้สร้างเนื้อหาสมควรได้รับค่าตอบแทนสำหรับงานของพวกเขาที่ถูกใช้ในระบบ AI เชิงพาณิชย์
เว็บได้ตกต่ำลงมากจาก 'ข้อมูลต้องการที่จะเป็นอิสระ'
การอภิปรายสะท้อนความตึงเครียดที่กว้างขึ้นระหว่างการรักษาเว็บที่เปิดกว้างและการปกป้องสิทธิของผู้สร้างเนื้อหาในยุคที่บริษัท AI กำลังสร้างธุรกิจมูลค่าพันล้านดอลลาร์จากเนื้อหาเว็บที่ขูดมา
แม้จะมีข้อกังวลเหล่านี้ Cloudflare กำลังเปิดใช้งานนโยบายโดยอัตโนมัติสำหรับโดเมนกว่า 1.6 ล้านโดเมนที่ใช้คุณสมบัติ robots.txt ที่จัดการโดยพวกเขา โดยตั้งค่าสัญญาณ ai-train เป็น no เป็นค่าเริ่มต้น บริษัทยอมรับว่าสัญญาณเนื้อหาเป็นความต้องการมากกว่าการป้องกันทางเทคนิค และแนะนำให้ผู้เผยแพร่เว็บไซต์ที่จริงจังรวมสัญญาณเหล่านี้เข้ากับกฎ Web Application Firewall และเครื่องมือจัดการบอทเพื่อการปกป้องที่แท้จริง
อ้างอิง: Giving users choice with Cloudflare's new Content Signals Policy
![]() |
---|
การแสดงภาพของบล็อก Cloudflare ที่กล่าวถึง Content Signals Policy ซึ่งสะท้อนปฏิกิริยาที่หลากหลายในชุมชนเทคโนโลยี |