การบล็อกเว็บครอว์เลอร์ทั้งหมดทำลายการแสดงตัวอย่างลิงก์โซเชียลมีเดียและส่งผลเสียต่อการมองเห็นเนื้อหา

ทีมชุมชน BigGo
การบล็อกเว็บครอว์เลอร์ทั้งหมดทำลายการแสดงตัวอย่างลิงก์โซเชียลมีเดียและส่งผลเสียต่อการมองเห็นเนื้อหา

ความพยายามของนักพัฒนาในการปกป้องเว็บไซต์จากครอว์เลอร์ที่ไม่ต้องการ กลับนำไปสู่ปัญหาที่ไม่คาดคิด นั่นคือโพสต์ LinkedIn ของเขาหยุดแสดงตัวอย่างลิงก์ และการมีส่วนร่วมลดลงอย่างมีนัยสำคัญ กรณีนี้เน้นย้ำถึงความตึงเครียดที่เพิ่มขึ้นระหว่างการปกป้องเนื้อหาและการทำงานของโซเชียลมีเดียที่เจ้าของเว็บไซต์หลายคนต้องเผชิญในปัจจุบัน

ต้นทุนที่ซ่อนอยู่ของการบล็อกบอทแบบครอบคลุม

เมื่อแพลตฟอร์มโซเชียลมีเดียอย่าง LinkedIn, Facebook หรือ Twitter แสดงตัวอย่างที่หลากหลายของลิงก์ที่แชร์ พวกเขาพึ่งพาบอทอัตโนมัติในการดึงเนื้อหาหน้าเว็บและแยกข้อมูลเมตา บอทเหล่านี้อ่านแท็ก Open Graph Protocol ซึ่งเป็นองค์ประกอบ HTML พิเศษที่กำหนดว่าเนื้อหาจะปรากฏอย่างไรเมื่อถูกแชร์ การบล็อกครอว์เลอร์ทั้งหมดผ่าน robots.txt ทำให้เว็บไซต์ป้องกันบอทโซเชียลมีเดียที่ถูกต้องตามกฎหมายเหล่านี้จากการสร้างตัวอย่างที่น่าสนใจซึ่งช่วยเพิ่มการมีส่วนร่วมของผู้ใช้โดยไม่ได้ตั้งใจ

การอภิปรายในชุมชนเผยให้เห็นว่านี่ไม่ใช่เหตุการณ์ที่เกิดขึ้นเพียงครั้งเดียว นักพัฒนาหลายคนได้พบปัญหาที่คล้ายกันเมื่อใช้นโยบายครอว์เลอร์ที่เข้มงวดเกินไป และค้นพบปัญหาหลังจากสังเกตเห็นการมีส่วนร่วมในโซเชียลมีเดียที่ลดลงและการแสดงตัวอย่างลิงก์ที่เสียหาย

แท็ก Open Graph Protocol ที่จำเป็นสำหรับการแสดงตัวอย่างบนโซเชียลมีเดีย:

  • og:title - ชื่อเรื่องของเนื้อหาของคุณที่จะปรากฏบนโซเชียลมีเดีย
  • og:type - ประเภทของเนื้อหา (เช่น บทความ วิดีโอ เว็บไซต์)
  • og:image - URL ของรูปภาพที่แสดงถึงเนื้อหาของคุณ
  • og:url - URL หลักของเนื้อหาของคุณ

ปัญหาใน Robots.txt ในเว็บยุคใหม่

วัตถุประสงค์เดิมของ robots.txt นั้นง่ายกว่ามาก คือช่วยเครื่องมือค้นหาหลีกเลี่ยงการถูกลงโทษจากเนื้อหาที่ซ้ำกันและป้องกันไม่ให้ครอว์เลอร์ติดอยู่ในลูปไม่สิ้นสุดบนเว็บไซต์ที่ออกแบบมาไม่ดี อย่างไรก็ตาม เว็บยุคใหม่นำเสนอความท้าทายที่ซับซ้อนกว่า ในขณะที่บริการที่ถูกต้องตามกฎหมายเคารพคำสั่งของ robots.txt บอทที่เป็นอันตรายมักจะเพิกเฉยต่อกฎเหล่านี้โดยสิ้นเชิง

สิ่งนี้สร้างสถานการณ์ที่น่าหงุดหงิดที่การบล็อกครอว์เลอร์ทั้งหมดส่งผลกระทบต่อบริการที่มีพฤติกรรมดีเป็นหลัก ในขณะที่ทำเพียงเล็กน้อยในการหยุดสแครปเปอร์ที่เป็นปัญหา ดังที่สมาชิกชุมชนคนหนึ่งกล่าวไว้ ผู้กระทำผิดที่เป็นอันตรายจริงๆ จะเพิกเฉยต่อไฟล์ robots.txt ทำให้การห้ามแบบครอบคลุมมีประสิทธิภาพน้อยกว่าวิธีการที่มีเป้าหมายเฉพาะ

การค้นหาสมดุลที่เหมาะสม

วิธีแก้ปัญหาเกี่ยวข้องกับการอนุญาตบอทที่เฉพาะเจาะจงและเชื่อถือได้อย่างเลือกสรร ในขณะที่รักษาการปกป้องจากครอว์เลอร์ที่ไม่ต้องการ สำหรับการทำงานของโซเชียลมีเดีย โดยทั่วไปหมายถึงการอนุญาตให้บอทอย่าง LinkedInBot, FacebookBot และ TwitterBot เข้าถึงเนื้อหาในขณะที่บล็อกบอทอื่นๆ อย่างไรก็ตาม วิธีการนี้ต้องการการบำรุงรักษาอย่างต่อเนื่องเมื่อแพลตฟอร์มใหม่ๆ เกิดขึ้นและวิธีการระบุบอทมีการพัฒนา

ความท้าทายขยายไปเกินกว่าโซเชียลมีเดีย เครื่องมือค้นหา ครอว์เลอร์วิจัยที่ถูกต้องตามกฎหมาย และเครื่องมือการเข้าถึงทั้งหมดขึ้นอยู่กับการเข้าถึงเนื้อหาเว็บอย่างสมเหตุสมผล การบล็อกบริการเหล่านี้อย่างสมบูรณ์สามารถแยกเว็บไซต์ออกจากระบบนิเวศเว็บที่กว้างขึ้น ลดการค้นพบและจำกัดการเข้าถึงเนื้อหาที่เผยแพร่

ตัวอย่างการกำหนดค่า robots.txt เพื่อความเข้ากันได้กับโซเชียลมีเดีย:

User-agent: LinkedInBot
Allow: /

User-agent: FacebookBot  
Allow: /

User-agent: TwitterBot
Allow: /

User-agent: *
Disallow: /

ผลกระทบที่กว้างขึ้นต่อการเข้าถึงเว็บ

เหตุการณ์นี้สะท้อนถึงแนวโน้มที่ใหญ่กว่าสู่เว็บที่แยกส่วนมากขึ้น ที่ผู้สร้างเนื้อหาต้องสร้างสมดุลระหว่างการปกป้องจากระบบอัตโนมัติที่ไม่ต้องการกับการรักษาการเชื่อมต่อกับบริการที่ถูกต้องตามกฎหมาย การอภิปรายเน้นย้ำว่ามาตรการป้องกัน แม้ว่าจะเข้าใจได้ แต่สามารถส่งผลเสียต่อลักษณะเปิดของเว็บที่อนุญาตให้บริการและเครื่องมือที่หลากหลายเจริญเติบโตโดยไม่ได้ตั้งใจ

ประสบการณ์นี้เป็นเครื่องเตือนใจว่านโยบายเว็บควรได้รับการทดสอบอย่างละเอียดในกรณีการใช้งานที่แตกต่างกัน สิ่งที่ดูเหมือนเป็นมาตรการรักษาความปลอดภัยง่ายๆ สามารถมีผลกระทบที่กว้างไกลต่อการกระจายเนื้อหาและการมีส่วนร่วมของผู้ใช้ในภูมิทัศน์ดิจิทัลที่เชื่อมต่อกันในปัจจุบัน

อ้างอิง: I was wrong about robots.txt