แพลตฟอร์ม Git แบบ self-hosted อย่าง Gitea ได้เปิดตัวฟีเจอร์ใหม่เพื่อช่วยผู้ดูแลระบบจัดการกับปัญหาที่เพิ่มขึ้นของบอท AI scraper ที่ทำให้เซิร์ฟเวอร์ของพวกเขาล้นหลาม โซลูชันนี้มาในช่วงที่นักพัฒนาทั่วโลกรายงานการเพิ่มขึ้นอย่างมหาศาลของทราฟฟิกจาก automated crawler ที่มาขุดข้อมูลจาก repository ของพวกเขาเพื่อใช้เป็นข้อมูลฝึกสอน
![]() |
---|
ชุดโลโก้แพลตฟอร์มซอฟต์แวร์ที่มีสีสันเน้นย้ำถึงความหลากหลายของเครื่องมือที่นักพัฒนาใช้งานเมื่อเผชิญกับความท้าทายจากบอทขูดข้อมูล AI |
การระเบิดของทราฟฟิกจากบอท AI
ผู้ดูแลเซิร์ฟเวอร์ต่างต้องดิ้นรนกับการใช้ bandwidth ที่ไม่เคยมีมาก่อนจากบอท AI scraper ผู้ใช้คนหนึ่งรายงานว่า VPS ส่วนตัวของเขาถูกโจมตีด้วยทราฟฟิก 800GB ต่อเดือนจากผู้เยี่ยมชมอัตโนมัติเหล่านี้ ซึ่งติดอยู่ในการ crawl ผ่านหน้า Git history ที่ลึก บอทเหล่านี้ดูเหมือนจะ scrape code repository อย่างเป็นระบบ น่าจะเพื่อวัตถุประสงค์ในการฝึกสอนโมเดล AI
การเพิ่มขึ้นของทราฟฟิกบอทนี้บังคับให้นักพัฒนาหลายคนต้องหาโซลูชัน โดยบางคนใช้วิธีการบล็อกช่วง IP ทั้งหมดที่เป็นของบริษัท AI ใหญ่ๆ เช่น OpenAI, Microsoft และ Mistral อย่างไรก็ตาม วิธีการแบบ manual เหล่านี้มักต้องการการบำรุงรักษาอย่างต่อเนื่องและอาจบล็อกผู้ใช้ที่ถูกต้องโดยไม่ตั้งใจ
![]() |
---|
ส่วนติดต่อผู้ใช้ที่แสดง pull request และกิจกรรม repository สะท้อนถึงการต่อสู้ของผู้ดูแลเซิร์ฟเวอร์ในการรับมือกับการเข้าชมที่เพิ่มขึ้นจาก AI bot |
การแก้ไขด้วยการกำหนดค่าแบบง่าย
ทีมพัฒนาของ Gitea ตอบสนองด้วยโซลูชันที่สง่างาม: ตัวเลือกการกำหนดค่า REQUIRE_SIGNIN_VIEW = expensive
ฟีเจอร์นี้ช่วยให้ผู้ดูแลระบบสามารถกำหนดให้ต้องมีการยืนยันตัวตนของผู้ใช้เฉพาะสำหรับหน้าที่ใช้ทรัพยากรมาก เช่น การดู Git history แบบละเอียด ในขณะที่ยังคงเนื้อหา repository ส่วนใหญ่เข้าถึงได้แบบสาธารณะ
วิธีการนี้สร้างสมดุลระหว่างความเปิดกว้างและการป้องกัน ผู้ใช้ทั่วไปยังคงสามารถเรียกดู repository ดูโค้ด และเข้าถึงฟีเจอร์ส่วนใหญ่ได้โดยไม่ต้องสร้างบัญชี ในขณะเดียวกัน การดำเนินการที่ใช้การคำนวณมากซึ่งดึงดูด bot crawler จะถูกกั้นไว้หลังข้อกำหนดการเข้าสู่ระบบแบบง่าย
หลังจากการสืบสวนเล็กน้อย พวกเขาติดอยู่ในหน้า git history ที่ลึกบางหน้า... การสร้าง carveout สำหรับ API endpoint ดูเหมือนจะซับซ้อน โชคดีที่นักพัฒนา Gitea ได้ implement
REQUIRE_SIGNIN_VIEW = expensive
เป็นการแก้ไขเมื่อเร็วๆ นี้
การกำหนดค่าป้องกัน Crawler:
- การตั้งค่า:
REQUIRE_SIGNIN_VIEW = expensive
- ผลกระทบ: ต้องการการเข้าสู่ระบบเฉพาะหน้าเว็บที่ใช้ทรัพยากรมาก
- ประโยชน์: ป้องกัน bot crawler ในขณะที่ยังคงให้สาธารณะเข้าถึงเนื้อหาส่วนใหญ่ได้
- แนวทางทางเลือก: การบล็อก IP ของ ASN บริษัท AI ( OpenAI , Microsoft , Mistral )
การตอบสนองของชุมชนและทางเลือกอื่น
ชุมชน Gitea ได้ชื่นชมวิธีการจัดการบอทแบบเป้าหมายนี้ ผู้ใช้รายงานว่าการใช้การตั้งค่านี้ทำให้เซิร์ฟเวอร์ของพวกเขากลับมาสู่ระดับทราฟฟิกและการใช้ CPU ปกติทันที โดยไม่รบกวนเวิร์กโฟลว์ปกติหรือผู้ร่วมงานของพวกเขา
นักพัฒนาบางคนได้สำรวจโซลูชันทางเลือก รวมถึงการย้ายไปยังเครื่องมือโฮสติ้ง Git ที่เบากว่าเช่น rgit ร่วมกับ backup utility อย่างไรก็ตาม หลายคนชื่นชมชุดฟีเจอร์ที่ครอบคลุมของ Gitea ซึ่งรวมถึง CI/CD แบบบูรณาการผ่าน Gitea Actions เครื่องมือจัดการโปรเจ็กต์ และการสนับสนุน package registry สำหรับ package type กว่า 20 ประเภท
คุณสมบัติหลัก:
- การโฮสต์โค้ดด้วยระบบ repository ที่ใช้ Git
- ระบบ CI/CD แบบบูรณาการ ( Gitea Actions ) ที่เข้ากันได้กับ GitHub Actions
- การจัดการโปรเจกต์ด้วย issues, kanban boards, milestones
- package registry ที่รองรับ package มากกว่า 20 ประเภท ( NPM , Maven , Docker , PyPI ฯลฯ)
- รองรับหลายแพลตฟอร์ม ( Linux , Windows , macOS , FreeBSD , Kubernetes )
- เข้ากันได้กับฐานข้อมูลหลายประเภท ( SQLite , MySQL , PostgreSQL , TiDB , MS SQL )
![]() |
---|
โลโก้ที่หลากหลายของแพลตฟอร์มซอฟต์แวร์สะท้อนการอภิปรายของชุมชน Gitea เกี่ยวกับทางเลือกต่างๆ และฟีเจอร์ที่ครอบคลุมของแพลตฟอร์ม |
ผลกระทบในวงกว้าง
การพัฒนานี้เน้นย้ำถึงความตึงเครียดที่เพิ่มขึ้นระหว่างความต้องการในการเก็บรวบรวมข้อมูลของบริษัท AI และทรัพยากรของนักพัฒนาแต่ละคนและองค์กรขนาดเล็ก เมื่อการฝึกสอน AI ต้องการข้อมูลมากขึ้น แพลตฟอร์ม self-hosted กำลัง implement โซลูชันสร้างสรรค์เพื่อรักษาบริการของพวกเขาโดยไม่บล็อกการเข้าถึงแบบอัตโนมัติทั้งหมด
ความสำเร็จของวิธีการของ Gitea อาจมีอิทธิพลต่อแพลตฟอร์ม self-hosted อื่นๆ ให้นำกลยุทธ์การยืนยันตัวตนแบบเลือกสรรที่คล้ายกันมาใช้ สร้างสมดุลระหว่างการเข้าถึงแบบสาธารณะกับการป้องกันทรัพยากรในยุคของการ crawl เว็บที่ขับเคลื่อนด้วย AI