โครงการ Bluesky Dictionary เผยแพลตฟอร์มจับคำภาษาอังกฤษได้เพียง 35% แม้จะประมวลผลโพสต์แล้ว 4 ล้านโพสต์

ทีมชุมชน BigGo
โครงการ Bluesky Dictionary เผยแพลตฟอร์มจับคำภาษาอังกฤษได้เพียง 35% แม้จะประมวลผลโพสต์แล้ว 4 ล้านโพสต์

การทดลองที่น่าสนใจกำลังติดตามว่าผู้ใช้ Bluesky สามารถพูดคำทุกคำในภาษาอังกฤษได้หรือไม่ โครงการ Bluesky Dictionary ที่สร้างโดยนักพัฒนา Avi Bagla ติดตามโพสต์แบบเรียลไทม์ของแพลตฟอร์มเพื่อดูว่าพจนานุกรมภาษาอังกฤษปรากฏในการสนทนาประจำวันมากน้อยแค่ไหน หลังจากประมวลผลโพสต์มากกว่า 4 ล้านโพสต์แล้ว ผลลัพธ์แสดงให้เห็นช่องว่างที่น่าประหลาดใจในคำศัพท์ดิจิทัลของเรา

ความครอบคลุมจำกัดแม้จะประมวลผลข้อมูลจำนวนมหาศาล

โครงการนี้วิเคราะห์คำศัพท์ 51.7 ล้านคำจากโพสต์ Bluesky 4.2 ล้านโพสต์ แต่ครอบคลุมเพียง 35.57% ของพจนานุกรมภาษาอังกฤษมาตรฐานที่มี 274,937 คำ ซึ่งหมายความว่าเกือบสองในสามของคำภาษาอังกฤษไม่เคยปรากฏในโพสต์ที่วิเคราะห์ สมาชิกชุมชนแสดงความประหลาดใจที่คำที่ขาดหายไปบางคำเป็นคำทั่วไป โดยสังเกตว่าคำที่สมเหตุสมผลเช่น congregant, definer และ stereoscope ยังไม่ถูกพบเลย

อย่างไรก็ตาม ข้อจำกัดของขอบเขตมีความสำคัญ เมื่อ Bluesky มีโพสต์ทั้งหมดประมาณ 1.7 พันล้านโพสต์ตามข้อมูลชุมชน โครงการนี้ตรวจสอบเพียง 0.28% ของข้อความทั้งหมดบนแพลตฟอร์ม ขนาดตัวอย่างเล็กนี้อาจอธิบายได้ว่าทำไมคำธรรมดาหลายคำยังไม่ถูกจับได้

สстатิสติกปัจจุบัน:

  • ความครอบคลุมของพจนานุกรม: 35.57% (97,796 จากทั้งหมด 274,937 คำ)
  • จำนวนคำที่ประมวลผลทั้งหมด: 51.7 ล้านคำ
  • โพสต์ที่วิเคราะห์: 4.2 ล้านโพสต์
  • ขนาดฐานข้อมูล: 58 MB
  • อัตราการประมวลผลข้อมูล: ~900 kbps

การใช้งานเทคนิคและความท้าทายในโลกจริง

ระบบแบ็กเอนด์ใช้วิธีการตรงไปตรงมาด้วยตาราง SQLite database ที่ติดตามสถิติคำศัพท์และรูปแบบการใช้งาน ผู้สร้างประมวลผลสตรีมข้อมูลของ Bluesky ด้วยความเร็วประมาณ 900 กิโลบิตต่อวินาที เก็บคำที่ไม่ซ้ำแต่ละคำพร้อมจำนวนการนับและเวลาที่ใช้ ขนาดฐานข้อมูล 58 เมกะไบต์แสดงให้เห็นว่าข้อมูลข้อความสามารถเก็บและวิเคราะห์ได้อย่างมีประสิทธิภาพ

ผู้ใช้หลายคนรายงานปัญหาทางเทคนิคในการเข้าถึงเว็บไซต์ พบข้อผิดพลาด SSL และปัญหา CORS การพึ่งพา JavaScript ฝั่งไคลเอนต์สำหรับแสดงผลลัพธ์สร้างอุปสรรคสำหรับผู้ใช้ที่มีการตั้งค่าความปลอดภัยเบราว์เซอร์ที่เข้มงวดหรือไฟร์วอลล์ขององค์กร

สถาปัตยกรรมทางเทคนิค:

  • Backend: ฐานข้อมูล SQLite ที่มีตารางหลัก 2 ตาราง
  • แหล่งข้อมูล: Bluesky Jetstream API (compressed firehose)
  • พจนานุกรมคำศัพท์: "an-array-of-english-words" ของ GitHub (274,937 คำ)
  • การประมวลผล: การแยกคำและค้นหาแบบเรียลไทม์
  • การจัดเก็บ: จำนวนคำ การใช้งานครั้งแรก การใช้งานครั้งสุดท้าย และการอ้างอิงโพสต์

การค้นพบที่ไม่คาดคิดและการเล่นระบบ

โครงการนี้จับคำที่หายากจริงๆ เช่น stigmatophilia, algolagnia และ pyrosomes ได้ในขณะที่พลาดคำทั่วไป ผู้ใช้บางคนเริ่มโพสต์คำในพจนานุกรมที่หายากโดยเจตนาเพื่อเพิ่มเปอร์เซ็นต์ความครอบคลุม ผู้ใช้คนหนึ่งทำ double-combo ได้โดยใช้ทั้ง wheal และ sluices ในโพสต์เดียวเกี่ยวกับการเยี่ยมชมพิพิธภัณฑ์ Cornwall

ระบบยังเผชิญกับความท้าทายด้านความแม่นยำ เช่น การจัดทำดัชนี eluvium เมื่อผู้ใช้กำลังพูดถึงชื่อวงดนตรีแทนที่จะเป็นคำศัพท์ทางธรณีวิทยา ปัญหาการตรวจจับภาษาเกิดขึ้นเมื่อโพสต์ภาษาฝรั่งเศสที่มีคำที่ดูเหมือนภาษาอังกฤษถูกประมวลผล แม้ว่า Bluesky จะรวมเมทาดาทาภาษาที่สามารถช่วยกรองผลลัพธ์ได้

การทดลองนี้เผยให้เห็นว่าการสนทนาดิจิทัล แม้จะมีขนาดใหญ่มหาศาล แต่แสดงเพียงส่วนเศษเสี้ยวของภาษามนุษย์ แม้จะมีโพสต์หลายล้านโพสต์ คำศัพท์ออนไลน์ของเรายังคงจำกัดอย่างน่าประหลาดใจเมื่อเปรียบเทียบกับความร่ำรวยเต็มรูปแบบของภาษาอังกฤษ

อ้างอิง: The Bluesky Dictionary