การทดลองที่น่าสนใจกำลังติดตามว่าผู้ใช้ Bluesky สามารถพูดคำทุกคำในภาษาอังกฤษได้หรือไม่ โครงการ Bluesky Dictionary ที่สร้างโดยนักพัฒนา Avi Bagla ติดตามโพสต์แบบเรียลไทม์ของแพลตฟอร์มเพื่อดูว่าพจนานุกรมภาษาอังกฤษปรากฏในการสนทนาประจำวันมากน้อยแค่ไหน หลังจากประมวลผลโพสต์มากกว่า 4 ล้านโพสต์แล้ว ผลลัพธ์แสดงให้เห็นช่องว่างที่น่าประหลาดใจในคำศัพท์ดิจิทัลของเรา
ความครอบคลุมจำกัดแม้จะประมวลผลข้อมูลจำนวนมหาศาล
โครงการนี้วิเคราะห์คำศัพท์ 51.7 ล้านคำจากโพสต์ Bluesky 4.2 ล้านโพสต์ แต่ครอบคลุมเพียง 35.57% ของพจนานุกรมภาษาอังกฤษมาตรฐานที่มี 274,937 คำ ซึ่งหมายความว่าเกือบสองในสามของคำภาษาอังกฤษไม่เคยปรากฏในโพสต์ที่วิเคราะห์ สมาชิกชุมชนแสดงความประหลาดใจที่คำที่ขาดหายไปบางคำเป็นคำทั่วไป โดยสังเกตว่าคำที่สมเหตุสมผลเช่น congregant, definer และ stereoscope ยังไม่ถูกพบเลย
อย่างไรก็ตาม ข้อจำกัดของขอบเขตมีความสำคัญ เมื่อ Bluesky มีโพสต์ทั้งหมดประมาณ 1.7 พันล้านโพสต์ตามข้อมูลชุมชน โครงการนี้ตรวจสอบเพียง 0.28% ของข้อความทั้งหมดบนแพลตฟอร์ม ขนาดตัวอย่างเล็กนี้อาจอธิบายได้ว่าทำไมคำธรรมดาหลายคำยังไม่ถูกจับได้
สстатิสติกปัจจุบัน:
- ความครอบคลุมของพจนานุกรม: 35.57% (97,796 จากทั้งหมด 274,937 คำ)
- จำนวนคำที่ประมวลผลทั้งหมด: 51.7 ล้านคำ
- โพสต์ที่วิเคราะห์: 4.2 ล้านโพสต์
- ขนาดฐานข้อมูล: 58 MB
- อัตราการประมวลผลข้อมูล: ~900 kbps
การใช้งานเทคนิคและความท้าทายในโลกจริง
ระบบแบ็กเอนด์ใช้วิธีการตรงไปตรงมาด้วยตาราง SQLite database ที่ติดตามสถิติคำศัพท์และรูปแบบการใช้งาน ผู้สร้างประมวลผลสตรีมข้อมูลของ Bluesky ด้วยความเร็วประมาณ 900 กิโลบิตต่อวินาที เก็บคำที่ไม่ซ้ำแต่ละคำพร้อมจำนวนการนับและเวลาที่ใช้ ขนาดฐานข้อมูล 58 เมกะไบต์แสดงให้เห็นว่าข้อมูลข้อความสามารถเก็บและวิเคราะห์ได้อย่างมีประสิทธิภาพ
ผู้ใช้หลายคนรายงานปัญหาทางเทคนิคในการเข้าถึงเว็บไซต์ พบข้อผิดพลาด SSL และปัญหา CORS การพึ่งพา JavaScript ฝั่งไคลเอนต์สำหรับแสดงผลลัพธ์สร้างอุปสรรคสำหรับผู้ใช้ที่มีการตั้งค่าความปลอดภัยเบราว์เซอร์ที่เข้มงวดหรือไฟร์วอลล์ขององค์กร
สถาปัตยกรรมทางเทคนิค:
- Backend: ฐานข้อมูล SQLite ที่มีตารางหลัก 2 ตาราง
- แหล่งข้อมูล: Bluesky Jetstream API (compressed firehose)
- พจนานุกรมคำศัพท์: "an-array-of-english-words" ของ GitHub (274,937 คำ)
- การประมวลผล: การแยกคำและค้นหาแบบเรียลไทม์
- การจัดเก็บ: จำนวนคำ การใช้งานครั้งแรก การใช้งานครั้งสุดท้าย และการอ้างอิงโพสต์
การค้นพบที่ไม่คาดคิดและการเล่นระบบ
โครงการนี้จับคำที่หายากจริงๆ เช่น stigmatophilia, algolagnia และ pyrosomes ได้ในขณะที่พลาดคำทั่วไป ผู้ใช้บางคนเริ่มโพสต์คำในพจนานุกรมที่หายากโดยเจตนาเพื่อเพิ่มเปอร์เซ็นต์ความครอบคลุม ผู้ใช้คนหนึ่งทำ double-combo ได้โดยใช้ทั้ง wheal และ sluices ในโพสต์เดียวเกี่ยวกับการเยี่ยมชมพิพิธภัณฑ์ Cornwall
ระบบยังเผชิญกับความท้าทายด้านความแม่นยำ เช่น การจัดทำดัชนี eluvium เมื่อผู้ใช้กำลังพูดถึงชื่อวงดนตรีแทนที่จะเป็นคำศัพท์ทางธรณีวิทยา ปัญหาการตรวจจับภาษาเกิดขึ้นเมื่อโพสต์ภาษาฝรั่งเศสที่มีคำที่ดูเหมือนภาษาอังกฤษถูกประมวลผล แม้ว่า Bluesky จะรวมเมทาดาทาภาษาที่สามารถช่วยกรองผลลัพธ์ได้
การทดลองนี้เผยให้เห็นว่าการสนทนาดิจิทัล แม้จะมีขนาดใหญ่มหาศาล แต่แสดงเพียงส่วนเศษเสี้ยวของภาษามนุษย์ แม้จะมีโพสต์หลายล้านโพสต์ คำศัพท์ออนไลน์ของเรายังคงจำกัดอย่างน่าประหลาดใจเมื่อเปรียบเทียบกับความร่ำรวยเต็มรูปแบบของภาษาอังกฤษ
อ้างอิง: The Bluesky Dictionary