หัวข้อข่าวการรั่วไหลรหัสผ่าน 16 พันล้านรายการทำให้สาธารณชนเข้าใจผิด เมื่อการวิเคราะห์เผยข้อมูลลดลง 96%

ทีมชุมชน BigGo

หัวข้อข่าวการรั่วไหลรหัสผ่าน 16 พันล้านรายการทำให้สาธารณชนเข้าใจผิด เมื่อการวิเคราะห์เผยข้อมูลลดลง 96%

โลกไซเบอร์ซีคิวริตี้เกิดความโกลาหลในเดือนมิถุนายน 2024 เมื่อหัวข้อข่าวต่างๆ ตะโกนเรื่องการรั่วไหลรหัสผ่านที่ทำลายสถิติถึง 16 พันล้านรายการ เรื่องนี้ได้รับความสนใจมากจนเข้าสู่สื่อกระแสหลัก โดยสิ่งพิมพ์ต่างๆ ชี้นำผู้ใช้ที่กังวลให้ไปตรวจสอบฐานข้อมูลการรั่วไหล อย่างไรก็ตาม การวิเคราะห์ข้อมูลจริงอย่างละเอียดเผยให้เห็นความแตกต่างอย่างชัดเจนระหว่างหัวข้อข่าวที่ดึงดูดความสนใจกับความเป็นจริง

เรื่องราวเดิมไม่ได้เป็นเรื่องการรั่วไหลครั้งใหญ่เพียงครั้งเดียวเลย แต่เป็นเรื่องของการรวบรวมข้อมูล infostealer ที่แตกต่างกันซึ่งถูกเปิดเผยต่อสาธารณะตลอดทั้งปี ข้อมูล stealer logs เหล่านี้มาจากคอมพิวเตอร์ที่ถูกบุกรุกเป็นรายตัว และบางครั้งถูกรวมกันและแจกจ่ายใหม่โดยอาชญากรไซเบอร์


ภาพประกอบของ troll นี้แสดงถึงลักษณะที่เกินจริงของพาดหัวข่าวการรั่วไหลรหัสผ่าน 16 พันล้านรายการอย่างตลกขบขัน

ตัวเลขไม่ตรงกัน

เมื่อนักวิจัยด้านความปลอดภัยตรวจสอบข้อมูลส่วนหนึ่งของข้อมูลนี้ ซึ่งแทนประมาณ 17% ของ 16 พันล้านรายการที่รายงาน พวกเขาพบการพองตัวอย่างมากในหัวข้อข่าว ข้อมูล 2.7 พันล้านแถวที่พวกเขาวิเคราะห์มีการซ้ำซ้อนมหาศาลทั้งในไฟล์ต่างๆ และภายในไฟล์เดียวกัน หลังจากลบข้อมูลที่ซ้ำและแยกรายการที่ถูกต้อง ตัวเลขก็ลดลงอย่างมาก

การวิเคราะห์เผยให้เห็นว่าข้อมูล 2.7 พันล้านแถวในที่สุดแทนเพียง 109 ล้านที่อยู่อีเมลที่ไม่ซ้ำกัน ซึ่งเป็นการลดลงถึง 96% จากข้อมูลดิบไปสู่จำนวนคนที่ได้รับผลกระทบจริง รูปแบบนี้บ่งชี้ว่าตัวเลข 16 พันล้านทั้งหมดน่าจะเห็นการลดลงที่มากกว่านี้เมื่อนำมาวิเคราะห์อย่างเหมาะสม

มีชาวอเมริกันประมาณ 335 ล้านคน การรั่วไหลข้อมูล SIM keys ของผู้บริโภคอเมริกันทั้งหมดจะเป็นหายนะมากกว่าสิ่งที่เราเคยเห็นในความปลอดภัยคอมพิวเตอร์ แม้จะมีขนาดเพียงครึ่งหนึ่งของเหตุการณ์นี้

การวิเคราะห์การลดข้อมูล:

ชุดข้อมูลต้นฉบับ: 2.7 พันล้านแถว
รายการ stealer log ที่ไม่ซ้ำกัน: 325 ล้านรายการ (หลังจากการแยกวิเคราะห์)
ที่อยู่อีเมลที่ไม่ซ้ำกัน: 109 ล้านที่อยู่
การลดลงโดยรวม: 96% จากข้อมูลดิบเป็นบุคคลจริง
ที่อยู่อีเมลใหม่ที่เพิ่มเข้ามา: 4.4 ล้านที่อยู่
รหัสผ่านที่ไม่ซ้ำกันที่พบ: 55 ล้านรหัส (96% เป็นรหัสที่ทราบมาก่อนแล้ว)


กราฟแสดงให้เห็นความสนใจของสาธารณชนที่ผันผวนเกี่ยวกับหัวข้อข่าวการละเมิดข้อมูลที่มีการเสริมแต่งเมื่อเวลาผ่านไป

เหตุใดหัวข้อข่าวจึงพองตัวเลขการรั่วไหล

การอภิปรายในชุมชนเน้นเหตุผลหลายประการว่าทำไมตัวเลขการรั่วไหลข้อมูลจึงพองตัวมาก แต่ละแถวในชุดข้อมูลเหล่านี้โดยทั่วไปแทนหนึ่งกรณีของข้อมูลประจำตัวของใครบางคนที่ถูกดักจับในเว็บไซต์เฉพาะ ดังนั้นหากรายละเอียดการเข้าสู่ระบบของคนหนึ่งถูกขโมยจากทั้ง Netflix และ Spotify นั่นจะนับเป็นสองแถวแยกกันในชุดข้อมูล

นอกจากนี้ คนเดียวกันอาจปรากฏหลายสิบครั้งในการรั่วไหลที่แตกต่างกันตลอดหลายปี ด้วยการรั่วไหลข้อมูลครั้งใหญ่หลายร้อยครั้งที่เกิดขึ้นในช่วงสองทศวรรษที่ผ่านมา และผู้คนมีบัญชีในหลายแพลตฟอร์ม จึงเห็นได้ง่ายว่าตัวเลขดิบสามารถพองตัวเป็นพันล้านในขณะที่แทนบุคคลจริงที่น้อยกว่ามาก

ปัจจัยหลักที่ทำให้ตัวเลขพองตัว:

การซ้ำซ้อนข้ามไฟล์หลายไฟล์
การซ้ำซ้อนภายในไฟล์เดียวกัน
หลายรายการต่อบุคคลหนึ่งคน (หนึ่งรายการต่อหนึ่งเว็บไซต์/บริการ)
ข้อมูลที่ถูกบรรจุใหม่จากการรั่วไหลครั้งก่อนหน้า
ข้อมูลในอดีตที่ครอบคลุมหลายปี

ผลกระทบที่แท้จริง

แม้จะมีหัวข้อข่าวที่พองตัว การรั่วไหลนี้ยังคงมีความสำคัญอย่างแท้จริง การวิเคราะห์เพิ่มที่อยู่อีเมลที่ไม่เคยรู้จักมาก่อน 4.4 ล้านรายการเข้าสู่ฐานข้อมูลการรั่วไหล พร้อมกับรหัสผ่านที่ไม่ซ้ำกัน 55 ล้านรายการ อย่างไรก็ตาม 96% ของทั้งที่อยู่อีเมลและรหัสผ่านเคยถูกพบในการรั่วไหลก่อนหน้านี้แล้ว ซึ่งบ่งชี้ว่าส่วนใหญ่เป็นข้อมูลที่นำมาใช้ใหม่มากกว่าการเปิดเผยใหม่

ชุมชนด้านความปลอดภัยเน้นว่าแม้การรั่วไหลเหล่านี้ควรได้รับการพิจารณาอย่างจริงจัง แต่หัวข้อข่าวที่เกินจริงสร้างความตื่นตระหนกโดยไม่จำเป็น ข้อมูลส่วนใหญ่ประกอบด้วย stealer logs เก่าที่หมุนเวียนมาระยะหนึ่งแล้ว มากกว่าจะเป็นตัวแทนของภัยคุกคามใหม่ที่เกิดขึ้นทันทีต่อความปลอดภัยของผู้ใช้

กรณีนี้เป็นการเตือนให้เข้าหาหัวข้อข่าวไซเบอร์ซีคิวริตี้ที่ดึงดูดความสนใจด้วยความสงสัยที่ดี และรอการวิเคราะห์ทางเทคนิคที่เหมาะสมก่อนสรุปเกี่ยวกับขอบเขตที่แท้จริงของการรั่วไหลข้อมูลใดๆ

อ้างอิง: That 16 Billion Password Story (AKA Data Troll)

ข่าวที่เกี่ยวข้อง

‌

‌
‌

‌

‌
‌

‌