ห้องปฏิบัติการวิจัย AI ที่ตั้งอยู่ใน San Francisco ได้แสดงให้เห็นถึงการประหยัดต้นทุนอย่างมากที่เป็นไปได้ด้วยโครงสร้างพื้นฐานการจัดเก็บข้อมูลภายในองค์กร โดยสร้างระบบจัดเก็บข้อมูล 30 เพตะไบต์ด้วยต้นทุนเพียงเดือนละ 35,000 ดอลลาร์สหรัฐ เทียบกับต้นทุนโดยประมาณของ Amazon Web Services ที่ 1.2 ล้านดอลลาร์สหรัฐต่อเดือน โครงการนี้ซึ่งออกแบบมาเพื่อจัดเก็บชุดข้อมูลวิดีโอขนาดใหญ่สำหรับการฝึกโมเดล computer vision ได้จุดประกายการอภิปรายอย่างมากในชุมชนเทคโนโลยีเกี่ยวกับต้นทุนที่ซ่อนอยู่และข้อแลกเปลี่ยนของการดำเนินงานดาต้าเซ็นเตอร์แบบ DIY
การเปรียบเทียบต้นทุน (รายเดือน)
ผู้ให้บริการ | ต้นทุนพื้นที่จัดเก็บ | ต้นทุน Egress | รวมรายเดือน |
---|---|---|---|
On-Premises | $17.5K (ค่าใช้จ่ายประจำ) + $17.5K (ค่าเสื่อมราคา) | รวมอยู่แล้ว | $35K |
AWS S3 | $690K | $500K | $1.19M |
Cloudflare R2 | $450K (ราคาที่เผยแพร่) / $150K (ประมาณการส่วนตัว) | $0 | $150K-450K |
![]() |
---|
ชั้นวางเซิร์ฟเวอร์ไฮเทคที่แสดงฮาร์ดไดรฟ์เอนเทอร์ไพรส์มือสองสำหรับคลัสเตอร์จัดเก็บข้อมูลขนาดใหญ่ |
ปัจจัยต้นทุนแรงงานที่หายไป
ข้อกังวลที่โดดเด่นที่สุดที่ชุมชนหยิบยกขึ้นมาคือค่าใช้จ่ายในการดำเนินงานที่ไม่ได้รวมอยู่ในการเปรียบเทียบต้นทุน แม้ว่าสตาร์ทอัพจะคำนวณต้นทุนรวมต่อปีของพวกเขาที่ 354,000 ดอลลาร์สหรัฐรวมค่าเสื่อมราคา แต่นักวิจารณ์ชี้ให้เห็นว่าเงินเดือนพนักงานที่ตั้งอยู่ใน San Francisco สำหรับการบำรุงรักษาโครงสร้างพื้นฐานสามารถเพิ่มต้นทุนการดำเนินงานจริงได้อย่างง่ายดายเป็นสองหรือสามเท่า การมองข้ามนี้เน้นย้ำถึงข้อผิดพลาดทั่วไปในการเปรียบเทียบระหว่างคลาวด์กับภายในองค์กรที่ต้นทุนแรงงานถูกประเมินต่ำหรือถูกละเลยทั้งหมด
กลยุทธ์ไม่มีการสำรองข้อมูลทำให้หลายคนเป็นห่วง
การตั้งค่าการจัดเก็บข้อมูลได้กำจัดการสำรองข้อมูลโดยเจตนาเพื่อลดต้นทุนให้น้อยที่สุด ซึ่งเป็นการตัดสินใจที่ทำให้ความเห็นของชุมชนแตกแยก แนวทางนี้ใช้ได้ผลสำหรับกรณีการใช้งานเฉพาะของพวกเขาในการจัดเก็บข้อมูลการฝึกที่สามารถเปลี่ยนแทนได้ง่าย แต่หลายคนตั้งคำถามเกี่ยวกับความสามารถในการนำไปใช้สำหรับธุรกิจที่ต้องการการรับประกันความสมบูรณ์ของข้อมูล ชุมชนสังเกตว่าแม้กลยุทธ์นี้จะสมเหตุสมผลสำหรับการสะสมวิดีโอจาก YouTube แต่ก็ไม่เหมาะสำหรับองค์กรส่วนใหญ่ที่ต้องการความมั่นใจว่าข้อมูลของพวกเขาปลอดภัยจากความเสียหายของฮาร์ดแวร์หรือภัยพิบัติ
การเสี่ยงกับฮาร์ดแวร์มือสองได้ผล
การตัดสินใจของทีมที่จะใช้ฮาร์ดไดรฟ์เอนเตอร์ไพรส์มือสอง 2,400 ตัวมูลค่า 500,000 ดอลลาร์สหรัฐได้สร้างการอภิปรายอย่างมากเกี่ยวกับความน่าเชื่อถือเทียบกับการประหยัดต้นทุน สมาชิกชุมชนแบ่งปันประสบการณ์ที่หลากหลายกับไดรฟ์มือสอง โดยสังเกตความแปรปรวนของประสิทธิภาพที่สูงและตั้งคำถามเกี่ยวกับต้นทุนการบำรุงรักษาในระยะยาว อย่างไรก็ตาม คนอื่นๆ โต้แย้งว่าไดรฟ์มือสองสามารถคุ้มค่าได้เนื่องจากพวกมันได้รอดพ้นจากช่วงความล้มเหลวในระยะแรกที่มักส่งผลกระทบต่อฮาร์ดแวร์ใหม่แล้ว
ไดรฟ์มือสองสมเหตุสมผลหากการบำรุงรักษาเซิร์ฟเวอร์ที่บ้านเป็นงานอดิเรก การวินิจฉัยและแก้ไขปัญหาในเซิร์ฟเวอร์ที่บ้านเป็นเรื่องสนุก และไดรฟ์ที่เสียทำให้ฉันมีเหตุผลที่จะทำงานกับเซิร์ฟเวอร์
สตาร์ทอัพรายงานอัตราความล้มเหลวของดิสก์ต่อปีแบบอนุรักษ์นิยมที่ 5% ซึ่งแปลว่าต้องเปลี่ยนไดรฟ์ประมาณ 120 ตัวต่อปี ซึ่งเป็นจำนวนที่จัดการได้สำหรับสถาปัตยกรรมการจัดเก็บข้อมูลแบบง่ายของพวกเขาที่สร้างด้วยโค้ด Rust เพียง 200 บรรทัดและเว็บเซิร์ฟเวอร์ nginx
ข้อมูลจำเพาะฮาร์ดแวร์
โครงสร้างพื้นฐานการจัดเก็บข้อมูล:
- ฮาร์ดดิสก์ 2,400 ตัว (ส่วนใหญ่เป็น SATA/SAS ขนาด 12TB ที่ใช้งานในองค์กรมาแล้ว)
- แชสซี SATA/SAS คู่ 120 ตัว (แชสซีละ 24 ไดรฟ์)
- โหนดหลัก CPU 10 ตัว ( Intel R2200 series )
- การเชื่อมต่ออินเทอร์เน็ตเฉพาะ 100 Gbps
ต้นทุนครั้งเดียว:
- ฮาร์ดดิสก์: $500K
- โครงสร้างพื้นฐาน: $35K
- เครือข่ายและการติดตั้ง: $91.5K
- การลงทุนเริ่มต้นรวม: $626.5K
การตรวจสอบความเป็นจริงของการบำรุงรักษา
การอภิปรายของชุมชนเผยให้เห็นว่าการทดสอบที่แท้จริงของแนวทางนี้อยู่ที่ค่าใช้จ่ายในการดำเนินงานอย่างต่อเนื่อง แม้ว่าสตาร์ทอัพจะได้ประโยชน์จากการมีดาต้าเซ็นเตอร์ของพวกเขาอยู่ห่างจากสำนักงานเพียงไม่กี่บล็อก ทำให้สามารถไปแก้ไขปัญหาและบำรุงรักษาได้อย่างรวดเร็ว แต่องค์กรส่วนใหญ่จะต้องมีพนักงานดำเนินงานเฉพาะ การประมาณการแสดงให้เห็นว่าต้องใช้เวลาอย่างน้อย 5 ชั่วโมงต่อสัปดาห์สำหรับงานบำรุงรักษา ซึ่งอาจส่งผลกระทบอย่างมากต่อการคำนวณต้นทุนรวมของความเป็นเจ้าของ
โครงการได้เข้าสู่ความจุเต็มแล้วและทีมกำลังพิจารณาทำซ้ำการตั้งค่านี้ ซึ่งแสดงให้เห็นว่าการวิเคราะห์ต้นทุน-ผลประโยชน์ของพวกเขาได้พิสูจน์แล้วว่าประสบความสำเร็จสำหรับความต้องการเฉพาะของพวกเขา อย่างไรก็ตาม ฉันทามติของชุมชนระบุว่าแม้การประหยัดต้นทุนที่น่าประทับใจจะเป็นไปได้ด้วยการจัดเก็บข้อมูลภายในองค์กร แต่ความซับซ้อนในการดำเนินงานที่ซ่อนอยู่และต้นทุนแรงงานทำให้โซลูชันคลาวด์เป็นทางเลือกที่ปฏิบัติได้มากกว่าสำหรับองค์กรส่วนใหญ่
อ้างอิง: Building the heap: racking 30 petabytes of hard drives for pretraining