SimpleFold ของ Apple ท้าทายความซับซ้อนของการพับโปรตีนด้วยโมเดล Transformer ขนาด 3 พันล้านพารามิเตอร์

ทีมชุมชน BigGo
SimpleFold ของ Apple ท้าทายความซับซ้อนของการพับโปรตีนด้วยโมเดล Transformer ขนาด 3 พันล้านพารามิเตอร์

Apple ได้เปิดตัว SimpleFold โมเดลการพับโปรตีนที่ใช้สถาปัตยกรรม transformer มาตรฐานแทนการออกแบบเฉพาะทางที่ซับซ้อนซึ่งมักจำเป็นสำหรับปัญหาทางวิทยาศาสตร์ที่ท้าทายนี้ โมเดลดังกล่าวแสดงให้เห็นถึงการเปลี่ยนแปลงแนวทางอย่างสำคัญ โดยแสดงให้เห็นว่าวิธีการที่เรียบง่ายกว่าสามารถให้ผลลัพธ์ที่แข่งขันได้ในการทำนายว่าโปรตีนจะพับตัวเป็นโครงสร้างสามมิติอย่างไร

ข้อมูลจำเพาะของโมเดล SimpleFold

  • ขนาดพารามิเตอร์: 100M, 360M, 700M, 1.1B, 1.6B, 3B
  • ข้อมูลการฝึก: โครงสร้างโปรตีนมากกว่า 8.6 ล้านโครงสร้าง (92% มาจากการทำนายที่สร้างโดย AI)
  • สถาปัตยกรรม: ชั้น transformer มาตรฐานโดยไม่มีโมดูลเฉพาะทาง
  • Backend: รองรับ PyTorch และ MLX
  • ความเข้ากันได้ของฮาร์ดแวร์: สามารถทำงานในเครื่องบน Apple M2 Max 64GB
ภาพหน้าจอของ GitHub repository ของ SimpleFold ที่แสดงโมเดลการพับโปรตีนใหม่ของ Apple
ภาพหน้าจอของ GitHub repository ของ SimpleFold ที่แสดงโมเดลการพับโปรตีนใหม่ของ Apple

การฝึกฝนด้วยข้อมูลสังเคราะห์ทำให้เกิดคำถามเกี่ยวกับความเรียบง่ายที่แท้จริง

ชุมชนได้ตั้งข้อกังวลที่สำคัญเกี่ยวกับวิธีการฝึกฝนของ SimpleFold แม้ว่าสถาปัตยกรรมของโมเดลจะเรียบง่ายกว่า แต่มันพึ่พาข้อมูลสังเคราะห์ที่สร้างขึ้นโดยโมเดลที่ซับซ้อนกว่าเช่น AlphaFold เป็นอย่างมาก กว่า 90% ของข้อมูลฝึกฝนของ SimpleFold มาจากการทำนายที่สร้างโดยระบบ AI ที่ซับซ้อนซึ่งใช้การจัดเรียงลำดับหลายตัว (MSAs) และสถาปัตยกรรมเฉพาะทาง

มันไม่ใช่ว่าเราสามารถทิ้งอคติเหนี่ยวนำและเครื่องจักร MSA ทั้งหมดได้ คนในส่วนต้นน้ำยังคงต้องสร้างและรันโมเดลเหล่านั้นเพื่อสร้างคลังข้อมูลฝึกฝน

การพึ่พาอาศัยนี้หมายความว่าแม้ว่าสถาปัตยกรรมของ SimpleFold จะเป็นแบบเรียบง่าย แต่ความซับซ้อนได้ถูกย้ายจากการออกแบบโมเดลไปยังขั้นตอนการเตรียมข้อมูลโดยพื้นฐาน แนวทางนี้คล้ายกับวิธีที่โมเดลภาษาขนาดเล็กถูกกลั่นมาจากโมเดลขนาดใหญ่ โดยสืบทอดความรู้โดยไม่ต้องใช้ทรัพยากรการคำนวณเดียวกันในระหว่างการอนุมาน

แหล่งข้อมูลการฝึกอบรม

  • โครงสร้างทดลอง PDB : ~8% ของข้อมูลการฝึกอบรม
  • การทำนาย AlphaFold SwissProt : ~270K เป้าหมาย
  • การทำนาย AFESM : ~1.9M เป้าหมาย
  • AFESM แบบขยาย (AFESM-E): ~8.6M เป้าหมายทั้งหมด
  • การประมวลผลข้อมูล: ใช้วัตถุประสงค์ flow-matching สำหรับการฝึกอบรมแบบ generative

ศักยภาพในการขยายขนาดและผลกระทบในอนาคต

แม้จะมีคำถามเกี่ยวกับการพึ่พาอาศัยข้อมูล แต่สถาปัตยกรรมของ SimpleFold ให้ข้อได้เปรียบอย่างมากสำหรับการขยายขนาดและการใช้งาน โมเดลมีขนาดตั้งแต่ 100 ล้านถึง 3 พันล้านพารามิเตอร์และสามารถทำงานในเครื่องบนฮาร์ดแวร์ผู้บริโภค รวมถึงระบบ M2 Max ของ Apple การเข้าถึงได้นี้อาจทำให้การทำนายการพับโปรตีนเป็นประชาธิปไตยสำหรับห้องปฏิบัติการวิจัยขนาดเล็กและบริษัทไบโอเทคที่ก่อนหน้านี้ไม่สามารถจ่ายทรัพยากรการคำนวณที่จำเป็นสำหรับโมเดลที่ซับซ้อนกว่าได้

ชุมชนวิจัยมองว่านี่เป็นส่วนหนึ่งของรูปแบบที่กว้างขึ้นในการเรียนรู้ของเครื่องที่สถาปัตยกรรมที่เรียบง่ายกว่าในที่สุดจะเทียบเท่าหรือเกินประสิทธิภาพของระบบที่ซับซ้อนกว่า แนวโน้มนี้ได้รับการสังเกตในหลากหลายโดเมน ตั้งแต่การมองเห็นคอมพิวเตอร์ไปจนถึงการประมวลผลภาษาธรรมชาติ ซึ่งบ่งบอกว่า SimpleFold อาจเป็นตัวแทนของก้าวสำคัญมากกว่าจุดหมายปลายทาง

เกณฑ์มาตรฐานประสิทธิภาพ

  • CASP14 : สามารถแข่งขันได้กับเกณฑ์มาตรฐานที่ทันสมัยที่สุด
  • CAMEO22 : รักษาประสิทธิภาพได้ตลอดทุกขนาดของโมเดล
  • Apo/CoDNaS : แสดงให้เห็นความสามารถในการทำนายแบบ ensemble
  • ความเร็วในการประมวลผล: ปรับให้เหมาะสมสำหรับการติดตั้งบนฮาร์ดแวร์ในพื้นที่
  • การประเมิน: ใช้เมตริก OpenStructure 2.9.1 และ TMscore

การประยุกต์ใช้งานจริงและประโยชน์ของการอนุมานในเครื่อง

ความสามารถของ SimpleFold ในการทำงานบนฮาร์ดแวร์ในเครื่องแก้ไขอุปสรรคในโลกแห่งความเป็นจริงในการวิจัยเภสัชกรรม บริษัทไบโอเทคขนาดเล็กสามารถทำการทำนายโครงสร้างโปรตีนได้โดยไม่ต้องพึ่งพาบริการคลาวด์หรือคลัสเตอร์คอมพิวเตอร์ที่แพง โมเดลรองรับทั้ง backend PyTorch และ MLX โดยมีการปรับให้เหมาะสมเป็นพิเศษสำหรับฮาร์ดแวร์ Apple

การเปลี่ยนไปสู่การอนุมานในเครื่องขจัดการพึ่พาอาศัยบริการภายนอกและลดต้นทุนที่เกี่ยวข้องกับการทำนายการพับโปรตีน การเข้าถึงได้นี้อาจเร่งการวิจัยในการค้นพบยาและวิศวกรรมโปรตีน ซึ่งการทำซ้ำอย่างรวดเร็วและการทดสอบสมมติฐานมีความสำคัญต่อความก้าวหน้า

ข้อจำกัดและการอภิปรายที่ดำเนินอยู่

แม้ว่า SimpleFold จะให้ประสิทธิภาพที่แข่งขันได้ในมาตรฐานการวัดผลทั่วไป แต่ยังคงเผชิญกับข้อจำกัดพื้นฐานของวิธีการพับโปรตีนที่ใช้ AI ทั้งหมดในปัจจุบัน แนวทางทางสถิติเหล่านี้ทำงานได้ดีสำหรับโปรตีนที่คล้ายกับที่อยู่ในข้อมูลฝึกฝน แต่ประสบปัญหากับตระกูลโปรตีนใหม่หรือที่ขาดญาติใกล้ชิดทางวิวัฒนาการ

สาขาการพับโปรตีนยังคงอภิปรายว่า MSAs และสถาปัตยกรรมที่ซับซ้อนเป็นตัวแทนของอคติเหนี่ยวนำที่จำเป็นหรือเป็นเพียงจุดปรับให้เหมาะสมในท้องถิ่นที่สามารถเอาชนะได้ด้วยข้อมูลที่ดีกว่าและโมเดลที่เรียบง่ายกว่า SimpleFold มีส่วนร่วมในการอภิปรายนี้โดยแสดงให้เห็นว่าความซับซ้อนทางสถาปัตยกรรมไม่จำเป็นต้องมีเสมอไปสำหรับประสิทธิภาพที่ดี

อ้างอิง: SimpleFold: Folding Proteins is Simpler than You Think