โค้ด Claude แสดงศักยภาพในการพิสูจน์ทฤษฎีบทเชิงรูปแบบ แต่ชุมชนเตือนถึง "ปัญหา 90%"

ทีมชุมชน BigGo

โค้ด Claude แสดงศักยภาพในการพิสูจน์ทฤษฎีบทเชิงรูปแบบ แต่ชุมชนเตือนถึง "ปัญหา 90%"

การพิสูจน์ทฤษฎีบทแบบโต้ตอบถือเป็นหนึ่งในสาขาที่ท้าทายที่สุดในวิทยาการคอมพิวเตอร์มาอย่างยาวนาน เครื่องมืออย่าง Lean ต้องการให้ผู้ใช้เขียนการพิสูจน์ทางคณิตศาสตร์ในภาษาเชิงรูปแบบที่คอมพิวเตอร์สามารถตรวจสอบได้อย่างแน่นอน ไม่เหมือนกับการเขียนโปรแกรมทั่วไปที่อาจมีข้อผิดพลาดแอบแฝงอยู่ เครื่องมือพิสูจน์ทฤษฎีบทจะยอมรับการพิสูจน์ของคุณว่าถูกต้องทางคณิตศาสตร์หรือปฏิเสธไปเลย ลักษณะแบบทั้งหมดหรือไม่มีเลยนี้ทำให้สาขานี้เข้าถึงได้เฉพาะผู้เชี่ยวชาญที่มีการฝึกฝนทางคณิตศาสตร์อย่างลึกซึ้งเท่านั้น

การทดลองล่าสุดกับ Claude Code ซึ่งเป็นตัวแทน AI สำหรับเขียนโค้ดของ Anthropic ชี้ให้เห็นว่าอุปสรรคนี้อาจจะลดลง AI ได้แสดงความสามารถที่น่าประหลาดใจในการเขียนการพิสูจน์ Lean โดยสามารถทำงานการทำให้เป็นรูปแบบทางคณิตศาสตร์ที่ซับซ้อนซึ่งโดยปกติจะต้องใช้ความรู้เฉพาะทางได้สำเร็จ ข้อได้เปรียบหลักดูเหมือนจะเป็นระบบป้อนกลับที่เข้มงวดของ Lean - เมื่อ AI ทำผิดพลาด มันจะได้รับข้อมูลที่ละเอียดและสามารถนำไปปฏิบัติได้เกี่ยวกับสิ่งที่ผิดพลาด ทำให้สามารถปรับปรุงและพัฒนาแนวทางของมันได้

เครื่องมือการพิสูจน์ทฤษฎีบทแบบโต้ตอบ: Lean ถูกเน้นย้ำในฐานะเครื่องมือหลัก โดยมีโค้ดทางคณิตศาสตร์ที่ถูกจัดรูปแบบอย่างเป็นทางการเกือบครึ่งล้านบรรทัด

รูปแบบที่คุ้นเคยของข้อจำกัดความก้าวหน้าของ AI

อย่างไรก็ตาม ชุมชนได้หยิบยกความกังวลที่สำคัญเกี่ยวกับรูปแบบที่พวกเขาเห็นซ้ำแล้วซ้ำเล่ากับเครื่องมือ AI นักพัฒนาหลายคนรายงานว่า AI สามารถจัดการกับ 80% แรกของโครงการได้อย่างยอดเยี่ยม แต่ดิ้นรนอย่างมากกับ 20% สุดท้าย ปรากฏการณ์นี้ซึ่งบางครั้งเรียกว่าปัญหา 90% จะยิ่งชัดเจนมากขึ้นเมื่อโครงการเติบโตในความซับซ้อนและต้องการแนวทางแก้ไขที่เฉพาะเจาะจงมากขึ้น

ใครก็ตามที่เคยใช้เครื่องมือ AI จะเห็นกรณีที่ 80% แรกของโครงการมาประกอบกันเหมือนสายฟ้าแลบ แต่ 20% สุดท้ายเป็นไปไม่ได้เกือบจะสำหรับ AI ที่จะทำสำเร็จ แม้ว่ามันจะดูไม่ซับซ้อนกว่าส่วนที่เหลือของโค้ดก็ตาม

ความกังวลนี้เกี่ยวข้องโดยเฉพาะกับการพิสูจน์ทฤษฎีบท ซึ่งงานที่ไม่สมบูรณ์ไม่มีค่าใดๆ ไม่เหมือนกับการพัฒนาซอฟต์แวร์ที่แนวทางแก้ไขบางส่วนยังคงมีประโยชน์ได้ การพิสูจน์ทางคณิตศาสตร์จะต้องสมบูรณ์เพื่อให้มีความหมาย สิ่งนี้สร้างสภาพแวดล้อมที่มีความเสี่ยงสูงซึ่งแนวโน้มของ AI ที่จะดิ้นรนกับรายละเอียดสุดท้ายอาจพิสูจน์ว่าเป็นปัญหาโดยเฉพาะ

รูปแบบการพัฒนา AI: ชุมชนรายงานอย่างสม่ำเสมอเกี่ยวกับ "กฎ 80/20" ที่ AI สามารถทำโครงการได้ 80% อย่างง่ายดาย แต่ประสบปัญหากับ 20% สุดท้าย

ความท้าทายด้านข้อกำหนดยังคงอยู่

นอกเหนือจากปัญหาการทำให้สมบูรณ์แล้ว ยังมีประเด็นที่ลึกกว่าที่ AI ยังไม่ได้แก้ไข: ความท้าทายในการสร้างข้อกำหนดที่เหมาะสม ดังที่สมาชิกชุมชนคนหนึ่งกล่าวไว้ การเขียนโปรแกรมไม่ใช่ส่วนที่ยาก การคิดให้ออกว่าโปรแกรมควรทำอะไรเป็นจุดที่ความยากลำบากที่แท้จริงอยู่ ปัญหานี้ยิ่งสำคัญมากขึ้นในการตรวจสอบเชิงรูปแบบ ซึ่งคุณต้องจับภาพอย่างแม่นยำไม่เพียงแต่สิ่งที่โค้ดของคุณทำ แต่สิ่งที่มันควรทำทางคณิตศาสตร์

ความเสี่ยงคือผู้ใช้อาจจบลงด้วยการพิสูจน์ที่ตรวจสอบเชิงรูปแบบแล้วแต่ไม่ได้แสดงถึงปัญหาที่พวกเขาตั้งใจจะแก้ไขจริงๆ แม้ว่า Claude Code จะสามารถเขียนไวยากรณ์ Lean ที่สมบูรณ์แบบได้ ก็ยังคงต้องมีใครสักคนที่มีความเชี่ยวชาญเพื่อให้แน่ใจว่าข้อความทางคณิตศาสตร์ที่กำลังถูกพิสูจน์นั้นเป็นข้อความที่ถูกต้อง สิ่งนี้ชี้ให้เห็นว่าแม้ว่า AI อาจลดอุปสรรคในการเข้าถึงบางอย่าง แต่ความรู้เฉพาะด้านที่ลึกซึ้งยังคงจำเป็น

ทิศทางที่มีแนวโน้มดีแม้จะมีข้อจำกัด

แม้จะมีความกังวลเหล่านี้ การผสมผสานระหว่าง AI และการตรวจสอบเชิงรูปแบบแสดงถึงการพัฒนาที่น่าสนใจ การพิสูจน์ทฤษฎีบทให้สิ่งที่ AI ต้องการเพื่อปรับปรุง: ข้อเสนอแนะที่ทันทีและละเอียดเกี่ยวกับข้อผิดพลาด เมื่อ Claude Code ทำผิดพลาดใน Lean มันจะได้รับข้อมูลที่แม่นยำเกี่ยวกับสิ่งที่ผิดพลาดและสามารถปรับปรุงไปสู่แนวทางแก้ไข สิ่งนี้สร้างวงจรการเรียนรู้ตามธรรมชาติที่ไม่มีอยู่ในหลายสาขาอื่น

ชุมชนดูเหมือนจะมองในแง่ดีอย่างระมัดระวังเกี่ยวกับทิศทางนี้ โดยเฉพาะสำหรับผู้ใช้ที่เข้าใจแนวคิดทางคณิตศาสตร์ที่พวกเขาต้องการทำให้เป็นรูปแบบอยู่แล้ว สำหรับผู้เชี่ยวชาญเหล่านี้ ความช่วยเหลือจาก AI อาจลดด้านที่น่าเบื่อของการเขียนการพิสูจน์ได้อย่างมีนัยสำคัญในขณะที่ยังคงต้องการการดูแลจากมนุษย์สำหรับงานเชิงแนวคิด เทคโนโลยีนี้อาจไม่ได้กำจัดความจำเป็นในความเชี่ยวชาญทางคณิตศาสตร์ แต่อาจทำให้ความเชี่ยวชาญนั้นมีประสิทธิผลมากขึ้น

กุญแจสำคัญจะเป็นการจัดการความคาดหวังและการเข้าใจข้อจำกัดของเครื่องมือ เช่นเดียวกับการประยุกต์ใช้ AI อื่นๆ ผู้ใช้ที่ประสบความสำเร็จมากที่สุดน่าจะเป็นผู้ที่ใช้มันเพื่อเสริมทักษะที่มีอยู่แล้วมากกว่าการแทนที่ความจำเป็นในการเข้าใจสาขาพื้นฐาน

อ้างอิง: Claude Can (Sometimes) Prove It

ข่าวที่เกี่ยวข้อง

‌

‌
‌

‌

‌
‌

‌