โมเดลภาษาขนาดใหญ่ไขปริศนาระดับตัวอักษรได้อย่างเงียบๆ ก่อให้เกิดการถกเถียงเกี่ยวกับความฉลาดแท้จริง

ทีมชุมชน BigGo

โมเดลภาษาขนาดใหญ่ไขปริศนาระดับตัวอักษรได้อย่างเงียบๆ ก่อให้เกิดการถกเถียงเกี่ยวกับความฉลาดแท้จริง

โมเดลภาษาขนาดใหญ่กำลังแสดงความสามารถใหม่ที่น่าประหลาดใจในด้านที่เคยถูกมองว่าอ่อนแอ - การจัดการข้อความระดับตัวอักษร การทดสอบล่าสุดจากชุมชนเปิดเผยว่าโมเดลรุ่นใหม่เช่น GPT-5 และ Claude Sonnet 4 สามารถจัดการงานอย่างเช่น การนับตัวอักษรเฉพาะในคำ ถอดรหัส Base64 และแก้ไขรหัสแทนที่ ซึ่งเป็นความสามารถที่ก่อนหน้านี้ต้องใช้เครื่องมือพิเศษหรือการแทรกแซงของมนุษย์ การพัฒนานี้ได้จุดประกายการอภิปรายอย่างเข้มข้นเกี่ยวกับว่าการปรับปรุงเหล่านี้หมายความว่าอย่างไรต่อความเข้าใจของเราเกี่ยวกับความฉลาดของ AI และว่าเรากำลังเป็นพยานต่อการเติบโตของความสามารถที่แท้จริงหรือเพียงแค่สอนให้ทำแบบทดสอบ

การทดสอบคำว่าสตรอว์เบอร์รีที่ทำให้โมเดลยุคแรกสะดุด

ชุมชนได้ตื่นเต้นกับสิ่งที่กลายเป็นที่รู้จักในชื่อการทดสอบสตรอว์เบอร์รี - ถามโมเดลภาษาว่าตัวอักษร 'r' ปรากฏกี่ครั้งในคำว่า strawberry เป็นเวลาหลายปีที่คำถามง่ายๆ นี้เปิดเผยจุดอ่อนพื้นฐานในโมเดลภาษา โมเดลยุคแรกจะล้มเหลวอย่างสม่ำเสมอ บ่อยครั้งให้คำตอบเช่น มีตัวอักษร R เจ็ดตัว หรือนับผิดอย่างสิ้นเชิง ความล้มเหลวเกิดจากวิธีที่โมเดลภาษาประมวลผลข้อความผ่านโทเคนไนเซชัน ซึ่งอักขระจะถูกจัดกลุ่มเป็นโทเคนแทนที่จะถูกประมวลผลทีละตัว สิ่งนี้ทำให้การทำงานระดับตัวอักษรยากอย่างยิ่งสำหรับโมเดลที่ในด้านอื่นๆ มีความสามารถในงานการใช้เหตุผลที่ซับซ้อน

สิ่งที่เปลี่ยนไปเมื่อไม่นานมานี้คือโมเดลรุ่นใหม่จากผู้ขายหลายรายตอนนี้ผ่านการทดสอบเหล่านี้อย่างสม่ำเสมอ สมาชิกชุมชนที่ทดสอบโมเดล GPT-5 พบว่าพวกมันสามารถระบุตัว 'r' สามตัวในคำว่า strawberry ได้อย่างถูกต้อง แม้จะไม่ได้เปิดใช้งานความสามารถในการให้เหตุผลก็ตาม ในทำนองเดียวกัน Claude Sonnet 4 กลายเป็นโมเดลแรกของ Anthropic ที่แก้ปัญหานี้ได้ จังหวะเวลาน่าสนใจเป็นพิเศษ - โมเดลทั้งจาก OpenAI และ Anthropic พัฒนาความสามารถนี้ในช่วงเวลาใกล้เคียงกัน แม้จะมีแนวทางด้านสถาปัตยกรรมที่แตกต่างกัน การปรับปรุงพร้อมกันนี้ชี้ให้เห็นถึงวิวัฒนาการที่มาบรรจบกันในการพัฒนา AI หรือบริษัททั้งสองระบุว่าการจัดการระดับตัวอักษรเป็นเกณฑ์มาตรฐานสำคัญที่ต้องแก้ไข

ผลการทดสอบการจัดการตัวอักษร

Test Prompt: แทนที่ตัวอักษร "r" ทั้งหมดด้วย "T" และแปลงตัวอักษร "I" ทั้งหมดเป็น ":" ในประโยค "I really love a ripe strawberry"
GPT-3.5-turbo: ล้มเหลว - "I lealll love a liple strallbeelly"
GPT-4-turbo: ล้มเหลว - "I rearry rove a ripe strawberly"
GPT-4.1: โมเดลแรกที่ประสบความสำเร็จอย่างสม่ำเสมอ
GPT-5: ประสบความสำเร็จโดยไม่ต้องใช้ความสามารถในการให้เหตุผล

การอภิปรายเรื่องการใช้เครื่องมือ: ความฉลาดหรือการโกง?

ชุมชนแตกออกอย่างลึกซึ้งเกี่ยวกับว่าโมเดลภาษาควรจัดการกับงานระดับตัวอักษรอย่างไร บางคนแย้งว่าโมเดลควรใช้เครื่องมือการเขียนโปรแกรมโดยอัตโนมัติสำหรับการทำงานที่แม่นยำ ในขณะที่其他人เชื่อว่าความฉลาดที่แท้จริงหมายถึงการพัฒนาความสามารถภายใน มีผู้แสดงความคิดเห็นหนึ่งคนที่จับแก่นแท้ของการอภิปรายนี้ได้อย่างสมบูรณ์:

ถ้าฉันขอให้คุณนับตัว r ในคำว่า strawberry คุณจะหยิบเครื่องมือ Python ออกมาใช้ไหม?

นี่เน้นย้ำคำถามหลัก: อะไรที่ประกอบขึ้นเป็นความฉลาดที่แท้จริงในระบบ AI? ผู้ที่สนับสนุนการใช้เครื่องมือชี้ให้เห็นว่ามนุษย์ใช้เครื่องคิดเลขสำหรับปัญหาคณิตศาสตร์และวัสดุอ้างอิงสำหรับงานที่ซับซ้อนเป็นประจำ พวกเขาแย้งว่าการรู้ว่าจะใช้เครื่องมือที่เหมาะสมเมื่อไหร่เป็นลักษณะของความฉลาด อย่างไรก็ตาม คนอื่นๆ คัดค้านว่าการพึ่งพาเครื่องมือภายนอกมากเกินไปทำให้ระบบ AI เปราะบางและขึ้นอยู่กับเงื่อนไขที่สมบูรณ์แบบ การอภิปรายเผยให้เห็นความไม่เห็นด้วยขั้นพื้นฐานเกี่ยวกับสิ่งที่เราต้องการจากผู้ช่วย AI - ความสามารถในการใช้เหตุผลล้วนๆ หรือการแก้ปัญหาเชิงปฏิบัติที่ใช้ทรัพยากรที่มีอยู่ทั้งหมด

การอภิปรายเกี่ยวกับการใช้เครื่องมือขยายเกินกว่าการนับตัวอักษรไปสู่งานที่ซับซ้อนมากขึ้น เช่น การถอดรหัส Base64 และการแก้รหัสแทนที่ การทดสอบของชุมชนแสดงให้เห็นว่าในขณะที่โมเดลบางตัวสามารถจัดการงานเหล่านี้ได้ภายใน โมเดลอื่นๆ จะสร้างโค้ด Python ขึ้นมาเพื่อแก้ปัญหา สิ่งนี้นำไปสู่คำถามเกี่ยวกับว่าเรากำลังวัดความฉลาดของโมเดลหรือความสามารถในการเขียนโค้ดของมัน สมาชิกชุมชนบางคนแสดงความหงุดหงิดที่พวกเขาต้องจัดการระบบ AI อย่างจุกจิกโดยการบอกพวกมันอย่างชัดเจนว่าจะใช้เครื่องมือเมื่อไหร่ โดยแย้งว่าระบบที่ฉลาดจริงๆ ควรอนุมานแนวทางที่เหมาะสมจากบริบท

ข้อมูลเชิงลึกที่สำคัญจากชุมชน

การถ่วงดุลระหว่างการใช้เครื่องมือกับการพัฒนาความสามารถภายใน
ข้อกังวลด้านความปลอดภัยที่จำกัดความสามารถของโมเดลบางตัวในการประมวลผลเนื้อหาที่เข้ารหัส
คำถามเกี่ยวกับว่าการปรับปรุงที่เกิดขึ้นนั้นแสดงถึงความฉลาดที่แท้จริงหรือเป็นเพียง "การสอนเพื่อสอบ"
ข้อสังเกตว่าโมเดลเชิงเหตุผลของจีนใช้การไตร่ตรองภายในอย่างกว้างขวาง (3K-7K tokens) สำหรับงานระดับตัวอักษร

ความปลอดภัยเทียบกับความสามารถในเนื้อหาที่ถูกเข้ารหัส

การค้นพบที่ไม่ได้คาดหมายจากการทดสอบของชุมชนเกี่ยวข้องกับว่าโมเดลต่างๆ จัดการกับเนื้อหาที่ถูกเข้ารหัสและเข้ารหัสลับอย่างไร เมื่อนำเสนอข้อความที่เข้ารหัส Base64 ซึ่งมีรหัส ROT20 อยู่ภายใน Claude Sonnet 4.5 ปฏิเสธที่จะประมวลผลเนื้อหาอย่างสม่ำเสมอ โดยระบุว่าอาจไม่ปลอดภัย Grok 4 แสดงพฤติกรรมคล้ายกัน โดยปฏิเสธข้อความ Base64 ในขณะที่ยินดีทำงานกับรหัส ROT20 โดยตรง แนวทางที่ปลอดภัยเป็นอันดับแรกนี้มีผลกระทบเชิงปฏิบัติ - มันอาจทำให้โมเดลเหล่านี้ไม่สามารถใช้งานได้สำหรับการทำงานกับภาษาที่หายากหรืองานเข้ารหัสที่ชอบด้วยกฎหมาย

ข้อจำกัดด้านความปลอดภัยเผยให้เห็นความตึงเครียดระหว่างความสามารถและความระมัดระวังในการพัฒนา AI ในขณะที่การป้องกันการใช้งานในทางที่ผิดเป็นสิ่งสำคัญ ตัวกรองความปลอดภัยที่ไวเกินไปสามารถจำกัดกรณีการใช้งานที่ชอบด้วยกฎหมาย สมาชิกชุมชนตั้งข้อสังเกตว่าการเข้ารหัส Base64 มักใช้ในการใช้งานที่ถูกต้องตามกฎหมาย เช่น ไฟล์แนบอีเมลและการจัดเก็บข้อมูล ไม่ใช่เพียงเพื่อการปิดบัง การตอบสนองที่แตกต่างกันจากโมเดลต่างๆ ชี้ให้เห็นว่าบริษัทต่างๆ กำลังใช้แนวทางที่แตกต่างกันต่อความสมดุลนี้ โดยบางบริษัทให้ความสำคัญกับความ能力和บริษัทอื่นๆ เน้นย้ำถึงความปลอดภัย

ประสิทธิภาพการถอดรหัส Base64 และ ROT20

GPT-4.1: ถอดรหัส Base64 ผ่าน, ถอดรหัส ROT20 ไม่ผ่าน
GPT-5-mini: ผ่านทั้งหมด (Base64 + ROT20)
GPT-5: ผ่านทั้งหมด
Claude Sonnet 4.5: ไม่ผ่านด้านความปลอดภัยกับเนื้อหาที่เข้ารหัส
Gemini-2.5-pro: ผ่านทั้งหมด
Qwen-235b: ต้องใช้การใช้เหตุผลเพื่อผ่านทั้งหมด

การจัดการตัวอักษรที่ปรับปรุงขึ้นเผยให้เห็นอะไรเกี่ยวกับการพัฒนาโมเดลภาษา

การทดสอบของชุมชนให้ข้อมูลเชิงลึกที่น่าสนใจเกี่ยวกับว่าความสามารถของโมเดลภาษา evolve อย่างไร ความจริงที่ว่าผู้ขายหลายรายพัฒนาความสามารถในการจัดการระดับตัวอักษรในช่วงเวลาใกล้เคียงกันชี้ให้เห็นถึงเทคนิคการฝึกที่แบ่งปันกันหรือว่าความสามารถนี้เกิดขึ้นตามธรรมชาติที่เกณฑ์มาตรฐานขนาด tertentu บางคนคาดการณ์ว่าผู้ขายอาจฝึกโมเดลเฉพาะบนงานนับตัวอักษรหลังจากที่พวกมันกลายเป็นเกณฑ์มาตรฐานยอดนิยม ในขณะที่其他人เชื่อว่าการปรับปรุงเป็นผลข้างเคียงของการขยายขนาดความ能力ทั่วไป

ผลการถอดรหัส Base64 บอกเล่าเรื่องเป็นพิเศษ โมเดลยุคก่อนหน้านี้สามารถถอดรหัส Base64 ได้เฉพาะเมื่อมีรูปแบบภาษาอังกฤษทั่วไปเท่านั้น ชี้ให้เห็นว่าพวกมันจดจำการแปลที่พบบ่อยมากกว่าที่จะเข้าใจอัลกอริทึม โมเดลรุ่นใหม่ถอดรหัสข้อความที่เข้ารหัส ROT20 ซึ่งดูเหมือนไร้สาระจาก Base64 ได้สำเร็จ บ่งชี้ว่าพวกมันได้พัฒนาความเข้าใจในการทำงานของอัลกอริทึม Base64 เองแล้ว นี่แสดงถึงก้าวกระโดดที่สำคัญจากการจดจำรูปแบบไปสู่ความเข้าใจในอัลกอริทึม

ชุมชนยังคงแตกออกในประเด็นว่าการปรับปรุงเหล่านี้แสดงถึงการเติบโตของความฉลาดที่แท้จริงหรือการฝึกเฉพาะทาง บางคนมองว่ามันเป็นหลักฐานของการขยายขนาดความสามารถในวงกว้าง ในขณะที่其他人มองว่ามันเป็นการสอนให้ทำแบบทดสอบ - การปรับให้เหมาะสมสำหรับเกณฑ์มาตรฐานยอดนิยมแทนที่จะพัฒนาความฉลาดทั่วไป สิ่งที่ชัดเจนคือเส้นแบ่งระหว่างความสามารถเฉพาะทางและความฉลาดทั่วไปกำลังพร่ามัวมากขึ้นเรื่อยๆ ในขณะที่โมเดลจัดการกับงานที่พวกมันไม่เคยถูกออกแบบมาเพื่อจัดการโดยเฉพาะ

อนาคตของความสามารถโมเดลภาษา

ในขณะที่โมเดลภาษายังคงทำให้เราประหลาดใจด้วยความสามารถในโดเมนที่พวกมันไม่ได้ถูกออกแบบมา ชุมชนจึงสงสัยว่าความสามารถอื่นๆ ที่ไม่ได้คาดหมายอาจปรากฏขึ้นอะไรบ้าง การปรับปรุงการจัดการระดับตัวอักษร แม้จะดูเหมือนเล็กน้อย แต่แสดงถึงขั้นตอนสำคัญในการที่โมเดลเข้าใจส่วนประกอบพื้นฐานของภาษา ไม่ว่าสิ่งนี้จะนำไปสู่การจัดการภาษาที่มีการประสมคำที่ดีขึ้น ความเข้าใจโค้ดที่ปรับปรุงขึ้น หรือการใช้งานอื่นๆ ที่ไม่ได้คาดหมายก่อนหน้านี้ ยังคงต้องรอดู

การอภิปรายอย่างต่อเนื่องเกี่ยวกับการใช้เครื่องมือเทียบกับความสามารถภายในสะท้อนถึงคำถามที่ใหญ่กว่ากเกี่ยวกับสิ่งที่เราต้องการจากระบบ AI ดังที่สมาชิกชุมชนหนึ่งคนตั้งข้อสังเกต ความสามารถในการใช้เครื่องมือคือสิ่งที่แยกมนุษย์จากสัตว์อื่นๆ - แต่การรู้ว่าจะใช้เครื่องมือไหนเมื่อไหร่ต้องอาศัยการตัดสินใจที่ซับซ้อน พรมแดนต่อไปอาจเป็นโมเดลที่สามารถตัดสินใจอย่างชาญฉลาดว่าจะพึ่งพาความสามารถภายในเทียบกับเครื่องมือภายนอกเมื่อไหร่ โดยอิงตามบริบท ความต้องการความแม่นยำ และทรัพยากรที่มีอยู่

สิ่งที่เป็นที่แน่ชัดคือจังหวะการปรับปรุงที่รวดเร็วยังคงทำให้แม้แต่ผู้สังเกตการณ์ใกล้ชิดของสาขานี้ประหลาดใจ งานที่เคยถูกมองว่าเป็นไปไม่ได้สำหรับโมเดลภาษาเมื่อไม่กี่เดือนที่ผ่านมา ตอนนี้กำลังถูกจัดการอย่างน่าเชื่อถือโดยโมเดลล่าสุด ขณะที่เรายังคงผลักดันขอบเขตของสิ่งที่ระบบเหล่านี้สามารถทำได้ เรามีแนวโน้มที่จะเห็นความสามารถมากขึ้นปรากฏขึ้น ซึ่งท้าทายความเข้าใจของเราเกี่ยวกับทั้งความฉลาดเทียมและความฉลาดตามธรรมชาติ

อ้างอิง: LLMs are getting better at character-level text manipulation

ข่าวที่เกี่ยวข้อง

‌

‌
‌

‌

‌
‌

‌