Gemini CLI เปิดตัวฟีเจอร์อินเทอร์แอคทีฟใหม่ แต่ผู้ใช้ยังคงกังขาต่อความน่าเชื่อถือพื้นฐาน

ทีมชุมชน BigGo

Gemini CLI เปิดตัวฟีเจอร์อินเทอร์แอคทีฟใหม่ แต่ผู้ใช้ยังคงกังขาต่อความน่าเชื่อถือพื้นฐาน

การอัปเกรดล่าสุดของ Google ต่อเครื่องมือ Gemini CLI ที่เพิ่มการรองรับเทอร์มินัลแบบอินเทอร์แอคทีฟเต็มรูปแบบ ได้จุดประกายการถกเถียงอย่างมีชีวิตชีวาภายในชุมชนนักพัฒนา แม้ว่าฟีเจอร์ใหม่นี้จะมีความน่าประทับใจในทางเทคนิค แต่ผู้ใช้จำนวนมากกำลังตั้งคำถามว่ามันได้แก้ไขจุดบกพร่องที่สำคัญที่สุดของเครื่องมือแล้วหรือไม่

สัญญาของประสบการณ์เทอร์มินัลที่ไร้รอยต่อ

Gemini CLI เวอร์ชันล่าสุด (v0.9.0) แสดงถึงความสำเร็จทางวิศวกรรมที่สำคัญด้วยการผนวกการรองรับ pseudo-terminal (PTY) ผ่านไลบรารี node-nty สิ่งนี้ทำให้นักพัฒนาสามารถรันคำสั่งแบบอินเทอร์แอคทีฟเช่น vim, top และ git rebase -i ได้โดยตรงภายในอินเทอร์เฟซ CLI ระบบทำงานโดยการจัดลำดับสถานะของเทอร์มินัล จับข้อความทุกตัวอักษร สี และตำแหน่งเคอร์เซอร์แบบเรียลไทม์ จากนั้นจึงสตรีมข้อมูลนี้กลับไปยังผู้ใช้ สิ่งนี้สร้างช่องทางการสื่อสารสองทางที่แท้จริงซึ่งผู้ใช้สามารถโต้ตอบกับแอปพลิเคชันเทอร์มินัลได้เหมือนกับที่พวกเขาใช้ในสภาพแวดล้อมปกติ พร้อมทั้งการรองรับการปรับขนาดหน้าต่างและการแสดงผลสีสัน

หมายเหตุ: Pseudo-terminal (PTY) คืออินเทอร์เฟซซอฟต์แวร์ที่ทำให้แอปพลิเคชันเชื่อว่าพวกมันกำลังทำงานอยู่ในเทอร์มินัลจริง ช่วยเปิดใช้งานฟีเจอร์ต่างๆ เช่น การควบคุมเคอร์เซอร์และการแสดงผลสี ซึ่งไม่ทำงานในอินเทอร์เฟซบรรทัดคำสั่งแบบง่าย

ข้อมูลจำเพาะทางเทคนิคหลักของ Gemini CLI v0.9.0:

การรองรับ Pseudo-terminal: เปิดใช้งานผ่านไลบรารี node-pty
การสื่อสารสองทาง: การโต้ตอบแบบ input/output เต็มรูปแบบกับแอปพลิเคชันเทอร์มินัล
Real-time Streaming: ทำการ serialize สถานะเทอร์มินัลรวมถึงข้อความ สี และตำแหน่งเคอร์เซอร์
การจัดการหน้าต่าง: รองรับการปรับขนาดเทอร์มินัลแบบไดนามิก
การเปิดใช้งานเริ่มต้น: เปิดใช้งาน interactive shell โดยค่าเริ่มต้น


อินเทอร์เฟซ Gemini CLI ใหม่แสดงให้เห็นการโต้ตอบผ่านเทอร์มินัลที่ได้รับการปรับปรุง ช่วยให้นักพัฒนาสามารถใช้คำสั่งและเวิร์กโฟลว์ที่คุ้นเคยได้อย่างมีประสิทธิภาพ

อินเทอร์เฟซ Gemini CLI ใหม่แสดงให้เห็นการโต้ตอบผ่านเทอร์มินัลที่ได้รับการปรับปรุง ช่วยให้นักพัฒนาสามารถใช้คำสั่งและเวิร์กโฟลว์ที่คุ้นเคยได้อย่างมีประสิทธิภาพ

ความกังวลของชุมชนต่อความน่าเชื่อถือพื้นฐาน

แม้จะมีความซับซ้อนทางเทคนิคของฟีเจอร์แบบอินเทอร์แอคทีฟใหม่นี้ ข้อติชมจากชุมชนได้เผยให้เห็นถึงความกังวลที่ลึกซึ้งยิ่งขึ้นเกี่ยวกับฟังก์ชันการทำงานพื้นฐานของ Gemini CLI ผู้ใช้หลายคนรายงานปัญหาที่ยังคงมีอยู่อย่างต่อเนื่องกับการดำเนินการพื้นฐาน ซึ่งบั่นทอนความเชื่อมั่นในเครื่องมือ ปัญหาที่ถูกกล่าวถึงบ่อยที่สุด ได้แก่ การที่โมเดลปฏิเสธที่จะอ่านไฟล์นอกไดเรกทอรีโปรเจกต์โดยไม่มีคำอธิบาย และแนวโน้มที่จะแทรกอักขระ \n ตามตัวอักษร แทนที่จะใช้การขึ้นบรรทัดใหม่จริงในการแสดงผล สิ่งเหล่านี้ไม่ใช่กรณีขอบเขต—แต่เป็นการดำเนินการพื้นฐานที่นักพัฒนาคาดหวังว่าจะทำงานได้อย่างน่าเชื่อถือ

ผู้ใช้หนึ่งคนได้สรุปความรู้สึกของชุมชนได้อย่างแม่นยำ: ฉันต้องโน้มน้าวให้มันทำในสิ่งที่มันควรจะทำได้ แต่กลับคิดว่ามันทำไม่ได้ด้วยเหตุผลบางอย่าง เช่น การอ่านจากไฟล์นอกไดเรกทอรีโปรเจกต์—มันทำได้อย่างไม่มีปัญหา แต่กลับปฏิเสธที่จะทำ เว้นแต่คุณจะโน้มน้าวมันว่าที่จริงแล้วมันทำได้

ปัญหาที่ผู้ใช้รายงานบ่อยครั้ง:

ปฏิเสธการอ่านไฟล์นอกไดเรกทอรีของโปรเจกต์โดยไม่ได้รับการชักจูงจากผู้ใช้
การแทรกอักขระ "\n" แบบตัวอักษรแทนที่จะเป็นการขึ้นบรรทัดใหม่จริง ๆ
พฤติกรรมที่ไม่สม่ำเสมอในการดำเนินการพื้นฐานที่ควรจะทำงานได้อย่างน่าเชื่อถือ
ข้อกังวลด้านความไว้วางใจที่ส่งผลต่อการนำไปใช้แม้จะมีฟีเจอร์ขั้นสูง

การประยุกต์ใช้จริง เทียบกับ ข้อจำกัดในโลกแห่งความเป็นจริง

เชลล์แบบอินเทอร์แอคทีฟได้เปิดโอกาสการใช้งานจริงหลายอย่างที่นักพัฒนาพบว่ามีประโยชน์อย่างแท้จริง การแก้ไขไฟล์ด่วนด้วย vim หรือ neovim การรัน REPL แบบอินเทอร์แอคทีฟ การจัดการ commit ด้วย git rebase -i และการเรียกใช้สคริปต์ตั้งค่าเช่น npm init ล้วนเป็นสถานการณ์ที่น่าสนใจ อย่างไรก็ตาม ผู้ใช้ได้ระบุข้อจำกัดในทางปฏิบัติทันที วิดีโอตัวอย่างแสดงพื้นที่มองเห็นของเทอร์มินัลที่สูงเพียงประมาณหกบรรทัด ทำให้เกิดคำถามเกี่ยวกับความสะดวกในการใช้งานของแอปพลิเคชันแบบเต็มหน้าจอเช่น htop หรือเซสชันการแก้ไขที่ยาวนานใน neovim นักพัฒนาส่วนใหญ่ระบุว่าพวกเขายังคงชอบแอปพลิเคชันเทอร์มินัลเฉพาะทางสำหรับงานที่ยาวนาน โดยมองว่าการรวมฟีเจอร์ใน Gemini CLI เหมาะสมที่สุดสำหรับการโต้ตอบระยะสั้นและรวดเร็ว

กรณีการใช้งานจริงสำหรับ Interactive Shell:

แก้ไขโค้ดอย่างรวดเร็วด้วย vim/neovim/nano
ดำเนินการ git แบบโต้ตอบ (rebase ฯลฯ)
รัน REPLs ของภาษาโปรแกรมมิ่ง
แอปพลิเคชันเทอร์มินัลอย่างเช่น htop
นำทางสคริปต์ติดตั้ง (npm init, ng new)
ตอบสนองต่อคำสั่ง gcloud ที่มีการถามตอบ

การขาดแคลนความไว้วางใจในเครื่องมือที่ขับเคลื่อนด้วย AI

ใจความสำคัญที่ปรากฏจากการสนทนาของชุมชนคือเรื่องของความไว้วางใจ ดังที่ผู้ใช้ที่มีประสบการณ์หนึ่งคนระบุไว้ ในโลกที่คุณมีทางเลือก 100 ทาง ความไว้วางใจคือสิ่งที่สำคัญที่สุด ความไม่สม่ำเสมอในการดำเนินการพื้นฐานเกี่ยวกับไฟล์และการจัดการผลลัพธ์ได้สร้างช่องว่างด้านความน่าเชื่อถือที่คุณสมบัติขั้นสูงใดๆ ก็ไม่สามารถชดเชยได้ ผู้ใช้กำลังเปรียบเทียบกับผู้ช่วยการเขียนโค้ดด้วย AI รายอื่นๆ และพบว่า Gemini CLI ยังด้อยกว่า แม้จะมีขีดความสามารถทางเทคนิคก็ตาม ชุมชนดูเหมือนจะกำลังบอกว่าการทำให้พื้นฐานต่างๆ ทำงานได้อย่างถูกต้องนั้นสำคัญกว่าการเพิ่มฟีเจอร์ใหม่ที่ซับซ้อน

มองไปข้างหน้า: ศักยภาพของโอเพนซอร์สและการปรับปรุงให้ดีขึ้น

การนำไปใช้ในทางเทคนิคได้ดึงดูดความสนใจของนักพัฒนาที่ชื่นชอบในวิศวกรรมที่อยู่เบื้องหลัง มีความสนใจเป็นพิเศษในเลเยอร์การจัดลำดับที่สตรีมเนื้อหาเทอร์มินัล โดยบางส่วนหวังว่าส่วนประกอบนี้อาจจะได้รับการปล่อยเป็นโอเพนซอร์สเพื่อให้เครื่องมืออื่นๆ ได้นำไปพัฒนาต่อ Google ได้ยอมรับว่าการจัดการอินพุตบนแพลตฟอร์มต่างๆ ยังคงต้องการการปรับปรุงและกำลังรวบรวมข้อติชมอย่างต่อเนื่อง ความสำเร็จของฟีเจอร์นี้อาจขึ้นอยู่กับว่า Google สามารถแก้ไขปัญหาความน่าเชื่อถือพื้นฐานที่ผู้ใช้กำลังเน้นยึงได้รวดเร็วเพียงใด

การนำเสนอคำสั่งแบบอินเทอร์แอคทีฟใน Gemini CLI เป็นก้าวเดินไปข้างหน้าอย่างมุ่งมั่นในเครื่องมือพัฒนาที่ขับเคลื่อนด้วย AI อย่างไรก็ตาม การตอบรับจากชุมชนได้ชี้ให้เห็นอย่างชัดเจนว่าการนวัตกรรมทางเทคนิคจะต้องควบคู่ไปกับประสิทธิภาพที่สม่ำเสมอและน่าเชื่อถือในงานพื้นฐาน ขณะที่เครื่องมือนี้พัฒนาต่อไป การยอมรับน่าจะขึ้นอยู่กับว่า Google สามารถเชื่อมช่องว่างความไว้วางใจที่ปัจจุบันมีอยู่ระหว่างขีดความสามารถขั้นสูงของเครื่องมือและความน่าเชื่อถือพื้นฐานของมันได้หรือไม่

อ้างอิง: Say hello to a new level of interactivity in Gemini CLI

ข่าวที่เกี่ยวข้อง

‌

‌
‌

‌

‌
‌

‌