Gemini CLI เปิดตัวฟีเจอร์อินเทอร์แอคทีฟใหม่ แต่ผู้ใช้ยังคงกังขาต่อความน่าเชื่อถือพื้นฐาน

ทีมชุมชน BigGo
Gemini CLI เปิดตัวฟีเจอร์อินเทอร์แอคทีฟใหม่ แต่ผู้ใช้ยังคงกังขาต่อความน่าเชื่อถือพื้นฐาน

การอัปเกรดล่าสุดของ Google ต่อเครื่องมือ Gemini CLI ที่เพิ่มการรองรับเทอร์มินัลแบบอินเทอร์แอคทีฟเต็มรูปแบบ ได้จุดประกายการถกเถียงอย่างมีชีวิตชีวาภายในชุมชนนักพัฒนา แม้ว่าฟีเจอร์ใหม่นี้จะมีความน่าประทับใจในทางเทคนิค แต่ผู้ใช้จำนวนมากกำลังตั้งคำถามว่ามันได้แก้ไขจุดบกพร่องที่สำคัญที่สุดของเครื่องมือแล้วหรือไม่

สัญญาของประสบการณ์เทอร์มินัลที่ไร้รอยต่อ

Gemini CLI เวอร์ชันล่าสุด (v0.9.0) แสดงถึงความสำเร็จทางวิศวกรรมที่สำคัญด้วยการผนวกการรองรับ pseudo-terminal (PTY) ผ่านไลบรารี node-nty สิ่งนี้ทำให้นักพัฒนาสามารถรันคำสั่งแบบอินเทอร์แอคทีฟเช่น vim, top และ git rebase -i ได้โดยตรงภายในอินเทอร์เฟซ CLI ระบบทำงานโดยการจัดลำดับสถานะของเทอร์มินัล จับข้อความทุกตัวอักษร สี และตำแหน่งเคอร์เซอร์แบบเรียลไทม์ จากนั้นจึงสตรีมข้อมูลนี้กลับไปยังผู้ใช้ สิ่งนี้สร้างช่องทางการสื่อสารสองทางที่แท้จริงซึ่งผู้ใช้สามารถโต้ตอบกับแอปพลิเคชันเทอร์มินัลได้เหมือนกับที่พวกเขาใช้ในสภาพแวดล้อมปกติ พร้อมทั้งการรองรับการปรับขนาดหน้าต่างและการแสดงผลสีสัน

หมายเหตุ: Pseudo-terminal (PTY) คืออินเทอร์เฟซซอฟต์แวร์ที่ทำให้แอปพลิเคชันเชื่อว่าพวกมันกำลังทำงานอยู่ในเทอร์มินัลจริง ช่วยเปิดใช้งานฟีเจอร์ต่างๆ เช่น การควบคุมเคอร์เซอร์และการแสดงผลสี ซึ่งไม่ทำงานในอินเทอร์เฟซบรรทัดคำสั่งแบบง่าย

ข้อมูลจำเพาะทางเทคนิคหลักของ Gemini CLI v0.9.0:

  • การรองรับ Pseudo-terminal: เปิดใช้งานผ่านไลบรารี node-pty
  • การสื่อสารสองทาง: การโต้ตอบแบบ input/output เต็มรูปแบบกับแอปพลิเคชันเทอร์มินัล
  • Real-time Streaming: ทำการ serialize สถานะเทอร์มินัลรวมถึงข้อความ สี และตำแหน่งเคอร์เซอร์
  • การจัดการหน้าต่าง: รองรับการปรับขนาดเทอร์มินัลแบบไดนามิก
  • การเปิดใช้งานเริ่มต้น: เปิดใช้งาน interactive shell โดยค่าเริ่มต้น
อินเทอร์เฟซ Gemini CLI ใหม่แสดงให้เห็นการโต้ตอบผ่านเทอร์มินัลที่ได้รับการปรับปรุง ช่วยให้นักพัฒนาสามารถใช้คำสั่งและเวิร์กโฟลว์ที่คุ้นเคยได้อย่างมีประสิทธิภาพ
อินเทอร์เฟซ Gemini CLI ใหม่แสดงให้เห็นการโต้ตอบผ่านเทอร์มินัลที่ได้รับการปรับปรุง ช่วยให้นักพัฒนาสามารถใช้คำสั่งและเวิร์กโฟลว์ที่คุ้นเคยได้อย่างมีประสิทธิภาพ

ความกังวลของชุมชนต่อความน่าเชื่อถือพื้นฐาน

แม้จะมีความซับซ้อนทางเทคนิคของฟีเจอร์แบบอินเทอร์แอคทีฟใหม่นี้ ข้อติชมจากชุมชนได้เผยให้เห็นถึงความกังวลที่ลึกซึ้งยิ่งขึ้นเกี่ยวกับฟังก์ชันการทำงานพื้นฐานของ Gemini CLI ผู้ใช้หลายคนรายงานปัญหาที่ยังคงมีอยู่อย่างต่อเนื่องกับการดำเนินการพื้นฐาน ซึ่งบั่นทอนความเชื่อมั่นในเครื่องมือ ปัญหาที่ถูกกล่าวถึงบ่อยที่สุด ได้แก่ การที่โมเดลปฏิเสธที่จะอ่านไฟล์นอกไดเรกทอรีโปรเจกต์โดยไม่มีคำอธิบาย และแนวโน้มที่จะแทรกอักขระ \n ตามตัวอักษร แทนที่จะใช้การขึ้นบรรทัดใหม่จริงในการแสดงผล สิ่งเหล่านี้ไม่ใช่กรณีขอบเขต—แต่เป็นการดำเนินการพื้นฐานที่นักพัฒนาคาดหวังว่าจะทำงานได้อย่างน่าเชื่อถือ

ผู้ใช้หนึ่งคนได้สรุปความรู้สึกของชุมชนได้อย่างแม่นยำ: ฉันต้องโน้มน้าวให้มันทำในสิ่งที่มันควรจะทำได้ แต่กลับคิดว่ามันทำไม่ได้ด้วยเหตุผลบางอย่าง เช่น การอ่านจากไฟล์นอกไดเรกทอรีโปรเจกต์—มันทำได้อย่างไม่มีปัญหา แต่กลับปฏิเสธที่จะทำ เว้นแต่คุณจะโน้มน้าวมันว่าที่จริงแล้วมันทำได้

ปัญหาที่ผู้ใช้รายงานบ่อยครั้ง:

  • ปฏิเสธการอ่านไฟล์นอกไดเรกทอรีของโปรเจกต์โดยไม่ได้รับการชักจูงจากผู้ใช้
  • การแทรกอักขระ "\n" แบบตัวอักษรแทนที่จะเป็นการขึ้นบรรทัดใหม่จริง ๆ
  • พฤติกรรมที่ไม่สม่ำเสมอในการดำเนินการพื้นฐานที่ควรจะทำงานได้อย่างน่าเชื่อถือ
  • ข้อกังวลด้านความไว้วางใจที่ส่งผลต่อการนำไปใช้แม้จะมีฟีเจอร์ขั้นสูง

การประยุกต์ใช้จริง เทียบกับ ข้อจำกัดในโลกแห่งความเป็นจริง

เชลล์แบบอินเทอร์แอคทีฟได้เปิดโอกาสการใช้งานจริงหลายอย่างที่นักพัฒนาพบว่ามีประโยชน์อย่างแท้จริง การแก้ไขไฟล์ด่วนด้วย vim หรือ neovim การรัน REPL แบบอินเทอร์แอคทีฟ การจัดการ commit ด้วย git rebase -i และการเรียกใช้สคริปต์ตั้งค่าเช่น npm init ล้วนเป็นสถานการณ์ที่น่าสนใจ อย่างไรก็ตาม ผู้ใช้ได้ระบุข้อจำกัดในทางปฏิบัติทันที วิดีโอตัวอย่างแสดงพื้นที่มองเห็นของเทอร์มินัลที่สูงเพียงประมาณหกบรรทัด ทำให้เกิดคำถามเกี่ยวกับความสะดวกในการใช้งานของแอปพลิเคชันแบบเต็มหน้าจอเช่น htop หรือเซสชันการแก้ไขที่ยาวนานใน neovim นักพัฒนาส่วนใหญ่ระบุว่าพวกเขายังคงชอบแอปพลิเคชันเทอร์มินัลเฉพาะทางสำหรับงานที่ยาวนาน โดยมองว่าการรวมฟีเจอร์ใน Gemini CLI เหมาะสมที่สุดสำหรับการโต้ตอบระยะสั้นและรวดเร็ว

กรณีการใช้งานจริงสำหรับ Interactive Shell:

  • แก้ไขโค้ดอย่างรวดเร็วด้วย vim/neovim/nano
  • ดำเนินการ git แบบโต้ตอบ (rebase ฯลฯ)
  • รัน REPLs ของภาษาโปรแกรมมิ่ง
  • แอปพลิเคชันเทอร์มินัลอย่างเช่น htop
  • นำทางสคริปต์ติดตั้ง (npm init, ng new)
  • ตอบสนองต่อคำสั่ง gcloud ที่มีการถามตอบ

การขาดแคลนความไว้วางใจในเครื่องมือที่ขับเคลื่อนด้วย AI

ใจความสำคัญที่ปรากฏจากการสนทนาของชุมชนคือเรื่องของความไว้วางใจ ดังที่ผู้ใช้ที่มีประสบการณ์หนึ่งคนระบุไว้ ในโลกที่คุณมีทางเลือก 100 ทาง ความไว้วางใจคือสิ่งที่สำคัญที่สุด ความไม่สม่ำเสมอในการดำเนินการพื้นฐานเกี่ยวกับไฟล์และการจัดการผลลัพธ์ได้สร้างช่องว่างด้านความน่าเชื่อถือที่คุณสมบัติขั้นสูงใดๆ ก็ไม่สามารถชดเชยได้ ผู้ใช้กำลังเปรียบเทียบกับผู้ช่วยการเขียนโค้ดด้วย AI รายอื่นๆ และพบว่า Gemini CLI ยังด้อยกว่า แม้จะมีขีดความสามารถทางเทคนิคก็ตาม ชุมชนดูเหมือนจะกำลังบอกว่าการทำให้พื้นฐานต่างๆ ทำงานได้อย่างถูกต้องนั้นสำคัญกว่าการเพิ่มฟีเจอร์ใหม่ที่ซับซ้อน

มองไปข้างหน้า: ศักยภาพของโอเพนซอร์สและการปรับปรุงให้ดีขึ้น

การนำไปใช้ในทางเทคนิคได้ดึงดูดความสนใจของนักพัฒนาที่ชื่นชอบในวิศวกรรมที่อยู่เบื้องหลัง มีความสนใจเป็นพิเศษในเลเยอร์การจัดลำดับที่สตรีมเนื้อหาเทอร์มินัล โดยบางส่วนหวังว่าส่วนประกอบนี้อาจจะได้รับการปล่อยเป็นโอเพนซอร์สเพื่อให้เครื่องมืออื่นๆ ได้นำไปพัฒนาต่อ Google ได้ยอมรับว่าการจัดการอินพุตบนแพลตฟอร์มต่างๆ ยังคงต้องการการปรับปรุงและกำลังรวบรวมข้อติชมอย่างต่อเนื่อง ความสำเร็จของฟีเจอร์นี้อาจขึ้นอยู่กับว่า Google สามารถแก้ไขปัญหาความน่าเชื่อถือพื้นฐานที่ผู้ใช้กำลังเน้นยึงได้รวดเร็วเพียงใด

การนำเสนอคำสั่งแบบอินเทอร์แอคทีฟใน Gemini CLI เป็นก้าวเดินไปข้างหน้าอย่างมุ่งมั่นในเครื่องมือพัฒนาที่ขับเคลื่อนด้วย AI อย่างไรก็ตาม การตอบรับจากชุมชนได้ชี้ให้เห็นอย่างชัดเจนว่าการนวัตกรรมทางเทคนิคจะต้องควบคู่ไปกับประสิทธิภาพที่สม่ำเสมอและน่าเชื่อถือในงานพื้นฐาน ขณะที่เครื่องมือนี้พัฒนาต่อไป การยอมรับน่าจะขึ้นอยู่กับว่า Google สามารถเชื่อมช่องว่างความไว้วางใจที่ปัจจุบันมีอยู่ระหว่างขีดความสามารถขั้นสูงของเครื่องมือและความน่าเชื่อถือพื้นฐานของมันได้หรือไม่

อ้างอิง: Say hello to a new level of interactivity in Gemini CLI