ในการสาธิตที่ชาญฉลาดของความสามารถในการจดจำภาพของ AI นักพัฒนาได้สร้างการทดสอบอัตโนมัติที่สามารถตรวจจับควันสีขาวจากปล่องไฟของโบสถ์ซิสทีน ซึ่งเป็นสัญญาณบ่งบอกถึงการเลือกพระสันตะปาปาองค์ใหม่ การทดสอบนี้มีชื่อที่เหมาะสมว่า การทดสอบควัน (smoke test) แสดงให้เห็นว่า AI สามารถใช้สำหรับการติดตามเหตุการณ์แบบเรียลไทม์ผ่านการประเมินภาพแทนที่วิธีการวิเคราะห์ภาพแบบดั้งเดิม
การทดสอบด้วยภาพของ AI แทนที่การวิเคราะห์ภาพแบบดั้งเดิม
นักพัฒนาได้สร้างสคริปต์ทดสอบโดยใช้เฟรมเวิร์กการทดสอบ AI ที่เชื่อมต่อกับฟีดสด YouTube ของปล่องไฟโบสถ์ซิสทีนใน Vatican แทนที่จะใช้อัลกอริทึมการประมวลผลภาพที่ซับซ้อนเพื่อตรวจจับสีของควัน ระบบนี้ใช้ความสามารถในการจดจำภาพของ AI ผ่านคำสั่งง่ายๆ การทดสอบถูกออกแบบให้ผ่านเฉพาะเมื่อมีควันสีขาวปรากฏ ซึ่งบ่งชี้ถึงการเลือกพระสันตะปาปาสำเร็จ และล้มเหลวหากควันเป็นสีดำหรือไม่มีควัน ตามความเห็นจากนักพัฒนา การทดสอบผ่านทันทีเมื่อควันเริ่มออกมา ยืนยันการเลือกตั้งแบบเรียลไทม์
วิธีการนี้แสดงให้เห็นว่าการออกแบบคำสั่ง (prompt engineering) สามารถเป็นทางเลือกที่ง่ายกว่าเทคนิคคอมพิวเตอร์วิชันแบบดั้งเดิม โดยการสั่งให้ AI ประเมินสภาวะเฉพาะผ่านข้อความภาษาธรรมชาติ นักพัฒนาสามารถหลีกเลี่ยงความซับซ้อนของการสร้างโซลูชันวิเคราะห์ภาพแบบกำหนดเอง
รายละเอียดการทดสอบ:
- เฟรมเวิร์ก: เฟรมเวิร์กการทดสอบ AI แบบกำหนดเอง
- ระยะเวลาหมดเวลา: 60,000 มิลลิวินาที (1 นาที)
- โมเดล AI ที่ใช้: ทดสอบหลายโมเดลรวมถึง Gemini, GPT-4o
- ค่าใช้จ่าย: 0.29 ดอลลาร์สหรัฐสำหรับการตรวจสอบ 2 วัน
- วิธีการ: การตรวจสอบภาพผ่าน AI แทนการวิเคราะห์ภาพแบบดั้งเดิม
- ที่เก็บโค้ด: มีให้บน GitHub (donobu-papal-election-tests)
แอปพลิเคชัน AI แบบหลายโมดาลิตีที่คุ้มค่า
หนึ่งในแง่มุมที่น่าสนใจเป็นพิเศษของการใช้งานนี้คือความคุ้มค่า เมื่อถูกถามเกี่ยวกับค่าใช้จ่าย API สำหรับการทดสอบกับ Google's Flash 2.0 นักพัฒนารายงานว่าใช้เงินเพียง 0.29 ดอลลาร์สหรัฐฯ ในการติดตามเป็นเวลาสองวัน ค่าใช้จ่ายที่น้อยมากนี้แสดงให้เห็นว่าความสามารถขั้นสูงของ AI ได้กลายเป็นสิ่งที่เข้าถึงได้ง่าย แม้แต่สำหรับกรณีการใช้งานเฉพาะทางเช่นการติดตามเหตุการณ์
ผู้แสดงความคิดเห็นหลายคนได้พูดถึงศักยภาพในอนาคตของแอปพลิเคชันดังกล่าว โดยแนะนำว่าโมเดล AI แบบหลายโมดาลิตีที่ติดตั้งในองค์กรจะทำให้การใช้งานเหล่านี้ดีขึ้นอย่างมาก นักพัฒนายืนยันว่าพวกเขากำลังเตรียมพร้อมสำหรับอนาคตนี้ด้วยวิธีการที่เน้นการทำงานในเครื่องก่อน รวมถึงแอปพลิเคชันเดสก์ท็อป ซึ่งบ่งชี้ว่าความล่าช้าและความต้องการในการประมวลผลยังคงเป็นข้อพิจารณาสำหรับงานประเมินภาพแบบเรียลไทม์
แทนที่ AI จะดูโค้ดและเบราว์เซอร์ของคุณและเขียนสคริปต์ Playwright AI กำลังควบคุมเบราว์เซอร์โดยตรงและยืนยันผลการทดสอบ
การทดสอบนี้เป็นทั้งการประยุกต์ใช้งานจริงและการเล่นคำที่ชาญฉลาด ในการพัฒนาซอฟต์แวร์ smoke test โดยทั่วไปหมายถึงการทดสอบเบื้องต้นเพื่อตรวจสอบฟังก์ชันการทำงานพื้นฐาน ในที่นี้ คำนี้มีความหมายตามตัวอักษรเนื่องจากการทดสอบจริงๆ แล้วเป็นการติดตามควัน สร้างมุกทางเทคนิคที่น่าขบขันซึ่งได้รับการตอบรับจากชุมชนนักพัฒนา
ในขณะที่ผู้แสดงความคิดเห็นบางคนแนะนำทางเลือกที่ง่ายกว่า เช่น การติดตามการแจ้งเตือนข่าวบนโทรศัพท์ วิธีการที่ใช้ AI แสดงให้เห็นว่าการจดจำภาพสามารถนำไปประยุกต์ใช้กับเหตุการณ์ในโลกจริงด้วยความพยายามในการพัฒนาน้อยที่สุด ซึ่งอาจเปิดประตูสู่การประยุกต์ใช้ที่คล้ายกันในโดเมนอื่นๆ ที่ต้องการการติดตามภาพและการตรวจจับเหตุการณ์
อ้างอิง: papal_election_smoke.test.ts