Michael Bolin วิศวกรของ OpenAI ได้เผยแพร่บทความทางเทคนิคที่มีความละเอียดเป็นพิเศษ เพื่ออธิบายกลไกการทำงานภายในของ Codex CLI ซึ่งเป็น AI Agent สำหรับการเขียนโค้ด โดยให้ข้อมูลเชิงลึกแก่นักพัฒนาเกี่ยวกับกระบวนการที่เครื่องมือ AI ใช้ในการเขียนโค้ด รันชุดทดสอบ (Run tests) และแก้ไขบั๊กภายใต้การดูแลของมนุษย์ ข้อมูลชุดนี้ถือเป็นการเติมเต็มรายละเอียดทางเทคนิคของสิ่งที่เรียกว่า “Agentic Loop” ที่เป็นหัวใจหลักของระบบ
ปัจจุบันเครื่องมือช่วยเขียนโค้ดด้วย AI กำลังเข้าสู่ยุค “ChatGPT Moment” ที่มีความสามารถก้าวกระโดด ทั้ง Claude Code (Opus 4.5) และ Codex (GPT-5.2) ต่างยกระดับความสามารถในการสร้างโปรต้นแบบและเขียนโค้ดพื้นฐาน (Boilerplate) ได้อย่างรวดเร็ว อย่างไรก็ตาม เครื่องมือเหล่านี้ยังไม่สมบูรณ์แบบและยังคงต้องการการตรวจสอบจากมนุษย์ โดยเฉพาะในงานระดับ Production ที่มีความซับซ้อนเกินกว่าข้อมูลที่ AI เคยเรียนรู้มา ซึ่งบทความของ Bolin ยอมรับถึงความท้าทายทางวิศวกรรมเหล่านี้อย่างตรงไปตรงมา เช่น ปัญหาความไร้ประสิทธิภาพจากการขยายตัวของ Prompt แบบ Quadratic หรือปัญหา Cache Miss ที่ส่งผลต่อประสิทธิภาพ
เจาะลึกกระบวนการ The Agent Loop
- วัฏจักรการทำงาน (The Cycle): แกนกลางของ Codex คือวงรอบการทำงานซ้ำๆ ที่เริ่มจากรับคำสั่งผู้ใช้ -> สร้าง Prompt -> ส่งให้โมเดลประมวลผล -> โมเดลตอบกลับหรือเรียกใช้เครื่องมือ (Tool Call) -> หากมีการเรียกใช้เครื่องมือ Agent จะดำเนินการและนำผลลัพธ์ใส่กลับไปใน Prompt -> ทำซ้ำจนกว่าจะได้คำตอบสุดท้าย
- โครงสร้าง Prompt (Prompt Construction): Codex สร้าง Prompt เริ่มต้นโดยประกอบจากหลายส่วน ได้แก่ คำสั่งระบบ (System), คำสั่งนักพัฒนา (Developer), ข้อมูลบริบท (Context) เช่น ไดเรกทอรีปัจจุบัน และข้อความของผู้ใช้ โดยช่อง Tools field จะกำหนดฟังก์ชันที่โมเดลสามารถเรียกใช้ได้ รวมถึงคำสั่ง Shell และเครื่องมือผ่านโปรโตคอล MCP (Model Context Protocol)
- การทำงานแบบ Stateless: Codex ออกแบบมาให้ส่งประวัติการสนทนา “ทั้งหมด” ไปใหม่ทุกครั้งที่มีการเรียก API (Stateless) แทนที่จะอ้างอิง State เดิมจากเซิร์ฟเวอร์ วิธีนี้ช่วยสนับสนุนนโยบาย “Zero Data Retention” ที่ OpenAI จะไม่เก็บข้อมูลผู้ใช้ แต่ก็แลกมาด้วยขนาด Prompt ที่ใหญ่ขึ้นเรื่อยๆ
- การแก้ปัญหา Prompt Growth: เพื่อจัดการกับขนาด Prompt ที่ขยายตัวแบบ Quadratic ทาง OpenAI ใช้เทคนิค Prompt Caching เข้ามาช่วย แต่ต้องระวังไม่ให้เกิดการเปลี่ยนแปลงเครื่องมือหรือโมเดลกลางคันซึ่งจะทำให้ Cache ใช้งานไม่ได้ นอกจากนี้ระบบยังมีกลไกการบีบอัดบทสนทนา (Compaction) โดยอัตโนมัติเมื่อจำนวน Token เกินขีดจำกัด โดยยังคงรักษา “ความเข้าใจ” ของโมเดลไว้ผ่าน Encrypted content item
การเปิดเผยรายละเอียดระดับนี้ถือเป็นเรื่องผิดปกติสำหรับ OpenAI ที่มักเก็บงำความลับของผลิตภัณฑ์หลักอย่าง ChatGPT ไว้ แต่สำหรับ Codex และเครื่องมือสาย Coding ทั้ง OpenAI และคู่แข่งอย่าง Anthropic ต่างเลือกที่จะเปิด Open-source ตัว CLI Client บน GitHub ให้นักพัฒนาเข้าไปตรวจสอบการทำงานได้ ซึ่งสะท้อนให้เห็นว่างานด้านการเขียนโปรแกรมเป็นพื้นที่ที่เหมาะสมอย่างยิ่งสำหรับการประยุกต์ใช้ Large Language Models (LLMs)
ที่มา: Ars Technica