Google ประกาศเปิดตัว Gemini 3.1 Flash-Lite โมเดลปัญญาประดิษฐ์รุ่นใหม่ในตระกูล Gemini 3 ที่ถูกพัฒนาขึ้นเพื่อเน้นความคุ้มค่าและลดต้นทุนโดยเฉพาะ โมเดลรุ่นนี้มุ่งเป้าไปที่กลุ่มนักพัฒนาและองค์กรที่ต้องจัดการกับระบบที่มีปริมาณการใช้งานสูง (High-volume) และต้องการความหน่วงต่ำ (Low-latency) เช่น ระบบแปลภาษา การคัดกรองเนื้อหา และการดึงข้อมูลพื้นฐาน
จุดเด่นสำคัญของ Gemini 3.1 Flash-Lite คือความเร็วในการตอบสนอง (Time to First Token) ที่เร็วกว่ารุ่น Gemini 2.5 Flash ถึง 2.5 เท่า และมีอัตราการส่งออกข้อมูลโดยรวมเร็วขึ้น 45% แม้จะเป็นโมเดลขนาดเล็ก แต่ผลการทดสอบประสิทธิภาพ (Benchmark) กลับทำคะแนน Elo score ได้ 1432 บนแพลตฟอร์ม Arena.ai ส่วนการทดสอบความสามารถเฉพาะทางทำคะแนน GPQA Diamond ได้ 86.9% และ MMMU Pro ได้ 76.8% ซึ่งสูงกว่าโมเดลในระดับเดียวกันอย่าง GPT-5 mini, Claude 4.5 Haiku และ Grok 4.1 Fast อย่างชัดเจน
นอกจากนี้ Google ยังได้เพิ่มความสามารถใหม่ที่เรียกว่า Expanded thinking support ซึ่งเปิดโอกาสให้นักพัฒนาสามารถควบคุม “ระดับการคิดวิเคราะห์” ของโมเดลได้ 4 ระดับ เพื่อสร้างสมดุลระหว่างความเร็วและคุณภาพของผลลัพธ์ให้เหมาะสมกับงานแต่ละประเภท ได้แก่
- Minimal: จำกัดการวิเคราะห์ให้น้อยที่สุดเพื่อดึงความเร็วออกมาสูงสุด
- Low: ใช้การวิเคราะห์ในระดับต่ำ
- Medium: ใช้การวิเคราะห์ระดับปานกลาง
- High: เปิดการวิเคราะห์ระดับสูงสำหรับงานที่ต้องการรายละเอียดและตรรกะที่ซับซ้อน
โครงสร้างโมเดลรุ่นนี้รองรับหน้าต่างบริบท (Context window) สูงสุดที่ 1 ล้านโทเค็น โดยสามารถรับข้อมูลนำเข้าได้แบบมัลติโมดัล ทั้งข้อความ รูปภาพ วิดีโอ และเสียง สำหรับโครงสร้างราคาการเรียกใช้งานผ่าน API นั้น กำหนดไว้ที่ 0.25 ดอลลาร์สหรัฐต่อ 1 ล้านโทเค็นอินพุต และ 1.50 ดอลลาร์สหรัฐต่อ 1 ล้านโทเค็นเอาต์พุต ซึ่งถือเป็นอัตราที่เอื้อต่อการพัฒนาระบบสเกลใหญ่
ปัจจุบันโมเดล Gemini 3.1 Flash-Lite เปิดให้ทดลองใช้งานในสถานะพรีวิว (Preview) แล้ว โดยนักพัฒนาทั่วไปสามารถเข้าถึงได้ผ่าน Gemini API บนแพลตฟอร์ม Google AI Studio ส่วนลูกค้าระดับองค์กรสามารถใช้งานผ่าน Vertex AI บนระบบ Google Cloud
ที่มา: Google Blog