MAI โมเดล AI ล่าสุดจาก Microsoft รองรับการแปลงเสียง สร้างเสียงสังเคราะห์ และภาพกราฟิกประสิทธิภาพสูงสำหรับนักพัฒนา
Microsoft ได้ประกาศเปิดตัวโมเดลปัญญาประดิษฐ์ 3 รุ่นใหม่ในตระกูล MAI ได้แก่ MAI-Transcribe-1, MAI-Voice-1 และ MAI-Image-2 โดยเปิดให้บริการแล้วผ่านแพลตฟอร์ม Microsoft Foundry และ MAI Playground โมเดลชุดใหม่นี้ได้รับการพัฒนาเพื่อนำเสนอคุณภาพระดับสูง ความเร็วในการประมวลผลที่รวดเร็ว และโครงสร้างราคาที่สามารถแข่งขันได้ในตลาดผู้ให้บริการคลาวด์
MAI-Transcribe-1 เป็นโมเดลสำหรับแปลงเสียงเป็นข้อความ (Speech-to-text) ที่รองรับภาษาที่มีการใช้งานสูงสุด 25 อันดับแรกตามมาตรฐานการทดสอบ FLEURS (รวมถึงภาษาไทย) โดยถูกออกแบบมาให้ทำงานได้ดีในสภาพแวดล้อมจริงที่มีเสียงรบกวน โมเดลนี้มีความเร็วในการแปลงเสียงแบบกลุ่ม (Batch transcription) เร็วกว่าบริการ Microsoft Azure Fast เดิมถึง 2.5 เท่า นอกจากนี้ยังมีอัตราความผิดพลาดของคำ (Word Error Rate – WER) เฉลี่ยต่ำที่สุดเพียง 3.9% ซึ่งมีความแม่นยำสูงกว่าโมเดลคู่แข่งอย่าง GPT-Transcribe (4.2%), Scribe v2 (4.3%), Gemini 3.1 Flash (4.9%) และ Whisper-large-v3 (7.6%)
MAI-Voice-1 คือโมเดลสร้างเสียงสังเคราะห์ระดับสูงสุดของบริษัท ที่สามารถสร้างเสียงพูดที่มีความเป็นธรรมชาติ สมจริง และมีระดับอารมณ์ที่หลากหลาย โดยยังคงเอกลักษณ์ของผู้พูดไว้ได้แม้ในเนื้อหาที่ยาว การอัปเดตล่าสุดนี้ช่วยให้นักพัฒนาสามารถสร้างเสียงแบบกำหนดเอง (Custom voice) ได้อย่างปลอดภัยโดยใช้ตัวอย่างเสียงต้นฉบับเพียงไม่กี่วินาที โมเดลนี้สามารถสร้างเสียงความยาว 60 วินาทีได้ภายในเวลาเพียง 1 วินาที ด้วยการจัดการทรัพยากร GPU ที่มีประสิทธิภาพ ซึ่งผู้ใช้งานสามารถทดสอบประสิทธิภาพได้ผ่าน Copilot Audio Expressions หรือ Copilot Podcasts
MAI-Image-2 เป็นโมเดลสร้างภาพที่ได้รับการปรับปรุงความเร็วและประสิทธิภาพ โดยสามารถสร้างภาพได้เร็วกว่าเดิมอย่างน้อย 2 เท่าบน Foundry และ Copilot เมื่อเทียบกับข้อมูลการใช้งานจริงก่อนหน้า โมเดลนี้ได้รับการจัดอันดับให้อยู่ในกลุ่ม Top 3 บนกระดานผู้นำของ Arena.ai และกำลังอยู่ในช่วงทยอยเปิดให้ใช้งานใน Bing และ PowerPoint โมเดลถูกออกแบบมาเพื่อตอบโจทย์ช่างภาพและนักออกแบบ โดยเน้นความสมจริงของแสง สีผิว พื้นผิว และความคมชัดของตัวอักษรที่ปรากฏในภาพ ปัจจุบัน WPP กลุ่มบริษัทด้านการตลาดและการสื่อสารระดับโลก ได้เริ่มนำ MAI-Image-2 ไปใช้งานจริงในระดับองค์กรแล้ว
สำหรับโครงสร้างราคาค่าบริการของโมเดลตระกูล MAI บนแพลตฟอร์ม Microsoft Foundry มีรายละเอียดดังต่อไปนี้:
- MAI-Transcribe-1: ราคาเริ่มต้นที่ 0.36 ดอลลาร์สหรัฐต่อชั่วโมง
- MAI-Voice-1: ราคาเริ่มต้นที่ 22 ดอลลาร์สหรัฐต่อ 1 ล้านตัวอักษร
- MAI-Image-2: ราคาเริ่มต้นที่ 5 ดอลลาร์สหรัฐต่อ 1 ล้านโทเคนสำหรับข้อความขาเข้า (Text input) และ 33 ดอลลาร์สหรัฐต่อ 1 ล้านโทเคนสำหรับภาพขาออก (Image output)
การพัฒนาโมเดล MAI สอดคล้องกับวิสัยทัศน์ Humanist AI ของ Microsoft ที่เน้นมนุษย์เป็นศูนย์กลางและปรับให้เหมาะสมกับวิธีการสื่อสารจริง โมเดลทั้งหมดผ่านการทดสอบความปลอดภัยและการจำลองการโจมตีระบบ (Red-teamed) อย่างเข้มงวด โดยนักพัฒนาที่ใช้งานผ่าน Microsoft Foundry จะได้รับการปกป้องด้วยระบบป้องกันในตัว การกำกับดูแล และเครื่องมือควบคุมระดับองค์กร เพื่อรองรับการใช้งานที่ปลอดภัยและเป็นไปตามข้อกำหนด ปัจจุบันนักพัฒนาสามารถเข้าถึงโมเดลเหล่านี้ได้แล้วบน Microsoft Foundry และ MAI Playground (เปิดให้ทดลองเฉพาะในสหรัฐอเมริกา)
We’re bringing our growing MAI model family to every developer in Foundry, including …
· MAI-Transcribe-1, most accurate transcription model in world across 25 languages
· MAI-Voice-1, natural, expressive speech generation
· MAI-Image-2, our most capable image model yetStart… pic.twitter.com/p0DZZcAUZ4
— Satya Nadella (@satyanadella) April 2, 2026
ที่มา: Microsoft AI
Leave a Reply