OpenAI เปิดตัวฟีเจอร์เสียง Voice Intelligence ใหม่ใน API ชูความสามารถ GPT-Realtime-2 พร้อมระบบแปลและถอดความแบบเรียลไทม์

OpenAI logo

อัปเดตล่าสุดจาก OpenAI นำเสนอฟีเจอร์ Voice Intelligence ลงใน API เพื่อยกระดับการพัฒนาแอปพลิเคชัน


OpenAI ประกาศว่า API ของบริษัทจะได้รับการอัปเดตฟีเจอร์ด้าน Voice Intelligence ใหม่จำนวนมาก ซึ่งออกแบบมาเพื่อช่วยให้นักพัฒนาสามารถสร้างแอปพลิเคชันที่สามารถพูดคุย ถอดความ และแปลบทสนทนากับผู้ใช้งานได้ โดยหนึ่งในโมเดลใหม่ที่โดดเด่นคือ GPT-Realtime-2 ซึ่งเป็นโมเดลเสียงที่สร้างขึ้นเพื่อจำลองเสียงพูดที่สมจริงและสามารถโต้ตอบกับผู้ใช้งานได้ แตกต่างจากรุ่นก่อนหน้า (GPT-Realtime-1.5) เนื่องจากรุ่นใหม่นี้ถูกสร้างขึ้นด้วยการประมวลผลเชิงเหตุผลระดับ GPT-5-class ที่ OpenAI ระบุว่าถูกพัฒนามาเพื่อรับมือกับคำขอที่มีความซับซ้อนมากยิ่งขึ้นจากผู้ใช้งาน

นอกจากนี้ บริษัทยังได้เปิดตัว GPT-Realtime-Translate ซึ่งออกแบบมาเพื่อให้บริการแปลภาษาแบบเรียลไทม์ที่สามารถทำงานก้าวตามบทสนทนาของผู้ใช้ได้อย่างต่อเนื่อง ฟีเจอร์นี้รองรับภาษาอินพุต (ภาษาที่ระบบสามารถทำความเข้าใจได้) มากกว่า 70 ภาษา และภาษาเอาต์พุต (ภาษาที่ระบบสื่อสารกลับไปยังผู้พูด) จำนวน 13 ภาษา พร้อมกันนี้ยังมีการเปิดตัวความสามารถในการถอดความใหม่ในชื่อ GPT-Realtime-Whisper ซึ่งมอบความสามารถในการแปลงเสียงพูดเป็นข้อความแบบสดๆ ในขณะที่เกิดการโต้ตอบขึ้น

OpenAI ระบุว่าโมเดลที่กำลังเปิดตัวนี้จะช่วยขับเคลื่อนเสียงแบบเรียลไทม์จากการถามตอบแบบง่ายๆ ไปสู่อินเทอร์เฟซเสียงที่สามารถทำงานได้จริง ทั้งการฟัง การใช้เหตุผล การแปล การถอดความ และการดำเนินการตามที่บทสนทนาดำเนินไป สำหรับกลุ่มเป้าหมายของการอัปเดตเหล่านี้ บริษัทที่ต้องการขยายขีดความสามารถด้านการบริการลูกค้าถือเป็นกลุ่มหลัก แต่ OpenAI ยังระบุเพิ่มเติมว่าฟีเจอร์ใหม่นี้จะเข้ามาช่วยสนับสนุนในหลากหลายสาขา เช่น การศึกษา สื่อ กิจกรรม และแพลตฟอร์มสำหรับครีเอเตอร์

เพื่อป้องกันการนำเทคโนโลยีไปใช้ในทางที่ผิด OpenAI ได้สร้างระบบป้องกันเพื่อหยุดยั้งไม่ให้ฟีเจอร์ใหม่ถูกนำไปสร้างสแปม การฉ้อโกง หรือการล่วงละเมิดทางออนไลน์รูปแบบอื่นๆ โดยมีการฝังระบบตรวจสอบไว้ เพื่อให้สามารถระงับบทสนทนาได้ทันทีหากตรวจพบว่ามีการละเมิดหลักเกณฑ์ด้านเนื้อหาที่เป็นอันตราย ทั้งนี้ โมเดลเสียงใหม่ทั้งหมดจะถูกรวมอยู่ใน Realtime API ของ OpenAI โดยในส่วนของการคิดค่าบริการ Translate และ Whisper จะถูกเรียกเก็บเงินเป็นรายนาที ในขณะที่ GPT-Realtime-2 จะถูกเรียกเก็บเงินตาม Token consumption (การบริโภคโทเคน)

ที่มา: OpenAI

Share This :
About modify 7062 Articles
สามารถนำบทความไปเผยแพร่ได้อย่างอิสระ โดยกล่าวถึงแหล่งที่มา เป็นลิงค์กลับมายังบทความนั้นๆ บทความอาจมีการพิมพ์ตกเรื่องภาษาไปบ้าง ต้องขออภัย พยามจะพิมพ์ผิดให้น้อยที่สุด (ทำเว็บคนเดียวไม่มีคนตรวจทาน) บทความที่สอนเรื่องต่างๆ กรุณาอ่านบทความให้เข้าใจก่อนโพสต์ถาม ติดตรงไหนสามารถถามได้ที่โพสต์นั้นๆ

Be the first to comment

Leave a Reply

Your email address will not be published.