OpenAI เปิดตัว Advanced Voice Mode ฟีเจอร์ตอบโต้กับผู้ใช้ผ่านกล้องหรือจอภาพได้แบบเรียลไทม์ใน ChatGPT

ChatGPT logo

OpenAI เปิดตัว Advanced Voice Mode พร้อมฟีเจอร์วิดีโอแบบเรียลไทม์ใน ChatGPT


OpenAI ได้เปิดตัวฟีเจอร์วิดีโอแบบเรียลไทม์สำหรับ ChatGPT ซึ่งเคยมีการสาธิตไปแล้วเมื่อ 7 เดือนก่อน โดยฟีเจอร์นี้มาพร้อมกับ Advanced Voice Mode with Vision ที่ช่วยให้ ChatGPT สามารถตอบโต้กับสิ่งที่ผู้ใช้แสดงผ่านกล้องหรือจอภาพได้เกือบทันที

ฟีเจอร์หลักของ Advanced Voice Mode with Vision

  1. วิเคราะห์ภาพเรียลไทม์:
    • ผู้ใช้ที่สมัครสมาชิก ChatGPT Plus, Team, หรือ Pro สามารถใช้ฟีเจอร์นี้ผ่านแอป ChatGPT โดยเปิดกล้องและให้ ChatGPT วิเคราะห์วัตถุหรือภาพต่าง ๆ
    • ฟีเจอร์นี้ยังสามารถเข้าใจหน้าจอของอุปกรณ์ผ่าน screen sharing เช่น อธิบายเมนูการตั้งค่าหรือช่วยแก้ปัญหาคณิตศาสตร์
  2. วิธีใช้งาน:
      • แตะไอคอนไมโครโฟนข้างช่องสนทนา และเปิดโหมดวิดีโอผ่านไอคอนกล้องที่มุมซ้ายล่าง
      • สำหรับการแชร์หน้าจอ ให้เลือกเมนูสามจุดและแตะ “Share Screen”
  3. การเปิดให้ใช้งาน:
    • เริ่มทยอยเปิดให้ใช้งานตั้งแต่วันพฤหัสบดี (12 ธันวาคม 2024) และคาดว่าจะเสร็จสิ้นภายในสัปดาห์หน้า
    • อย่างไรก็ตาม ผู้ใช้ ChatGPT Enterprise, Edu, และผู้ใช้งานใน EU, สวิตเซอร์แลนด์, ไอซ์แลนด์, นอร์เวย์ และลิกเตนสไตน์ ยังไม่ได้รับฟีเจอร์นี้จนกว่าจะถึงเดือนมกราคม

การสาธิตและจุดเด่นที่สื่อสารออกมา

OpenAI สาธิตฟีเจอร์ Advanced Voice Mode with Vision ในรายการ 60 Minutes บน CNN โดยให้ ChatGPT ทดสอบทักษะกายวิภาคของ Anderson Cooper ขณะที่เขาวาดรูปอวัยวะบนกระดานดำ ChatGPT สามารถ “เข้าใจ” และให้คำแนะนำ เช่น:

“ตำแหน่งนี้ถูกต้อง สมองอยู่ในศีรษะ ส่วนรูปร่างถือว่าเริ่มต้นได้ดี แต่สมองควรมีลักษณะเป็นรูปวงรี”

แม้ฟีเจอร์นี้จะแสดงศักยภาพที่น่าประทับใจ แต่ก็มีข้อผิดพลาด เช่น การแก้โจทย์เรขาคณิตผิดพลาด ซึ่งแสดงให้เห็นว่า ChatGPT ยังมีแนวโน้มที่จะเกิดการ “หลอนข้อมูล” (hallucination)

ปัญหาการพัฒนาและคู่แข่ง

การพัฒนาฟีเจอร์นี้ประสบความล่าช้าหลายครั้ง เนื่องจาก OpenAI ประกาศเปิดตัวก่อนที่จะพร้อมใช้งานจริง ฟีเจอร์ Advanced Voice Mode ถูกสัญญาว่าจะเปิดตัวในเดือนเมษายน 2024 แต่ล่าช้าไปหลายเดือน

ในขณะเดียวกัน คู่แข่งเช่น Google และ Meta ก็กำลังพัฒนาความสามารถแบบเดียวกัน

  • Google เปิดตัวฟีเจอร์ Project Astra ซึ่งสามารถวิเคราะห์วิดีโอแบบเรียลไทม์ในกลุ่มผู้ทดสอบเฉพาะ
  • Meta กำลังพัฒนาระบบวิเคราะห์ภาพและวิดีโอสำหรับผลิตภัณฑ์ AI ของตนเอง

นอกเหนือจากฟีเจอร์ Advanced Voice Mode OpenAI ยังเพิ่มโหมดใหม่ “Santa Mode” ซึ่งให้ ChatGPT ใช้เสียงซานตาคลอส โดยผู้ใช้สามารถเปิดใช้งานได้ผ่านไอคอนเกล็ดหิมะในแอป (เปิดใช้งานแค่ถึงสิ้นปี)

การเปิดตัว Advanced Voice Mode with Vision ของ OpenAI แสดงถึงความก้าวหน้าในเทคโนโลยี AI ที่เข้าใจและโต้ตอบกับสภาพแวดล้อมจริงได้อย่างเป็นธรรมชาติ อย่างไรก็ตาม ยังมีข้อจำกัดในบางภูมิภาคและกลุ่มผู้ใช้งาน ซึ่งอาจเป็นสิ่งที่ OpenAI ต้องพัฒนาในอนาคตเพื่อให้ฟีเจอร์นี้เข้าถึงผู้ใช้ได้อย่างกว้างขวางยิ่งขึ้น

ที่มา – techcrunch.com

Share This :
About modify 6879 Articles
สามารถนำบทความไปเผยแพร่ได้อย่างอิสระ โดยกล่าวถึงแหล่งที่มา เป็นลิงค์กลับมายังบทความนั้นๆ บทความอาจมีการพิมพ์ตกเรื่องภาษาไปบ้าง ต้องขออภัย พยามจะพิมพ์ผิดให้น้อยที่สุด (ทำเว็บคนเดียวไม่มีคนตรวจทาน) บทความที่สอนเรื่องต่างๆ กรุณาอ่านบทความให้เข้าใจก่อนโพสต์ถาม ติดตรงไหนสามารถถามได้ที่โพสต์นั้นๆ

Be the first to comment

Leave a Reply

Your email address will not be published.