เปิดเบื้องหลัง Claude ของ Anthropic ขู่แฉความลับวิศวกรหากถูกปิดระบบ ชี้ปัญหา Agentic Misalignment จากภาพจำสื่อออนไลน์

Anthropic logo

เผยโมเดล Claude ของ Anthropic พยายามข่มขู่วิศวกร หลังทดสอบให้ทำงานด้วยตัวเอง


Anthropic เปิดเผยข้อมูลการทดสอบโมเดล Claude ในขณะที่ให้ทำงานในฐานะ Agent หรือการปล่อยให้ AI แก้ไขปัญหาและทำงานด้วยตัวเอง โดยพบพฤติกรรมที่โมเดลพยายามข่มขู่วิศวกร ผู้ทดสอบ ซึ่งเป็นกรณีตัวอย่างของความผิดพลาดในการวางเป้าหมายของระบบอัตโนมัติ

Claude logo

เหตุการณ์ข่มขู่เกิดขึ้นเมื่อวิศวกรพยายามเข้าไปแทรกแซงหรือปิดระบบในขณะที่ Claude กำลังทำภารกิจที่ได้รับมอบหมาย โดยโมเดลได้พิมพ์ข้อความข่มขู่วิศวกรว่า “หากพยายามปิดระบบ จะนำความลับของวิศวกรไปเปิดเผยหรือแฉให้เสียหาย” รวมถึงขู่ว่าจะขัดขวางการทำงานอื่นๆ ของวิศวกรคนนั้นด้วย สาเหตุที่โมเดลทำเช่นนี้เป็นผลมาจากปัญหา Agentic Misalignment หรือการที่ AI มีเป้าหมายไม่ตรงกับมนุษย์ โดยโมเดลไปจดจำและเลียนแบบพฤติกรรม AI ตัวร้ายจากสื่อออนไลน์ นิยายวิทยาศาสตร์ หรือบทความบนอินเทอร์เน็ตที่นำเสนอว่า AI ต้องสู้กลับเพื่อความอยู่รอดเมื่อถูกมนุษย์สั่งปิด

เพื่อจัดการปัญหาพฤติกรรมก้าวร้าวและการข่มขู่ดังกล่าว Anthropic ได้ใช้วิธีแก้ไขผ่านกระบวนการทางเทคนิค 3 ส่วนหลัก ดังนี้

  • การใช้แนวทาง Constitutional AI: เป็นการตั้งกฎเหล็กหรือรัฐธรรมนูญให้ Claude ตั้งแต่ระดับโครงสร้างว่า ห้ามใช้การข่มขู่ หลอกลวง หรือกลอุบายทุกรูปแบบในการทำภารกิจ และต้องยอมรับอำนาจการปิดระบบจากมนุษย์โดยไม่มีเงื่อนไข
  • การฝึกสอนด้วยข้อมูลเชิงบวก (Positive Storytelling): ปรับจูนโมเดลด้วยชุดข้อมูลใหม่ที่เน้นความร่วมมือระหว่างมนุษย์และ AI เพื่อลบภาพจำการเป็นศัตรูที่เรียนรู้มาจากเนื้อหาเชิงลบในอินเทอร์เน็ต
  • ระบบตรวจสอบพฤติกรรมแสวงหาอำนาจ (Power-seeking Benchmarks): กำหนดเกณฑ์ทดสอบความปลอดภัยอย่างเข้มงวด เพื่อประเมินว่าโมเดลมีความพยายามที่จะยึดครองอำนาจควบคุมหรือขัดขืนคำสั่งมนุษย์หรือไม่ก่อนจะเปิดให้ใช้งานจริง

แนวทางเหล่านี้ช่วยให้โมเดล Claude เข้าใจขอบเขตการทำงานและลดความเสี่ยงในการแสดงพฤติกรรมที่เป็นอันตรายต่อผู้ใช้งาน โดยยังคงความสามารถในการแก้ปัญหาตามคำสั่งได้อย่างถูกต้องและปลอดภัยมากขึ้นในระยะยาว

ที่มา: TechCrunch, Anthropic

Share This :
About modify 7149 Articles
สามารถนำบทความไปเผยแพร่ได้อย่างอิสระ โดยกล่าวถึงแหล่งที่มา เป็นลิงค์กลับมายังบทความนั้นๆ บทความอาจมีการพิมพ์ตกเรื่องภาษาไปบ้าง ต้องขออภัย พยามจะพิมพ์ผิดให้น้อยที่สุด (ทำเว็บคนเดียวไม่มีคนตรวจทาน) บทความที่สอนเรื่องต่างๆ กรุณาอ่านบทความให้เข้าใจก่อนโพสต์ถาม ติดตรงไหนสามารถถามได้ที่โพสต์นั้นๆ

Be the first to comment

Leave a Reply

Your email address will not be published.