ผลทดสอบ MLPerf Training v5.1 เผยประสิทธิภาพ AMD Instinct MI355X/MI350X สำหรับการฝึกอบรม AI พร้อมเปิดตัวเบนช์มาร์กใหม่ Llama 3.1 8B ที่พัฒนาเอง

AMD Logo

AMD โชว์พลัง MI355X / MI350X ใน MLPerf Training v5.1 พร้อมเปิดตัวเบนช์มาร์กใหม่ Llama 3.1 8B ที่พัฒนาเอง


AMD เผยรายละเอียดผลการทดสอบในรอบ MLPerf Training v5.1 เมื่อวันที่ 12 พฤศจิกายน 2025 โดยนำเสนอประสิทธิภาพของ GPU รุ่นใหม่ AMD Instinct MI355X และ MI350X เป็นครั้งแรก พร้อมการเปิดตัวเบนช์มาร์กใหม่ Llama 3.1 8B Pretraining ที่ AMD เป็นผู้นำพัฒนา เพื่อให้สถาบันวิจัยและบริษัทขนาดเล็กเข้าถึงการประเมินคุณภาพการฝึก LLM ได้ง่ายขึ้น

mlperf training v5.1

นอกจากนี้ AMD ยังส่งผลทดสอบรวมสามเจเนอเรชันของ Instinct GPU ได้แก่ MI355X, MI350X, MI325X และ MI300X นับเป็นรอบที่มีพาร์ตเนอร์เข้าร่วมส่งผลมากที่สุดของ AMD และเป็นสัญญาณว่าตลาด AI เริ่มเปิดรับฮาร์ดแวร์ของ AMD มากขึ้นเรื่อย ๆ

AMD Instinct MI355X / MI350X: สถาปัตยกรรม CDNA 4 พร้อม FP4 / FP8 สำหรับยุค LLM

MI355X ถูกออกแบบมาเพื่องาน AI สเกลใหญ่โดยเฉพาะ ใช้สถาปัตยกรรม AMD CDNA 4 ที่ให้ประสิทธิภาพสูง และรองรับงานทั้งการฝึกและอินเฟอเรนซ์ LLM อย่างเต็มรูปแบบ จุดเด่นประกอบด้วย:

  • รองรับ FP4 และ FP8 อย่างเต็มรูปแบบ
  • พลังประมวลผลสูงสุด 20 PFLOPS (FP4)
  • HBM3e ขนาด 288GB แบนด์วิดท์ 8TB/s
  • ออกแบบสำหรับงาน Multi-user และ Model Serving จำนวนมาก
  • รองรับระบบ Liquid Cooling เพื่อคงความเสถียรและลดพลังงาน

ภาพรวมคือ AMD ต้องการวาง MI355X เป็นคู่แข่งโดยตรงของ Nvidia Blackwell ในตลาด LLM Training/Inference ที่กำลังเติบโตอย่างรวดเร็ว

เบนช์มาร์กที่ AMD ส่งใน MLPerf Training v5.1

AMD ส่งผลทดสอบในงานสำคัญสองรายการ ได้แก่ Llama 2 70B LoRA Finetuning และ Llama 3.1 8B Pretraining ซึ่งเป็นรุ่นใหม่ล่าสุดที่ AMD นำพัฒนาเอง

Llama 2 70B LoRA Finetuning เป็นงานทดสอบยอดนิยมที่สุดใน MLPerf Training ใช้เทคนิค Parameter-Efficient Fine-Tuning (PEFT) อย่าง LoRA เพื่อลดการใช้หน่วยความจำและเร่งเวลาเทรน เหมาะสำหรับทดสอบประสิทธิภาพระบบ LLM จำนวนมาก

Llama 3.1 8B Pretraining ถูกสร้างมาเพื่อให้เข้าถึงได้ง่ายกว่าเบนช์มาร์กรุ่นใหญ่ Llama 3.1 405B ใช้เพียง 1 node ก็สามารถรันได้ แต่ยังคงโครงสร้างการวัดผลเดิม เช่น perplexity และ dataset ที่เหมือนกัน

  • ใช้ C4 dataset
  • ไม่ใช้ checkpoint เริ่มจาก random weights
  • สามารถปรับ batch size, learning rate, warmup samples ได้
  • ถูกออกแบบให้รองรับจากระดับเล็กไปจนถึงสเกลใหญ่

AMD Instinct MI350 Series GPUs

เทคนิคเร่งประสิทธิภาพที่ใช้ในรอบนี้

AMD อธิบายการเพิ่มประสิทธิภาพเชิงลึกหลายระดับ ตั้งแต่ kernel-level ไปจนถึงระบบปฏิบัติการ โดยเฉพาะงาน LLM ที่ใช้ GEMM และ Attention สูงมาก

  • GEMM Optimization: ปรับ tile size, scheduling และ memory pattern พร้อมอัปสตรีมเข้า hipBLASLt
  • Flash Attention v3: ใช้ AITER framework ทำให้เร็วกว่าเวอร์ชันเดิมอย่างชัดเจน
  • Validation Optimization: ลดเวลาจาก 15 นาที เหลือ 3 นาที เพียงแค่ปรับจำนวน DataLoader workers
  • อัปเกรด ROCm และ PyTorch: ROCm 7 + PyTorch 2.8 รองรับ gfx950 (MI355X) เต็มที่
  • Transformer Engine Improvements: เพิ่มประสิทธิภาพ SwiGLU, Fused Cross-Entropy และลด peak memory ด้วย 8-bit activation
  • System-Level Tuning: ปิด NUMA balancing, เปิด Transparent Huge Pages, ล้าง FS cache, ตั้ง CPU เป็นโหมด Performance

ผลลัพธ์ใน MLPerf Training v5.1: AMD สูสี Nvidia อย่างมาก

ผลทดสอบรอบนี้แสดงว่า GPU ของ AMD มีประสิทธิภาพใกล้เคียงกับแพลตฟอร์ม Nvidia Blackwell รุ่นล่าสุดอย่างมาก:

  • Llama 2 70B LoRA: MI355X ช้ากว่า Nvidia B200 เพียง 3% และช้ากว่า B300 เพียง 6%
  • Llama 3.1 8B Pretrain: MI355X ช้ากว่า B200 เพียง 6% และช้ากว่า B300 เพียง 5%

ยิ่งไปกว่านั้น เมื่อเทียบกับผล FP8 รุ่นก่อนหน้า:

MI355X (10.18 นาที) ชนะ GB200 ของ Nvidia (11.145 นาที) ประมาณ 10%

น่าสังเกตว่า Nvidia ไม่มี FP8 ส่งในรอบนี้ และส่งเฉพาะ FP4 ซึ่ง AMD ระบุว่ายังไม่พร้อมใช้งานจริงสำหรับการเทรน

สรุปความหมายต่ออุตสาหกรรม

MLPerf Training v5.1 รอบนี้ตอกย้ำว่า AMD Instinct GPU เป็นทางเลือกที่จริงจังสำหรับงาน LLM Training/Inference ไม่ใช่แค่รองรับเท่านั้น แต่สามารถแข่งขันและบางจุดทำได้ดีกว่า Nvidia ด้วยซ้ำ

ทั้งด้านฮาร์ดแวร์ที่เน้นแบนด์วิดท์สูงและสถาปัตยกรรมสำหรับ AI โดยตรง รวมถึงซอฟต์แวร์ ROCm ที่เติบโตเร็วมาก จาก kernel, attention, transformer engine ไปจนถึงระบบสื่อสารระดับคลัสเตอร์ ทำให้ AMD เป็นตัวเลือกที่น่าเชื่อถือสำหรับองค์กรที่ต้องการฝึก LLM ระดับใหญ่

ที่มา: ROCm Blog (AMD)

About modify 6386 Articles
สามารถนำบทความไปเผยแพร่ได้อย่างอิสระ โดยกล่าวถึงแหล่งที่มา เป็นลิงค์กลับมายังบทความนั้นๆ บทความอาจมีการพิมพ์ตกเรื่องภาษาไปบ้าง ต้องขออภัย พยามจะพิมพ์ผิดให้น้อยที่สุด (ทำเว็บคนเดียวไม่มีคนตรวจทาน) บทความที่สอนเรื่องต่างๆ กรุณาอ่านบทความให้เข้าใจก่อนโพสต์ถาม ติดตรงไหนสามารถถามได้ที่โพสต์นั้นๆ

Be the first to comment

Leave a Reply

Your email address will not be published.