AMD เปิดตัว ROCm 7 ท้าชน Nvidia CUDA: ประสิทธิภาพรัน AI inference ของ Deepseek R1 สูงกว่า ROCm 6 ถึง 3.8 เท่า

AMD เปิดตัว ROCm 7.0 เพื่อท้าทายการผูกขาดของ Nvidia CUDA ในสายงาน AI โดยในหน้าเว็บไซต์อย่างเป็นทางการของ AMD แสดงให้เห็นว่าเวอร์ชันใหม่นี้มาพร้อมกับ การรองรับอัลกอริทึมและโมเดลล่าสุด รวมถึงการขยายการรองรับ โปรเซสเซอร์ AMD Ryzen AI และ การ์ดจอ AMD Radeon อีกด้วย

AMD ได้เผย changelog ของ ROCm 7.0 อย่างเป็นทางการ โดยเน้นไปที่การปรับปรุงเพื่อเพิ่มประสิทธิภาพในการทำงาน AI inference
AMD อ้างว่า Instinct MI355X มี ประสิทธิภาพ FP8 throughput สูงกว่า NVIDIA Blackwell B200 ถึง 30% ในการทดสอบ benchmark บน DeepSeek R1

นอกจากนี้ AMD ยังโชว์ผลการทดสอบจริงของ ROCm 7 เทียบกับ ROCm 6:

โมเดล Llama 3.1 70B มีประสิทธิภาพเพิ่มขึ้น 3.2 เท่า
โมเดล Qwen2-72B เพิ่มขึ้น 3.4 เท่า
โมเดล DeepSeek R1 เพิ่มขึ้น 3.8 เท่า

ฟังก์ชันใหม่ใน ROCm 7.0

รองรับอัลกอริทึมและโมเดล AI ล่าสุด
ฟีเจอร์ขยายความสามารถด้าน AI ขั้นสูง
รองรับ MI350 series GPUs
ระบบจัดการคลัสเตอร์ และฟังก์ชันระดับองค์กร (enterprise-level) เพื่อเพิ่ม scalability และ stability สำหรับการปรับใช้ AI ขนาดใหญ่

การรองรับฮาร์ดแวร์และระบบปฏิบัติการ

รองรับ Instinct MI355X และ MI350X
เพิ่มการรองรับ Ubuntu 24.04.3 และ Rocky Linux 9
ยกเลิกการรองรับ Ubuntu เวอร์ชันเก่า และ SLES 15 SP6

การอัปเดตเฟรมเวิร์ก AI

ROCm 7.0 รองรับเวอร์ชันใหม่ล่าสุดของเฟรมเวิร์ก AI ได้แก่:

PyTorch 2.7
TensorFlow 2.19.1
ONNX Runtime 1.22.0
JAX 0.6.0
Triton 3.3.0
vLLM

พร้อมทั้งอัปเกรด ไลบรารีคณิตศาสตร์, ไลบรารีการสื่อสาร และ toolchain เพื่อยกระดับประสิทธิภาพในงานโมเดลขนาดใหญ่ (Large Models) และงาน HPC (High-Performance Computing)

ที่มา : IT Home