NVIDIA GeForce RTX 5090 และ RTX 6000 PRO เจอบั๊ก Virtualization ทำงานค้าง
การ์ดจอระดับท็อปของ NVIDIA ทั้ง GeForce RTX 5090 (ฝั่งคอนซูเมอร์) และ RTX 6000 PRO (ฝั่ง ProViz) กำลังเผชิญปัญหาบั๊กใหม่ที่เกี่ยวกับการทำงานด้าน virtualization โดยนักพัฒนาจาก CloudRift ผู้ให้บริการ GPU Cloud สำหรับนักพัฒนา AI รายงานว่า พวกเขาพบปัญหาที่ทำให้ RTX 5090 และ RTX 6000 PRO ไม่ตอบสนอง (unresponsive) อย่างสิ้นเชิง
อาการคือ เมื่อใช้งาน VM (GPU passthrough) ต่อเนื่องหลายวันหรือหลายสัปดาห์ การ์ดจอจะ ค้างแบบสุ่ม ไม่มีสัญญาณเตือนล่วงหน้า ทีมงานได้ทดสอบกับ GPU รุ่นอื่น เช่น H100, B200 และ RTX 4090 รุ่นก่อนหน้า แต่ไม่พบปัญหานี้เลย แม้แต่การ์ดเซิร์ฟเวอร์ระดับสูงสุด B200 Blackwell ก็ไม่เจอบั๊กดังกล่าว ปัญหาจึงเกิดเฉพาะบนการ์ด ฝั่งคอนซูเมอร์และ ProViz เท่านั้น
เบื้องหลังเชิงเทคนิค
เมื่อ GPU ถูกส่งต่อให้ VM ผ่าน KVM และ VFIO โฮสต์จะสั่ง PCIe Function-Level Reset (FLR) เพื่อทำความสะอาด (cleanup) ตอน VM ถูกปิดหรือย้ายการ์ด ทว่าหลังรีเซ็ต GPU กลับ ไม่สามารถกลับมาออนไลน์ได้ ทำให้ Kernel ขึ้นข้อความผิดพลาดว่า:
แสดงให้เห็นว่าจุดล้มเหลว (point of failure) อยู่ที่ GPU โดยตรง ซึ่ง CloudRift ถึงขั้นประกาศ ตั้งรางวัล $1,000 สำหรับใครก็ตามที่หาวิธีแก้ปัญหานี้ได้
ไม่ใช่เคสเดียวที่เจอ
ในฟอรั่ม Level1Tech ก็มีผู้ใช้หลายรายรายงานบั๊กลักษณะเดียวกัน NVIDIA เองยอมรับแล้วว่ามีปัญหาจริง และตอนนี้มีวิธีแก้ชั่วคราว (mitigation) ด้วยการใช้คำสั่ง
อย่างไรก็ตาม วิธีนี้เป็นเพียง การบรรเทา (mitigation) ไม่ใช่การแก้ถาวร เพราะ VM layering ยังเสี่ยงที่จะเจอบั๊ก NVIDIA จึงอาจต้องออก แพตช์ทางการ ผ่านทั้ง Driver Update หรือแม้กระทั่ง Linux Kernel Update ในอนาคต
ที่มา : Tom's Hardware