ตามข้อมูลของ The Information โปรเซสเซอร์ "Blackwell" ล่าสุดของ NVIDIA รายงานว่ากำลังประสบปัญหาการจัดการความร้อนอย่างมากในคอนฟิกูเรชันเซิร์ฟเวอร์ความหนาแน่นสูง ซึ่งอาจส่งผลกระทบต่อระยะเวลาการปรับใช้ของบริษัทเทคโนโลยีรายใหญ่ ปัญหาดังกล่าวเกิดขึ้นโดยเฉพาะในแร็ค NVL72 GB200 ที่มีโปรเซสเซอร์ GB200 จำนวน 72 ตัว ซึ่งสามารถกินไฟได้ถึง 120 กิโลวัตต์ต่อแร็ค โดยมีน้ำหนักเพียง 3,000 ปอนด์ (หรือประมาณ 1.5 ตัน) ปัญหาความร้อนเหล่านี้ทำให้ NVIDIA ต้องกลับมาพิจารณาและปรับเปลี่ยนการออกแบบแร็คเซิร์ฟเวอร์หลายครั้งเพื่อป้องกันการเสื่อมประสิทธิภาพและความเสียหายที่อาจเกิดขึ้นกับฮาร์ดแวร์ Hyperscaler เช่น Google, Meta และ Microsoft ซึ่งพึ่งพา GPU ของ NVIDIA อย่างมากในการฝึกโมเดลภาษาขั้นสูง ได้แสดงความกังวลเกี่ยวกับความล่าช้าที่อาจเกิดขึ้นในตารางการปรับใช้ศูนย์ข้อมูลของตน
ปัญหาการจัดการความร้อนเกิดขึ้นหลังจากความล้มเหลวก่อนหน้านี้ที่เกี่ยวข้องกับข้อบกพร่องในการออกแบบในกระบวนการผลิต Blackwell ปัญหาดังกล่าวเกิดจากเทคโนโลยีการบรรจุ CoWoS-L ที่ซับซ้อน ซึ่งเชื่อมต่อชิปเล็ตคู่โดยใช้ RDL interposer และ LSI bridge การขยายตัวของความร้อนที่ไม่ตรงกันระหว่างส่วนประกอบต่างๆ นำไปสู่ปัญหาการบิดเบี้ยว ซึ่งจำเป็นต้องปรับเปลี่ยนชั้นโลหะและโครงสร้างนูนของ GPU โฆษกของบริษัทได้กล่าวถึงการปรับเปลี่ยนเหล่านี้ว่าเป็นส่วนหนึ่งของกระบวนการพัฒนามาตรฐาน โดยระบุว่าหน้ากากป้องกันแสงแบบใหม่ช่วยแก้ไขปัญหานี้ได้ ข้อมูลดังกล่าวระบุว่าการผลิตจำนวนมากของ GPU Blackwell ที่ปรับปรุงใหม่เริ่มขึ้นในช่วงปลายเดือนตุลาคม โดยคาดว่าจะเริ่มจัดส่งในช่วงปลายเดือนมกราคม อย่างไรก็ตาม ไทม์ไลน์เหล่านี้ยังไม่ได้รับการยืนยันจาก NVIDIA และผู้ผลิตเซิร์ฟเวอร์บางราย เช่น Dell ยืนยันว่าระบบระบายความร้อนด้วยของเหลว GB200 NVL72 เหล่านี้กำลังจัดส่งในขณะนี้ ไม่ใช่ในเดือนมกราคม โดยมีผู้ให้บริการคลาวด์ GPU CoreWave เป็นลูกค้า รายงานฉบับเดิมอาจใช้ข้อมูลเก่า เนื่องจาก Dell เป็นหนึ่งในพันธมิตรที่สำคัญที่สุดของ NVIDIA และเป็นหนึ่งในกลุ่มแรกในห่วงโซ่อุปทานที่ได้รับสิทธิ์ในการเข้าถึง GPU ชุดใหม่
ที่มา : TechPowerUp
ที่มา : TechPowerUp