Microsoft Azure ประกาศเปิดตัว NDv6 GB300 VM series ใหม่ ซึ่งเป็นคลัสเตอร์ซูเปอร์คอมพิวเตอร์ระดับการผลิตเครื่องแรกของอุตสาหกรรมที่ใช้ระบบ NVIDIA GB300 NVL72 โดยออกแบบมาเฉพาะเพื่อรองรับงานประมวลผล AI ขั้นสูงของ OpenAI ที่ต้องการพลังในการอนุมาน (inference) อย่างมหาศาล
คลัสเตอร์ระดับซูเปอร์คอมพิวเตอร์นี้ประกอบด้วย GPU NVIDIA Blackwell Ultra มากกว่า 4,600 ตัว เชื่อมต่อกันผ่านเครือข่ายความเร็วสูง NVIDIA Quantum-X800 InfiniBand โดยไมโครซอฟท์ได้ออกแบบระบบในระดับวิศวกรรมใหม่หมด ทั้งด้านหน่วยความจำและเครือข่าย เพื่อให้สามารถรองรับการประมวลผลขนาดใหญ่ที่จำเป็นต่อโมเดล AI เชิงเหตุผล (reasoning models) และระบบ AI แบบ Agentic
ความสำเร็จครั้งนี้เป็นผลจากความร่วมมืออย่างลึกซึ้งระยะยาวระหว่าง NVIDIA และ Microsoft ในการสร้างโครงสร้างพื้นฐานสำหรับ AI ที่ทรงพลังที่สุดในโลก เพื่อผลักดันขอบเขตของนวัตกรรม AI รุ่นถัดไป และตอกย้ำความเป็นผู้นำด้านเทคโนโลยีของสหรัฐฯ
“การส่งมอบคลัสเตอร์ NVIDIA GB300 NVL72 ระดับการผลิตเครื่องแรกของโลก ถือเป็นความสำเร็จที่ยิ่งใหญ่เกินกว่าชิปประมวลผลทรงพลัง มันสะท้อนให้เห็นถึงความมุ่งมั่นร่วมกันของ Microsoft Azure และ NVIDIA ในการปรับแต่งทุกองค์ประกอบของศูนย์ข้อมูล AI สมัยใหม่”
— Nidhi Chappell, รองประธานฝ่ายโครงสร้างพื้นฐาน AI ของ Microsoft Azure
เธอกล่าวเพิ่มเติมว่า “ความร่วมมือของเราช่วยให้ลูกค้าอย่าง OpenAI สามารถนำโครงสร้างพื้นฐานยุคใหม่ไปใช้งานได้ในระดับและความเร็วที่ไม่เคยมีมาก่อน”
หัวใจของเครื่องยนต์: NVIDIA GB300 NVL72
หัวใจหลักของ NDv6 GB300 VM series คือระบบ NVIDIA GB300 NVL72 แบบระบายความร้อนด้วยของเหลว ซึ่งเป็นหน่วยประมวลผลระดับแร็ก (rack-scale) แต่ละแร็กบรรจุ GPU Blackwell Ultra จำนวน 72 ตัว และ CPU NVIDIA Grace อีก 36 ตัว รวมเป็นหน่วยเดียวที่ทรงพลังเพื่อเร่งการเทรนและการอนุมานของโมเดล AI ขนาดยักษ์
ระบบนี้ให้หน่วยความจำความเร็วสูงรวมกว่า 37 เทราไบต์ และพลังประมวลผลสูงสุดถึง 1.44 เอกซะฟล็อปส์ (FP4 Tensor Core) ต่อ VM — สร้างพื้นที่หน่วยความจำขนาดใหญ่และเชื่อมโยงกันเป็นหนึ่งเดียว เหมาะกับโมเดลเชิงเหตุผล, ระบบ AI แบบ Agentic และโมเดล Generative AI แบบหลายโมดัล (multimodal)
แพลตฟอร์ม NVIDIA Blackwell Ultra มาพร้อมซอฟต์แวร์เต็มระบบของ NVIDIA เช่น ไลบรารีสื่อสารแบบรวมกลุ่ม (collective communication libraries) ที่รองรับรูปแบบข้อมูลใหม่อย่าง NVFP4 เพื่อเร่งความเร็วในการเทรน และคอมไพเลอร์ NVIDIA Dynamo สำหรับประสิทธิภาพสูงสุดในงานอนุมาน (inference)
ในผลการทดสอบ MLPerf Inference v5.1 ล่าสุด ระบบ NVIDIA GB300 NVL72 ทำสถิติสูงสุดโดยใช้ NVFP4 — ให้ประสิทธิภาพสูงกว่าเดิมถึง 5 เท่า ต่อ GPU บนโมเดลเชิงเหตุผลขนาด 671,000 ล้านพารามิเตอร์อย่าง DeepSeek-R1 เมื่อเทียบกับสถาปัตยกรรม NVIDIA Hopper และยังทำคะแนนนำในทุกการทดสอบใหม่ เช่น Llama 3.1 405B
โครงข่ายของซูเปอร์คอมพิวเตอร์: NVLink Switch และ NVIDIA Quantum-X800 InfiniBand
เพื่อเชื่อมต่อ GPU Blackwell Ultra มากกว่า 4,600 ตัวให้กลายเป็นซูเปอร์คอมพิวเตอร์หนึ่งเดียว Microsoft Azure ใช้โครงสร้างเครือข่ายสองชั้นจาก NVIDIA ที่ออกแบบมาสำหรับประสิทธิภาพสูงทั้งภายในแร็กและระหว่างแร็ก
ในแต่ละแร็กของ GB300 NVL72 ใช้ NVLink Switch รุ่นที่ 5 ที่ให้แบนด์วิดธ์แบบเชื่อมตรงทุกคู่ (all-to-all) ถึง 130 เทราไบต์ต่อวินาที ระหว่าง GPU ทั้ง 72 ตัว ทำให้ทั้งแร็กทำงานเหมือนตัวเร่ง (accelerator) หนึ่งตัวที่มีหน่วยความจำร่วมกัน
นอกเหนือจากแร็ก ระบบจะขยายต่อด้วย NVIDIA Quantum-X800 InfiniBand ที่ออกแบบมาสำหรับโมเดลระดับ “ล้านล้านพารามิเตอร์ (trillion-parameter AI)” โดยใช้ NVIDIA ConnectX-8 SuperNIC และ Quantum-X800 Switch ให้แบนด์วิดธ์ถึง 800 กิกะบิตต่อวินาทีต่อ GPU เพื่อการสื่อสารที่ราบรื่นทั่วทั้ง 4,608 GPU
เครือข่ายนี้ยังใช้เทคโนโลยีขั้นสูงอย่าง adaptive routing, telemetry-based congestion control, performance isolation, และโปรโตคอล NVIDIA SHARP v4 เพื่อเพิ่มประสิทธิภาพของการเทรนและอนุมานในระดับซูเปอร์คอมพิวเตอร์อย่างมหาศาล
ขับเคลื่อนอนาคตของ AI
การสร้างคลัสเตอร์ NVIDIA GB300 NVL72 ขนาดใหญ่ระดับนี้ ต้องมีการออกแบบใหม่ทุกชั้นของศูนย์ข้อมูลของ Microsoft — ตั้งแต่ระบบระบายความร้อนด้วยของเหลว, ระบบจ่ายไฟ ไปจนถึงซอฟต์แวร์จัดการและระบบเก็บข้อมูล
นี่คือก้าวสำคัญในการสร้างโครงสร้างพื้นฐานที่จะปลดล็อก “อนาคตของ AI” อย่างแท้จริง และเมื่อ Azure เดินหน้าขยายโครงสร้างพื้นฐานไปสู่การติดตั้ง GPU NVIDIA Blackwell Ultra หลายแสนตัว เราจะได้เห็นนวัตกรรมใหม่ๆ อีกมากมายจากพันธมิตรอย่าง OpenAI และองค์กรชั้นนำทั่วโลก
ที่มา: Microsoft Azure