เมื่อโครงสร้างพื้นฐานด้าน AI เติบโตซับซ้อนขึ้น ผู้ให้บริการศูนย์ข้อมูลจำเป็นต้องมีการมองเห็นระบบแบบต่อเนื่อง—ครอบคลุมประสิทธิภาพ อุณหภูมิ และการใช้พลังงาน ข้อมูลเหล่านี้ช่วยให้ผู้ดูแลสามารถติดตามและปรับแต่งการตั้งค่าศูนย์ข้อมูลในระบบขนาดใหญ่ที่กระจายตัวอยู่หลายจุด เพื่อยืนยันว่าทุกอย่างทำงานอย่างมีประสิทธิภาพและเสถียรสูงสุด
NVIDIA กำลังพัฒนาซอฟต์แวร์สำหรับแสดงผลและมอนิเตอร์กองทัพ GPU ของ NVIDIA แบบครบวงจร—ให้ผู้ให้บริการคลาวด์และองค์กรสามารถใช้แดชบอร์ดเพื่อเพิ่มเวลา Uptime ของ GPU ในโครงสร้างพื้นฐานด้านการประมวลผลได้ง่ายขึ้น
โซลูชันนี้เป็นบริการแบบ “เลือกติดตั้ง” (Opt-In) ที่ลูกค้าติดตั้งเอง โดยซอฟต์แวร์จะมอนิเตอร์การใช้งาน GPU การตั้งค่าระบบ และข้อผิดพลาดต่าง ๆ พร้อมมีไคลเอนต์เอเจนต์แบบโอเพนซอร์ส—เป็นส่วนหนึ่งของความมุ่งมั่นของ NVIDIA ต่อซอฟต์แวร์ที่เปิดกว้าง โปร่งใส และช่วยให้ลูกค้าใช้ประโยชน์จากระบบ GPU ได้เต็มที่
ด้วยบริการนี้ ผู้ดูแลศูนย์ข้อมูลจะสามารถ:
-
ติดตามการพุ่งขึ้นของการใช้พลังงาน เพื่อควบคุมงบพลังงานพร้อมรักษาประสิทธิภาพต่อวัตต์สูงสุด
-
มอนิเตอร์อัตราการใช้งาน GPU แบนด์วิดท์ของหน่วยความจำ และสุขภาพของอินเตอร์คอนเน็กต์ในระบบทั้งหมด
-
ตรวจจับจุดร้อนและปัญหาการไหลเวียนลมได้ตั้งแต่เนิ่น ๆ เพื่อหลีกเลี่ยงการ Throttle และการเสื่อมสภาพของชิ้นส่วน
-
ตรวจสอบความสม่ำเสมอของซอฟต์แวร์และการตั้งค่าต่าง ๆ เพื่อให้ผลลัพธ์มีความเสถียรและทำซ้ำได้
-
ตรวจจับข้อผิดพลาดและความผิดปกติ เพื่อหาอุปกรณ์ที่อาจเริ่มเสื่อมสภาพตั้งแต่ก่อนเสียจริง
ความสามารถเหล่านี้ช่วยให้องค์กรและผู้ให้บริการคลาวด์เห็นภาพรวม GPU ของทั้งระบบ แก้ไขคอขวด และเพิ่มประสิทธิภาพเพื่อผลตอบแทนที่สูงขึ้น
บริการเสริมนี้ทำงานแบบเรียลไทม์ โดยแต่ละระบบ GPU จะสื่อสารและแชร์ข้อมูล Telemetry ไปยังบริการคลาวด์ภายนอกที่เกี่ยวข้อง ทั้งนี้ NVIDIA ยืนยันว่า GPU ของบริษัท ไม่มีเทคโนโลยีติดตามในตัว ไม่มี Kill Switch และไม่มี Backdoor ใด ๆ
เอเจนต์โอเพนซอร์สเพื่อข้อมูลเชิงลึกของเจ้าของศูนย์ข้อมูล
บริการนี้จะมาพร้อมไคลเอนต์ซอฟต์แวร์ที่ลูกค้าติดตั้งเอง เพื่อส่งข้อมูล Telemetry ของ GPU ระดับโหนดไปยังพอร์ทัลที่โฮสต์บน NVIDIA NGC ลูกค้าสามารถดูการใช้งาน GPU ทั้งหมดผ่านแดชบอร์ดได้ ทั้งในระดับทั่วโลกหรือแบ่งตามโซนประมวลผล (ตามภูมิภาคหรือคลาวด์ที่กำหนด)
ไคลเอนต์เอเจนต์นี้จะเป็นโอเพนซอร์ส เพื่อความโปร่งใสและการตรวจสอบได้เต็มรูปแบบ ทั้งยังเป็นตัวอย่างจริงสำหรับผู้ใช้ที่ต้องการนำ NVIDIA Tools เข้าไปในระบบมอนิเตอร์ GPU ขององค์กร ไม่ว่าจะเป็นคลัสเตอร์ขนาดใหญ่หรือทั้งกองทัพเซิร์ฟเวอร์
ซอฟต์แวร์นี้ให้ข้อมูลเชิงลึกเกี่ยวกับสินทรัพย์ GPU ขององค์กร แต่ ไม่สามารถแก้ไขการตั้งค่าหรือการทำงานภายใน GPU ได้—เป็นข้อมูลแบบ Read-Only ที่ลูกค้าควบคุมได้เองและปรับแต่งได้
บริการนี้ยังช่วยให้ลูกค้าสามารถสร้างรายงานสรุปข้อมูล GPU ทั้งหมดในระบบได้อีกด้วย
เมื่อแอปพลิเคชัน AI เพิ่มขึ้นทั้งจำนวนและความซับซ้อน การจัดการโครงสร้างพื้นฐาน AI ยุคใหม่จึงต้องพัฒนาไปพร้อมกัน การดูแลให้ศูนย์ข้อมูล AI ทำงานอย่างมีประสิทธิภาพสูงสุดเป็นสิ่งสำคัญ—และซอฟต์แวร์นี้ถูกออกแบบมาเพื่อช่วยให้ทำสิ่งนั้นได้ง่ายขึ้น
ที่มา: NVIDIA
มีรายงานจากสื่อต่างประเทศว่า NVIDIA ได้พัฒนาเทคโนโลยียืนยันตำแหน่งของชิป (chip location verification) ที่สามารถตรวจสอบได้ว่าชิปของตนถูกใช้งานอยู่ในประเทศใด ซึ่งช่วยลดความเสี่ยงที่ชิป AI จะถูกลักลอบส่งไปยังประเทศที่ถูกสั่งห้ามนำเข้า แหล่งข่าวระบุว่า NVIDIA ได้สาธิตฟีเจอร์นี้ให้เห็นภายในบริษัทตลอดช่วงหลายเดือนที่ผ่านมา แต่ยังไม่ได้เปิดตัวอย่างเป็นทางการ
ตามรายงานของ สำนักข่าวรอยเตอร์ (Reuters) เทคโนโลยีนี้ใช้การวิเคราะห์ “ความหน่วงของการสื่อสาร (latency)” ระหว่างชิป AI และเซิร์ฟเวอร์ของ NVIDIA เพื่อคำนวณตำแหน่งที่ชิปกำลังทำงานอยู่ โดยมีความแม่นยำในระดับใกล้เคียงกับบริการระบุตำแหน่งผ่าน IP
แม้ NVIDIA จะสามารถรู้ได้ว่าชิปเหล่านั้นอยู่ที่ใด แต่รายงานไม่ได้ระบุว่า หากชิปถูกลักลอบไปยังประเทศที่ถูกสั่งห้าม NVIDIA จะสามารถสั่ง “ปิดการทำงานระยะไกล” หรือทำให้ชิป “กลายเป็นอิฐ (brick)” ได้หรือไม่ อย่างไรก็ตาม NVIDIA สามารถแจ้งข้อมูลให้หน่วยงานของสหรัฐฯ เพื่อนำไปใช้ในการปราบปรามการลักลอบขนส่งชิป AI ได้
รายงานระบุว่า ฟีเจอร์ดังกล่าวจะถูกนำมาใช้ บนชิปล่าสุดตระกูล Blackwell ก่อนเป็นรุ่นแรก เพื่อตอบสนองต่อข้อเรียกร้องจากทำเนียบขาวและสมาชิกสภาคองเกรสสหรัฐฯ ทั้งสองพรรค.
ที่มา: HKEPC



