AI服務器是采用異構形式的服務器,在異構方式上可以根據應用的范圍采用不同的組合方式,如CPU+GPU、CPU+TPU、CPU+其他的加速卡等。與普通的服務器相比較,在內存、存儲、網絡方面沒有什么差別,主要在是大數據及云計算、人工智能等方面需要更大的內外存,滿足各種數據的收集與整理。
AI服務器與普通的GPU服務器雖然組成上類似,核心計算部件都是GPU加速卡,但是不可等同,主要有以下幾點區別:
1、卡的數量不一致:普通的GPU服務器一般是單卡或者雙卡,AI服務器需要承擔大量的計算,一般配置四塊GPU卡以上,甚至要搭建AI服務器集群。
2、*設計:AI服務器由于有了多個GPU卡,需要針對性的對于系統結構、散熱、拓撲等做專門的設計,才能滿足AI服務器長期穩定運行的要求。
3、P2P通訊:普通GPU服務器要求的是單卡性能,AI訓練中GPU卡間需要大量的參數通信,模型越復雜,通信量越大,所以AI服務器除了要求單卡性能外,還要求多卡間的通訊性能,采用PCI3.0協議通信的大P2P帶寬達到32GB/s,采用SXM2協議通信的大P2P帶寬達到50GB/s,采用SXM3協議通信的大P2P帶寬達到300GB/s。
4、先進技術:AI服務器有很多更先進的技術,包括Purley平臺更大內存帶寬,NVlink提供更大的互聯帶寬,TensorCore提供更強的AI計算力。