突襲Nvidia！英特爾推出AI晶片Gaudi 3宣稱“部分性能優於H200”

英特爾Intel Vision 2024大會於4月8日-9日在美國亞利桑那州鳳凰城登場，會中宣布推出Gaudi 3 AI加速器，由台積電5nm製程代工，挑戰Nvidia在AI領域高市佔率，企業生成式 AI帶來新選擇。

英特爾的Gaudi 3與Nvidia的H100相比，支援AI模型執行推理快了50%，訓練大模型則比H100快了40%。英特爾更指出，Gaudi 3的表現將與Nvidia的H200比肩，在某些領域的表現甚至會優於H200。

再者，英特爾Gaudi 3在Llama上做測試，可有效地訓練或部署AI大模型，包括文生圖的Stable Diffusion和語音辨識的Whisper等。

英特爾Gaudi 3加速器將於2024年第二季，提供OEM通用基板和開放加速器模型（Open accelerator module, OAM），2024第三季全面上市，包括戴爾科技、慧與科技（HPE）、聯想和美超微等，都將採用Gaudi 3。

Gaudi 3加速器的主要特點：

AI專用運算引擎：Intel Gaudi 3加速器專為生成式AI運算打造。每台加速器都有專屬的異質運算引擎，由64個AI自訂和可編程TPC和8個MME組成。每個Intel Gaudi 3 MME皆能執行64,000個平行運算，運算效率極高，擅於處理複雜的矩陣運算，這也是深度學習演算法的基礎運算。此獨特的設計大幅提昇平行AI運算的速度和效率，並支援多種資料類型，包括FP8和BF16。

提升內存容量，滿足LLM容量需求：Intel Gaudi 3搭載128 GB的HBMe2內存容量、3.7 TB的內存帶寬和96 MB的on-board靜態隨機存取內存（SRAM），能夠在更少在的Intel Gaudi 3上，提供處理大型生成式AI資料集所需的足夠內存，且特別適用於大型語言和多模態模型。

為企業提供生成式AI高效系統擴充：每個Intel Gaudi 3加速器皆整合24個200 GB的以太網端口，提供靈活的開放標準網絡，實現高效擴充，以支援大型運算集，並克服專有網路架構的供應商限制。 Intel Gaudi 3加速器實現單一節點到上千節點的高效擴充，以滿足生成式AI模型的廣泛要求。

開放產業軟件提升開發人員生產力：Intel Gaudi軟件整合PyTorch框架，並提供基於Hugging Face社群的優化模型，是目前生成式AI開發人員最常用的AI框架，讓生成式AI開發人員能夠在高度在抽象層上進行操作，提升易用性和生產力，並可輕鬆地將模型轉移到不同硬件類型上。

Gaudi 3 PCIe：Gaudi 3高速PCIe附加卡是全新產品，外型規格專為實現高效率並降低功耗設計，適用於微調、推理和檢索增強生成（RAG）等工作，配備功率600瓦的標準（Full-height ）封裝，128GB的記憶體容量，且帶寬達到每秒3.7TB。

突襲Nvidia！ 英特爾推出AI晶片Gaudi 3宣稱“部分性能優於H200”