英特爾公布Nervana NNP-T深度學習訓練加速器 16nm工藝、32GB HBM2

2019-08-21 小石頭 電腦愛好者
瀏覽

本文經超能網授權轉載,其它媒體轉載請經超能網同意。

現在深度學習已成為人工智能的重要方向,而且研究成果已經應用于日常使用中。但訓練人工智能模型需要強大的算力支持,所以除了使用GPU加速訓練外,很多廠商開始推出專用于深度學習訓練的ASIC芯片。英特爾在人工智能領域投入頗多,除了FPGA產品線外,也推出了Nervana深度學習加速器,在今天的Hot Chips 31會議中,英特爾公布了旗下Nervana NNP-T深度學習加速器的細節。

這款Nervana NNP-T深度學習加速器代號為Spring Cast,是目前英特爾最新款的專用深度學習加速器。這款加速器被命名為NNP-T,表示其主要用于深度學習網絡模型訓練工作定制。隨著深度學習模型越來越龐大,所以專用的訓練加速器也逐漸流行起來,如NVIDIA也推出了Tesla T4 GPU。

具體到加速器核心上,此次英特爾反常的使用了臺積電16nm CLN16FF+工藝,而實際上Nervana在收購前就使用的是臺積電28nm工藝制造其第一代的Lake Cast芯片。雖然使用的是臺積電的工藝,但也是用了很多臺積電的最新技術。芯片采用了4個8GB HBM2-2400內存,每針腳2.4GB/s的傳輸速率,都安裝在一個巨大的1200平方毫米的硅基板上。同時計算核心與HBM內存通過臺積電最新的CoWoS晶圓級封裝技術進行互聯。最終得到了一個60 x 60mm,具有3325 pin的BGA封裝。

在展示中稱此次由于HBM2與核心是無源封裝,所以為2.5D封裝技術。而HBM2由于是4Hi,所以整體為3D封裝。實際上英特爾自家也有EMIB嵌入式多芯片互聯橋接這種橋接技術。四個HBM2堆棧共有64條SerDes通道,每個通道支持28GB/s的傳輸速率。

具體的核心規模上,Nervana NNP-T的計算核心擁有270億晶體管,包括24個Tensor Processors(TPC)。除了TPC外,芯片裸片中還有60MB的SRAM以及一些專用的接口,如IPMI、I2C及16條PCI-E 4.0通道。

芯片的工作頻率為1.1GHz,風冷條件下功率配置為150W到250W,可通過水冷獲得更強大的性能表現。同時Nervana NNP-T加速器還擁有OCP卡及PCI-E兩種規格,以供數據中心選擇。

Nervana NNP-T加速器充分利用內存模塊和互聯網絡使得計算核心得以充分使用。計算核心支持bFloat16矩陣乘法、FP32、BF16以及其他主要操作。同時在使用上英特爾已經通過開源的nGraph庫將深度學習框架連接到硬件后端的編譯器。現在英特爾正在與常見的Paddle Paddle、Pytorch及TensorFlow深度學習框架進行合作。

由于采用了可擴展架構集OCP及PCI-E規格,所以對于數據中心等場景可以方便地進行擴展。架構支持擴展到1024個節點,每個節點擁有8個NNP-T計算核心。

英特爾表示他們將在今年年底向客戶提供NNP-T的樣品,主要針對以及云服務提供商,在2020年之前面向更多用戶。