大舉攻向數據中心市場,Arm 新服務器芯片設計性能提升 50%

4 月 28 日報道,今日,英國芯片設計公司 Arm 公布了 Neoverse V1 和 N2 服務器芯片平臺的最新性能數據,其處理能力比上一代 N1 提高了 40%~50%。
Neoverse V1 平臺首次支持可伸縮矢量擴展(SVE),N2 平臺則率先采用全新 Armv9 架構的平臺,擁有比 N1 更高的核心數、性能和能效。兩者都支持新的數據類型和指令集,并針對高性能計算和 AI 等工作負載做了優化。
去年 9 月,Arm 發布新的 Neoverse N2 和 V1 平臺,但并未提及詳細性能。如今 Arm 正式公開兩款全新平臺的性能、能效、總擁有成本等細節,以及騰訊、阿里等合作伙伴采用該設計的案例,并宣布基于 N2 的芯片預計將在今年下半年推出。
盡管 Arm 并未直接對比 Neoverse 平臺與英特爾、AMD 產品的性能,但從圖中可以看到,Neoverse 系列芯片已經非常有競爭力。
同時,Arm 也發布了構建基于 Neoverse V1 和 N2 平臺高性能 SoC 的關鍵部件 ——CMN-700。
Arm 基礎設施事業部高級副總裁兼總經理 Chris Bergey 稱,Arm 想改變行業對部署基礎設施的思維,每一個創新者都不應該被要求在性能與能耗之間進行抉擇,而 Neoverse 平臺提供了兩者兼得的最佳解決方案。
Arm 基礎設施業務高級副總裁 Chris Bergey 說:“現在是時候讓 Neoverse 跨越所有基礎設施了。”
從起步至今,Arm Neoverse 已經走過十年歷程。
早期其基礎設施內核是 Cortex-A72,有出色的能效比、媲美競爭對手的單核性能表現,通過合作伙伴的智能網卡、DPU、物聯網芯片在網絡及邊緣應用場景中發揮價值。
隨后,2019 年,Neoverse N1 和 CMN-600 Mesh 網絡將線性性能擴展到非常高的內核數量,更加適合云服務。據其分享,N1 單核性能已經比肩或超過傳統 SMT 線程的性能。
Arm 技術專家稱,盡管其競爭對手陸續推出新的芯片,但它們仍無法與 N1 的單線程性能匹敵。
通過 Neoverse V1 和 N2,Arm 想進一步改變業界對部署基礎設施的看法,使得大家無需在性能與能效之間做選擇,而是兩者兼得。
Arm 還將幫助合作伙伴在單芯片或多芯片封裝中,都能以同質或異質的方式提供解決方案。
據 Arm 技術專家介紹,Arm 與領先的晶圓代工廠深入合作,在多個先進的工藝節點上開發出了性能和功耗優化的 POP IP。
隨著 Project Cassini 和 Arm SystemReady 啟動,Arm 的標準和認證項目計劃正持續推進,并逐步擴展到基礎設施和物聯網邊緣。
今天,Arm 正式揭曉 Neoverse V1 和 N2 平臺的技術細節。
Neoverse V1 是 Arm 強調性能優先的新型計算系列的第一個平臺,客戶可基于該架構靈活地為大型數據中心服務器設計芯片。
這是 Arm 迄今設計的最寬微架構,Arm 預期它在多核配置中能勝過市場上其他產品。
Arm 為其加寬了微架構,并增加了緩沖區和隊列的深度,因此在運行中能容納更多運行中的指令,支持高性能和百萬兆級計算等市場應用。
與 N1 相比,Neoverse V1 帶來了 50% 的性能提升,在各種矢量工作負責中性能優化約 1.8 倍,通過各種新的指令,機器學習工作負載最高可優化 4 倍。
客戶可以自由選擇適當的 IO 尺寸,并利用芯片集和多芯片功能來提高內核數量和性能,不過采用的方法是組合可提高良品率、降低成本的小型芯片。
法國芯片公司 SiPearl 和韓國電子通信研究所( ETRI)的高性能計算(SoC)均可展現這些設計元素的優勢,這被 Arm 看作是高性能計算的發展方向。
V1 新增的一個關鍵功能是 SVE,可使其在每核性能方面領先,使用 SVE 的代碼壽命更長,并為 SoC 設計者提供更好的靈活性。
SVE 為開發者提供了一套全新的矢量編程和數據操作工具,能直接取用相同代碼進行自動矢量化,處理速度相比 NEON 可提高 3.5 倍。
由于 SVE 與矢量長度無關,因此相同代碼不加修改即可在 V1 上運行,如果在 V1 上加倍 SVE 矢量的寬度,對應處理速度也幾乎提速 1 倍。
另一種芯片微架構 Arm Neoverse N2 平臺,是第一個基于 Arm 公司最新 Armv9 架構的內核,也是第一個具備 SVE2 功能的平臺。
Neoverse N2 在安全性、能耗以及性能方面都有全面提升,并能為用戶減少 TCO 的每瓦性能表現。相比于 N1,N2 在保持相同水平的功率和面積效率的基礎上,單線程性能提升了 40%。
N2 具備良好的可擴展性,可以橫跨從高吞吐量計算到功率與尺寸受限的邊緣和 5G 應用場景,并在這些應用中帶來優于 N1 的表現。例如,在云端上提升 1.3 倍的 NGINX,在 5G 邊緣應用上提升 1.2 倍的 DPDK 數據包處理。
SVE2 是 Armv9 的重要特性之一,能顯著提升從云到邊緣的性能效率、可擴展性及安全性。
和 SVE 一樣,SVE2 也屬于與矢量長度無關的指令集,用戶只需編寫、編譯一次代碼,即可在各種硬件上運行,還能充分利用可用的矢量帶寬。
在機器學習、數字信號處理、多媒體、5G 系統等廣泛應用場景中,SVE2 不僅帶來大幅性能提升,還帶來了 SVE 具備的編程簡易性及可移植性等優勢。
構建基于 V1 和 N2 高性能 SoC 的關鍵要素,就是 Arm Neoverse CMN-700 Mesh 互連技術。
CMN-600 為可擴展、高內核數、高性能 SoC 奠定了基礎,在此基礎上,新一代 Arm Neoverse CMN-700 被 Arm 稱作是業界最先進的 Mesh 互連技術,在每個矢量上進一步提升了性能 —— 從內核的數量、緩存的大小,到附加內存和 IO 設備的數量和類型。
對于基于 V1 的高性能計算平臺而言,支持高帶寬 DDR5 和 HBM 內存系統至關重要,而 CMN-700 即可實現這一點。
其另一個關注重點是對多芯片功能的助益,以便為數據中心資源池化的增長提供更多定制選項。CMN-700 中還增加了 CXL 功能,可為內存擴展和智能一致性加速器構建主機或端點設備。
多芯片功能的一項重要升級是針對傳統多插槽設計和新的芯片集或多芯片集成提高性能和優化功能,這為突破傳統的硅掩膜版限制提供新的機遇,同時也使得緊密耦合的異構計算能擁有更大的靈活性。
五、騰訊、阿里均已測試 Neoverse 平臺,服務器性能提升明顯基于 Neoverse 平臺的新功能,Arm 合作伙伴及客戶能更加順利地實現從云端到邊緣的部署。
Honeycomb.io 證實說,他們在 15 小時內便完成將其接收量應用程序移植到 AWS Gravition2 上,同時工作流程的實例使用量減少了 30%。
在云服務方面,騰訊與 Arm 持續合作,騰訊在硬件測試和軟件支持方面持續投入,使其在云應用上能采用 Arm Neoverse 技術,每瓦性能表現出色,軟件部分既支持已編譯和解譯的代碼庫,也支持為這些代碼庫提供支撐的微服務框架。
騰訊專項測試技術中心總監黃聞欣(Victor Huang)說,通過 TencentBench 測試框架發現,得益于更多可擴展的 CPU 核心數,Arm 服務器比傳統的服務器性能表現更強勁,尤其在 AI 推理和圖片處理領域優勢非常明顯。
阿里云在即將上線的基于 Arm 架構 ECS 實例上完成了測試,并在 SPECjbb 測試數據中表現出色,通過雙方緊密合作,基于 Arm 架構運行的 DragonWell JDK 性能提高了 50%。用戶及開發者現可到阿里云網站上注冊,獲取 Arm 系列實例的受邀測試。
亞馬遜云科技(AWS)通過收購 Annapurna Labs 部門成為 Arm Neoverse 的早期使用者,其自研服務器芯片 AWS Gravition 正快速布建于 AWS 的各個服務區域。而過去 AWS 推出的新實例中,有近一半是基于 Graviton2 平臺的。
除了在主流應用用例中,Graviton2 和 Neoverse 也被應用于更多專用處理的應用場景。例如在 EDA 方面,Arm 獲得了所有主要工具供應商的支持,并且詳細計劃了 Arm 如何將 EDA 的工作負載移上云端。
甲骨文(Oracle)已宣布計劃在 Oracle 云基礎設施上采用 Ampere Altra CPU,為各種工作負載提供最佳的性價比。
在高性能計算(HPC)方面,今年 4 月,印度電子信息技術部(MeitY)宣布將加入法國芯片公司(SiPearl)和韓國電子通信研究所(ETRI)的行列,采用 Neoverse V1 驅動國家級百萬兆級高性能計算項目。
在通信方面,Marvell 發布了基于 Neoverse N2 的 OCTEON 系列網絡解決方案,預計將于 2021 年底前試產,比上一代 OCTEON 的性能提升 3 倍。
結語:Arm 正大舉攻向服務器芯片市場對于目前運行的各種工作負載和應用程序,Arm 正嘗試推出能兼顧高算力和低功耗的計算解決方案,這對于主導 x86 架構的服務器處理器供應商英特爾和 AMD 無疑正造成新的沖擊。
但 Arm 表示,意味著,“一刀切”計算方法不再是合適的解決方案。這是對使用 x86 架構的主要服務器供應商英特爾和 AMD 一次攻擊。
今天 Arm 新公布的訊息還只是冰山一角。總體來看,Arm 正在提高其在計算機市場的競爭力。隨著 Arm 處理器大量走向云端服務器,已經壟斷絕大多數手機處理器市場的 Arm,將會無處不在。