突破傳統(tǒng)算力困局，Ampere換種方式迎接AI算力挑戰(zhàn)

2023-09-26 11:52

來源：澎湃新聞·澎湃號·湃客

作者：老董

伴隨著AI技術的飛速發(fā)展，尤其大模型的出現(xiàn)，數(shù)據(jù)中心對AI算力需求急劇提高。而AI算力需求的激增的同時，帶來的是服務器供電需求的飛速增長，以及為其提供制冷的冷卻系統(tǒng)能耗激增。

如何以高效節(jié)能的方式，滿足AI算力高速增長的AI算力需求？在ODCC舉辦的2023開放數(shù)據(jù)中心大會上，經過與Ampere的一番溝通交流，讓我們了解到一種突破傳統(tǒng)AI算力困局的全新解決方案。

Ampere Computing產品技術總監(jiān)孫開本在開放數(shù)據(jù)中心大會發(fā)表演講

傳統(tǒng)數(shù)據(jù)中心的困局

傳統(tǒng)數(shù)據(jù)中心正面臨著一個常見的問題：受到供電的限制，每個機柜中只能上架有限的幾臺AI服務器，無法實現(xiàn)滿柜。目前標準的數(shù)據(jù)中心，每臺機柜內通常部署8-9臺2U的服務器。然而，這些服務器的電力預算已經不足，導致剩下的空間無法再放置更多的服務器。這就意味著，數(shù)據(jù)中心服務器的部署密度只有50%到60%。因此，許多云服務提供商面臨了部署密度不高、空間浪費等問題。

AI服務器的部署密度則更低。例如，目前市面上常見的某款GPU卡的功耗為75瓦，一臺服務器加四張卡就是300瓦，而一臺標準的通用服務器的功耗至少也要700～900瓦。因此，對于一個電力容量為8,000瓦的機柜，原本可以放10臺通用服務器，換成AI服務器可能就只能放5～6臺了；如果是高算力的AI服務器，甚至只能放1～2臺。針對上述挑戰(zhàn)，Ampere云原生處理器正是理想的選擇。

Ampere公司推出的云原生處理器具備先天的低功耗優(yōu)勢，可以幫助實現(xiàn)機柜電力與空間的更優(yōu)配比，提高部署密度。對于AI服務器，Ampere平臺的功耗降低了，同時提供與其它平臺相同的性能。這意味著在同樣的電力預算下，使用Ampere平臺可以放置更多的AI服務器，從而提高數(shù)據(jù)中心的部署密度。

Ampere的AI算力破局

目前，AI領域，服務器通常采用x86架構CPU并配備GPU來滿足高計算需求。然而，隨著AI應用的不斷發(fā)展，行業(yè)也開始尋找更高效的解決方案來降低能耗和成本。

AI有兩大方面，分別是AI訓練和AI推理。目前，GPU被廣泛認為是AI訓練最合適的方案。

而在AI推理方面，目前也出現(xiàn)了為 AI 推理超額配置計算的情況，這可能導致高昂的成本支出（無論是硬件的單位成本，還是硬件運行的電力成本）。因此，目前行業(yè)也會考慮一些能夠大幅降低能耗的其他方案。

Ampere表示，在AI訓練的場景下，Ampere的云原生處理器與x86架構的作用沒有區(qū)別。這意味著，在搭載最常用的GPU進行訓練時，Ampere的CPU與其他GPU一樣表現(xiàn)出良好的兼容性和性能。此外，Ampere表示已經確保了其平臺與大多數(shù)GPU的兼容性, 目前大多數(shù)常用的GPU在Ampere平臺上都得到了支持。在大會的參觀交流中，Ampere說道：“在訓練層面，我們和x86 提供的性能是一樣的，唯一的區(qū)別就是能耗，用我們英文的口號就是Less Power Is the New Power （中文：低能耗，“芯”未來）。因為大家用的都是同樣的GPU，提供的性能一樣，區(qū)別主要來自CPU。 Ampere云原生處理器比傳統(tǒng)x86更節(jié)能”

更加適用于AI推理的Ampere

隨著AI的快速發(fā)展，大模型的應用越來越普遍。由于巨大的參數(shù)量和大量的數(shù)據(jù)處理量，大模型需要的計算資源更多，對硬件的性能要求更高，同時還需要考慮如何降低能耗、提高計算效率等問題。另外，大模型的訓練和推理也需要更加復雜和高效的網絡架構和算法，這也對硬件提出了更高的要求。

對于Ampere來說，AI推理是機遇所在。在AI推理上有個“batch size”的概念，就是批量的大小。把小的工作積贊到一起，一次性給GPU處理，這是“大批量”的AI推理，通常GPU更合適。而在“小批量”的場景下，需對任務進行及時響應，通常延時要求比較高，但對吞吐量要求不高，CPU則更合適這種場景。

隨著AI熱潮來襲，Ampere的云原生處理器解決方案也受到許多關注。從 2020 年開始，Ampere早就已經在AI領域開始布局，收購了一家專注于AI推理優(yōu)化的公司OnSpecta，在模型算子、底層的指令方面進行優(yōu)化。Ampere表示：“基于這種軟硬件協(xié)同優(yōu)化，我們現(xiàn)在的AI推理基本上翻了5倍。早在兩年多前，Ampere就組建了專門的AI團隊，開展針對AI的一系列創(chuàng)新?！?/p>

目前，Ampere已經有許多客戶都在基于Ampere Altra系列處理器進行AI推理。針對AI的常用主流框架，比如TensorFlow、PyTorch和ONNX，Ampere進行了優(yōu)化，性能得到了顯著提升。

此外，Ampere的產品不只適用于當前常見的大型語言模型，也適用于過去幾年相對舊的模型。通過Ampere云原生處理器進行AI推理，可獲得卓越的可擴展性和性能，也打破了效率的瓶頸，而這正是令云服務提供商（CSPs）困擾的問題，因為使用GPU會帶來極高的能耗，而且容量擴展會受到制約，可部署的服務器數(shù)量也會受到限制。而Ampere的云原生處理器通過提供卓越的性能和能效，恰好能夠解決這些行業(yè)痛點，尤其是對于AI推理。

更適于私域大模型的Ampere

隨著ChatGPT等大模型的普及，企業(yè)出于對安全、隱私信息的重視，對于私域大模型的私有化部署將越來越多。然而，在部署過程中，企業(yè)必須在算力基礎設施方面進行合理的選擇。

在并發(fā)性方面，企業(yè)內部使用的大模型需要同時處理的人數(shù)可能不如公開服務，沒有大量的并發(fā)處理；在延遲方面，企業(yè)內部使用的大模型對延遲要求沒有公開服務那么高，帶寬也沒有那么擠兌，但對電力、數(shù)據(jù)中心資源節(jié)省很敏感。

用CPU做AI推理可以獲得諸多獨特的優(yōu)勢。第一，CPU適用于批量比較小的現(xiàn)代應用類；第二，CPU軟件的靈活度更高，在軟件設計上更容易，因為不需要硬件，不需要第三方提供的庫，也很少有依賴性，獨立性更強；第三，使用CPU擺脫了OS驅動，因為不涉及GPU的一系列配套，復雜性也相應降低。因此，Ampere認為：“企業(yè)不必拘泥于常規(guī)慣性思維，一上來就是用GPU，應該量體裁衣，配備適度的算力，以達到更好的性能和成本效益。”

相比傳統(tǒng) x86 處理器成本高、能耗大，最新的 Ampere 云原生處理器能夠助力打造高能效、高性能的 AI 推理應用，是替代x86的理想方案，同時也是用于 AI 訓練和大語言模型（LLM）推理 GPU 的高性價比之選。相比傳統(tǒng)的 x86 處理器，Ampere Altra 系列云原生處理器在 AI 推理方面擁有顯著的性能優(yōu)勢：針對計算機視覺工作負載，性能最高可提升 4 倍；針對常見的 NLP 工作負載，每瓦性能最高可提升 3 倍。

注重效率，更關注可持續(xù)發(fā)展

在數(shù)據(jù)中心，可持續(xù)發(fā)展是大家長期關注的焦點之一。在今年的開放數(shù)據(jù)中心大會上，許多廠商也圍繞低碳、可持續(xù)、節(jié)能、土地資源、運營成本等問題進行了熱烈的探討。

在數(shù)據(jù)中心有一個“安全水位”的概念，它通常在30%的水平，再有大約20%的預留。簡單來說，這意味著如果有一個100個核的數(shù)據(jù)中心，為了保證數(shù)據(jù)中心的穩(wěn)定性和性能，一般只有50個核會真正投入運行。但是，這也意味著有50%的CPU資源被閑置，閑置的背后也涉及到土地空間、運營效率等問題。

Ampere的云原生處理器卻可以在保證性能的同時，將這個“安全水位”提高至70%，同時留下30%的緩存，從而提高利用率。Ampere舉了個例子：“比如一臺機架部署了100個核，如果是普通的x86 CPU，只能用50個。而如果部署的是Ampere云原生處理器，可以用100核。因此，機架部署就可以更滿，這就是我提到的資源利用率，這里的‘資源’包括機架和CPU既有的算力資源。” 也就是說，在同體積空間里，基于Ampere處理器的機架不但密度更高，算力也更強。

在助力構建可持續(xù)云計算方面，Ampere云原生處理器基于不同的架構，兼具高性能與低能耗的綜合優(yōu)勢，打破了傳統(tǒng)架構的限制，能夠助力數(shù)據(jù)中心實現(xiàn)效率提升三倍、整體占地面積減少 3 倍、單機架性能提升 2.5 倍、能耗降低 2.8 倍的優(yōu)化效果。

Ampere通過其云原生處理器技術不斷兌現(xiàn)其對性能和可持續(xù)性的承諾，向用戶提供環(huán)境友好的高性能系列微處理器，以可持續(xù)的方式突破能耗的限制。面對新的計算趨勢和可持續(xù)發(fā)展趨勢，讓我們且看Ampere如何引領創(chuàng)新，突破性能與能耗的束縛，推動行業(yè)迎接變革，邁向計算的新象限。

特別聲明

本文為澎湃號作者或機構在澎湃新聞上傳并發(fā)布，僅代表該作者或機構觀點，不代表澎湃新聞的觀點或立場，澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

我要舉報

#AI算力