1.05萬億千瓦時(kW·h)!
這是國際能源署(International Energy Agency,以下簡稱“IEA”)日前發(fā)布的《電力2024》報告中,對2026年全球數(shù)據(jù)中心的最高總用電量作出的預測。1千瓦時就是1度電,“超過1萬億度電”,根據(jù)報告的估算,這些電量大約是整個日本全年的用電量。
數(shù)據(jù)中心、智算中心等算力基礎設施是人工智能(AI)的數(shù)據(jù)中樞和算力載體。隨著AI尤其是生成式人工智能(AIGC)和大模型技術的快速發(fā)展,算力需求激增,AI的能耗問題也越來越受到關注。在近段時間舉行的多場國際會議上,一些科技巨頭紛紛表達了對AI發(fā)展帶來的能耗問題的擔憂。
如何在提升智效的同時解決能耗難題,對AI行業(yè)來說,是一場“大考”。
AI在推理階段的耗能不容忽視
討論AI耗能的問題,不可避免地要談到AI大語言模型(以下簡稱“大模型”)。
“生成式人工智能是當前AI技術發(fā)展的重點。”騰訊研究院資深專家王鵬在接受中青報·中青網(wǎng)記者采訪時說。他表示,當前,生成式人工智能技術的基礎就是以數(shù)據(jù)和算力堆疊為標志的大模型,其訓練和應用需要大量的算力支持,“算力背后則是算力基礎設施耗電所帶來的巨大電能需求”。
全國政協(xié)委員、中國科學院計算技術研究所研究員張云泉指出,大模型的參數(shù)和數(shù)據(jù)規(guī)模越大,其智能效果就越好。在大模型中,“Scaling Laws”(規(guī)模效應)意味著當參數(shù)和數(shù)據(jù)規(guī)模大到一定程度時,大模型的智能表現(xiàn)將出現(xiàn)躍升,也就是“智能涌現(xiàn)”?!澳壳拔覀冞€沒看到‘智能涌現(xiàn)’的上限在哪。”
“一般來說,參數(shù)量越大,大模型的算力消耗就越大,其消耗的電能就越多。”王鵬表示,因為還沒達到上限,以OpenAI為代表的人工智能公司在“Scaling Laws”的驅(qū)使下,還在持續(xù)增加大模型的參數(shù)和數(shù)據(jù)規(guī)模,以求實現(xiàn)通用人工智能(AGI)的目標,造成短期內(nèi)算力需求和電能需求的巨大提升。
“因為GPT-3有1750億個參數(shù),訓練用到了1024張英偉達A100芯片,所以業(yè)內(nèi)將其稱為‘千卡千參’?!鄙虦萍贾悄墚a(chǎn)業(yè)研究院院長田豐說,目前GPT-4、GPT-5等大模型都達到了“萬卡萬參”的規(guī)模,且訓練模型所用芯片也從英偉達A100更新到英偉達H100、B200,“參數(shù)量的激增將導致能耗顯著增加”。
除了模型訓練以外,AI在推理階段的耗能也不容忽視。“推理即大模型響應用戶需求的過程”,張云泉介紹,大模型單次響應用戶需求的耗電量并不大,“但隨著用戶規(guī)模的增加,耗電量也將不斷累積并增大?!?/p>
近日,源自美國的一則“如果將10萬塊英偉達H00芯片部署在同一地區(qū)進行模型訓練,會導致電網(wǎng)崩潰”的新聞引起社會關注。
多位專家在接受記者采訪時表示,AI導致電網(wǎng)崩潰的原因在于,大模型的訓練是階段性的工作,所用到的算力要集中在一個數(shù)據(jù)中心里,在有限時空范圍內(nèi)進行大模型訓練,會給局部電網(wǎng)帶來非常大的用電負荷。
“穩(wěn)定的電網(wǎng)系統(tǒng)中突然出現(xiàn)巨大負荷擾動,會對電網(wǎng)的穩(wěn)定和安全產(chǎn)生影響?!睆堅迫赋?,隨著大模型參數(shù)和數(shù)據(jù)規(guī)模的進一步增加,AI的能耗問題將越來越突出,尤其是對于電力供應緊張的國家和地區(qū)?!伴L遠來看,AI推理過程的耗能將越來越大;短期內(nèi),大模型訓練的能耗則是最大的AI能耗增量?!?/p>
在王鵬看來,與家庭用電量相比,AI的耗電量顯得很大,但其在社會總用電量中的占比依然很小,“還遠沒有達到制造業(yè)用電的數(shù)量級”。
解決方案:技術創(chuàng)新與新能源
根據(jù)美國機構(gòu)Uptime Institute的預測,到2025年,AI相關業(yè)務在全球數(shù)據(jù)中心用電量中的占比將從2%增加到10%;到2030年,智能計算的年耗電量將占全球發(fā)電總量的5%。
“解決能耗問題,是AI技術發(fā)展的重要前提?!碧镓S對記者說,雖然目前AI的能源消耗還不至于引起大范圍“電荒”,但隨著AI的大規(guī)模應用,未來可能發(fā)生AI“缺電”的情況,需要尋找合適的解法,讓有限的電力能源可以容納更大的算力規(guī)模。
通過研究和實踐,人們對AI的了解逐漸增強,一系列解法隨之而來。從需求角度看,優(yōu)化大模型架構(gòu)、提升芯片效率和算力效率等,被認為是降低AI能耗的有效途徑。
張云泉表示,首先,可以設計AI模型訓練的專用芯片,其效率相較GPU(圖形處理器,現(xiàn)常用于AI計算)提升了10倍以上;其次,可以優(yōu)化AI模型的參數(shù),很多小模型僅有幾十億的參數(shù)量,但已經(jīng)實現(xiàn)了和大模型一樣的效果;此外,還可以通過對推理過程進行優(yōu)化壓縮,設計專用推理芯片,進一步降低AI推理階段的能耗。
“大模型變小模型,目前降低能耗效果最好?!睆堅迫晕④?月底發(fā)布的自研小尺寸AI模型Phi-3為例介紹。據(jù)了解,Phi-3模型目前有3個版本,其中Phi-3 mini是一個擁有38億參數(shù)的語言模型,可部署在手機上,根據(jù)實驗和測試結(jié)果,其性能已經(jīng)可以與GPT-3.5等大模型相媲美。
在能源供應方面,訴諸多樣化的新能源供給、依靠國家進行宏觀調(diào)控與規(guī)劃等舉措,將有助于解決AI能耗問題。天使投資人、資深人工智能專家郭濤對記者表示,當前,新能源,包括太陽能、風能、水能等可再生能源,正逐漸成為數(shù)據(jù)中心的最佳能源選擇?!叭绻麤]有足夠的可再生能源來滿足AI能耗的增長,可能會導致對化石燃料的依賴加劇,從而對環(huán)境造成負面影響。此外,數(shù)據(jù)中心還可以通過智能算法來優(yōu)化能源使用效率,實現(xiàn)AI與電網(wǎng)的協(xié)同發(fā)展?!?/p>
不少人工智能公司已經(jīng)開始關注新能源。2021年,OpenAI首席執(zhí)行官山姆·奧爾特曼向核聚變初創(chuàng)公司Helion Energy投入3.75億美元;2024年3月,亞馬遜云服務公司(AWS)收購美國賓夕法尼亞州一座數(shù)據(jù)中心園區(qū),據(jù)了解,該園區(qū)就是從鄰近的核電站獲取電力。
“解決AI耗能問題涉及到算力、電力等多個系統(tǒng)的協(xié)調(diào)與配合。”王鵬指出,一方面,要從AI本身去降低能耗,包括優(yōu)化算法、降低模型參數(shù)、提高計算性能等;另一方面,整個能源系統(tǒng)也要積極響應AI的能耗需求。
“源網(wǎng)荷儲”一體化考慮
新能源或?qū)⒊蔀榻鉀QAI耗能問題的一把“鑰匙”,這正好與我國此前提出的“東數(shù)西算”工程相契合。
國家能源局的數(shù)據(jù)顯示,2023年,我國可再生能源新增裝機3.05億千瓦,占全國新增發(fā)電裝機的82.7%,占全球新增裝機的一半;全國可再生能源發(fā)電量近3萬億千瓦時,接近全社會用電量的1/3。目前,我國已建成全球規(guī)模最大的電力供應系統(tǒng)和清潔發(fā)電體系,其中青海、內(nèi)蒙古、寧夏等西北部地區(qū)則是清潔能源的“富礦”。
2021年,我國提出實施“東數(shù)西算”工程,引導數(shù)據(jù)中心向西部資源豐富地區(qū)聚集,推動當?shù)財?shù)據(jù)中心走向低碳、綠色、可持續(xù),同時滿足東部地區(qū)的算力需求。2022年2月,內(nèi)蒙古、貴州、甘肅等8地啟動建設國家算力樞紐節(jié)點,10個國家數(shù)據(jù)中心集群被寫入工程總體“規(guī)劃”,“‘東數(shù)西算’工程全面啟動”。
“大模型時代,‘東數(shù)西算’工程將對全國的電力需求和算力需求起到重要的宏觀調(diào)控作用?!睆堅迫A計,未來將會有越來越多的大型算力中心或智算中心選址我國西部地區(qū),“東數(shù)西訓”(即東部地區(qū)的AI大模型,在西部地區(qū)進行訓練——記者注)將成為AI與新能源協(xié)調(diào)發(fā)展的典型場景。但他強調(diào),推動新能源更好地賦能AI發(fā)展,儲能是一個需要解決的問題。
“大規(guī)模儲能的建設決定了新能源是否能更好地滿足算力需求。”田豐也同意張云泉的觀點。田豐指出,包括光電、風電等在內(nèi)的新能源,具有間歇性發(fā)電的特點,需要依靠儲能系統(tǒng)將多發(fā)的電及時存儲起來,削峰調(diào)谷,以保證電網(wǎng)的供需平衡。
國家能源局的最新數(shù)據(jù)顯示,截至2024年一季度末,我國已建成投運的新型儲能項目累計裝機規(guī)模達到3530萬千瓦,同比增長超過210%,其中10萬千瓦以上的儲能電站超5成,呈現(xiàn)集中式、大型化的發(fā)展趨勢。
在儲能的建設上,王鵬著重強調(diào)了新能源汽車的分布式儲能能力?!半S著電池充放電次數(shù)和壽命不斷提高,數(shù)億輛電車利用峰谷電價差來儲能并反向回供電網(wǎng),基本可以實現(xiàn)零成本用車甚至盈利,同時也能解決電網(wǎng)的調(diào)峰問題?!?/p>
此外,王鵬還認為要重新思考“數(shù)據(jù)網(wǎng)”和“電力網(wǎng)”的分布式聯(lián)動與微觀布局協(xié)同。他指出,為滿足短期內(nèi)快速增長的人工智能推理算力需求,除了在西部可再生能源豐富的地區(qū)布局大型算力中心,實現(xiàn)“東數(shù)西算”;也需要考慮在東部需求側(cè)的數(shù)據(jù)中心和算力中心附近,積極布局分布式可再生能源,如與城鄉(xiāng)建筑、農(nóng)業(yè)設施等結(jié)合的分布式BIPV(光伏建筑一體化)、光儲直柔一體化等?!岸疫€要‘源網(wǎng)荷儲’一體化考慮,盡可能通過微電網(wǎng)實現(xiàn)就地峰谷平衡,減少棄風棄光。”
“這需要電價政策、基礎設施建設、政策支持和用戶行為等多方面的配合?!痹谕貔i看來,整個算力網(wǎng)絡、輸電網(wǎng)絡、分布式能源網(wǎng)絡,與車輛(充電)網(wǎng)絡的高度耦合,或許是解決我國未來AI能耗問題的關鍵。
“在考慮投入和產(chǎn)出算總賬的情況下,AI實際上進一步提高了社會的生產(chǎn)效率,降低了能耗。”田豐認為,AI作為新質(zhì)生產(chǎn)力正在賦能經(jīng)濟社會發(fā)展,如今的AI大模型已經(jīng)成為重要的基礎科研設施,其訓練中的投入,最終將為全社會帶來新質(zhì)生產(chǎn)力的紅利。
目前,在AI大模型的訓練成本中,能源消耗成本的占比已經(jīng)超過一半。田豐說,從基礎科研的角度看,要繼續(xù)加大對AI技術的投資,“現(xiàn)在是奮起直追的時候,不應該自束手腳”。具體到AI耗能方面,他建議,可以給予大模型訓練一定的能源支持政策。
(責任編輯:畢安吉)