科技 > 云計算 > 正文

公共云提速“人工智能+” 智能算力緊缺制約大模型規(guī)?；瘧?yīng)用

2024年04月24日10:20 新華網(wǎng) 作者：扈永順

新聞爆料: alltech@china.org.cn 電話:(010)82081166-6059

　　原標(biāo)題：瞭望 | 公共云提速“人工智能+”

　　AI+時代，公共云將成為破解算力資源緊張、降低算力成本的關(guān)鍵抓手

　　公共云可以多路復(fù)用，通過多租戶使用同一套計算資源大池，削峰填谷，顯著提升硬件資源利用率，降低使用成本

　　公共云和AI相結(jié)合還將推動云計算走向云智算

　　新一代人工智能技術(shù)正步入跨越式發(fā)展新階段，成為引領(lǐng)現(xiàn)代產(chǎn)業(yè)變革的核心力量?！叭斯ぶ悄?”今年首次被寫入政府工作報告，多地積極探索推動AI深度賦能實體經(jīng)濟，開啟了AI在各行各業(yè)廣泛應(yīng)用的新篇章。

　　隨著AI技術(shù)和應(yīng)用創(chuàng)新不斷加速，模型復(fù)雜度和數(shù)據(jù)量急劇增加，對包括算力在內(nèi)的新型基礎(chǔ)設(shè)施建設(shè)提出了新需求和新要求，建立適應(yīng)AI+時代的高質(zhì)量算力服務(wù)體系迫在眉睫。

　　日前國家信息中心信息化和產(chǎn)業(yè)發(fā)展部發(fā)布了《“人工智能+”時代公共云發(fā)展模式與路徑研究》報告，提出公共云是破解我國AI+時代算力“供不上、用不起”瓶頸問題的重要抓手。

　　公共云是指面向公眾提供的云計算資源，通過聚合各類算力并通過在線的模式為各類用戶提供簡單易用，且近乎無限擴展的計算服務(wù)，其本質(zhì)是將云計算資源規(guī)模化、大范圍進行共享?！肮苍颇芤再Y源利用效率最大化的方式，幫助提升我國算力供給能力，并通過規(guī)模經(jīng)濟效應(yīng)推動算力門檻降低，讓更多的用戶享受普適普惠的算力服務(wù)?！眹倚畔⒅行男畔⒒彤a(chǎn)業(yè)發(fā)展部主任單志廣介紹。

　　智能算力緊缺制約大模型規(guī)?；瘧?yīng)用

　　智能算力資源緊缺已成為制約大模型規(guī)?；瘧?yīng)用的主要瓶頸。

　　按照應(yīng)用和功能特性，算力可分為基礎(chǔ)算力、智能算力、超算算力三類，基礎(chǔ)算力主要基于CPU芯片，用于滿足基礎(chǔ)通用計算需求，如網(wǎng)購、打游戲等；智能算力基于GPU、FPGA(現(xiàn)場可編程門陣列)、ASIC(專用集成電路芯片)等AI芯片的加速計算平臺，主要用于人工智能的訓(xùn)練和推理計算，如語音、圖像和視頻的處理；超算算力由超級計算機等高性能計算集群提供，主要用于尖端科學(xué)領(lǐng)域的計算。

　　智能算力方面，以AIGC(生成式人工智能)為代表的AI應(yīng)用、大模型訓(xùn)練等所使用的數(shù)據(jù)量和參數(shù)規(guī)模呈指數(shù)級增長，帶來了智能算力需求爆炸式增加。例如GPT-3模型參數(shù)約為1746億個，訓(xùn)練一次需要以每秒一千萬億次計算，運行3640天。GPT-4參數(shù)數(shù)量擴大到1.8萬億個，是GPT-3的10倍，訓(xùn)練算力需求上升到GPT-3的68倍，在2.5萬個A100芯片上需要訓(xùn)練90～100天。

　　在中文大語言模型方面，2023年3月百度發(fā)布文心一言，4月華為發(fā)布盤古大模型，阿里發(fā)布通義千問大模型，商湯科技公布日日新大模型體系，5月科大訊飛發(fā)布星火大模型等，到目前我國大語言模型已有上百個。根據(jù)中國信息通信研究院測算，從設(shè)備供給側(cè)看，2022年我國計算設(shè)備總算力規(guī)模中，基礎(chǔ)算力占比40%，智能算力占比則高達59%，成為算力快速增長的驅(qū)動力。根據(jù)預(yù)測，到2026年智能算力規(guī)模將進入每秒十萬億億次浮點計算(ZFlops)級別。

　　“大語言模型發(fā)展帶來了AI算力需求的快速上升，所消耗的計算資源每幾個月翻一倍，算力需求的增長速度已經(jīng)遠(yuǎn)超芯片性能提升和產(chǎn)能擴張速度上限?！眴沃緩V介紹。

　　公共云具備緩解算力緊缺潛力

　　公共云是以需求為導(dǎo)向以應(yīng)用為目的的一種公共服務(wù)模式。AI+時代，公共云將成為破解算力資源緊張、降低算力成本的關(guān)鍵抓手。

　　首先，公共云具備訓(xùn)練大模型所需的強算力。訓(xùn)練全球領(lǐng)先的基礎(chǔ)大模型需要調(diào)度至少萬張GPU芯片高效協(xié)同工作，只有極少數(shù)公共云具備相應(yīng)能力。從亞馬遜、微軟和谷歌等科技巨頭運營公共云的經(jīng)驗來看，其優(yōu)勢是規(guī)模大、效率高，天然能向全球市場擴張。

　　其次，公共云的規(guī)模效應(yīng)能夠帶來算力普惠。隨著AI大模型規(guī)模化應(yīng)用，支撐海量用戶頻繁使用所需要的推理算力成本也將急劇上升，尤其是多模態(tài)大模型對于算力的消耗將遠(yuǎn)高于文本類大語言模型。算力成本是限制大模型發(fā)展的關(guān)鍵因素之一，中小型AI企業(yè)往往難以通過自建算力設(shè)施解決訓(xùn)練和推理算力需求，因此算力租賃需求旺盛。公共云可以多路復(fù)用，通過多租戶使用同一套計算資源大池，削峰填谷，顯著提升硬件資源利用率，降低使用成本。例如亞馬遜、阿里云等公共云廠商隨著用戶規(guī)模增加、技術(shù)優(yōu)化和運營效率提升，持續(xù)降低云計算服務(wù)價格，亞馬遜AWS曾連續(xù)三年每年降價12次；過去十年阿里云將計算成本降低了80%，存儲成本降低了近90%。

　　再者，公共云能夠?qū)崿F(xiàn)我國算力供給能力的邊界突破。公共云通過集群的計算、網(wǎng)絡(luò)、存儲平衡設(shè)計和軟硬一體化加速技術(shù)，調(diào)度“盤活”已有芯片，可以形成超大規(guī)模算力資源池，實現(xiàn)芯片復(fù)用、彈性可擴展；發(fā)揮公共云大規(guī)模機器調(diào)度、異構(gòu)芯片兼容能力，不僅能將已有先進芯片集約化利用，還能充分利用已有的通用CPU資源，為AI大模型訓(xùn)練和推理應(yīng)用提供必要的算力支持；隨著公共云技術(shù)體系加速升級，AI訓(xùn)練、AI推理以及HPC超算等計算資源將并池管理，實現(xiàn)算力普惠和模型普及。

觀眾在杭州舉行的2023云棲大會上了解云計算產(chǎn)品及應(yīng)用(2023年10月31日攝) 黃宗治攝/本刊

　　推動云計算走向云智算

　　公共云和AI相結(jié)合將推動云計算走向云智算。未來云計算將不再局限于IT計算本身，而是提供包括算力、模型、數(shù)據(jù)、生態(tài)等與智能化發(fā)展相關(guān)的全方位創(chuàng)新服務(wù)，從而促進AI+切實落地，引領(lǐng)新質(zhì)生產(chǎn)力發(fā)展。

　　推動云計算走向云智算，亟待解決技術(shù)層面的短板。國家信息中心信息化和產(chǎn)業(yè)發(fā)展部提出了公共云技術(shù)服務(wù)架構(gòu)解決方案。

　　第一，以融合算力設(shè)施為支點搭建云計算基石。利用虛擬化技術(shù)把各種硬件資源，如計算、存儲、網(wǎng)絡(luò)等整合起來，并輸出融合異構(gòu)算力服務(wù)。無論是X86、GPU還是ARM(微處理器芯片)，都能在這個平臺上運行，不僅解決AI算力不足的問題，還能使大規(guī)模商業(yè)化成為可能。

　　第二，以AI工程化工具為重點搭建平臺，為開發(fā)者提供統(tǒng)一的研發(fā)、測試、運維工具，包括了智算服務(wù)和機器學(xué)習(xí)框架，讓AI開發(fā)變得更加高效。開發(fā)者無需在本地維護復(fù)雜的平臺就能享受到工程化的便利，降低開發(fā)成本。

　　第三，為開發(fā)者提供一站式模型服務(wù)。大模型是AI競爭的關(guān)鍵，通過模型聚合、開發(fā)和服務(wù)的整合，打破傳統(tǒng)AI應(yīng)用的壁壘，讓AI技術(shù)更易于應(yīng)用到各行各業(yè)。

　　第四，以智能化應(yīng)用場景為特色，提供適用于各種智能化場景的軟件服務(wù)。

　　“此外，公共云需要進一步提升大規(guī)模集群管理能力，以優(yōu)化資源利用效率，從而更好地滿足AI對算力的需求?！眴沃緩V介紹。

(責(zé)任編輯：畢安吉)

免責(zé)聲明：中國網(wǎng)科技轉(zhuǎn)載此文目的在于傳遞更多信息，不代表本網(wǎng)的觀點和立場。文章內(nèi)容僅供參考，不構(gòu)成投資建議。投資者據(jù)此操作，風(fēng)險自擔(dān)。