午夜精品久久17c,欧洲精品一区,日韩高清a**址,亚洲夜夜综合

孫凝暉:算力網(wǎng)為供給側(cè)和消費側(cè)帶來多種收益

2022.12.05

算力網(wǎng)是算力、算法和數(shù)據(jù)對象三要素相融合的基礎設施化。互聯(lián)網(wǎng)底層是以5G、光纖、星網(wǎng)為主的數(shù)據(jù)通信網(wǎng);中間是以IP為核心的互聯(lián)網(wǎng)體系結(jié)構(gòu);上層是萬維網(wǎng)(WWW,也稱為信息網(wǎng)),通過信息網(wǎng),我們每個人都可以隨時隨地訪問世界上任何地方的數(shù)據(jù)和信息。與信息網(wǎng)平行的就是算力網(wǎng),其存在的目的是服務千行百業(yè)的模型上網(wǎng),讓用戶能夠隨時隨地訪問世界上任何地方的算力資源。在信息網(wǎng)和算力網(wǎng)之上,進一步構(gòu)建出消費互聯(lián)網(wǎng)和產(chǎn)業(yè)互聯(lián)網(wǎng)。算力網(wǎng)與信息網(wǎng)不同,信息網(wǎng)是以信息(即網(wǎng)頁)為核心,而算力網(wǎng)以算法為核心,高效適配多樣性算力,對數(shù)據(jù)資產(chǎn)進行深度加工,產(chǎn)出各式各樣的模型。


當前,我國正在推進“東數(shù)西算”工程,其目標就是在企業(yè)級的算力網(wǎng)和城市級的算力網(wǎng)的基礎上,進一步構(gòu)建一個國家級的算力網(wǎng)。從算力基礎設施化的角度來看,“東數(shù)西算”工程的關鍵是在“數(shù)”和“算”上做原創(chuàng)性的工作,這樣才能真正把“東數(shù)西算”工程持續(xù)推進下去。

算力網(wǎng)的生態(tài)和云計算的生態(tài)應該有所不同。云計算只有兩種角色,即算力消費者和算力供給者,供給者包括亞馬遜、阿里巴巴這些云供應商;而算力網(wǎng)擁有更多細分的角色,如算力提供商、算力運營商、算力增值服務商等,應將算力的各個環(huán)節(jié)進行解耦,以此構(gòu)建一個真正的算力網(wǎng)生態(tài)。在這個生態(tài)下,我們需要關注算力網(wǎng)為用戶帶來的多種收益。

在算力供給側(cè)方面算力網(wǎng)帶來的收益

一是可為“東數(shù)西算”工程節(jié)約用電120億度,消納“棄風棄光”。2021年,全國數(shù)據(jù)中心的總耗電量大致相當于湖南省全省的用電量,那么“東數(shù)西算”工程能不能節(jié)電呢?現(xiàn)在西部的算力大概占全國的4%,據(jù)估計,未來五年,西部算力大概會占全國總算力的20%。因為,西部數(shù)據(jù)中心PUE(電源使用效率)比較低,再減去電力傳輸?shù)膿p耗,能比在東部數(shù)據(jù)中心節(jié)約30%左右的電量。按照全國數(shù)據(jù)中心一年總耗電量兩千億度來計算,“東數(shù)西算”工程一年可以節(jié)約120億度電,約占我國一年總用電量八萬億度的0.15%。此外,西部擁有大量綠電資源,但2021年“棄風棄光”就達到273.8億度,如果該部分可以被西部數(shù)據(jù)中心動態(tài)消納,就可以實現(xiàn)節(jié)能減排。

二是整合國家超級計算中心資源,統(tǒng)一賬戶統(tǒng)一運維,提供深度超算優(yōu)化服務。目前,我國大概有十個左右的國家級超級計算中心,如果將國家級超級計算中心用超算互聯(lián)網(wǎng)的方式統(tǒng)一起來,建立一個虛擬的、國家最大的超級計算中心來提供服務,可有效提高超算的資源利用率。同時,統(tǒng)一的超級計算中心可以屏蔽底層體系結(jié)構(gòu)的異構(gòu)性,通過移植和優(yōu)化,以服務的形式為用戶提供服務。

三是虛擬機可按需跨地域調(diào)度,降低資費和應用延遲。“東數(shù)西算”工程經(jīng)常會提起虛擬機跨地域調(diào)度,如果我們能夠很好地讓虛擬機根據(jù)用戶的需求進行跨地域調(diào)度,就會得到很多收益。例如,根據(jù)用戶的位置,可以就近調(diào)度用戶的虛擬機,減少延遲;也可以根據(jù)實時報價,把用戶虛擬機調(diào)度到綠電節(jié)點,降低算力的電費;還可以做負載平衡,提高該重載的情況下整個應用的吞吐能力。

四是整合城市中小算力中心的閑置資源,形成虛擬城市算力網(wǎng),降低使用門檻,提高利用率。可以城市為單元進行資源整合,當前許多城市都建立了大大小小的算力中心,有的是政府投資建設,有的是企業(yè)投資建設,都有不同的服務對象。但這些數(shù)據(jù)中心里存在大量閑置資源,如果將算力網(wǎng)運用到各個城市里,就像虛擬運營商一樣建立虛擬的城市算力網(wǎng),對閑置資源進行統(tǒng)一運維、統(tǒng)一調(diào)度、統(tǒng)一交易,將大大提升公共資源的利用率。

五是新的算力容器抽象能夠?qū)崿F(xiàn)更細粒度的時空隔離,提高資源利用率。算力網(wǎng)需要一個新的算力容器抽象,所有的算力資源都被封裝到一個最小的調(diào)度單元里供用戶使用。單機時代,操作系統(tǒng)里的進程本質(zhì)上就是一個算力容器,以一個進程為單位,按照時間分片的方式,對單機硬件資源進行調(diào)度。云計算時代,算力容器是虛擬機,能夠?qū)PU、內(nèi)存、存儲、網(wǎng)卡等硬件資源進行時空分片,后來有了更細粒度的軟件層面的算力容器——開源應用容器引擎(Docker)。過去幾年,中國科學院計算技術研究所提出了“任務閉包”的概念,可以在應用級進行更細粒度的封裝。有了這個最小粒度的算力容器后,除了提高資源利用率之外,還可以提高應用在重載下的通量。例如我們基于“任務閉包”做過一個紅包實驗,可以在一定時延要求下將通量提高六倍。

在算力消費側(cè)方面算力網(wǎng)帶來的收益

一是算網(wǎng)協(xié)同進行優(yōu)化調(diào)度,為應用提供確定性時延保障。對于“東數(shù)西算”工程來說,網(wǎng)絡延遲將是一個嚴重的問題。從東部到西部,存在著30~60秒不等、方差很大的網(wǎng)絡延遲,跟本地毫秒級、抖動極小的延遲無法相提并論。很多工業(yè)制造應用,對于延遲抖動的要求極高。目前,未來互聯(lián)網(wǎng)基礎設施(CENI)可以將延遲控制在0.03毫秒之內(nèi),這樣將東邊的數(shù)據(jù)送到西邊,對那些網(wǎng)絡延遲抖動比較敏感的應用可以提供確定性延遲保障。

二是聯(lián)邦模型突破數(shù)據(jù)壁壘,利用分布式算力構(gòu)建智能模型網(wǎng)。人工智能一般都是在本地建模,例如醫(yī)療數(shù)據(jù),各個醫(yī)院都是在自己的數(shù)據(jù)中心內(nèi)進行建模。如果要建大模型,需要把這些數(shù)據(jù)參數(shù)都傳到一個大的數(shù)據(jù)中心里進行建模,這樣在數(shù)據(jù)隱私等方面就存在較多風險。有了聯(lián)邦模型,無須傳遞數(shù)據(jù),只需傳遞模型,不同算力中心可將本地模型集中傳遞到聯(lián)邦模型所在的算力中心,進行迭代式建模,從而實現(xiàn)分散式算力和數(shù)據(jù)協(xié)同工作。

三是主干編程面向物聯(lián)網(wǎng)(IoT)應用,提高端邊云協(xié)同場景下超異構(gòu)分布式環(huán)境開發(fā)效率。歷史上每出現(xiàn)一些新應用,都伴隨著新的編程工具的出現(xiàn)。例如,在自動化時代,有可編程邏輯控制器(PLC);在單機時代,有小應用程序(Applet)等的組件編程;在互聯(lián)網(wǎng)時代,有以編程語言(Java)為代表的階段式事件驅(qū)動和以分布式計算系統(tǒng)(MapReduce)為代表的大數(shù)據(jù),以及以符號數(shù)學系統(tǒng)(TensorFlow)為代表的人工智能。在物聯(lián)網(wǎng)時代,我們不但要考慮算法數(shù)據(jù),更要考慮算力。在互聯(lián)網(wǎng)時代,手機端算力差別不大,但物聯(lián)網(wǎng)時代智能硬件端的算力差距很大,異構(gòu)性很強,所以我們的編程要對此進行感知。中國科學院計算技術研究所提出一個叫主干編程的方式,通過主謂賓式的編程模式,以主干支干嵌套式進行任務分發(fā),能夠很好地適應物聯(lián)網(wǎng)場景的多樣性。

四是云函數(shù)編程支持算力網(wǎng)原生應用編程,實現(xiàn)應用跨云橫向擴展。云函數(shù)編程可以解決應用原生進行橫向跨云擴展的需求,傳統(tǒng)云應用只能在一個集群內(nèi)進行擴展,應用跨云就得進行重構(gòu)。云函數(shù)是把應用變成一個個更小粒度的云函數(shù),將每個函數(shù)都放到容器中,然后實現(xiàn)協(xié)同擴展,這樣云函數(shù)可以部署在一個云里,也可以擴展到其他云里,進而解決算力跨云擴展的問題。例如,進行跨云分布式訓練時,因為分布式訓練需要資源較多,單個云資源不夠,可以把另外一個云的資源也拉進來進行訓練,這個場景下云函數(shù)編程會非常方便。

五是用戶視角下的算力度量方式可以真正實現(xiàn)現(xiàn)收現(xiàn)付制(Pay-as-You-Go)。這一收益與算力度量有關,我們?nèi)绻阉懔ψ龀煞盏男问剑托枰峁┧懔Φ亩攘亢透顿M方式,這對提升用戶體驗來說非常重要。例如,用戶要對1億個64位整數(shù)進行排序,該如何進行度量和收費?如果按當前部分云計算廠商的方式進行度量便存在兩個問題。首先是度量不統(tǒng)一,很多人工智能應用使用8位、16位浮點/整型操作進行度量,高性能計算用64位浮點進行度量,而圖形處理器(GPU)是用32位/16位浮點進行度量,度量衡不統(tǒng)一;其次是用戶體驗和用戶付費不統(tǒng)一,例如,在兩臺服務器上執(zhí)行相同的排序程序,一個用時1分鐘,另一個用時1.5分鐘,理論上花費時間多的體驗更差,但按當前據(jù)時間計費的模式,花時間長的反而費用更高,這與實際情況相悖。所以,針對這兩個問題,我們要把度量衡統(tǒng)一到64位基本操作,同時,用一種用戶可以感知算力使用量的方式進行計費。這樣就能夠真正實現(xiàn)現(xiàn)收現(xiàn)付制,如同高速公路一般,付費多少與使用這條高速公路的情況直接相關。

總而言之,當前算力網(wǎng)更多關注的還是在供給側(cè)方面的收益,我們應該更多地關注用戶在消費側(cè)方面的收益,通過技術創(chuàng)新,讓中小企業(yè)更愿意來使用算力,并從使用算力中得到好處,這才是算力網(wǎng)能夠持續(xù)發(fā)展的關鍵因素。圖片


來源:《中國網(wǎng)信》2022年第7期

構(gòu)建云上科研工作環(huán)境

讓計算更簡單,讓生活更美好

免費試算
主站蜘蛛池模板: 连平县| 泸州市| 哈尔滨市| 天台县| 丹凤县| 萨嘎县| 木兰县| 德庆县| 郯城县| 吉林市| 巴林左旗| 永康市| 保德县| 龙胜| 新和县| 永顺县| 永平县| 罗山县| 神木县| 白玉县| 长汀县| 凤庆县| 章丘市| 乳山市| 大名县| 牙克石市| 商南县| 西平县| 成安县| 松阳县| 昭平县| 壶关县| 合肥市| 博白县| 安岳县| 蒙自县| 吉隆县| 桐城市| 宜黄县| 临清市| 上栗县|