智東西(公眾號:zhidxcom)
作者 | ZeR0
編輯 | 漠影
智東西1月24日消息,今日,位于上海臨港新片區(qū)的商湯科技人工智能計算中心(AIDC)正式投入使用。
商湯從2018年4月開始布局人工智能(AI)計算原型機研制項目,到2020年3月,AIDC項目正式立項啟動。從開工建設(shè)到主體結(jié)構(gòu)封頂,AIDC僅用時168天,刷新了臨港建設(shè)的新紀錄。
這是亞洲最大的超算中心之一,也是華東地區(qū)首個落地運營的超大型人工智能計算中心,具有開放、大規(guī)模、低碳、節(jié)能等特點。
該計算中心建筑面積13萬平方米、項目總投資約56億元、一期共5000個等效8000瓦的機柜,滿載運行時算力可達3740PetaFLOPS(1PetaFLOPS為每秒千萬億次浮點運算),二期正在規(guī)劃中,大體會是一期體量的1~2倍。
截至2021年6月30日,商湯已經(jīng)戰(zhàn)略性地在主要區(qū)域市場建立了23個人工智能超級計算集群,擁有超過20000塊GPU,總算力達到每秒1.17百億億次浮點運算。AIDC投入使用后,商湯總算力將超過每秒4.91百億億次浮點運算。
近日,商湯科技聯(lián)合創(chuàng)始人、副總裁楊帆接受智東西等媒體的采訪。楊帆透露道,AIDC的目標是在2025年成為商湯的支撐性業(yè)務(wù)之一。
據(jù)悉,AIDC當前可完成10000億參數(shù)模型的完整訓練。未來商湯內(nèi)部研發(fā)體系都將架設(shè)在AIDC上,預(yù)計到2024年所有服務(wù)器到位時,AIDC的國產(chǎn)化硬件比例將超過50%。
一、對內(nèi)支撐AI大裝置,對外提供三類業(yè)務(wù)
AIDC能做什么?
對內(nèi),AIDC是商湯通用AI基礎(chǔ)設(shè)施SenseCore商湯AI大裝置的算力底座,AI大裝置所囊括的所有軟件平臺及服務(wù)均運行在AIDC的物理實體上。
對外,AIDC可以獨立提供算力支撐。商湯將通過AIDC把AI大裝置的技術(shù)能力開放給產(chǎn)學界合作伙伴,讓更多客戶在商湯的云平臺上獲取AI-as-a-Service服務(wù),靈活訂閱各種預(yù)訓練AI模型,從而降低各行業(yè)大規(guī)模AI應(yīng)用的準入壁壘。
從計算能力來看,AIDC堪稱“巨無霸”。
其總算力達3740PetaFLOPS,1天內(nèi)可處理時長相當于23600年的視頻,等同于從舊石器時代晚期不間斷錄制到今天的長度。
當前AIDC在1天內(nèi)可完成10000億參數(shù)視覺領(lǐng)域大模型的完整訓練?;谶@一超大模型,可以衍生出超過2萬多個商用模型,幫助產(chǎn)業(yè)界以極低的下游數(shù)據(jù)采集成本,快速驗證多個新場景。
此外,基于超大規(guī)模彈性可擴展算力,AIDC可保障對外運營的AI模型訓練大規(guī)模算力需求。
作為底層支撐,AIDC運行后主要提供三類業(yè)務(wù)路線:第一類,向醫(yī)療蛋白質(zhì)折疊、量子科學等AI+Science基礎(chǔ)科研提供算力支持;第二類,提供整合能力,幫助企業(yè)建設(shè)一整套生產(chǎn)工具體系;第三類,提供端到端的智慧化服務(wù)。
楊帆稱,通過AIDC的支撐,一個算法的生產(chǎn)成本可能下降為過去的1/10,甚至更低。
通過直連新型互聯(lián)網(wǎng)交換中心,AIDC不僅能夠為客戶提供就近接入服務(wù),解決跨網(wǎng)訪問等難題,還可以提高企業(yè)間信息交互效率、降低傳輸成本,提升傳輸質(zhì)量和穩(wěn)定性,實現(xiàn)多點、多用戶的快速網(wǎng)間互聯(lián)。
據(jù)悉,在正式建成前,商湯已有潛在的客戶和合作伙伴在AIDC上進行了一些試運行。春節(jié)后,AIDC將進入正式使用狀態(tài)。
比如商湯在上海做的一網(wǎng)統(tǒng)管,為上海政府的公共服務(wù)提供了涉及垃圾滿溢、井蓋丟失、燈箱損壞、自行車亂停亂放、違章占道等各種城市服務(wù)管理的約上百種AI算法應(yīng)用,這些算法的迭代生產(chǎn),依賴的即是AIDC這樣的基礎(chǔ)設(shè)施。
“通過AIDC,通過里面的軟件整合,我覺得我們有信心在未來的兩到三年之內(nèi),我們能夠?qū)崿F(xiàn)在同等規(guī)模算力下,國產(chǎn)的軟硬一體的成本、對客戶的成本,降得更低,這個其實是一個我比較期待的目標?!睏罘f。
二、低算力成本,加速國產(chǎn)AI芯片市場化進程
目前,商湯正在探索從國產(chǎn)芯片、國產(chǎn)服務(wù)器、自研訓練框架、算法和落地行業(yè)應(yīng)用的AI大生態(tài)建設(shè)。
在CAPEX投資成本方面,AIDC可以降低自研國產(chǎn)芯片單位算力成本;在OPEX運營成本方面,得益于算法優(yōu)化的優(yōu)勢,訓練時長更短、效率更高、占用資源更小。
“我們計劃是3740PetaFLOPS里面應(yīng)該會不少于50%的國產(chǎn)芯片做核心AI芯片來使用。”楊帆說,臨港AIDC只是一個,商湯還有更多區(qū)域的AIDC布局建設(shè)正在推進中,AIDC整體會以訓練為主,也會有一些推理,但占比較低。
他提到過去兩年,商湯與多家國內(nèi)AI芯片廠商展開了大量合作,希望加快國產(chǎn)云端AI芯片及相應(yīng)服務(wù)器在市場更大規(guī)模、更大范圍地使用。
據(jù)悉,AIDC當前試運營機器里已有一部分國產(chǎn)化比例,該比例的提升對于AI全產(chǎn)業(yè)鏈整體成本的下降、整體服務(wù)水平的提升、在硬件側(cè)形成更加良性的商業(yè)競爭環(huán)境等方面將帶來很大的價值。
過去兩年,商湯在持續(xù)推動國產(chǎn)AI核心軟硬件之間的適配。為了促進這件事情,商湯在2021年7月上海世界人工智能大會上牽頭成立了“人工智能算力產(chǎn)業(yè)生態(tài)聯(lián)盟”,簡稱“ICPA智算聯(lián)盟”。
商湯將基于AIDC,促進AI生態(tài)的構(gòu)建,推動國產(chǎn)原創(chuàng)技術(shù)的落地應(yīng)用。
楊帆分享道,從成立ICPA算力聯(lián)盟開始,聯(lián)盟每一季度都會組織一到兩次的齊聚芯片設(shè)計專家、軟件設(shè)計專家、軟件設(shè)計專家、行業(yè)標準專家的深度閉門研討會。
在前期,商湯希望形成一個足夠標準、通用的軟硬件接口層的定義。
作為亞洲最大AI軟件平臺公司,商湯既有核心平臺層和操作系統(tǒng)層的軟件能力,又有大量下游應(yīng)用,跟各個國產(chǎn)硬件、芯片廠商做核心軟件、系統(tǒng)的適配,能幫他們節(jié)省研發(fā)費用和時間成本。
中期的工作是,商湯在臨港AIDC投入運營之后,會跟中國電子技術(shù)標準化研究院(工業(yè)和信息化部電子第四研究院)建立“CESI-SenseTime人工智能算力及芯片評測聯(lián)合實驗室”,開展AI算力和芯片標準制定、AI芯片測評工具開發(fā),提供AI計算中心、芯片測試驗證服務(wù)和人才培訓等支持。
該實驗室未來將成為中立的第三方AI芯片、AI服務(wù)器測評機構(gòu),為產(chǎn)業(yè)提供參考標準,也促進每個硬件廠商更好地提升自家產(chǎn)品。
面向長期,由于商湯自身有大量下游產(chǎn)業(yè)應(yīng)用,商湯將不遺余力地把相對較好的國產(chǎn)AI芯片及其服務(wù)器,導入整合到自己及合作伙伴的解決方案,將它快速推向市場。
三、六大技術(shù)亮點,解讀AIDC建設(shè)的硬實力
商湯的AIDC通過其大規(guī)模數(shù)據(jù)處理及高性能計算的能力,為研發(fā)提供支持。
楊帆強調(diào)說,AIDC的算力并非堆砌,其中涉及許多通信側(cè)、存儲側(cè)的領(lǐng)先技術(shù)。在高性能計算、分布式調(diào)度、數(shù)據(jù)I/O、軟硬件協(xié)同以及系統(tǒng)安全方面,AIDC均實現(xiàn)了多重突破。
(1)高性能計算:商湯已開發(fā)一款高性能計算引擎,它包含豐富的高度優(yōu)化的計算程序、編譯器及運行時環(huán)境。與芯片供應(yīng)商提供的計算引擎相比,商湯的計算引擎通過優(yōu)化的算子及全圖優(yōu)化技術(shù),顯著提高端到端的運行效率,不僅涵蓋神經(jīng)網(wǎng)絡(luò)計算,亦涵蓋預(yù)處理及后處理階段。
(2)高效的分布式調(diào)度:AIDC具有分布式任務(wù)調(diào)度系統(tǒng),可在成千上萬個GPU上動態(tài)調(diào)度數(shù)以萬計的計算任務(wù)。該系統(tǒng)每年調(diào)度超過2000萬個任務(wù),確保研發(fā)活動能及時及有效地進行。在多種調(diào)度策略的支持下,調(diào)度系統(tǒng)可保持算力的高利用率,大降訓練一個模型所需的平均成本。
(3)高速的數(shù)據(jù)I/O:在數(shù)據(jù)集上訓練模型時,每個數(shù)據(jù)樣本都會以高頻率和隨機順序加載和處理多次。商湯的AIDC可提供非常高的IO吞吐量,允許訓練任務(wù)每秒加載超過200萬張圖片,保證訓練任務(wù)可以全速運行而無需等待數(shù)據(jù)。
“2018年,我們做了一個原型機的預(yù)研項目,實現(xiàn)了把1000塊GPU卡連在同一個網(wǎng)絡(luò)上去加載數(shù)據(jù)進行運算。今天我們正在做更大的5000~10000張卡,把它連在同一個網(wǎng)絡(luò)上去進行計算?!睏罘劦馈?/p>
(4)硬件/軟件協(xié)同設(shè)計:在分布式環(huán)境中,協(xié)同各計算節(jié)點GPU相互通信、頻繁從分布式存儲系統(tǒng)中獲取數(shù)據(jù)的復(fù)雜操作,易造成運行時性能的顯著損失。對此,商湯采用硬件/軟件協(xié)同設(shè)計的方法,根據(jù)其對AI任務(wù)的理解來配置硬件設(shè)置,同時設(shè)計軟件棧并進行跨層優(yōu)化。通過這種設(shè)計,商湯的AIDC每年可生產(chǎn)數(shù)以萬計的模型。
(5)高標準的系統(tǒng)安全:商湯在設(shè)計其架構(gòu)時在多個層級確保系統(tǒng)安全。例如,商湯制訂全面的指引,按照不同安全級別對數(shù)據(jù)進行分類,并授予相應(yīng)的訪問權(quán)限;商湯的存儲系統(tǒng)包括先進的訪問控制系統(tǒng);敏感數(shù)據(jù)以加密的形式存儲及傳輸;分配給不同授權(quán)組的計算資源實現(xiàn)了合理隔離。商湯的安全團隊實時監(jiān)控AIDC的運行,并在出現(xiàn)潛在風險時采取行動。
(6)綠色低碳數(shù)據(jù)中心建設(shè):AIDC采用了各種前沿的能源優(yōu)化措施,預(yù)期AIDC啟動后的功耗將比中國其他數(shù)據(jù)中心的行業(yè)平均水平低約10%,每年可節(jié)省約4500萬千瓦時功耗。AIDC預(yù)期將在2025年前后達到碳排放峰值,估計峰值排放量不超過35萬公噸二氧化碳當量,并于2050年前后達到凈零排放。
四、建智算中心,應(yīng)先評估地域產(chǎn)業(yè)升級需求
AI計算中心是否真正能帶給產(chǎn)業(yè)應(yīng)用價值?如何高效利用AI計算中心的資源?
談及這些問題,楊帆說,商湯對于AIDC的未來應(yīng)用場景非常有信心。商湯不僅自己做,還對一個地方產(chǎn)業(yè)升級的需求強度和規(guī)模做了很好的測算與評估。
在他看來,在一個地方建設(shè)智算中心,首要考慮的是評估這個地方的產(chǎn)業(yè)基礎(chǔ)和未來三年的產(chǎn)業(yè)升級需求,然后測算今天的AI技術(shù)及產(chǎn)品供應(yīng)商能否滿足這些需求,才能知道應(yīng)該建設(shè)多大規(guī)模的智算中心。
數(shù)據(jù)治理也是AI產(chǎn)業(yè)發(fā)展中的一大挑戰(zhàn)。農(nóng)業(yè)時代的生產(chǎn)資料是土地,工業(yè)時代的生產(chǎn)資料是能源,而數(shù)字時代的生產(chǎn)資料就是數(shù)據(jù)。
對于能源,一升油加一升油,是兩升油。對于土地,一畝地加一畝地,是兩畝地。
但數(shù)據(jù)不一樣,就是1T數(shù)據(jù)加1T數(shù)據(jù),雖然變成了2T的數(shù)據(jù),但其實際價值是大于2T的。更多的數(shù)據(jù)放在一起,將帶來非線性增長的價值。
“這個是跟過去農(nóng)業(yè)時代,工業(yè)時代的生產(chǎn)資料全都不一樣的、一個極其重要的新特性?!睏罘窒砹艘恍┛捶?,數(shù)據(jù)最大的價值是低成本、可復(fù)制性和聚合之后實現(xiàn)的非線性增長價值。
如何實現(xiàn)更多數(shù)據(jù)的連接,同時保障數(shù)據(jù)安全和隱私可控,又能夠界定清楚中間的權(quán)屬規(guī)定?這些需要行業(yè)繼續(xù)探索,去找到一個清晰的答案。
楊帆說,商湯建設(shè)AIDC也是一種探索,可能在未來一到兩年,在AIDC的試運營階段開始后,商湯會在這個方面重點做一些思考、摸索和嘗試,因為他認為這是未來最核心的幾件事情之一。
結(jié)語:未來將在更多區(qū)域市場建立AIDC
在楊帆看來,商湯的核心優(yōu)勢不僅在于技術(shù)領(lǐng)先,還在于如何持續(xù)地實現(xiàn)創(chuàng)新技術(shù)商業(yè)化。
以前從創(chuàng)新的原始出發(fā)點到最終變成客戶價值,其過程時間很長,并涉及非常多的環(huán)節(jié)。當做這件事的周期從三四年縮短到三四個月時,這就是商湯對于產(chǎn)業(yè)長期的核心競爭力所在。
僅有科技企業(yè)是做不好創(chuàng)新的,需要傳統(tǒng)企業(yè)配合做迭代實驗,進行相應(yīng)的配合和投入,甚至需要一定的沉默成本。今天中國很多行業(yè)都在做數(shù)字化轉(zhuǎn)型、智能化升級,那么客戶愿意掏出時間、愿意開放共享來一起做這件事情的思維和態(tài)度也非常重要。
除了上海外,未來商湯也計劃在中國四大超一線及核心區(qū)域中心城市建設(shè)AIDC,以使商湯的AI-as-a-Service服務(wù)擴展到更多地區(qū)。
楊帆相信,AIDC未來會持續(xù)迭代,朝著如何讓一個技術(shù)創(chuàng)新的成本更低、效率更高去演進,向更多合作伙伴及客戶分享商湯沉淀的能力,為AI產(chǎn)業(yè)帶來更大的價值。
文章來源于網(wǎng)絡(luò),所有權(quán)歸原作者所有,大道家園只作為存儲空間,如有侵權(quán)請聯(lián)系我們進行刪除。
本文地址:http://www.soujuw.cn/guoxue/126663.html.
聲明: 我們致力于保護作者版權(quán),注重分享,被刊用文章因無法核實真實出處,未能及時與作者取得聯(lián)系,或有版權(quán)異議的,請聯(lián)系管理員,我們會立即處理,本站部分文字與圖片資源來自于網(wǎng)絡(luò),轉(zhuǎn)載是出于傳遞更多信息之目的,若有來源標注錯誤或侵犯了您的合法權(quán)益,請立即通知我們(管理員郵箱:602607956@qq.com),情況屬實,我們會第一時間予以刪除,并同時向您表示歉意,謝謝!
上一篇: 明代朝天女是什么職業(yè) 典型的要錢不要···
下一篇: 守拙,有三層境界