阿里云周靖人:AI時代,云計算要服務不同開發(fā)者和客戶群體
11月1日消息,阿里日前舉辦了以“計算,為了無法計算的價值”為主題的2023云棲大會。會上,阿里云CTO周靖人表示,面向智能時代,阿里云將通過從底層算力到AI平臺再到模型服務的全棧技術創(chuàng)新,升級云計算體系,打造一朵AI時代最開放的云。
在現(xiàn)場,周靖人公布了云計算基礎能力的最新進展,升級了人工智能平臺,并發(fā)布千億級參數(shù)規(guī)模的大模型通義千問2.0,以及一站式模型應用開發(fā)平臺阿里云百煉,阿里云已初步建成AI時代全棧的云計算體系?!澳壳?,中國有一半大模型企業(yè)跑在阿里云上,280萬AI開發(fā)者活躍在阿里云魔搭社區(qū)上,未來,阿里云將攜手千行百業(yè)推動AI創(chuàng)新,共享技術紅利?!?/p>
《晚點LatePost》在本次云棲大會前對話周靖人,他談了阿里云如何看待AI帶來的云計算新機會,他們計劃如何搭建新環(huán)境下的計算基礎設施,以及在這次技術變革中的轉型,到底會如何改變阿里云。
阿里云CTO周靖人
圖源阿里云公眾號
《晚點》:現(xiàn)在已有不少中國大模型公司是你們的客戶,如智譜AI和百川智能等。但阿里云自己也更新了通義2.0大模型,并發(fā)布了一系列基于通義的行業(yè)應用模型。為什么你們一邊想做基礎設施,一邊又在自己做模型?
周靖人:我們云上有各種客戶,表面看起來我們這也做、那也做,但這都對應著AI時代,云計算要服務的不同開發(fā)者和客戶群體。
有一類客戶,像你講的百川,自己能開發(fā)通用模型,他需要的是AI基礎設施;還有客戶,他不見得要從頭訓練通用模型,但想結合行業(yè)知識訓練模型,比如這次我們發(fā)布了一個工具“阿里云百煉”,它能基于通用模型,讓客戶方便地結合自身數(shù)據(jù)集產(chǎn)生專屬大模型;還有人是想直接調用已有的模型。
而且我們做大模型不是為了做端到端的超級應用,這次發(fā)布的模型大部分不是完整產(chǎn)品,我們的目的是給大家展示和開放能力,歡迎客戶通過API方式把它們放到自己的系統(tǒng)里,真正解決業(yè)務問題。我們的所有模型都歡迎“被集成”。
不僅是大模型,我們每一層能力,從訓練模型的能力到微調、部署和調用的能力,都希望“被集成”。阿里云要給每一類開發(fā)者和客戶都提供支持。
《晚點》:既做算力基礎設施又做模型不會和客戶沖突嗎?
周靖人:這不是競爭生態(tài),大家還是理念上沒跨過這個坎。你看Snowflake、Databricks和MongoDB都是在云上發(fā)展起來的“云原生”企業(yè)(上述公司的業(yè)務都與數(shù)據(jù)分析或數(shù)據(jù)庫有關),Databricks最大的用量就在AWS和微軟Azure上,但不妨礙AWS和Azure也有自己的大數(shù)據(jù)與數(shù)據(jù)庫產(chǎn)品。
在模型時代是一樣的。云計算的生態(tài)不是onesizefitsall(一套產(chǎn)品滿足所有客戶需求),有你沒我、有我沒你。市場里有不同定位的產(chǎn)品才是一個健康生態(tài)。
《晚點》:為幫助構建這個生態(tài),阿里云做了什么?
周靖人:我們是中國大公司里唯一開源自研大模型的,之前開源了70億和140億參數(shù)的通義大模型,11月還將開源720億參數(shù)的版本。Meta開源的Llama2的最大版本是700億,其實我們開源的模型在各種性能指標上都超過了Llama2,開發(fā)者里也有口碑。
另一件事是我們去年8月上線了模型社區(qū)ModelScope魔搭。短短一年多,魔搭已累積了上億次模型下載量。這一定程度反映了我們的判斷:更多開發(fā)者是希望把模型集成在自己的系統(tǒng)里。
這次我們還宣布了一個新計劃“云工開物”,給每個想嘗試AI前沿技術的高校學生提供全年300元的阿里云產(chǎn)品免費額度,這相當于給每個學生配備了一臺云服務器。我們還給學生提供全線產(chǎn)品的三折優(yōu)惠,上限是5000元人民幣,一些產(chǎn)品甚至低于成本價。對高校老師我們也有計劃,讓他們科研使用的部分能享受5折優(yōu)惠。
云工開物不限制學生名額,只要你是學信網(wǎng)注冊學生,大學生、大專生都可以申請。全國有四千多萬注冊學生,我們估計其中有1/5到1/4有需求。
這是阿里云有史以來的最大投入力度之一。我們希望有需要的開發(fā)者、學生、研究機構、創(chuàng)業(yè)公司和ISV(獨立軟件開發(fā)商)都能有效把模型集成到自己的環(huán)境里,一起推動AI產(chǎn)業(yè)發(fā)展。
《晚點》:阿里云做大模型和AI基礎設施的想法是怎么形成的?你們2022年第一次對外提MaaS,同時整合了過去的模型并開始建設模型社區(qū),為什么在當時有這些動作?
周靖人:我們最開始在2022年提MaaS時,包括做魔搭,大家可能沒那么關注和理解,覺得這只是一個another term。今年我們看到越來越多友商也在跟進。
其實到今天,全社會更多關注的還是大模型發(fā)布,大家不太注意的一點是:這背后是整個云系統(tǒng)的升級,是技術體系的競爭。
我們最開始做大模型時想用更多機器,把幾百臺服務器連起來。想法很好,系統(tǒng)做不了,你會發(fā)現(xiàn)各種問題:分布式編譯、系統(tǒng)穩(wěn)定性、網(wǎng)絡擁塞等等。
幸運的是,這個過程中,云技術團隊和模型團隊一直緊密配合,遇到問題時云團隊就去優(yōu)化,優(yōu)化一點,大模型就發(fā)展一點,模型發(fā)展到一定程度又遇到挑戰(zhàn),又需要云去升級,是交替往前走的過程。
所以在這次AI變革中,AI和云是不可分割的整體。模型是對數(shù)據(jù),甚至對算力的進一步抽象,它要求對算力體系做一系列重構和創(chuàng)新。這點全球都一樣,OpenAI融了這么多資,它還是要與微軟Azure密合作,這是因為AI進化離不開云的支撐,它們是一個問題的上下部分。
阿里云過去積累了這么多年云計算技術,現(xiàn)在是well positioned(處在好的位置),剛好能做好AI基礎設施,支持上面更大、更繁榮的生態(tài)。
《晚點》:為什么這個基礎設施是由云廠商提供?企業(yè)也可以買很多GPU和服務器,自己搞一個數(shù)據(jù)中心。
周靖人:很多人有一個誤解,覺得只要有很多GPU,就可以堆起來訓練大模型,實際上這樣做不成任務。你需要把成千上萬個GPU連起來,像一臺超級計算機那樣工作,這是個非常復雜的分布式系統(tǒng)。
這涉及芯片的選擇和適配、服務器設計、數(shù)據(jù)中心的分布式框架設計,還有網(wǎng)絡設計:一個高效網(wǎng)絡有規(guī)模限制,有hierarchical(按等級劃分的)的網(wǎng)絡架構,還要解決擁塞和穩(wěn)定問題。網(wǎng)絡之后還有存儲,因為訓練模型要清洗大量數(shù)據(jù),過程中還要讀取大量數(shù)據(jù)。
同時,當我們有了這么大規(guī)模的分布式系統(tǒng),計算節(jié)點出故障是必然的,就要有容錯功能。過去我們也跑壞了不少GPU,發(fā)現(xiàn)了一些bug,比如它的溫度控制比較難?,F(xiàn)在訓練大模型短則幾周,長則幾個月,不能因為某個機器出問題,所有工作都重跑。
我們現(xiàn)在可以做到,即使某些計算模塊出故障,仍然能實時調整,支持模型繼續(xù)訓練,我們也有一套在不同時間點做checkpoint的機制,這讓我們的系統(tǒng)能支持10萬卡級的GPU一起做訓練。
這些能力都是需要長時間積累的、有挑戰(zhàn)的技術。我們從服務器設計到網(wǎng)絡設計都是自研的,甚至很多網(wǎng)絡協(xié)議都是自己開發(fā)的。最后能提供這個復雜分布式系統(tǒng)服務的人會非常少。
《晚點》:有一種觀點認為,未來只會剩下少數(shù)幾個通用大模型。如果模型集中度足夠高,開發(fā)模型的公司自己建立這套計算能力長期看可能更經(jīng)濟。
周靖人:不管未來通用大模型的格局是否集中,明確的趨勢是,推理(即使用大模型時的計算過程)對計算的需求會越來越大,遠大于訓練。
推理比訓練更離不開云。一是推理需求遍布全國甚至全球各地,因為你的用戶可能有的在杭州、有的在北京。這需要低延時,需要就近的數(shù)據(jù)中心支持。只有大型云廠商才能提供遍布各地的算力服務。二是推理有用量波動,有些應用是早上用戶多,有些是晚上。也只有云廠商才能處理這種波峰波谷的彈性需求。所以考慮到推理場景,AI的發(fā)展就更和云密不可分了。
《晚點》:這些能力能被多快學習?在模型和算法層,很多開源項目和論文分享促進了技術擴散。
周靖人:每個云廠商做系統(tǒng)優(yōu)化時都有一些獨門絕技,這是每個公司的看家本領,是體現(xiàn)細致功底和見真章的地方,不經(jīng)過長年累月的實踐掌握不了。
比如網(wǎng)絡結構設計就有很多課題:怎么用交換機?每一個交換機服務多少臺服務器?每臺服務器多少網(wǎng)卡?中間怎么連接?怎么解決數(shù)據(jù)延遲的損失?接下來還有怎么做執(zhí)行:什么時候做模型并行?什么時候做數(shù)據(jù)并行?怎么讓不同任務被分配、調度在不同模塊上做聯(lián)合訓練?
要充分發(fā)揮GPU的能力,就是靠這些硬核的計算技術和經(jīng)驗。從去年提出MaaS后,我們就一直在圍繞模型的整個生命周期重新設計云的技術體系,從最開始的數(shù)據(jù)收集、清洗,到模型的訓練、驗證、微調,最后到模型服務,涉及方方面面。這也是為什么現(xiàn)在客戶在阿里云上訓練大模型的整體效率會更高。
《晚點》:總結而言,阿里云要怎么做以適應AI新環(huán)境?你們這一年來發(fā)布了很多新產(chǎn)品和服務,為什么是這樣的產(chǎn)品結構?
周靖人:我們認為MaaS的核心理念是,模型會成為人工智能時代一個重要的生產(chǎn)元素,整個計算體系會圍繞模型重新升級。
阿里云要做的事有四層:
一是用AI升級既有云計算技術,把云更自動化地管理起來。過去云計算中的很多部署、運維、故障處理要靠人的經(jīng)驗,靠工程師輪班24小時盯著,現(xiàn)在要逐步換成AI,比如引擎參數(shù)的調整、內存管理、網(wǎng)絡擁塞的解決,這些決策和流程都可以引入AI,實現(xiàn)autonomous cloud(自動的云)。
云里也要寫很多腳本,我們這次發(fā)布的通義靈碼就能幫云計算工程師寫代碼,提高開發(fā)效率。另外大語言模型也能幫云的運維人員更高效地查找文檔、維護工單和響應客服。相當于用AI和大模型把云本身的開發(fā)和運維都優(yōu)化一遍。
第二是,我們從IaaS層到PaaS層的每一個計算產(chǎn)品都會為AI升級。比如我們面對AI推出了彈性計算實例(“實例”是云計算中的管理單元,相當于一臺虛擬機),開發(fā)了專門的存儲產(chǎn)品;在網(wǎng)絡上也做了大升級,實現(xiàn)了AI需要的低延時、高帶寬網(wǎng)絡。
第三層是做AI基礎設施。阿里云有一個重要理念:數(shù)據(jù)中心就是一臺計算機。這是指通過高效連結計算資源,讓開發(fā)者感覺這就是一臺機器,不用分心考慮底層問題,專注做應用開發(fā)。
這個理念在AI場景里更加重要,因為AI背后不單是CPU,而是有各種芯片的異構架構,有的算力強,有的還要提升,我們是通過云的能力和高效網(wǎng)絡把這么大規(guī)模的不同計算單元連接起來,形成一個強大的計算引擎。
最后一層就是我們自己的系列模型。當然再說一次,我們做模型最重要的目標不是做終端應用,是要服務好開發(fā)者。
《晚點》:今年8月,阿里云組織了“西溪論道”,匯集了國內多個大模型公司和應用公司,包括智譜、百川、瀾舟和妙鴨等等,他們提了什么需求和反饋?
周靖人:他們關心剛才我們講的——AI基礎設施能怎么幫他們更好地做模型和應用創(chuàng)新。當然,他們也在意價格。我們也會努力提供更好的性價比,很多時候性價比能反映技術實力。
《晚點》:阿里云的AI計算成本現(xiàn)在下降到什么程度了?
周靖人:降低整體成本和降低門檻相輔相成,一個是便宜,一個是容易,要一起說。
在降低門檻上,今年我們PaaS層幾乎所有產(chǎn)品都提供了serverless(一種能按需彈性伸縮、按需付費的軟件系統(tǒng)架構)方案,在AI算力上我們也推出了PAI靈駿智算serverless化服務,是國內第一個做到的廠商。
過去大家要選固定的硬件,自己做一些維護,而serverless方案能提供開箱即用的體驗,開發(fā)者不需要關心背后的硬件資源。
今年還我們推出了阿里云容器服務ACS。之前我們更多不是容器,是虛擬機,它還是涉及要用什么CPU,什么內存等一些中間管理。
ACS現(xiàn)在支持所有主流語言,能讓大家方便地編排業(yè)務體系,支持快速擴容和縮容,讓客戶能真正按需彈性使用資源。我們也提供了能一鍵式自動編排容器的工具(“ServerlessDevs”)并推出了流程式開發(fā)服務(云工作流“CloudFlow”)。這都能大幅降低客戶開發(fā)人員的復雜性。
價格方面,serverless本身有很大價格優(yōu)勢,因為它是按需使用的,客戶不需要提前購買資源做準備。我們也在不斷推新產(chǎn)品,包括大數(shù)據(jù)、數(shù)據(jù)庫都會推一些標準實例。其實從4月11日開始說降價后,我們一直在降價,調價頻率呈上升趨勢,不是一定要到大節(jié)點再說降價。
《晚點》:你認為做好AI基礎設施會給阿里云帶來哪些改變?比如公共云的業(yè)務占比會上升嗎?或者對你們做政企業(yè)務有什么幫助嗎?
周靖人:這次AI變革確實與公共云形態(tài)是有機融合的。首先模型訓練需要大量算力,如果都分散建設會有浪費,公有云的彈性使用特點更能避免算力閑置。而且自己建數(shù)據(jù)中心,往往會遇到機房容量和供電等各種限制。
推理就更適合公有云。當進入大規(guī)模應用后,你需要使用全國乃至全球的算力,用量一天之內可能就有波峰波谷的變化,你也很難預估業(yè)務未來的增長,如果自建數(shù)據(jù)中心,高估或低估了業(yè)務需求都是問題,要么是買機器的速度趕不上發(fā)展,要么買太多都浪費了。大家必然會更依賴公有云。
至于具體行業(yè)的需求,我還沒看到哪一個行業(yè)不會受這次AI變革的影響。政企領域也一樣,我們已經(jīng)看到了非常旺盛的需求。
《晚點》:這次AI變革的商業(yè)落地過程會像過去那樣,被過高期待后又經(jīng)歷低谷嗎?
周靖人:現(xiàn)在才剛開始,我們還沒看到波峰。這次AI技術的變化不是解決了某個特定問題,而是通用AI的進步。
《晚點》:投資機構a16z曾估算,云計算公司最后會獲得生成式人工智能行業(yè)10%-20%的收入,你怎么看云在AI時代的未來空間?
周靖人:很難預估,但我并不覺得這是無理之談。我們拭目以待。
《晚點》:阿里云涉及復雜的技術體系,作為CTO,你一定要想明白的事情是什么?
周靖人:對技術趨勢的思考,和做好對應趨勢的整體設計。首先確保阿里云處于領先位置,同時追求引領一些技術發(fā)展。
《晚點》:大模型之后,還有哪些新技術會對云計算產(chǎn)生很大影響?
周靖人:AI本身還有很多工作,包括模型本身的進化,未來的多模態(tài),如何能把模型應用起來。同時我們要關注云計算怎么支持行業(yè),云計算本身怎么做轉型以適應這次巨變。
過去十幾年,無論是ImageNet還是AlphaGo都沒辦法與這次相比,這也許是一生中少有的計算技術革命。
2、電商號平臺僅提供信息存儲服務,如發(fā)現(xiàn)文章、圖片等侵權行為,侵權責任由作者本人承擔。
3、如對本稿件有異議或投訴,請聯(lián)系:info@dsb.cn
