阿里云周靖人：AI時代，云計算要服務不同開發(fā)者和客戶群體

周興

2023-11-01 09:25

11月1日消息，阿里日前舉辦了以“計算，為了無法計算的價值”為主題的2023云棲大會。會上，阿里云CTO周靖人表示，面向智能時代，阿里云將通過從底層算力到AI平臺再到模型服務的全棧技術創(chuàng)新，升級云計算體系，打造一朵AI時代最開放的云。

在現(xiàn)場，周靖人公布了云計算基礎能力的最新進展，升級了人工智能平臺，并發(fā)布千億級參數(shù)規(guī)模的大模型通義千問2.0，以及一站式模型應用開發(fā)平臺阿里云百煉，阿里云已初步建成AI時代全棧的云計算體系?！澳壳?，中國有一半大模型企業(yè)跑在阿里云上，280萬AI開發(fā)者活躍在阿里云魔搭社區(qū)上，未來，阿里云將攜手千行百業(yè)推動AI創(chuàng)新，共享技術紅利?！?/p>

《晚點LatePost》在本次云棲大會前對話周靖人，他談了阿里云如何看待AI帶來的云計算新機會，他們計劃如何搭建新環(huán)境下的計算基礎設施，以及在這次技術變革中的轉型，到底會如何改變阿里云。

format-jpg

阿里云CTO周靖人

圖源阿里云公眾號

《晚點》：現(xiàn)在已有不少中國大模型公司是你們的客戶，如智譜AI和百川智能等。但阿里云自己也更新了通義2.0大模型，并發(fā)布了一系列基于通義的行業(yè)應用模型。為什么你們一邊想做基礎設施，一邊又在自己做模型？

周靖人：我們云上有各種客戶，表面看起來我們這也做、那也做，但這都對應著AI時代，云計算要服務的不同開發(fā)者和客戶群體。

有一類客戶，像你講的百川，自己能開發(fā)通用模型，他需要的是AI基礎設施；還有客戶，他不見得要從頭訓練通用模型，但想結合行業(yè)知識訓練模型，比如這次我們發(fā)布了一個工具“阿里云百煉”，它能基于通用模型，讓客戶方便地結合自身數(shù)據(jù)集產(chǎn)生專屬大模型；還有人是想直接調用已有的模型。

而且我們做大模型不是為了做端到端的超級應用，這次發(fā)布的模型大部分不是完整產(chǎn)品，我們的目的是給大家展示和開放能力，歡迎客戶通過API方式把它們放到自己的系統(tǒng)里，真正解決業(yè)務問題。我們的所有模型都歡迎“被集成”。

不僅是大模型，我們每一層能力，從訓練模型的能力到微調、部署和調用的能力，都希望“被集成”。阿里云要給每一類開發(fā)者和客戶都提供支持。

《晚點》：既做算力基礎設施又做模型不會和客戶沖突嗎？

周靖人：這不是競爭生態(tài)，大家還是理念上沒跨過這個坎。你看Snowflake、Databricks和MongoDB都是在云上發(fā)展起來的“云原生”企業(yè)（上述公司的業(yè)務都與數(shù)據(jù)分析或數(shù)據(jù)庫有關），Databricks最大的用量就在AWS和微軟Azure上，但不妨礙AWS和Azure也有自己的大數(shù)據(jù)與數(shù)據(jù)庫產(chǎn)品。

在模型時代是一樣的。云計算的生態(tài)不是onesizefitsall（一套產(chǎn)品滿足所有客戶需求），有你沒我、有我沒你。市場里有不同定位的產(chǎn)品才是一個健康生態(tài)。

《晚點》：為幫助構建這個生態(tài)，阿里云做了什么？

周靖人：我們是中國大公司里唯一開源自研大模型的，之前開源了70億和140億參數(shù)的通義大模型，11月還將開源720億參數(shù)的版本。Meta開源的Llama2的最大版本是700億，其實我們開源的模型在各種性能指標上都超過了Llama2，開發(fā)者里也有口碑。

另一件事是我們去年8月上線了模型社區(qū)ModelScope魔搭。短短一年多，魔搭已累積了上億次模型下載量。這一定程度反映了我們的判斷：更多開發(fā)者是希望把模型集成在自己的系統(tǒng)里。

這次我們還宣布了一個新計劃“云工開物”，給每個想嘗試AI前沿技術的高校學生提供全年300元的阿里云產(chǎn)品免費額度，這相當于給每個學生配備了一臺云服務器。我們還給學生提供全線產(chǎn)品的三折優(yōu)惠，上限是5000元人民幣，一些產(chǎn)品甚至低于成本價。對高校老師我們也有計劃，讓他們科研使用的部分能享受5折優(yōu)惠。

云工開物不限制學生名額，只要你是學信網(wǎng)注冊學生，大學生、大專生都可以申請。全國有四千多萬注冊學生，我們估計其中有1/5到1/4有需求。

這是阿里云有史以來的最大投入力度之一。我們希望有需要的開發(fā)者、學生、研究機構、創(chuàng)業(yè)公司和ISV（獨立軟件開發(fā)商）都能有效把模型集成到自己的環(huán)境里，一起推動AI產(chǎn)業(yè)發(fā)展。

《晚點》：阿里云做大模型和AI基礎設施的想法是怎么形成的？你們2022年第一次對外提MaaS，同時整合了過去的模型并開始建設模型社區(qū)，為什么在當時有這些動作？

周靖人：我們最開始在2022年提MaaS時，包括做魔搭，大家可能沒那么關注和理解，覺得這只是一個another term。今年我們看到越來越多友商也在跟進。

其實到今天，全社會更多關注的還是大模型發(fā)布，大家不太注意的一點是：這背后是整個云系統(tǒng)的升級，是技術體系的競爭。

我們最開始做大模型時想用更多機器，把幾百臺服務器連起來。想法很好，系統(tǒng)做不了，你會發(fā)現(xiàn)各種問題：分布式編譯、系統(tǒng)穩(wěn)定性、網(wǎng)絡擁塞等等。

幸運的是，這個過程中，云技術團隊和模型團隊一直緊密配合，遇到問題時云團隊就去優(yōu)化，優(yōu)化一點，大模型就發(fā)展一點，模型發(fā)展到一定程度又遇到挑戰(zhàn)，又需要云去升級，是交替往前走的過程。

所以在這次AI變革中，AI和云是不可分割的整體。模型是對數(shù)據(jù)，甚至對算力的進一步抽象，它要求對算力體系做一系列重構和創(chuàng)新。這點全球都一樣，OpenAI融了這么多資，它還是要與微軟Azure密合作，這是因為AI進化離不開云的支撐，它們是一個問題的上下部分。

阿里云過去積累了這么多年云計算技術，現(xiàn)在是well positioned（處在好的位置），剛好能做好AI基礎設施，支持上面更大、更繁榮的生態(tài)。

《晚點》：為什么這個基礎設施是由云廠商提供？企業(yè)也可以買很多GPU和服務器，自己搞一個數(shù)據(jù)中心。

周靖人：很多人有一個誤解，覺得只要有很多GPU，就可以堆起來訓練大模型，實際上這樣做不成任務。你需要把成千上萬個GPU連起來，像一臺超級計算機那樣工作，這是個非常復雜的分布式系統(tǒng)。

這涉及芯片的選擇和適配、服務器設計、數(shù)據(jù)中心的分布式框架設計，還有網(wǎng)絡設計：一個高效網(wǎng)絡有規(guī)模限制，有hierarchical（按等級劃分的）的網(wǎng)絡架構，還要解決擁塞和穩(wěn)定問題。網(wǎng)絡之后還有存儲，因為訓練模型要清洗大量數(shù)據(jù)，過程中還要讀取大量數(shù)據(jù)。

同時，當我們有了這么大規(guī)模的分布式系統(tǒng)，計算節(jié)點出故障是必然的，就要有容錯功能。過去我們也跑壞了不少GPU，發(fā)現(xiàn)了一些bug，比如它的溫度控制比較難?，F(xiàn)在訓練大模型短則幾周，長則幾個月，不能因為某個機器出問題，所有工作都重跑。

我們現(xiàn)在可以做到，即使某些計算模塊出故障，仍然能實時調整，支持模型繼續(xù)訓練，我們也有一套在不同時間點做checkpoint的機制，這讓我們的系統(tǒng)能支持10萬卡級的GPU一起做訓練。

這些能力都是需要長時間積累的、有挑戰(zhàn)的技術。我們從服務器設計到網(wǎng)絡設計都是自研的，甚至很多網(wǎng)絡協(xié)議都是自己開發(fā)的。最后能提供這個復雜分布式系統(tǒng)服務的人會非常少。

《晚點》：有一種觀點認為，未來只會剩下少數(shù)幾個通用大模型。如果模型集中度足夠高，開發(fā)模型的公司自己建立這套計算能力長期看可能更經(jīng)濟。

周靖人：不管未來通用大模型的格局是否集中，明確的趨勢是，推理（即使用大模型時的計算過程）對計算的需求會越來越大，遠大于訓練。

推理比訓練更離不開云。一是推理需求遍布全國甚至全球各地，因為你的用戶可能有的在杭州、有的在北京。這需要低延時，需要就近的數(shù)據(jù)中心支持。只有大型云廠商才能提供遍布各地的算力服務。二是推理有用量波動，有些應用是早上用戶多，有些是晚上。也只有云廠商才能處理這種波峰波谷的彈性需求。所以考慮到推理場景，AI的發(fā)展就更和云密不可分了。

《晚點》：這些能力能被多快學習？在模型和算法層，很多開源項目和論文分享促進了技術擴散。

周靖人：每個云廠商做系統(tǒng)優(yōu)化時都有一些獨門絕技，這是每個公司的看家本領，是體現(xiàn)細致功底和見真章的地方，不經(jīng)過長年累月的實踐掌握不了。

比如網(wǎng)絡結構設計就有很多課題：怎么用交換機？每一個交換機服務多少臺服務器？每臺服務器多少網(wǎng)卡？中間怎么連接？怎么解決數(shù)據(jù)延遲的損失？接下來還有怎么做執(zhí)行：什么時候做模型并行？什么時候做數(shù)據(jù)并行？怎么讓不同任務被分配、調度在不同模塊上做聯(lián)合訓練？

要充分發(fā)揮GPU的能力，就是靠這些硬核的計算技術和經(jīng)驗。從去年提出MaaS后，我們就一直在圍繞模型的整個生命周期重新設計云的技術體系，從最開始的數(shù)據(jù)收集、清洗，到模型的訓練、驗證、微調，最后到模型服務，涉及方方面面。這也是為什么現(xiàn)在客戶在阿里云上訓練大模型的整體效率會更高。

《晚點》：總結而言，阿里云要怎么做以適應AI新環(huán)境？你們這一年來發(fā)布了很多新產(chǎn)品和服務，為什么是這樣的產(chǎn)品結構？

周靖人：我們認為MaaS的核心理念是，模型會成為人工智能時代一個重要的生產(chǎn)元素，整個計算體系會圍繞模型重新升級。

阿里云要做的事有四層：

一是用AI升級既有云計算技術，把云更自動化地管理起來。過去云計算中的很多部署、運維、故障處理要靠人的經(jīng)驗，靠工程師輪班24小時盯著，現(xiàn)在要逐步換成AI，比如引擎參數(shù)的調整、內存管理、網(wǎng)絡擁塞的解決，這些決策和流程都可以引入AI，實現(xiàn)autonomous cloud（自動的云）。

云里也要寫很多腳本，我們這次發(fā)布的通義靈碼就能幫云計算工程師寫代碼，提高開發(fā)效率。另外大語言模型也能幫云的運維人員更高效地查找文檔、維護工單和響應客服。相當于用AI和大模型把云本身的開發(fā)和運維都優(yōu)化一遍。

第二是，我們從IaaS層到PaaS層的每一個計算產(chǎn)品都會為AI升級。比如我們面對AI推出了彈性計算實例（“實例”是云計算中的管理單元，相當于一臺虛擬機），開發(fā)了專門的存儲產(chǎn)品；在網(wǎng)絡上也做了大升級，實現(xiàn)了AI需要的低延時、高帶寬網(wǎng)絡。

第三層是做AI基礎設施。阿里云有一個重要理念：數(shù)據(jù)中心就是一臺計算機。這是指通過高效連結計算資源，讓開發(fā)者感覺這就是一臺機器，不用分心考慮底層問題，專注做應用開發(fā)。

這個理念在AI場景里更加重要，因為AI背后不單是CPU，而是有各種芯片的異構架構，有的算力強，有的還要提升，我們是通過云的能力和高效網(wǎng)絡把這么大規(guī)模的不同計算單元連接起來，形成一個強大的計算引擎。

最后一層就是我們自己的系列模型。當然再說一次，我們做模型最重要的目標不是做終端應用，是要服務好開發(fā)者。

《晚點》：今年8月，阿里云組織了“西溪論道”，匯集了國內多個大模型公司和應用公司，包括智譜、百川、瀾舟和妙鴨等等，他們提了什么需求和反饋？

周靖人：他們關心剛才我們講的——AI基礎設施能怎么幫他們更好地做模型和應用創(chuàng)新。當然，他們也在意價格。我們也會努力提供更好的性價比，很多時候性價比能反映技術實力。

《晚點》：阿里云的AI計算成本現(xiàn)在下降到什么程度了？

周靖人：降低整體成本和降低門檻相輔相成，一個是便宜，一個是容易，要一起說。

在降低門檻上，今年我們PaaS層幾乎所有產(chǎn)品都提供了serverless（一種能按需彈性伸縮、按需付費的軟件系統(tǒng)架構）方案，在AI算力上我們也推出了PAI靈駿智算serverless化服務，是國內第一個做到的廠商。

過去大家要選固定的硬件，自己做一些維護，而serverless方案能提供開箱即用的體驗，開發(fā)者不需要關心背后的硬件資源。

今年還我們推出了阿里云容器服務ACS。之前我們更多不是容器，是虛擬機，它還是涉及要用什么CPU，什么內存等一些中間管理。

ACS現(xiàn)在支持所有主流語言，能讓大家方便地編排業(yè)務體系，支持快速擴容和縮容，讓客戶能真正按需彈性使用資源。我們也提供了能一鍵式自動編排容器的工具（“ServerlessDevs”）并推出了流程式開發(fā)服務（云工作流“CloudFlow”）。這都能大幅降低客戶開發(fā)人員的復雜性。

價格方面，serverless本身有很大價格優(yōu)勢，因為它是按需使用的，客戶不需要提前購買資源做準備。我們也在不斷推新產(chǎn)品，包括大數(shù)據(jù)、數(shù)據(jù)庫都會推一些標準實例。其實從4月11日開始說降價后，我們一直在降價，調價頻率呈上升趨勢，不是一定要到大節(jié)點再說降價。

《晚點》：你認為做好AI基礎設施會給阿里云帶來哪些改變？比如公共云的業(yè)務占比會上升嗎？或者對你們做政企業(yè)務有什么幫助嗎？

周靖人：這次AI變革確實與公共云形態(tài)是有機融合的。首先模型訓練需要大量算力，如果都分散建設會有浪費，公有云的彈性使用特點更能避免算力閑置。而且自己建數(shù)據(jù)中心，往往會遇到機房容量和供電等各種限制。

推理就更適合公有云。當進入大規(guī)模應用后，你需要使用全國乃至全球的算力，用量一天之內可能就有波峰波谷的變化，你也很難預估業(yè)務未來的增長，如果自建數(shù)據(jù)中心，高估或低估了業(yè)務需求都是問題，要么是買機器的速度趕不上發(fā)展，要么買太多都浪費了。大家必然會更依賴公有云。

至于具體行業(yè)的需求，我還沒看到哪一個行業(yè)不會受這次AI變革的影響。政企領域也一樣，我們已經(jīng)看到了非常旺盛的需求。

《晚點》：這次AI變革的商業(yè)落地過程會像過去那樣，被過高期待后又經(jīng)歷低谷嗎？

周靖人：現(xiàn)在才剛開始，我們還沒看到波峰。這次AI技術的變化不是解決了某個特定問題，而是通用AI的進步。

《晚點》：投資機構a16z曾估算，云計算公司最后會獲得生成式人工智能行業(yè)10%-20%的收入，你怎么看云在AI時代的未來空間？

周靖人：很難預估，但我并不覺得這是無理之談。我們拭目以待。

《晚點》：阿里云涉及復雜的技術體系，作為CTO，你一定要想明白的事情是什么？

周靖人：對技術趨勢的思考，和做好對應趨勢的整體設計。首先確保阿里云處于領先位置，同時追求引領一些技術發(fā)展。

《晚點》：大模型之后，還有哪些新技術會對云計算產(chǎn)生很大影響？

周靖人：AI本身還有很多工作，包括模型本身的進化，未來的多模態(tài)，如何能把模型應用起來。同時我們要關注云計算怎么支持行業(yè)，云計算本身怎么做轉型以適應這次巨變。

過去十幾年，無論是ImageNet還是AlphaGo都沒辦法與這次相比，這也許是一生中少有的計算技術革命。

阿里云云計算服務對話周靖人

聲明

1、該內容為作者獨立觀點，不代表電商派觀點或立場，文章為作者本人上傳，版權歸原作者所有，未經(jīng)允許不得轉載。
2、電商號平臺僅提供信息存儲服務，如發(fā)現(xiàn)文章、圖片等侵權行為，侵權責任由作者本人承擔。
3、如對本稿件有異議或投訴，請聯(lián)系：info@dsb.cn

欧美videosvideo喷水,欧美成ee人免费视频,亚洲欧洲日本综合aⅴ在线,国产精品美女久久久久久福利,国产成人午夜福利高清在线观看

阿里云周靖人：AI時代，云計算要服務不同開發(fā)者和客戶群體

阿里云周靖人：AI時代，云計算要服務不同開發(fā)者和客戶群體