京東何曉冬:企業(yè)擁抱大模型產(chǎn)業(yè)機(jī)遇,要堅(jiān)定長期投入
10月25日消息,在由中國計(jì)算機(jī)學(xué)會(huì)主辦的2023中國計(jì)算機(jī)大會(huì)(CNCC2023)召開前夕,新浪科技《科創(chuàng)100人》專訪了京東集團(tuán)副總裁、京東探索研究院院長、智能服務(wù)與產(chǎn)品部總裁何曉冬,就CNCC2023大會(huì)籌備情況及大模型產(chǎn)業(yè)機(jī)遇等問題進(jìn)行交流。溝通中,何曉冬指出:“ChatGPT的通用性讓人感到驚艷,讓全球科技行業(yè)以為這就是通用人工智能(GAI)的雛形,但目前看來,這一技術(shù)在多模態(tài)智能方面仍存在很長的局限,并未真正實(shí)現(xiàn)‘智能涌現(xiàn)’?!?/p>
相比于通用大模型,何曉冬更看好垂直領(lǐng)域大模型,強(qiáng)調(diào)“布局大模型應(yīng)結(jié)合具體場景,從產(chǎn)業(yè)價(jià)值出發(fā)”。結(jié)合在京東長期從事研究和技術(shù)管理的經(jīng)驗(yàn),何曉冬總結(jié)了從技術(shù)探索到產(chǎn)業(yè)落地的“五步走”策略,并進(jìn)一步指出,保持對技術(shù)趨勢的前瞻性,是CTO們的基本素養(yǎng),企業(yè)技術(shù)高管需從全局價(jià)值出發(fā),兼顧好當(dāng)前和未來的發(fā)展。
“大模型應(yīng)該產(chǎn)業(yè)化才能產(chǎn)生價(jià)值,而且在落地產(chǎn)業(yè)的時(shí)候必然會(huì)遇到很多問題,這樣才能不斷迭代進(jìn)步?!焙螘远硎?。在他看來,“企業(yè)擁抱大模型產(chǎn)業(yè)機(jī)遇,還是要長期主義,堅(jiān)定長期投入?!?/p>
圖注:京東集團(tuán)副總裁、京東探索研究院院長、智能服務(wù)與產(chǎn)品部總裁何曉冬
(圖源京東云視頻號截圖)
關(guān)于大模型與AGI的關(guān)聯(lián)性以及大模型是如何開啟通用人工智能道路的問題,在何曉冬看來,事實(shí)上自深度學(xué)習(xí)出現(xiàn)以后,該技術(shù)所具備的能夠?qū)⒉煌B(tài)、不同知識體系統(tǒng)一的潛力,便讓全球科技行業(yè)看到了通用人工到來的前兆。但一直到GPT3.0大模型技術(shù)的出現(xiàn),業(yè)界才逐漸相信了基于“大模型+深度神經(jīng)網(wǎng)絡(luò)”這一組合,能夠推動(dòng)通用人工智能的發(fā)展。
“尤其是ChatGPT的出現(xiàn),通過人類反饋學(xué)習(xí)和微調(diào)等方式,讓人類能夠與大模型進(jìn)行很流暢的交互,這開始讓業(yè)界信服這條道路的可行?!焙螘远硎?。他強(qiáng)調(diào)指出,ChatGPT最具魅力的一點(diǎn)在于,它實(shí)現(xiàn)了人與GPT大模型的自然交流。
“之前的大模型雖然能力很強(qiáng)大,但它跟人的交互很痛苦,只能做一些續(xù)寫的工作,其他功能沒有。就像一個(gè)很聰明的天才,但是不能把自己知道的都說出來,經(jīng)過這么幾年的發(fā)展,它能夠聽懂也能說出自己知道的東西了,所以能迅速地在各個(gè)領(lǐng)域展現(xiàn)出它快速的學(xué)習(xí)能力和強(qiáng)大的開發(fā)能力?!焙螘远硎尽?/p>
圖注:京東言犀AI開發(fā)計(jì)算平臺(tái)
(圖源京東科技公眾號,下同)
何曉冬指出,雖然ChatGPT并不是每一個(gè)細(xì)節(jié)、每一個(gè)專有領(lǐng)域都能夠做得盡善盡美,但它卻能夠接得住人類的大多數(shù)問題,它的通用性讓人感到非常地驚艷,這也讓大家覺得這個(gè)可能就是GAI的一個(gè)最原始雛形。
當(dāng)然,何曉冬也指出,通用人工智能的發(fā)展還有很長的路要走。比如,ChatGPT還是以單模態(tài)文字為主,它雖然有畫圖的能力,但這個(gè)能力往往是通過調(diào)用其他模塊實(shí)現(xiàn)的,并未真正的實(shí)現(xiàn)多模態(tài)智能涌現(xiàn)。
2018年,何曉冬便開始研究多模態(tài)技術(shù),他寫作的多模態(tài)研究論文也在業(yè)界引發(fā)近4600次引用。何曉冬指出,“通過用一個(gè)語言模型去調(diào)動(dòng)另外一個(gè)圖文生成模型,確實(shí)可以生成圖像,但這只在功能上實(shí)現(xiàn)多模態(tài),事實(shí)上真正意義上多模態(tài)是如何把視覺信號、視覺信息跟語言和語義信息進(jìn)行深度融合?!?/p>
包括GPT大模型在內(nèi),其實(shí)所有的涌現(xiàn)都是在建造一個(gè)知識結(jié)構(gòu),把所有的事物的知識通過文字、語義的形式形成一個(gè)知識網(wǎng)絡(luò),然后讓它能夠?qū)Ω鞣N各樣的提問給一個(gè)比較合理的回答?!袄碚撋弦曈X信息中每個(gè)物體和物體之間的關(guān)系動(dòng)作,甚至包括顏色、姿態(tài)、空間關(guān)系以及時(shí)間關(guān)系,都蘊(yùn)含著大量的知識。但目前的知識網(wǎng)絡(luò)還是在文字層面,通過調(diào)用一個(gè)簡單的API實(shí)現(xiàn)的多模態(tài),并沒有真正實(shí)現(xiàn)語言信息和視覺信息的融合,所以從智能涌現(xiàn)角度來說,現(xiàn)在還沒有達(dá)到這個(gè)程度?!焙螘远硎?。
圖注:京東多模態(tài)數(shù)字人
何曉冬預(yù)測,也許明年或下一代的GPT大模型就能夠做到。多模態(tài)的智能涌現(xiàn)一旦突破了,將會(huì)有一個(gè)很驚艷的效果。“自然語言自然是有語義的,但其實(shí)視覺也有語義,從視覺最底層的像素,再往上構(gòu)造成物體,再往上就變成語義,然后再往上就是整體的融合。我感覺是如果能達(dá)到那一步應(yīng)該會(huì)有很多的想象空間,可能真的能夠把整個(gè)宇宙數(shù)字化了?!?/p>
從數(shù)字智能,到具身智能乃至于實(shí)體世界的智能,大模型帶來的可能性令各界滿懷憧憬,但在具體的落地過程中,大模型如何與具體的產(chǎn)業(yè)數(shù)據(jù)、場景特性和文化相結(jié)合起來,往往也困擾著諸多企業(yè)。
在何曉冬看來,如今的大模型,與當(dāng)年的搜索引擎技術(shù)是相似的。搜索引擎出來后,也存在著通用和垂直之說,諸如谷歌、百度等通用搜索,但其實(shí)在各類垂直的頭部App內(nèi),其實(shí)也都有自己的搜索引擎,包括京東、淘寶、美團(tuán)等。在這些平臺(tái)上,當(dāng)你希望搜索與這些平臺(tái)屬性高度相關(guān)的產(chǎn)品或服務(wù)時(shí),往往能比通用搜索取得更好的效果。
圖注:京東AIGC商品內(nèi)容營銷平臺(tái)
“從技術(shù)的角度而言,一個(gè)技術(shù)必須結(jié)合場景才能做的最好。大模型不僅僅是一個(gè)界面,它還會(huì)涉及許多非常專業(yè)決策,需要將各類數(shù)據(jù)、知識打通結(jié)合才能真正發(fā)揮價(jià)值,所以只有把這種技術(shù)跟具體的場景深度結(jié)合,才能更好地提供服務(wù)?!焙螘远硎?。
當(dāng)前階段,如果從應(yīng)用角度出發(fā)的話,何曉冬更看好垂直大模式的發(fā)展。一說到垂直模型,大家就會(huì)想到以前根據(jù)一個(gè)場景訓(xùn)練標(biāo)配數(shù)據(jù)訓(xùn)練模型的情況。事實(shí)上,大模型時(shí)代的垂直大模型,無論是模型參數(shù)還是需要訓(xùn)練的數(shù)據(jù),都是很大的,多數(shù)在千億至萬億參數(shù)之間。
在何曉冬看來,一個(gè)產(chǎn)業(yè)大模型或垂直大模型,除了有通用的知識能力外,還應(yīng)該有很強(qiáng)的產(chǎn)業(yè)專屬的數(shù)據(jù)知識和推理能力。“某種意義上,我認(rèn)為現(xiàn)在是你得先有通用數(shù)據(jù),加上產(chǎn)業(yè)相關(guān)垂直數(shù)據(jù),使得你的大模型能夠直接構(gòu)造一個(gè)通用+產(chǎn)業(yè)的知識網(wǎng)絡(luò),通用和垂直不是互斥的?!焙螘远硎尽?/p>
圖注:京東AI增長營銷平臺(tái)
相比垂直模型,京東更傾向于把自己的大模型技術(shù)成為“產(chǎn)業(yè)大模型”,而這樣做的目的,便是為了防止一提到垂直模型,大家往往便會(huì)把它定義為一個(gè)小且垂直的模型。
在何曉冬看來,大模型應(yīng)該產(chǎn)業(yè)化才能產(chǎn)生價(jià)值,而且在落地產(chǎn)業(yè)的過程中必然會(huì)遇到很多問題。只有在落地的過程中不斷地結(jié)合具體場景的數(shù)據(jù)、業(yè)務(wù)需求不斷打磨,才能使得模型不斷地進(jìn)一步強(qiáng)化、變得經(jīng)濟(jì)可控,產(chǎn)生真正的價(jià)值。
大模型打開了走向通用人工智能的技術(shù)實(shí)現(xiàn)路徑,也帶來了人工智能大工業(yè)化發(fā)展的新機(jī)遇。面對技術(shù)帶來的顛覆式產(chǎn)業(yè)變革,作為產(chǎn)業(yè)技術(shù)的負(fù)責(zé)人,CTO需要著眼全局,在急速變革的數(shù)智化時(shí)代抓住技術(shù)帶來的新機(jī)會(huì),才能作出關(guān)鍵的技術(shù)與管理決策。
在何曉冬看來,大模型時(shí)代,有兩類應(yīng)用將存在新的機(jī)會(huì)。第一,因大模型出現(xiàn)而帶來的全新應(yīng)用。例如,智能助手,之前雖然大家都在提千人千面的智能助手,但在對話交互方面,卻依然存在局限。第二,已有APP的重新升級改造,諸如獲取信息、娛樂購物等人類的需求千古不變,只是每一次技術(shù)的出現(xiàn),這些需求都可以被重新滿足一遍。
圖注:京東健康助手及輔助診療
面對大模型技術(shù)帶來的全新機(jī)會(huì),何曉冬結(jié)合自己在京東從事技術(shù)管理的實(shí)踐經(jīng)驗(yàn),總結(jié)了“企業(yè)CTO擁抱大模型產(chǎn)業(yè)”從技術(shù)探索到落地的“五步走”策略:第一步,技術(shù)探索。標(biāo)志性事件可能是寫幾篇能夠被頂級會(huì)議接受的論文,甚至可能還會(huì)有很大的學(xué)術(shù)影響力,這是探索的第一步,也是很重要的一步。第二步,要形成一個(gè)穩(wěn)定可用的能力。盡可能地將論文API或者模塊化,成為可以被其他部門調(diào)動(dòng)的能力,能夠穩(wěn)定地按一個(gè)特定的預(yù)期質(zhì)量輸出結(jié)果,需要有一定的工程投入了。
第三步,對核心業(yè)務(wù)形成支撐。最好能找到一個(gè)關(guān)鍵的業(yè)務(wù),并對這個(gè)業(yè)務(wù)形成支撐。比如京東最新的人機(jī)對話技術(shù),會(huì)在京東的智能客服上應(yīng)用,因?yàn)榫〇|智能客服是一個(gè)非常關(guān)鍵的業(yè)務(wù),是整個(gè)電商環(huán)節(jié)里面不可缺少的一環(huán),每天有大量的流量,有大量流量、用戶反饋,使得產(chǎn)品的應(yīng)用情況就能更好地打磨和升級改造。第四步,變成一個(gè)獨(dú)立的產(chǎn)品。把它做成一個(gè)標(biāo)準(zhǔn)化的產(chǎn)品,這樣才能對更多的客戶進(jìn)行賦能和推廣。
第五步,形成商業(yè)化落地。產(chǎn)品最后走上市場商業(yè)化的時(shí)候,總會(huì)遇到各種各樣新的需求、反饋或者意見,甚至于面臨用戶是否愿意買單的情況。用戶不會(huì)為技術(shù)買單,而是為產(chǎn)品價(jià)值買單,只有找到最有商業(yè)價(jià)值的地方,深度地打磨并走向商業(yè)化,才能夠真正成功。
在何曉冬看來,企業(yè) CTO乃至于核心高管,應(yīng)當(dāng)具備的素質(zhì)便是技術(shù)的前瞻意識和創(chuàng)新意識,這是企業(yè)技術(shù)高管的基本素質(zhì)。在此之外,在如何做業(yè)務(wù)管理時(shí)要懂得從價(jià)值出發(fā),在保持對未來的觀望時(shí),也要兼顧好當(dāng)下發(fā)展需要。
2、電商號平臺(tái)僅提供信息存儲(chǔ)服務(wù),如發(fā)現(xiàn)文章、圖片等侵權(quán)行為,侵權(quán)責(zé)任由作者本人承擔(dān)。
3、如對本稿件有異議或投訴,請聯(lián)系:info@dsb.cn
