字節(jié)跳動(dòng)開(kāi)源大模型訓(xùn)練框架veGiantModel
3月17日消息,據(jù)IT之家消息,近日,字節(jié)跳動(dòng)應(yīng)用機(jī)器學(xué)習(xí)團(tuán)隊(duì)開(kāi)源了一款名為veGiantModel的大模型訓(xùn)練框架,主要應(yīng)用于自然語(yǔ)言處理領(lǐng)域的大模型訓(xùn)練,最高可將大模型訓(xùn)練的性能提升6.9倍,大幅降低訓(xùn)練系統(tǒng)的壓力。
目前,字節(jié)跳動(dòng)旗下的企業(yè)級(jí)技術(shù)服務(wù)平臺(tái)火山引擎已在其機(jī)器學(xué)習(xí)平臺(tái)上原生支持了該框架,該平臺(tái)正在公測(cè)中。
據(jù)了解,自然語(yǔ)言處理是人工智能研究的一個(gè)重要領(lǐng)域,旨在幫助計(jì)算機(jī)理解、解釋和運(yùn)用人類(lèi)語(yǔ)言,可應(yīng)用于機(jī)器翻譯、個(gè)性化推薦和信息提取等領(lǐng)域。
近些年,自然語(yǔ)言處理在應(yīng)用方面取得了較為顯著的突破,主要?dú)w功于深度學(xué)習(xí)以及相關(guān)技術(shù)的發(fā)展,尤其是Bert、GPT、GPT-3等大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型的普及。
針對(duì)現(xiàn)有訓(xùn)練系統(tǒng)在大模型訓(xùn)練場(chǎng)景下的顯存壓力、計(jì)算壓力和通信壓力挑戰(zhàn),字節(jié)跳動(dòng)應(yīng)用機(jī)器學(xué)習(xí)團(tuán)隊(duì)提出了大模型訓(xùn)練框架veGiantModel。大規(guī)模訓(xùn)練模型可以包含更多數(shù)據(jù),表示更多信息,算法表現(xiàn)更加出眾。
與主流開(kāi)源訓(xùn)練框架的對(duì)比測(cè)試顯示,veGiantModel的性能表現(xiàn)最好、受網(wǎng)絡(luò)帶寬影響最小,在Tesla V100上較Megatron、DeepSpeed有1.2倍到3.5倍的提升,在Ampere A100上最高可提升6.9倍。
據(jù)報(bào)道,近年來(lái),字節(jié)跳動(dòng)持續(xù)推動(dòng)技術(shù)開(kāi)源。2021年,字節(jié)跳動(dòng)技術(shù)團(tuán)隊(duì)陸續(xù)開(kāi)源了微服務(wù)中間件CloudWeGo、LightSeq訓(xùn)練加速引擎等30余個(gè)重要項(xiàng)目。
字節(jié)跳動(dòng)相關(guān)技術(shù)負(fù)責(zé)人表示,推廣科技創(chuàng)新成果的應(yīng)用并推行技術(shù)開(kāi)源一直是公司所倡導(dǎo)的,技術(shù)團(tuán)隊(duì)將持續(xù)通過(guò)科技創(chuàng)新為行業(yè)發(fā)展提供更多動(dòng)力,助力科技更好地造福社會(huì)。
2、電商號(hào)平臺(tái)僅提供信息存儲(chǔ)服務(wù),如發(fā)現(xiàn)文章、圖片等侵權(quán)行為,侵權(quán)責(zé)任由作者本人承擔(dān)。
3、如對(duì)本稿件有異議或投訴,請(qǐng)聯(lián)系:info@dsb.cn