阿里云數(shù)據(jù)庫NL2SQL技術(shù)獲國際權(quán)威評測第一名
日前,阿里云數(shù)據(jù)庫參加耶魯大學Spider數(shù)據(jù)集評測,以78分的成績排名榜單第一。這一成績證明了阿里云數(shù)據(jù)庫在NL2SQL技術(shù)上的國際領(lǐng)先性。據(jù)了解,Spider是業(yè)界公認的大規(guī)??珙I(lǐng)域復雜NL2SQL轉(zhuǎn)換效果的評測榜單。
NL2SQL(Natural Language to SQL)是一項將用戶的自然語句轉(zhuǎn)為數(shù)據(jù)庫可執(zhí)行 SQL 語句的技術(shù),對改善用戶與數(shù)據(jù)庫之間的交互方式有很大意義。Spider數(shù)據(jù)集是耶魯大學提出的一個較大規(guī)模的NL2SQL數(shù)據(jù)集,包含了10000多條自然語言問句,內(nèi)容覆蓋了100多個不同的領(lǐng)域,貼近真實場景,難度非常高。
日前,阿里云數(shù)據(jù)庫團隊研發(fā)的CatSQL技術(shù)參加評測,并獲得Spider數(shù)據(jù)集評測第一名的好成績。78分的成績,顯著超過第二名0.4分,尤其是模型規(guī)模僅為第二名的1/7,且計算速度提升10倍以上。
達摩院智能數(shù)據(jù)庫實驗室負責人譚劍介紹:為提升NL2SQL轉(zhuǎn)換效果,現(xiàn)階段業(yè)界的一個趨勢是使用越來越大的模型,而在這次測評中,阿里云數(shù)據(jù)庫團隊另辟蹊徑,采用了小模型,在獲得了幾乎一個數(shù)量級的吞吐率提升的同時,還取得了更好的準確率;該方法也開辟了NL2SQL的一個新思路,即把自然語言技術(shù)與數(shù)據(jù)庫領(lǐng)域知識緊密結(jié)合,從SQL語義的角度提升NL2SQL的準確性,也更加保證了在實際商用場景中的有效性。
譚劍表示,“最新的成績說明,NL2SQL技術(shù)已經(jīng)日臻成熟,在準確性和實用性上逐漸達到了部分復雜場景的商用要求?!?/p>
據(jù)透露,阿里云數(shù)據(jù)庫團隊在NL2SQL方向上已經(jīng)進行了兩年多的自研工作,并已經(jīng)把這些前沿技術(shù)在相關(guān)數(shù)據(jù)庫產(chǎn)品中落地使用,有效的簡化了用戶查詢數(shù)據(jù)庫的方式。比如,阿里云數(shù)據(jù)庫的一站式數(shù)據(jù)管理平臺DMS上,就采用了自研CatSQL技術(shù),通過自然語言交互的方式幫助客戶更高效的進行數(shù)據(jù)資產(chǎn)管理。
據(jù)了解,阿里云自成立以來就十分重視數(shù)據(jù)庫前沿技術(shù)研究,并為此成立專門的研究機構(gòu)——達摩院數(shù)據(jù)庫與存儲實驗室。過去幾年,阿里云數(shù)據(jù)庫團隊有50多篇論文被國際頂級會議和期刊收錄,獲得了近千項國內(nèi)外專利,并實現(xiàn)自研數(shù)據(jù)庫擁有存儲計算分離、三層解耦、多主架構(gòu)、HTAP、Serverless、一體化分布式、全加密、智能與自治化等創(chuàng)新能力。
公開資料顯示,阿里云擁有國內(nèi)最豐富的云數(shù)據(jù)庫產(chǎn)品家族,云數(shù)據(jù)庫市場份額位居國內(nèi)第一。據(jù)國際權(quán)威機構(gòu)Gartner年度全球云數(shù)據(jù)庫魔力象限評估報告,阿里云作為中國唯一的科技公司代表,于2020年和2021年連續(xù)兩年進入領(lǐng)導者(LEADERS)象限。這標志著中國數(shù)據(jù)庫40年來首次進入全球頂級數(shù)據(jù)庫行列。
2、電商號平臺僅提供信息存儲服務,如發(fā)現(xiàn)文章、圖片等侵權(quán)行為,侵權(quán)責任由作者本人承擔。
3、如對本稿件有異議或投訴,請聯(lián)系:info@dsb.cn
