螞蟻集團聯(lián)合北京大學發(fā)布大語言模型評測基準
11月2日消息,螞蟻集團聯(lián)合北京大學發(fā)布了首個面向DevOps領(lǐng)域的大模型評測基準DevOps-Eval,以幫助開發(fā)者跟蹤DevOps領(lǐng)域大模型的進展,并了解各個DevOps領(lǐng)域大模型的優(yōu)勢與不足。
據(jù)了解,大語言模型在各類NLP下游任務(wù)上取得了顯著進展。然而在DevOps領(lǐng)域,由于缺乏專門用于大型語言模型的評測基準,在有效評估和比較該領(lǐng)域大語言模型的能力方面存在嚴重不足,而DevOps-Eval的發(fā)布正是為解決這一不足。
圖源:CodeFuse公眾號
DevOps-Eval根據(jù)DevOps全流程進行劃分,包含計劃、編碼、構(gòu)建、測試、發(fā)布、部署、運維和監(jiān)控這8個類別,包含4850道選擇題。此外,DevOps-Eval還特別對運維/監(jiān)控類別做了細分,添加日志解析、時序異常檢測、時序分類和根因分析等常見的AIOps任務(wù)。由于DevOps-Eval根據(jù)場景對評測樣本做了詳盡的細分,因此除了DevOps領(lǐng)域大模型,也方便對特定領(lǐng)域大模型進行評測,如AIOps領(lǐng)域等。
目前,第一期的評測榜單已經(jīng),首批評測大模型包含OpsGpt、Qwen、Baichuan、Internlm等開源大語言模型。
螞蟻集團表示,DevOps-Eval相關(guān)論文也在緊鑼密鼓地撰寫中。此外,螞蟻集團稱,“歡迎相關(guān)從業(yè)者一起來共建DevOps-Eval項目,持續(xù)豐富DevOps領(lǐng)域評測題目或大模型,我們也會定期更新題庫和評測榜單。”
數(shù)據(jù)細分類別 圖源:CodeFuse公眾號
據(jù)了解,9月8日,螞蟻集團在外灘大會上首次公開螞蟻金融大模型“1+1+2”矩陣:一個金融大模型,一個Fin-Eval金融AI任務(wù)評測集,個人金融助理支小寶2.0和專家業(yè)務(wù)助理支小助。
其中,螞蟻金融大模型基于螞蟻自研基礎(chǔ)大模型,針對金融產(chǎn)業(yè)深度定制,底層算力集群達到萬卡規(guī)模。螞蟻金融大模型聚焦真實的金融場景需求,在“認知、生成、專業(yè)知識、專業(yè)邏輯、合規(guī)性”五大維度28類金融專屬任務(wù)中表現(xiàn)突出,目前已在螞蟻集團的財富、保險平臺上全面內(nèi)測。
圖源:螞蟻集團公眾號
2、電商號平臺僅提供信息存儲服務(wù),如發(fā)現(xiàn)文章、圖片等侵權(quán)行為,侵權(quán)責任由作者本人承擔。
3、如對本稿件有異議或投訴,請聯(lián)系:info@dsb.cn