螞蟻集團聯(lián)合北京大學發(fā)布大語言模型評測基準

柏納

2023-11-02 23:30

11月2日消息，螞蟻集團聯(lián)合北京大學發(fā)布了首個面向DevOps領(lǐng)域的大模型評測基準DevOps-Eval，以幫助開發(fā)者跟蹤DevOps領(lǐng)域大模型的進展，并了解各個DevOps領(lǐng)域大模型的優(yōu)勢與不足。

據(jù)了解，大語言模型在各類NLP下游任務(wù)上取得了顯著進展。然而在DevOps領(lǐng)域，由于缺乏專門用于大型語言模型的評測基準，在有效評估和比較該領(lǐng)域大語言模型的能力方面存在嚴重不足，而DevOps-Eval的發(fā)布正是為解決這一不足。

format-jpg

圖源：CodeFuse公眾號

DevOps-Eval根據(jù)DevOps全流程進行劃分，包含計劃、編碼、構(gòu)建、測試、發(fā)布、部署、運維和監(jiān)控這8個類別，包含4850道選擇題。此外，DevOps-Eval還特別對運維/監(jiān)控類別做了細分，添加日志解析、時序異常檢測、時序分類和根因分析等常見的AIOps任務(wù)。由于DevOps-Eval根據(jù)場景對評測樣本做了詳盡的細分，因此除了DevOps領(lǐng)域大模型，也方便對特定領(lǐng)域大模型進行評測，如AIOps領(lǐng)域等。

目前，第一期的評測榜單已經(jīng)，首批評測大模型包含OpsGpt、Qwen、Baichuan、Internlm等開源大語言模型。

螞蟻集團表示，DevOps-Eval相關(guān)論文也在緊鑼密鼓地撰寫中。此外，螞蟻集團稱，“歡迎相關(guān)從業(yè)者一起來共建DevOps-Eval項目，持續(xù)豐富DevOps領(lǐng)域評測題目或大模型，我們也會定期更新題庫和評測榜單。”

format-jpg

數(shù)據(jù)細分類別圖源：CodeFuse公眾號

據(jù)了解，9月8日，螞蟻集團在外灘大會上首次公開螞蟻金融大模型“1+1+2”矩陣：一個金融大模型，一個Fin-Eval金融AI任務(wù)評測集，個人金融助理支小寶2.0和專家業(yè)務(wù)助理支小助。

其中，螞蟻金融大模型基于螞蟻自研基礎(chǔ)大模型，針對金融產(chǎn)業(yè)深度定制，底層算力集群達到萬卡規(guī)模。螞蟻金融大模型聚焦真實的金融場景需求，在“認知、生成、專業(yè)知識、專業(yè)邏輯、合規(guī)性”五大維度28類金融專屬任務(wù)中表現(xiàn)突出，目前已在螞蟻集團的財富、保險平臺上全面內(nèi)測。

format-jpg

圖源：螞蟻集團公眾號

螞蟻集團螞蟻集團大模型評測大語言模型評測基準

聲明

1、該內(nèi)容為作者獨立觀點，不代表電商派觀點或立場，文章為作者本人上傳，版權(quán)歸原作者所有，未經(jīng)允許不得轉(zhuǎn)載。
2、電商號平臺僅提供信息存儲服務(wù)，如發(fā)現(xiàn)文章、圖片等侵權(quán)行為，侵權(quán)責任由作者本人承擔。
3、如對本稿件有異議或投訴，請聯(lián)系：info@dsb.cn

相關(guān)閱讀

螞蟻集團正式發(fā)布金融大模型

2023-09-08 16:45:27

螞蟻集團今日在外灘大會上首次公開螞蟻金融大模型“1+1+2”矩陣：一個金融大模型，一個Fin-Eval金融AI任務(wù)評測集，個人金融助理支小寶2.0和專家業(yè)務(wù)助理支小助。

螞蟻集團大模型團隊投入近20%人力建設(shè)科技倫理

2023-12-23 04:30:00

螞蟻集團大模型研發(fā)團隊透露將投入近20%的技術(shù)人員建設(shè)科技倫理，還與8所高校機構(gòu)開展共建科技倫理知識體系。

螞蟻集團大模型研發(fā)團隊將投入近20%技術(shù)人員建設(shè)科技倫理

2023-12-22 14:36:49

12月22日消息，在螞蟻集團科技倫理顧問委員會2023年度會議上，螞蟻集團大模型研發(fā)團隊透露將投入近20%的技術(shù)人員建設(shè)科技倫理，還與8所高校機構(gòu)開展共建科技倫理知識體系，打造負責任的AI。今年2月，螞蟻集團在設(shè)立公司內(nèi)部科技倫理委員會的基礎(chǔ)上，正式成立科技倫理顧問委員會，由7名外部專家構(gòu)成，為螞蟻集團科技倫理建設(shè)給予方向性、戰(zhàn)略性、針對性的指導建議。

螞蟻集團百靈大模型通過備案產(chǎn)品待上線

2023-11-06 09:49:02

11月6日消息，根據(jù)國家七部委聯(lián)合公布的《生成式人工智能服務(wù)管理暫行辦法》指導要求，螞蟻百靈大模型已完成備案，基于百靈大模型的多款產(chǎn)品已陸續(xù)完成內(nèi)測，將向公眾開放。本次通過備案的是螞蟻百靈語言大模型，該大模型采用Transfromer架構(gòu)，基于萬億級Token語料訓練而成，支持窗口長度達32K。

螞蟻集團入股大模型公司智譜AI

2023-10-17 17:20:55

近日，智譜AI關(guān)聯(lián)公司北京智譜華章科技有限公司發(fā)生工商變更，新增股東螞蟻集團子公司上海云玡企業(yè)管理咨詢有限公司。

螞蟻集團發(fā)布大模型安全一體化解決方案“蟻天鑒”

2023-09-11 14:44:21

螞蟻集團發(fā)布大模型安全一體化解決方案“蟻天鑒”。

螞蟻集團王維強：大模型安全既要“快”也要“慢”

2023-12-27 15:09:33

12月27日消息，“勢起AI智啟新界”大模型創(chuàng)新應(yīng)用與安全治理大會近日在廣州舉辦，會上，螞蟻集團安全實驗室首席科學家、可信AI負責人王維強圍繞“大模型安全的緊迫性和實踐”發(fā)表主旨演講。他表示，大模型安全既要“快”也要“慢”，大模型安全防御方面要“快”，要能快速檢測、查殺病毒，確保服務(wù)無毒害；在大模型安全可信方面要“慢”，要能長遠地、體系化地保證整個系統(tǒng)環(huán)境的可控、可信。

螞蟻集團將在外灘大會公布自研大模型落地進展

2023-08-28 17:09:00

螞蟻集團自研大模型將在今年的外灘大會上發(fā)布最新落地進展，并且從模型層到應(yīng)用層都會有展示。

柏納

欧美videosvideo喷水,欧美成ee人免费视频,亚洲欧洲日本综合aⅴ在线,国产精品美女久久久久久福利,国产成人午夜福利高清在线观看

螞蟻集團聯(lián)合北京大學發(fā)布大語言模型評測基準