小米自研聲音識別算法性能國際排名第一
9月13日消息,小米自研聲音識別算法近日取得了最新進展,算法模型領先其他機構(gòu),性能國際排名第一。
小米是在Google發(fā)布的AudioSet音頻標記任務中獲得的這一突破。它是音頻標記任務影響力最大的數(shù)據(jù)集,被認為是聲音領域的ImageNet (注:計算機視覺領域最著名的數(shù)據(jù)集,由著名學者李飛飛等主持發(fā)布),有較高的權威性。
圖源:小米公司公眾號
Google將AudioSet數(shù)據(jù)集分為三個子集,前兩個子集用于訓練,被合并稱為 “AudioSet-2M”。正是在這個合并后的訓練集中,小米的聲音識別算法模型首次在業(yè)界突破了50mAP,刷新了音頻標記技術指標,成為截至目前性能最好的模型。此外,小米還發(fā)布了一個Mini版模型,適合資源受限的場景。該模型的參數(shù)量被壓縮到了原模型的約九分之一,遠小于其他機構(gòu)的模型,但性能卻優(yōu)于其他所有機構(gòu)。
這項技術的突破意味著小米的聲音識別算法能力再次精進,小米的眾多智能硬件設備應用此項技術后,可以更敏銳地捕捉和識別環(huán)境聲音,大幅提升硬件的智能化程度,從而為用戶創(chuàng)造更加便捷的智能生活體驗。
圖源:小米公司公眾號
這項算法技術還廣泛應用于小米機器人的研發(fā)中,大幅提升了機器人的感知能力。小米歷時10個月全棧自研的第一代全尺寸人形機器人CyberOne,可以識別85種環(huán)境聲音,能夠通過聽覺感知6類、45種人類情緒。而小米第二代仿生四足機器人CyberDog 2則可以識別38種環(huán)境聲音,實現(xiàn)更強大的動態(tài)響應能力。
目前,小米的聲學語音團隊已將自研聲學語音技術全面應用于小米手機、音箱、電視、耳機、手表、機器人等79個品類,共計5000多款智能產(chǎn)品中。而小愛同學的月活躍用戶數(shù)量則達到了1.15億,是世界上最忙的語音助手之一。
據(jù)悉,小米自2016年組建AI團隊以來,人工智能團隊經(jīng)過7年6次擴展,人員規(guī)模已達3000多人。同時,小米AI的技術能力目前已經(jīng)覆蓋了視覺、聲學、語音、NLP、知識圖譜、機器學習、大模型、多模態(tài)等眾多方向,并全面賦能了手機、汽車、AIoT、機器人等多個業(yè)務板塊。今年4月,小米還正式組建了AI大模型團隊,全面擁抱大模型,目前陸續(xù)有了一些應用嘗試。其中第一個應用大模型,就是將智能語音助理小愛同學升級了大模型版本,并開啟邀請測試。
圖源:小米公司公眾號
值得一提的是,9月11日,小米正式成立集團科協(xié)暨院士專家工作站。
中國工程院院士丁文華成為小米院士專家工作站的首位進站院士。他指出,在以手機鏡頭為代表的成像技術領域,小米實現(xiàn)了光學鏡頭小型化的重大突破,是行業(yè)的佼佼者。小米已經(jīng)牽頭成立了智能圖像處理北京市工程研究中心,他希望未來能夠努力升級為國家工程研究中心。
2、電商號平臺僅提供信息存儲服務,如發(fā)現(xiàn)文章、圖片等侵權行為,侵權責任由作者本人承擔。
3、如對本稿件有異議或投訴,請聯(lián)系:info@dsb.cn