近日,在國際聲紋識別權(quán)威競賽VoxSRC上,依圖算法奪得第一,等錯誤率降到0.0098、大幅超越第二名。
并且,依圖團隊(參賽隊伍名為logicworld)在使用指定數(shù)據(jù)的情況下取得了優(yōu)于其他團隊使用不限數(shù)據(jù)得到的結(jié)果,表明依圖聲紋識別技術(shù)已達世界前沿水平。
(競賽的任務(wù)是判斷兩段音頻是出自同一個人還是兩個不同的人,算法的輸出結(jié)果用等錯誤率(Equal Error Rate,EER)來衡量,EER越小系統(tǒng)性能越好)
0.0098的等錯誤率意味著什么?
首先,日常生活應(yīng)用基本能夠滿足,筆記本電腦和汽車的聲紋鎖功能越來越可靠,智能硬件上的虛擬助理將不會被他人用同樣的關(guān)鍵詞喚醒,成為真正屬于你的個人助理。
在社保遠程身份驗證、反電信詐騙等公共服務(wù)領(lǐng)域,精準的聲紋識別技術(shù)也將更好地降本增效、服務(wù)民生,不需要再“居住異地,千里奔波”,更避免“九旬老人社保年審,家人抬著爬上三樓”。
聲紋識別擁有廣闊的應(yīng)用前景。不僅如此,將語音識別與聲紋識別、語義理解相結(jié)合,就能知道 “是誰因為什么說了什么”,將大幅增強智能語音個性化服務(wù),實現(xiàn)真正意義上的交互。
VoxSRC是由英國牛津大學(xué)、韓國互聯(lián)網(wǎng)巨頭Naver、斯坦福國際研究院和麻省理工學(xué)院聯(lián)合發(fā)起的全球聲紋識別競賽,被譽為“聲紋識別界的ImageNet競賽”。
本次比賽采用的數(shù)據(jù)集基于開源數(shù)據(jù)集VoxCeleb,由牛津大學(xué)團隊于 2017 年發(fā)布,后來逐漸擴充,現(xiàn)在是聲紋識別領(lǐng)域規(guī)模最大、標注最完備的開源數(shù)據(jù)集之一。
VoxCeleb來自YouTube名人采訪視頻,包含了7000多個來自不同種族、口音、職業(yè)和年齡的說話人,超過100萬段的說話聲,2000多小時的音頻和視頻,且基本都含有背景噪音、笑聲、說話聲重疊及其他雜音,非??简炈惴ǖ膶崙?zhàn)水平。同時,本次比賽測試數(shù)據(jù)不含標注,無法用來訓(xùn)練或調(diào)整系統(tǒng),確保了結(jié)果的公正與公平。
今年的VoxSRC吸引了來自海內(nèi)外多支隊伍參與,包括約翰霍普金斯大學(xué)、法國國家信息與自動化研究所、清華大學(xué)、中山大學(xué)等知名高校和研究機構(gòu),以及平安科技、NEC等大型企業(yè)。
成立7年來,依圖在視覺感知、自然語言處理、語音識別、智能決策等多技術(shù)領(lǐng)域發(fā)展,這次參賽VoxSRC是依圖在語音領(lǐng)域的一次新嘗試。
未來,依圖將在多算法領(lǐng)域持續(xù)投入,推進多模態(tài)技術(shù)融合、軟硬件協(xié)同開發(fā),將世界前沿的人工智能算法與行業(yè)場景深度結(jié)合,推動人工智能應(yīng)用落地。