近日,2018 OLR Challenge (OLR Challenge-Oriental Language Recognition Challenge)在美國(guó)夏威夷宣布了比賽結(jié)果。網(wǎng)易AI分別獲得混淆語(yǔ)言語(yǔ)種識(shí)別和開(kāi)集語(yǔ)種識(shí)別第一名。
東方語(yǔ)種識(shí)別競(jìng)賽(Oriental Language Recognition Challenge)是由清華大學(xué)語(yǔ)音和語(yǔ)言技術(shù)中心(CSLT)和海天瑞聲(SpeEchocean)于 2016 年共同發(fā)起,其旨在加強(qiáng)相關(guān)領(lǐng)域研究者之間的技術(shù)交流、促進(jìn)東方語(yǔ)種識(shí)別的技術(shù)發(fā)展。繼前兩屆競(jìng)賽的成功舉辦,本年度競(jìng)賽(OLR 2018)共吸引了全球 25 支隊(duì)伍的參與。
相較于上一屆競(jìng)賽,OLR 2018 仍包含了 10 種東方語(yǔ)言,包括漢語(yǔ)普通話(huà)、粵語(yǔ)、日語(yǔ)、韓語(yǔ)、俄語(yǔ)、越南語(yǔ)、印尼語(yǔ)、藏語(yǔ)、維吾爾語(yǔ)、哈薩克語(yǔ),數(shù)據(jù)總量累計(jì)超過(guò) 120 小時(shí)。
不同于往屆比賽,OLR 2018 設(shè)置的任務(wù)更具挑戰(zhàn)性和實(shí)用性,共包含以下三個(gè)各有側(cè)重的子任務(wù):1. 短語(yǔ)音語(yǔ)種識(shí)別:該任務(wù)所要識(shí)別的語(yǔ)音時(shí)長(zhǎng)短至 1 秒;2. 混淆語(yǔ)言語(yǔ)種識(shí)別:該任務(wù)所要識(shí)別的語(yǔ)音來(lái)自三種極易混淆的語(yǔ)言(普通話(huà)、粵語(yǔ)、韓語(yǔ));3. 開(kāi)集語(yǔ)種識(shí)別:該任務(wù)所要識(shí)別的語(yǔ)音可能屬于非目標(biāo)語(yǔ)言,用以干擾常規(guī)語(yǔ)種識(shí)別。
在激烈的競(jìng)爭(zhēng)中,網(wǎng)易AI以Cavg 0.0032、EER 0.33%奪冠混淆語(yǔ)言語(yǔ)種識(shí)別比賽;以Cavg 0.0119、EER 3.16%獲得開(kāi)集語(yǔ)種識(shí)別比賽第一。
網(wǎng)易AI該技術(shù)應(yīng)用于網(wǎng)易內(nèi)部重要產(chǎn)品,為網(wǎng)易集團(tuán)在產(chǎn)品走向國(guó)際市場(chǎng)和本土化起到了重要作用。同時(shí),網(wǎng)易AI將技術(shù)對(duì)外商業(yè)化,成為合作方在進(jìn)軍東南亞市場(chǎng)時(shí)的好幫手。
此外,為進(jìn)一步促進(jìn)各參賽隊(duì)伍的技術(shù)分享與交流,將于近期舉辦一場(chǎng)關(guān)于多語(yǔ)言語(yǔ)音處理技術(shù)的研討會(huì)。屆時(shí),網(wǎng)易AI將受邀出席。