國家《信息產(chǎn)業(yè)科技發(fā)展“十一五”規(guī)劃和2020年中長期規(guī)劃綱要》指出要落實“中文信息處理和智能人機交互技術”。人機交互的真正意義是讓智能硬件能夠進行自動化的服務并與用戶進行自然交互,實現(xiàn)完美的用戶體驗,這要求智能硬件能夠結合大數(shù)據(jù)進行分析并深度學習,實現(xiàn)行為理解并執(zhí)行操作。當前,我國智能人機交互技術起步不久,相關市場也處于上升階段,尤其是智能硬件市場備受關注,該領域內的多模態(tài)人機交互技術得到了廣泛的應用,例如智能語音技術、虹膜識別技術、體感觸覺技術等等。
思必馳信息科技有限公司市場總監(jiān) 龍夢竹
在智能語音技術方面,就國際市場而言,已經(jīng)形成了Nuance、谷歌、蘋果、微軟等IT巨頭的壟斷格局。在國內市場,科大訊飛、百度、思必馳等智能語音解決方案各顯其色,實現(xiàn)了較好的中文語音信息處理技術。
但是,當前國內的智能語音技術在人機交互方面仍舊存在很大提升空間,主要表現(xiàn)為:
智能硬件“聽不懂”
出現(xiàn)該問題的原因無非是“沒聽清”和“不理解”。“沒聽清”是語音識別出現(xiàn)了問題,噪聲環(huán)境、識別距離、硬件回聲等均是識別的關鍵因素,處理不當便會導致識別率降低;“不理解”是由于語義理解不夠深入而導致,說話人不同,講話習慣、音調、音速等也各不相同,上下文語境千差萬別的情況下,如果不能結合語境進行深度學習,語義理解也將差強人意,更談不上能夠進行多輪交互了。
智能硬件“不聰明”
智能硬件“不聰明”表現(xiàn)為:無法根據(jù)要求提供相應的信息,定制功能缺失。無論是智能語音,還是人臉識別、圖像識別等技術,都只是實現(xiàn)人機交互的手段和工具,人類真正的交互對象是資源。當前人機交互存在的很大問題是資源不足,不能滿足人們多樣的功能需求,如電話、社交、音樂、電臺、導航、地圖、天氣查詢、票務查詢等等,智能硬件顯得很不智能。當前智能硬件的后端服務集成尚未能滿足當前用戶的需要。
針對智能硬件“聽不懂”的問題,亟待解決的是語音識別和語義理解問題。在語音識別方面,角度、距離、回聲、噪聲等因素均對識別效果產(chǎn)生極大的影響。確定合適的拾音角度和拾音范圍距離,有效降噪和消除回聲,進行準確的聲源定位,是識別的關鍵一步。當前國內市場很多企業(yè)已經(jīng)陸續(xù)推出了相應的解決方案,例如 5麥麥克風陣列,可進行快速集成,但是成本稍高,適合小批量產(chǎn)品。中國科學院聲學所的8麥技術方案,針對會議系統(tǒng),且目前的市場應用并不廣泛。另一方面還有環(huán)形“6+1”麥克風陣列,可進行360°無死角拾音,準確進行聲源定位,并采用獨有算法的降噪和回聲消除技術,有效克服了語音識別過程中,隨著語音傳播距離加大,因語音本身的衰減,混響、背景噪音、人聲干擾和回聲加大等技術難點帶來的阻力,實現(xiàn)業(yè)內領先的遠場5米交互識別率92%以上,識別和交互效果媲美近講。由此可見,當下語音技術企業(yè)均從科技研發(fā)角度出發(fā),從解決實際應用場景下的產(chǎn)品需求出發(fā),著力解決語音識別和交互的這一大問題。
智能語音如何推動人機交互
語義理解的關鍵是結合上下文語境進行深度學習,然而,在真實場景下,傳統(tǒng)語音識別加自然語言處理的方案并不能很好地實現(xiàn)自由的“人機交互”。微軟研究院表示,基于上下文的理解是微軟自然語言處理組正在解決的重點問題,Cortana助手中就初步實現(xiàn)了上下文語義理解。科大訊飛也在年度發(fā)布會上表示,“糾正、打斷”是自然交互的本質要求,且糾錯是人機語音交互的一個標準,其對話系統(tǒng)也已經(jīng)實現(xiàn)基于上下文的理解。我認為基于上下文的理解是認知智能的主要表現(xiàn)之一,也是解決語音識別錯誤的最有效途徑之一,業(yè)界也已經(jīng)誕生了“支持打斷和智能糾正”的認知型對話系統(tǒng)及相關場景解決方案。
人機交互的另一端是資源,豐富的第三方服務內容可使智能硬件變得更聰明,匯集大量的資源功能才能有效提升后端服務質量。所謂的智能語音解決方案,應該能夠支持安卓、linux、QNX等主流操作系統(tǒng),集成了豐富的第三方服務資源,例如微信、高德地圖、酷我音樂、蝦米音樂、喜馬拉雅FM、考拉電臺、神馬搜索、大眾點評、墨跡天氣、百度天氣、攜程、百度股票等等,為用戶提供社交、周邊搜索、導航、音樂電臺、天氣日歷等多功能服務。豐富的第三方服務資源供智能硬件隨時交互提取使用,智能硬件變得更聰明智能,人機交互才能變得更流暢完美。
智能語音的不斷發(fā)展也在推動著人機交互的不斷進步,拋棄傳統(tǒng)APP/遙控器等移動終端的控制,實現(xiàn)全語音自動操控,智能硬件也能越來越琢磨透人類的思想,追蹤行動意圖,這些種種,均促使人們的生活更加智能便捷。智能語音的痛點始終放緩了人機交互的步伐,解決識別、理解與后端服務的難題,將促進人機交互向前邁出大大的一步,智能人機交互的未來需要我們共同努力。