讓機器聽懂人類的語音,這是人們長期以來夢寐以求的事情。聲音識別技術(shù)就是讓機器通過識別和理解,把聲音信號轉(zhuǎn)變?yōu)橄鄳奈谋净蛎疃R別出人的身份的高技術(shù)。本文論述聲音識別系統(tǒng)的組成、原理、類型、優(yōu)缺點、及制約其發(fā)展的關鍵,以及在安防等方面的應用等。
大家知道,在現(xiàn)代的信息社會里,信息的載體有語言文字、聲音、圖像以及影視等等。但信息的主要載體是語言及文字,它傳遞的信息占全部信息量的80%以上。因此應用計算機對語言文字進行處理,以更充分地利用信息資源具有十分重要的意義。由于語言現(xiàn)象所特有的多樣性、不確定性和模糊性,語言信息處理,特別是自然語言的識別、理解和生成的研究,一直是而且至今還是最具有挑戰(zhàn)性的一個學術(shù)領域,因而對聲音識別技術(shù)的研究,具有重要的學術(shù)意義與社會意義。
聲音識別技術(shù)就是讓機器通過識別和理解把聲音信號轉(zhuǎn)變?yōu)橄鄳奈谋净蛎畹母呒夹g(shù)。構(gòu)成聲音的獨特性原因與發(fā)聲的生理原因有關。人的語言產(chǎn)生是人體語言中樞與發(fā)音器官之間一個復雜的生理物理過程,身體在講話時使用的器官,如舌、牙齒、喉頭、肺、鼻腔等,在尺寸和形態(tài)方面每個人的差異很大,所以任何兩個人的聲紋圖譜都有差異。所謂聲紋,就是用電聲學儀器顯示的攜帶言語信息的聲波頻譜。發(fā)聲的原動力是呼吸產(chǎn)生的氣流,我們說話時用從肺呼出來的氣流,經(jīng)過支氣管、氣管后,在喉下的聲腔增加壓力,沖出聲門,再由喉、鼻共鳴,并由舌、齒、唇等的位置和形狀的變化改變音調(diào)。
此外,每個人的發(fā)音器官發(fā)出的清晰聲音并非天生,而是經(jīng)由不斷學習改變錯誤而形成。兩人以同樣方式運用其發(fā)音器官是微乎其微的,因此每個人發(fā)出聲音各不相同,即使是克隆人也會有所不同。
每個人的語音聲學特征既有相對穩(wěn)定性,又有變異性,不是絕對的、一成不變的。這種變異可來自生理、病理、心理、模擬、偽裝,也與環(huán)境干擾有關。盡管如此,在一般情況下,聲紋的鑒定仍能區(qū)別不同的人或法定是同一人的聲音,從而可以進行個人的身份識別。
語音是最方便、快捷、自然的人際交流手段,采用語音作為人與計算機交互的手段,使計算機能像人一樣,具有聽、說和理解能力,這是人們長期以來夢寐以求的事情。近二十年來,聲音識別技術(shù)取得顯著進步,開始從實驗室走向市場。人們預計,未來10年內(nèi),聲音識別技術(shù)將進入工業(yè)、家電、通信、安全防范、汽車電子、醫(yī)療、家庭服務、消費電子產(chǎn)品等各個領域。很多專家都認為聲音識別技術(shù)是21世紀前10年將對人類生活方式產(chǎn)生重大影響的十大重要的科技發(fā)展技術(shù)之一。
下面介紹聲音識別系統(tǒng)的組成、原理、類型、優(yōu)缺點、制約其發(fā)展的關鍵,聲音識別在國內(nèi)與我所取得的成果以及在安防等方面的應用等。
聲音識別系統(tǒng)的組成、原理及類型
組成與工作原理
聲音拾取設備(即麥克風)不斷地采集聲音信號,聲音識別設備不斷地測量、記錄聲音的波形和變化。實際上,聲音識別主要是基于將現(xiàn)場采集到的聲音同登記過的聲音模板進行精確的匹配。
人的聲音首先通過拾音器(即麥克風)拾取,特征參數(shù)提取單元檢索出表現(xiàn)聲音信號的聲學特殊參數(shù),經(jīng)計算機聲學模型的處理,使之成為與聲音數(shù)據(jù)厙所貯存的聲紋圖譜相同的模式,然后用新采集的與貯存的聲音模板進行對比識別,最后輸出識別的結(jié)果。 [nextpage]
一個聲音識別系統(tǒng)需要很多單元組成,但硬件設備實際只有麥克風與計算機兩部分。因為聲音識別主要是計算機或者程序,接受和解釋口述或者理解并執(zhí)行語音命令的能力。對于計算機的使用,模擬音頻必須轉(zhuǎn)換成數(shù)字信號。這要求進行模擬數(shù)字轉(zhuǎn)換。用計算機解釋信號,它必須要有一個數(shù)字數(shù)據(jù)庫或者詞典,并拿它來與收到的信號作比較。語音元素存在硬盤上并在程序運行的時候被加載到內(nèi)存里。比較程序?qū)z測存儲的元素和來自A/D轉(zhuǎn)換器的信號。
用計算機進行聲音識別也是一個模式識別匹配的過程。在這個過程中,計算機首先要根據(jù)人的聲音特點建立聲音模型,對輸入的聲音信號進行分析,并抽取所需的特征,在此基礎上建立聲音識別所需的模板。而計算機在識別過程中要根據(jù)聲音識別的整體模型,將計算機中存放的聲音模板與輸入的聲音信號的特征進行比較,根據(jù)一定的搜索和匹配策略,找出一系列最優(yōu)的與輸入的聲音匹配的模板。然后,據(jù)此模板的定義,通過查表就可以給出計算機的識別結(jié)果。顯然,這種最優(yōu)的結(jié)果與特征的選擇、聲音模型及其好壞、模板是否準確等都有直接的關系.
系統(tǒng)類型
聲音識別系統(tǒng)被分為文本相關和文本無關的兩類:
1、文本相關系統(tǒng)
文本相關系統(tǒng)要求使用者重復指定的話語,通常包含與訓練信息相同的文本。文本相關的識別方法多采用動態(tài)時間伸縮法或隱馬爾可夫模型法:動態(tài)時間伸縮法使用瞬間的變動倒頻,其倒頻譜的計算通常使用快速付立葉變換;隱馬爾可夫模型法使用較成熟,它運用該模型測量頻譜特征的統(tǒng)計變量,應用較多。
2、文本無關系統(tǒng)
文本無關系統(tǒng)則沒有文本相關系統(tǒng)那樣的限制,但不一致的環(huán)境造成的性能下降是其應用中的障礙。文本無關系統(tǒng)的識別方法采用平均頻譜法、矢量量化法與多變量自回歸法:平均頻譜法使用有利的倒頻距離,用平均頻譜除去語音頻譜中的音位影響;矢量量化法是用一套短期訓練的特征向量來直接描述聲音的本質(zhì)特征,但存貯和計算的量大,需尋找有效的方法來壓縮訓練數(shù)據(jù);多變量自回歸法是在倒頻向量的時序中,用多變量自回歸模式來確定聲音特征,其效果較好。
聲音識別的優(yōu)缺點
1、聲音識別技術(shù)的優(yōu)點
·同面像識別與步態(tài)識別一樣,聲音識別也是一種非接觸的識別技術(shù);
·由于大多數(shù)的計算機都有聲卡和麥克風,因而有廉價的硬件設備;
·聲音識別系統(tǒng)使用方便、簡單,用戶易于接受;
·微型拾音器易于隱蔽,能方便用于竊聽,以鑒別是否罪犯等。
2、聲音識別技術(shù)的缺點
·聲音會隨著音量、速度和音質(zhì)的變化(如同一個人感冒、情緒壓力或青春期引起的變化),而影響采集與比對的結(jié)果;
·和其他的行為識別技術(shù)一樣,聲音因為變化的范圍太大,故而很難進行一些精確的匹配,因而比指紋識別誤識率高;
·能偽造,如容易用錄在磁帶上的聲音欺騙聲音識別系統(tǒng),所以安全可靠性較差;
·目前非常好的高保真的聲音采集裝置——麥克風還比較昂貴。[nextpage]
制約聲音識別技術(shù)發(fā)展的關鍵
實際上,人們很早就認識到聲音識別對于人類生活的重要性。如世界上第一臺計算機問世之后,馬上就有人想到要讓計算機聽懂人說話。因此可以說,聲音識別的研究歷史與計算機的發(fā)展歷史一樣長。而計算機的發(fā)展已經(jīng)經(jīng)歷了好幾代,今天已經(jīng)進入到了普通家庭。但是,聲音識別方面的產(chǎn)品卻遲遲未能進入市場。
一個聲音識別系統(tǒng)性能好壞的關鍵,首先是它所采用的聲音模型能否真實地反映聲音的物理變化規(guī)律。但聲音信號與人類的自然聲音都是隨機的、多變的和不穩(wěn)定的,因此很難把握,這就是目前聲音識別過程中的最大難點。
其次,模板訓練的好壞也直接關系到聲音識別系統(tǒng)識別率的高低。為了得到一個好的模板,往往需要有大量的原始聲音數(shù)據(jù)來訓練聲音模型。因此,在開始進行聲音識別研究之前,首先要建立起一個龐大的聲音數(shù)據(jù)庫。一個好的聲音數(shù)據(jù)庫包括足夠數(shù)量、具有不同性別、年齡、口音的說話人的聲音,并且必須要有代表性,能均衡地反映實際使用情況。
有了聲音數(shù)據(jù)庫及聲音特征,就可以建立聲音模型,并用聲音數(shù)據(jù)庫中的聲音來訓練這個聲音模型。訓練過程是指選擇系統(tǒng)的某種最佳狀態(tài)(如對聲音庫中的所有聲音有最好的識別率),不斷地調(diào)整系統(tǒng)模型(或模板)的參數(shù),使系統(tǒng)模型的性能不斷向這種最佳狀態(tài)逼近。這是一個復雜的過程,要求計算機有強大的計算能力,并有很強的理論指導,才能保證得到良好的訓練結(jié)果。
實際上,制約聲音識別技術(shù)發(fā)展的關鍵是其依據(jù)的模型和算法,模型算法是計算機描述聲音的能力能否抓住人的聲音的本質(zhì)的關鍵。在聲音識別領域,固然有資金實力、人力資源等的競爭,但最根本是其關鍵核心技術(shù)——模型和算法的競爭。
在聲音識別應用領域,有許多相關技術(shù)直接影響著客戶的最終體驗,并關系到應用系統(tǒng)的使用效果,也就是自動化率(automation rate),即系統(tǒng)毋須人工干預獨自完成的比例。例如端點檢測及相關問題,噪音環(huán)境下的聲音處理,系統(tǒng)結(jié)構(gòu),對口音的適應性及聲音界面的設計,都是聲音識別整體應用系統(tǒng)需要考慮的。
聲音識別在國內(nèi)所取得的成果
計算機自動聲音識別就是讓計算機能聽懂人說話。這一問題曾經(jīng)被一位知名的美國教授稱之為是“比登月還難”的科學難題。其實,人們很早就認識到聲音識別對于人類生活的重要性。世界上第一臺計算機問世之后,馬上就有人想到要讓計算機聽懂人說話。所以說,聲音識別的研究歷史與計算機的發(fā)展歷史一樣長。計算機的發(fā)展已經(jīng)經(jīng)歷了好幾代,今天已經(jīng)進入到了普通家庭。但是,聲音識別方面的產(chǎn)品卻遲遲未能進入市場。
我國聲音識別研究工作起步于五十年代,但近年來發(fā)展很快,研究水平也從實驗室逐步走向?qū)嵱?。?987年開始執(zhí)行國家863計劃后,我國聲音識別技術(shù)的研究水平已經(jīng)基本上與國外同步,在漢語聲音識別技術(shù)上還有自己的特點與優(yōu)勢,并達到國際先進水平。其中具有代表性的研究單位為清華大學電子工程系與中科院自動化研究所模式識別國家重點實驗室。
清華大學電子工程系語音技術(shù)與專用芯片設計課題組,研發(fā)的非特定人漢語數(shù)碼串連續(xù)語音識別系統(tǒng)的識別精度,達到94.8%(不定長數(shù)字串)和96.8%(定長數(shù)字串)。在有5%的拒識率情況下,系統(tǒng)識別率可以達到96.9%(不定長數(shù)字串)和98.7%(定長數(shù)字串),這是目前國際最好的識別結(jié)果之一,其性能已經(jīng)接近實用水平。研發(fā)的5000詞郵包校核非特定人連續(xù)語音識別系統(tǒng)的識別率達到98.73%,前三選識別率達99.96%;并且可以識別普通話與四川話兩種語言,己基本達到實用要求。[nextpage]
國內(nèi)研發(fā)的第一塊語音識別專用芯片,以8位微控制器(MCU)為核心,加上低通濾波器、A/D、D/A、預放、功率放大器、RAM、ROM、脈寬調(diào)幅(PWM)等模塊,構(gòu)成了一個完整的系統(tǒng)芯片。這種芯片包括了語音識別、語音編碼、語音合成功能,可以識別30條特定人語音命令,識別率超過95%,其中的語音編碼速率為16kbits/s。因此,該芯片可以用于智能語音玩具;也可以與普通電話機相結(jié)合構(gòu)成語音撥號電話機。這些系統(tǒng)的識別性能完全達到國際先進水平,一些應用型產(chǎn)品正在研發(fā)中,其商品化的過程將越來越快。
由于一些微型機器,如手機、掌上電腦等體積較小,難以設計鍵盤輸入復雜指令,而語音識別恰能實現(xiàn)這一需求。但中文語音識別產(chǎn)品一直由外國大公司壟斷,中科院研究人員針對漢語聲調(diào)、口音和語言特性進行了大量創(chuàng)新,攻克了語音識別領域最難的非特定人漢語6萬詞連續(xù)語音技術(shù)。在同等測試條件下,中科院開發(fā)的這項技術(shù)在識別性能上優(yōu)于跨國公司公開發(fā)表的結(jié)果。其中文語音識別軟件,對普通話的識別率可達95%以上。具有自主知識產(chǎn)權(quán)的語音技術(shù),一定會像漢字識別技術(shù)一樣不但在技術(shù)上取得成功,而且在產(chǎn)業(yè)化和市場化上取得突破,從而進一步奠定中國在中文信息處理上的優(yōu)勢。
目前,自動化所控股的中科模識科技有限責任公司,己同其他公司合作開發(fā)了基于中文語音識別技術(shù)的移動電話語音交互系統(tǒng)、互聯(lián)網(wǎng)中文多模態(tài)交互平臺、智能家居聲控系統(tǒng)、電話股票查詢系統(tǒng)、電視機中文語音遙控器等。
盡管有關聲音識別技術(shù)的報道屢見不鮮,國內(nèi)外學者也為此作了不懈的努力,但目前聲音識別系統(tǒng)的識別率還比較低,現(xiàn)在均在進行深化與實用化的研究。相信不久,會有比較好的實用產(chǎn)品出現(xiàn)。
聲音識別在安防等方面的應用
聲音識別系統(tǒng)可應用的范圍很廣,如可用于電話與通信網(wǎng)絡、人機接口、安防監(jiān)控、股票交易與銀行取款、智能玩具、刑偵破案、罪犯跟蹤、國防監(jiān)聽、財產(chǎn)保護等方面。
用于電話與通信網(wǎng)絡
如在電話機、手機中已經(jīng)包含了語音識別撥號功能,人們可以通過語音命令方便地從遠端的數(shù)據(jù)庫系統(tǒng)中查詢與提取有關的信息。如人們可以通過電話網(wǎng)絡,用語音識別口語對話系統(tǒng)查詢有關的機票、旅游、銀行等信息。
美國主要電信運營商Sprint的PCS部門,自2000年以來為客戶開通了語音驅(qū)動系統(tǒng),提供客戶服務、語音撥號、查號和更改地址等業(yè)務。2001年9月開通的可以自然方式對話的咨詢系統(tǒng),更實現(xiàn)了以自然、開放的詢問方式實時獲得所需要的信息。加拿大最大的電信運營商,也擁有多個語音驅(qū)動系統(tǒng),提供從客戶服務,增值業(yè)務和資訊服務多種功能。這些系統(tǒng)不但減少了用戶的投訴,并為無線網(wǎng)絡服務增值,從而增強了客戶的誠信度,也開辟了新的收入來源。
用于人機接口
現(xiàn)在,聲音識別正逐步成為信息技術(shù)中人機接口的關鍵技術(shù),聲音識別技術(shù)與語音合成技術(shù)結(jié)合使人們能夠甩掉鍵盤,通過語音命令進行操作。因為隨著計算機的小型化,鍵盤已經(jīng)成為移動平臺的一個很大障礙,如果手機僅僅只有一個手表那么大,再用鍵盤進行撥號操作已經(jīng)是不可能的。所以,聲音識別技術(shù)的研發(fā)與應用,已經(jīng)成為一個具有競爭性的新興高科技術(shù)產(chǎn)業(yè)。
用于股票交易與銀行取款物
1996年9月,Charles Schwab開通了首個大規(guī)模商用語音識別應用系統(tǒng),股票報價系統(tǒng)與語音股票交易系統(tǒng)。該系統(tǒng)有效地提高了服務質(zhì)量和客戶滿意度,并減少了呼叫中心的費用。[nextpage]
尤其在銀行的應用上,還可同密碼一同打開保險箱柜與儲蓄取款,既方便又可靠。
用于刑偵破案、打擊恐怖分子
公安刑警采用聲音識別技術(shù),可利用暗藏在犯罪分子的電話、錄像或者其他證據(jù)中的聲音資料,和嫌疑人的聲音進行對比,以尋找到真正的兇手。
實施綁架的罪犯往往會通過電話向被害者的家屬索要贖金,警方可通過聲音識別從數(shù)個嫌疑人中認出罪犯。如日本曾經(jīng)發(fā)生一起綁架少女案。女孩的父親接到一個人打來的電話,要他用重金贖回女兒。警方作了電話錄音,然后在廣播電臺和電視臺播放了這次電話錄音。經(jīng)群眾檢舉,有10多個人被警方列為嫌疑人,并通過各種渠道錄下嫌疑人的聲音。經(jīng)過聲紋鑒定,終于從這些嫌疑人中找到了真正的罪犯。
此外,現(xiàn)代的恐怖分子有恃無恐,制造恐怖事件后往往還會拍下一段錄像宣稱為某事件負責,安全局的特警就可以根據(jù)這些聲音資料,分析錄像中的聲音是否為恐怖分子本人的聲音,從而可以為追查恐怖分子獲得新的線索。
用于法庭作證
因辦案講究的是證據(jù),而聲音也是偵查犯罪的一項有力證據(jù)。為此,研究聲音證據(jù)的“法庭語音學”(Forensic Phonetics)成為了法庭醫(yī)學的一門重要的分支學科。除了聲紋技術(shù)外,法庭語音學的研究方法還包括制作聲譜圖和進行聲音比較聲譜圖,對聲音加以記錄,并將其轉(zhuǎn)變?yōu)槁曌V圖或聲紋的直觀形式。在進行聲音比較時,聲音識別專家會對聲音的相似之處以及不同之處加以辨別,這些相似或不同之處涉及呼吸方式、語調(diào)的抑揚變化、不尋常的語音習慣方言等。因此,要利用“法庭語音學”成為偵查犯罪的有利幫手,就需要建立一套像指紋系統(tǒng)那樣的自動化的語音鑒定系統(tǒng)。
到了20世紀70年代,日本、羅馬尼亞、德國等國家都相繼開展了聲紋鑒定技術(shù),以對付恐怖犯罪活動。最近幾年來,世界各國的司法機構(gòu)都開始接受聲紋證據(jù)。在美國,已有八分之七的州上訴法院承認聲紋可作為法庭證據(jù),美國的軍事法庭也采用聲紋作為證據(jù)。隨著科學技術(shù)的進步,聲紋鑒定手段也日益先進。
用于國防監(jiān)聽
聲音識別用于國防監(jiān)聽,從下述的例證就知其重要性。如美軍在近幾年使用的EP-3偵察機上,安裝了最先進的聲音識別系統(tǒng)。這種聲音自動識別系統(tǒng)功能強大,只要被偵察者通過無線電進行對話,系統(tǒng)便能查明通話者的身份,尤其是高層領導者的身份更是全在識別之列,從而判斷出從中掌握到的情報的價值到底有多大。要做到這一點在以前是一件難以想像的事,因為噪音問題無法解決?,F(xiàn)在,監(jiān)聽系統(tǒng)能自己刪除靜電等其他雜音,然后通過與聲音數(shù)據(jù)庫相對照,就能識別出通話者的身份。
多年來,美國建有一個功能強大的資料數(shù)據(jù)系統(tǒng),儲存有世界上幾乎所有領導人的各種相關資料。所有的國家領導人由于其口音、停頓、用詞或表達習慣不同,因此都有著特定的識別方式。對于采集到的各國領導人的聲音資料,為便于使用,美國中央情報局對聲音加以記錄,并將其轉(zhuǎn)變?yōu)槁曌V圖或聲紋的直觀形式。當卡塔爾電視臺播出薩達姆的講話錄音后,他們首先將錄音帶中的聲音與資料庫中存儲的聲音進行對比,辨別出其相似之處及不同之處,這些相似或不同之處涉及呼吸方式、語調(diào)的抑揚變化、不尋常的語音習慣以及地方方言等。從而發(fā)現(xiàn)資料庫中的聲紋與錄音帶中的聲紋基本一致,而且包含有部分相同的單詞。所以,美國中央情報局當時認定錄音帶中的聲音“十有八九是薩達姆本人”。
美國國家安全局還把聲音識別技術(shù)用于辨別“榜上有名”的恐怖分子,如本·拉登。美軍只有把其新舊講話的聲音作對比,借此來判斷他是否真的還存活人世。日本聲響實驗室的研究人員甚至能根據(jù)拉登的聲紋來判斷他的健康狀況,并發(fā)現(xiàn)拉登在逃亡過程中的健康狀況持續(xù)惡化等。
用于保護人民財產(chǎn)
聲音識別技術(shù)可以用于保護人民的財產(chǎn)不受非法侵犯,人們在重要的財產(chǎn)(比如住房、汽車、電器)上,可安裝聲音識別系統(tǒng),只有用戶本人的聲音可以啟動這些財產(chǎn),而違法分子則對之束手無策。
由于聲紋具有不會遺失或忘記、不需記憶、使用方便等優(yōu)點,因此在保護人們的財產(chǎn)、防止盜竊或者其他經(jīng)濟犯罪方面會有更大的用途。它更適用于電話銀行、電話炒股、電子購物等領域。
最近,美國加利福尼亞州一家信用卡公司發(fā)明了一種帶有聲音識別功能的信用卡,這種信用卡只有在識別出主人的聲音后才能正常操作,可以有效打擊那些偷取信用卡進行消費的小偷。信用卡中安裝有一個小麥克風、一個揚聲器和一個具有聲音識別功能的芯片。在使用信用卡之前,用戶必須說出密碼,芯片將有聲密碼與事先錄下的密碼相比較,如果密碼符合,卡片將發(fā)出一串“嗶嗶”的聲音,表示可以通過電話或商店計算機的麥克風進行交易。如果聲音不符合,則不會發(fā)聲。目前這一設備仍在樣品測試階段,一旦面世它將被用于在電話和網(wǎng)絡上驗證信用卡用戶的身份,從而減少信用卡欺詐導致的商家和消費者的交易成本。
用于安防監(jiān)聽,以阻止罪犯繼續(xù)作案
在安防監(jiān)控領域,通常還有監(jiān)聽,如果安裝有聲音識別的智能化功能,就可以尋找到通輯逃犯、慣犯以及一切留有聲音檔案的罪犯,從而可及時阻止這些罪犯繼續(xù)作案。 此外,聲音識別技術(shù)還可用于門禁系統(tǒng)及各種鎖具中,使“芝麻開門”變成現(xiàn)實。
用于智能玩具等
聲音識別技術(shù)還可用于玩具中,以形成語音智能玩具等產(chǎn)品。
結(jié)語
由上述可知,由于聲音識別技術(shù)有硬件設備簡單、低廉,且使用方便,易于被人們所接受等優(yōu)點,因而應用很廣泛,并一直成為國內(nèi)外學者研究的熱點。雖然,使聲音識別技術(shù)真正實用化還有一定的難度,但國內(nèi)外學者在為此作不懈地努力,相信不久,會有比較好的實用產(chǎn)品出現(xiàn)。