a&s專業(yè)的自動化&安全生態(tài)服務(wù)平臺

公眾號

安全自動化

安防知識網(wǎng)

手機(jī)站

大安防供需平臺

搜索
登錄
|
注冊

搜索

全站搜索
AI應(yīng)用搜索

首頁 > 資訊 > 正文

關(guān)于語音識別技術(shù)在會議中的應(yīng)用

作者：王唯 2020-08-21 09:06 閱讀 2861 來源：安防知識網(wǎng) 評論區(qū)

語音識別技術(shù)始于幾十年前，近年來人工智能讓語音識別得到了長足發(fā)展。但由于語音識別系統(tǒng)對環(huán)境敏感，如何在真實(shí)的場景中落地仍有不小的挑戰(zhàn)。本文試圖從大數(shù)據(jù)思維角度，為會議場景中的語音識別應(yīng)用打開一扇不一樣的門戶。

　　文 / 王唯上海云思智慧信息技術(shù)有限公司產(chǎn)品研發(fā)中心副總經(jīng)理

　　1. 語音識別技術(shù)的現(xiàn)狀

　　語言是人類最自然的交互方式。數(shù)萬年來人類通過進(jìn)化獲得的語言交流能力，相比其他的交互方式具有更多的優(yōu)勢。當(dāng)計(jì)算機(jī)發(fā)明之后，人類與機(jī)器的交流雖然暫時(shí)受限于鼠標(biāo)鍵盤等面向機(jī)器的交互方式，但卻從不阻擋人類讓機(jī)器能夠聽懂人類的語言、理解語言中的內(nèi)在含義、做出正確回答的探索。這些場景反復(fù)出現(xiàn)在科幻電影中，那些智能先進(jìn)的機(jī)器人助手，通過語言與人類完成自由地交流。

　　縱觀計(jì)算機(jī)模擬人類語言交流的整個(gè)過程，包括傾聽-理解-思考-表達(dá)四個(gè)階段。當(dāng)前計(jì)算機(jī)領(lǐng)域，按照技術(shù)難易度及普及順序，大致也可以分為以下四類與之相對應(yīng)的技術(shù)研究：

　　自然語言生成——將大腦產(chǎn)生的思想轉(zhuǎn)換成語言

　　語言合成——將語言轉(zhuǎn)換為相應(yīng)的語音

　　語音識別——識別語言中表達(dá)的語音內(nèi)容

　　自然語言理解——理解語音表達(dá)的語言含義

　　其中，語音識別技術(shù)是指機(jī)器自動將人的語言轉(zhuǎn)成文字，又稱 Automatic Speech Recognition，即ASR技術(shù)。它是一門涉及聲學(xué)、語音學(xué)、語言學(xué)、情感學(xué)、心理學(xué)、信息理論、模式識別理論、數(shù)字信號處理、人工智能、數(shù)理統(tǒng)計(jì)學(xué)等多學(xué)科交叉的科學(xué)。近年來，隨著人工智能的興起，語音識別技術(shù)在理論和應(yīng)用方面都取得大突破，不僅開始從實(shí)驗(yàn)室走向市場，并且已逐漸走進(jìn)我們的日常生活。

　　語音識別的本質(zhì)是一種基于語音特征參數(shù)的模式識別，即通過學(xué)習(xí)，系統(tǒng)能夠把輸入的語音按一定模式進(jìn)行分類，進(jìn)而依據(jù)判定準(zhǔn)則找出最佳匹配結(jié)果。

　　從語音識別算法的發(fā)展來看，語音識別技術(shù)主要分為三大類，第一類是模型匹配法，包括矢量量化(VQ) 、動態(tài)時(shí)間規(guī)整(DTW)等；第二類是概率統(tǒng)計(jì)方法，包括高斯混合模型(GMM) 、隱馬爾科夫模型(HMM)等；第三類是辨別器分類方法，如支持向量機(jī)(SVM) 、人工神經(jīng)網(wǎng)絡(luò)(ANN)和深度神經(jīng)網(wǎng)絡(luò)（DNN）等。

　　目前語音識別技術(shù)已經(jīng)是相對成熟（商用）的技術(shù)，各家主流公司均宣稱語音識別率達(dá)到了97%，甚至98%?，F(xiàn)在語音識別已用于許多領(lǐng)域，主要包括語音識別聽寫器、語音尋呼和答疑平臺、自主廣告平臺，智能客服等。但需要指出的是，主流公司宣稱的語音識別率一般是需要用戶在安靜環(huán)境下，近距離、原地不動、慢慢地、認(rèn)真清晰發(fā)音時(shí)測試的結(jié)果。在實(shí)際場景，往往有很多種異常情況都會導(dǎo)致語音識別的效果大打折扣，比如距離太遠(yuǎn)、發(fā)音不標(biāo)準(zhǔn)、環(huán)境嘈雜、中間有時(shí)不時(shí)的打斷等等。

　　所以語音識別技術(shù)在實(shí)際應(yīng)用中，受限于特定的場景，同時(shí)還需要有各種解決方案來配合。這雖然是一個(gè)應(yīng)用落地比較現(xiàn)實(shí)的問題，但并不影響我們做產(chǎn)品demo和初步的產(chǎn)品化工作，反而是我們AI產(chǎn)品經(jīng)理的發(fā)揮機(jī)會——用產(chǎn)品體驗(yàn)設(shè)計(jì)來優(yōu)化（彌補(bǔ)）純技術(shù)效果的不足。

　　2. 語音識別技術(shù)的發(fā)展與挑戰(zhàn)

　　在協(xié)作工作模式下，我們常常通過開會來布置、協(xié)調(diào)、研討工作，以達(dá)成集思廣益、信息交流、加強(qiáng)領(lǐng)導(dǎo)、協(xié)調(diào)矛盾等目的。雖然現(xiàn)代辦公中，部分工作場景可以通過郵件、電話、工作群、OA系統(tǒng)、博客討論組、遠(yuǎn)程視頻會議等在線方式替代，但面對面的會議溝通仍然是辦公行為中非常重要的方式。這也是在生產(chǎn)工具私有化后，共享移動辦公未能占據(jù)辦公模式中絕對地位的重要因素。

　　正是由于會議的重要性，在基礎(chǔ)建設(shè)中會議區(qū)單位面積的投資比例數(shù)倍于辦公區(qū)域。會議室建設(shè)的早期階段，其建設(shè)目標(biāo)集中定位在電子會議室。大家更關(guān)注從電子設(shè)備角度實(shí)現(xiàn)會議內(nèi)容電子化、會議設(shè)施自動化：

　　會議內(nèi)容電子化——通過顯示、擴(kuò)聲等技術(shù)實(shí)現(xiàn)多媒體會議，豐富會議的表現(xiàn)形式。

　　會議設(shè)施自動化——通過會議中控技術(shù)實(shí)現(xiàn)會議設(shè)施自動化管理，方便會議操作。

　　會議室建設(shè)接下來的階段，人們將視線投向會議組織過程，通過人、物、場、過程的在線，重構(gòu)優(yōu)化會前、會中、會后全會議生命周期過程：

　　人的在線——通過手機(jī)應(yīng)用、人員定位、人臉識別等方式顯示人員的在線狀態(tài)。

　　物的在線——全面集成會議設(shè)施，從關(guān)注管理切換到關(guān)注使用面場景，面向最終使用者在線開放能力單元。

　　場的在線——基于IoT技術(shù)，結(jié)合空間管理類應(yīng)用，實(shí)現(xiàn)會議室及其相關(guān)配套場所的在線。

　　過程在線——結(jié)合人、物、場鏡像構(gòu)建的虛擬孿生世界，重構(gòu)優(yōu)化會前、會中、會后全會議生命周期過程，提升效率并為更深層次的大數(shù)據(jù)衍生應(yīng)用打下基礎(chǔ)。

　　走到這一步，很自然地就能發(fā)現(xiàn)下一步要做的事情就是會議內(nèi)容的在線。會議參與者是通過內(nèi)容作為媒介促成了會議目的的達(dá)成。因此在一場會議中，我們將會議內(nèi)容定義成靈魂一樣重要毫不為過。在第一步中，我們通過顯示、擴(kuò)聲設(shè)備確實(shí)實(shí)現(xiàn)了會議內(nèi)容的信息化。但記錄下來的內(nèi)容僅僅是諸如音視頻錄像為主的非結(jié)構(gòu)化內(nèi)容，難于查閱、分享、檢索，更無法形成知識點(diǎn)分段利用。這種大塊的非結(jié)構(gòu)數(shù)據(jù)就猶如一潭靜態(tài)的死水不具有流動性特征，因此不滿足在線使用對任意時(shí)間、任意地點(diǎn)、任意方式等特點(diǎn)的要求。

　　雖然以前做不到內(nèi)容的真在線，但伴隨著AI技術(shù)在語音識別領(lǐng)域的長足發(fā)展，未來會議信息化也逐漸進(jìn)入了應(yīng)用的深水區(qū)。人類通過閱讀獲取信息的速度遠(yuǎn)遠(yuǎn)高于通過收聽方式接受信息。一場兩小時(shí)的會議錄像，如果采用會議紀(jì)要形式傳閱，僅僅需要很短的時(shí)間就能遍歷、快速發(fā)現(xiàn)重點(diǎn)，并通過精讀方式獲取有效信息。于是主流廠商都將精力投向于會議紀(jì)要的轉(zhuǎn)寫應(yīng)用。

　　目前語音識別AI算法建立的基礎(chǔ)是在近距離、安靜環(huán)境上的，同時(shí)發(fā)言人的語速、普通話標(biāo)準(zhǔn)程度等因素也對識別率影響較大。因此目前主推的會議紀(jì)要轉(zhuǎn)寫僅僅適合于單人話筒發(fā)言、發(fā)言內(nèi)容有精心準(zhǔn)備、發(fā)言者語言表達(dá)能力優(yōu)秀的場景，例如新聞發(fā)布會。而大多數(shù)會議環(huán)境中，由于環(huán)境噪音、多人交互重疊發(fā)言、發(fā)言內(nèi)容需要現(xiàn)場組織存在停頓、重讀、縮略等特點(diǎn)，導(dǎo)致最終生成的會議轉(zhuǎn)寫紀(jì)要可讀性非常差。筆者曾試用過大多數(shù)一線廠商會議紀(jì)要轉(zhuǎn)寫產(chǎn)品，從主觀上看，這些紀(jì)要甚至不如直接聽錄音。更麻煩的是目前主流公司均宣稱語音識別率已經(jīng)高達(dá)97%，未來不太可能有太多進(jìn)一步提升的空間。而且就算還能提升，也無法解決因外部環(huán)境干擾對紀(jì)要可讀性的影響。會議紀(jì)要轉(zhuǎn)寫產(chǎn)品似乎走入了死胡同。

　　3. 語音識別技術(shù)在會議中的運(yùn)用

　　天生我材必有用！語音識別通過人工智能技術(shù)已經(jīng)將語音識別率提高到了97%，盡管受限于非理想場景，在絕大多數(shù)實(shí)際場景中會議紀(jì)要轉(zhuǎn)寫未必能夠達(dá)到良好的閱讀要求，但我們?nèi)圆豢煞裾J(rèn)，在轉(zhuǎn)寫記錄中已經(jīng)初步提煉出大量可分析的信息。這就像原油，里面包含了有用的東西和無用的東西。后續(xù)我們要做的事情就應(yīng)該像石化企業(yè)一樣，將有用的部分給提取出來形成信息，并找到需要使用這種信息的場景。

　　原油本身質(zhì)量的高低并不決定提煉出來的東西是否有價(jià)值，只是會影響到提煉的難度及成本。如果按照這樣的思路構(gòu)建應(yīng)用，我們就不會再糾結(jié)地等待語音轉(zhuǎn)文本的進(jìn)一步提升準(zhǔn)確率，而是現(xiàn)在就有的數(shù)據(jù)，現(xiàn)在就應(yīng)該有應(yīng)用它的場景。

　　這也符合當(dāng)下從精準(zhǔn)的小數(shù)據(jù)思維轉(zhuǎn)向模糊的大數(shù)據(jù)思維?；ヂ?lián)網(wǎng)時(shí)代，網(wǎng)絡(luò)上非結(jié)構(gòu)化數(shù)據(jù)占據(jù)了當(dāng)前數(shù)據(jù)海洋的80%，并在截止2020年前以每年44倍的數(shù)據(jù)快速增長。這些數(shù)據(jù)均是難于在一定時(shí)間內(nèi)用常規(guī)軟件工具進(jìn)行內(nèi)容抓取、管理和處理的，但具備數(shù)據(jù)再利用的沉默價(jià)值特征?？纯垂雀?、百度等搜索引擎在做什么事情，本質(zhì)上他們也是在做非結(jié)構(gòu)化數(shù)據(jù)的提煉工作，同時(shí)他們并沒有刻意去要求源頭數(shù)據(jù)必須如何精準(zhǔn)。

　　借鑒這樣的思維，我們可以把語音識別技術(shù)在會議中的應(yīng)用分為三個(gè)層次：

　　數(shù)據(jù)轉(zhuǎn)換——音頻數(shù)據(jù)是難于衡量的，我們需要借助語音識別技術(shù)將其轉(zhuǎn)換為文本數(shù)據(jù)。這個(gè)數(shù)據(jù)雖然是不精準(zhǔn)的，但不可否認(rèn)中間蘊(yùn)含有豐富的可用信息，正如原油一樣。

　　信息提取——有了不精準(zhǔn)的非結(jié)構(gòu)化文本數(shù)據(jù)，我們就可以借助搜索引擎檢索其中的關(guān)鍵字、常用字、高頻字，形成可衡量的標(biāo)簽并與音軌對應(yīng)。通過這種映射，我們就能實(shí)現(xiàn)以前做不到的音頻檢索。一場會議的錄音往往是很冗長的，通過這種檢索我們就能幫助會后快速定位到感興趣的內(nèi)容。如果語音轉(zhuǎn)寫記錄效果不好，我們可以直接點(diǎn)擊音頻錄像播放，從而大大提升了會議回顧效率。未來我們還想借助聲紋識別技術(shù)定位每一個(gè)發(fā)言人，那么又可以在“誰的發(fā)言”這個(gè)維度形成標(biāo)簽，支持按發(fā)言人進(jìn)行檢索。

　　信息利用——當(dāng)信息提取出來后，我們就可以依據(jù)不同人群不同場景的需求使之對應(yīng)到具體業(yè)務(wù)中，從而串接成更大的應(yīng)用邏輯，做到信息的再利用，這是一個(gè)逐步發(fā)掘完善的過程。以前沒有這么想是因?yàn)闆]有做到會議數(shù)據(jù)的結(jié)構(gòu)化，未來會有很多在這方面的探索。以下我們僅僅舉例說明其廣闊的價(jià)值：

　　數(shù)字會議紀(jì)要——以前人工記錄會議紀(jì)要，由于涉及到記錄員專業(yè)水平、理解能力、概括能力等影響，很多時(shí)候紀(jì)要的準(zhǔn)確性很差。但又沒有其他較好的辦法會后獲取原意。現(xiàn)在我們就能將每條紀(jì)要對應(yīng)到標(biāo)簽指向的音頻，從而提高會議紀(jì)要的準(zhǔn)確性及可用性。

　　知識圖譜——當(dāng)語音標(biāo)簽通過會議紀(jì)要或其他方式在不同的人群中流動的時(shí)候，我們就可以通過點(diǎn)贊、推薦、朋友在看等當(dāng)下大家習(xí)慣的信息接受方式，讓有價(jià)值的內(nèi)容從一堆混雜信息中進(jìn)一步浮現(xiàn)出來。并且這種方式是無需雇用專人進(jìn)行整理的，且抽取出來的內(nèi)容更容易受大眾接受。選舉一個(gè)例子，未來企業(yè)中我們可以通過了解管理者關(guān)注會議中的哪一部分內(nèi)容，從而使管理者與員工在組織愿景和日常工作中迅速地聯(lián)系起來。

　　事項(xiàng)跟蹤——一場會議中一般均會涉及多項(xiàng)事件議程，我們回顧一場會議的記錄實(shí)質(zhì)上是橫向地了解它所包含范圍內(nèi)所有事件的近況。但更多時(shí)候，我們更想知道一個(gè)事項(xiàng)從開始到現(xiàn)在整個(gè)縱向上面的信息，尤其是需要在會議中討論的重要信息。更難的是，往往同一個(gè)事項(xiàng)會依據(jù)分工在多個(gè)級別、不同參與者的會議中并行討論，這樣就很難有好的方式收集全局信息。以前沒有好的辦法解決這個(gè)問題，但在有價(jià)值的語音標(biāo)簽之后，我們就有了把不同會議按照我們目的縱向串接起來的可能。

　　諸如此類的應(yīng)用還會有很多，以前沒有語音識別技術(shù)無法實(shí)現(xiàn)第一步，所有后面的事情大家都沒有這樣想，但相信有人工智能加持后，未來人類行為方式會得到加速進(jìn)化。

　　工業(yè)社會經(jīng)濟(jì)的助推劑是能源，能源決定了我們大規(guī)模生產(chǎn)的成本及產(chǎn)能。最具經(jīng)濟(jì)代表性是石油，因此我們當(dāng)下也公認(rèn)為活在石油經(jīng)濟(jì)時(shí)代。未來科技社會經(jīng)濟(jì)的助推劑是數(shù)據(jù)，數(shù)據(jù)決定了我們能夠造出什么具有競爭力的產(chǎn)品，我們把這個(gè)時(shí)代稱為知識經(jīng)濟(jì)時(shí)代。

免責(zé)聲明：本站所使用的字體和圖片文字等素材部分來源于互聯(lián)網(wǎng)共享平臺。如使用任何字體和圖片文字有冒犯其版權(quán)所有方的，皆為無意。如您是字體廠商、圖片文字廠商等版權(quán)方，且不允許本站使用您的字體和圖片文字等素材，請聯(lián)系我們，本站核實(shí)后將立即刪除！任何版權(quán)方從未通知聯(lián)系本站管理者停止使用，并索要賠償或上訴法院的，均視為新型網(wǎng)絡(luò)碰瓷及敲詐勒索，將不予任何的法律和經(jīng)濟(jì)賠償！敬請諒解！

您可能也喜歡這些文章

參與評論

回復(fù)：

0/300

文明上網(wǎng)理性發(fā)言，評論區(qū)僅供其表達(dá)個(gè)人看法，并不表明a&s觀點(diǎn)。

0

推薦專題

熱門排行

關(guān)于我們

a&s傳媒是全球知名展覽公司法蘭克福展覽集團(tuán)旗下的專業(yè)媒體平臺，自1994年品牌成立以來，一直專注于安全&自動化產(chǎn)業(yè)前沿產(chǎn)品、技術(shù)及市場趨勢的專業(yè)媒體傳播和品牌服務(wù)。從安全管理到產(chǎn)業(yè)數(shù)字化，a&s傳媒擁有首屈一指的國際行業(yè)展覽會資源以及豐富的媒體經(jīng)驗(yàn)，提供媒體、活動、展會等整合營銷服務(wù)。

全球網(wǎng)站
法蘭克福
asmag.com
asmag.com.cn
中國臺灣智慧安防網(wǎng)

免責(zé)聲明：本站所使用的字體和圖片文字等素材部分來源于互聯(lián)網(wǎng)共享平臺。如使用任何字體和圖片文字有冒犯其版權(quán)所有方的，皆為無意。如您是字體廠商、圖片文字廠商等版權(quán)方，且不允許本站使用您的字體和圖片文字等素材，請聯(lián)系我們，本站核實(shí)后將立即刪除！任何版權(quán)方從未通知聯(lián)系本站管理者停止使用，并索要賠償或上訴法院的，均視為新型網(wǎng)絡(luò)碰瓷及敲詐勒索，將不予任何的法律和經(jīng)濟(jì)賠償！敬請諒解！

粵公網(wǎng)安備 44030402000264號

用戶
反饋

久久久18,天天躁夜夜躁狠狠躁婷婷,国产成人三级一区二区在线观看一,最近的2019中文字幕视频 ,最新免费av在线观看

關(guān)于語音識別技術(shù)在會議中的應(yīng)用