久久久18,天天躁夜夜躁狠狠躁婷婷,国产成人三级一区二区在线观看一,最近的2019中文字幕视频 ,最新免费av在线观看

a&s專業(yè)的自動化&安全生態(tài)服務(wù)平臺
公眾號
安全自動化

安全自動化

安防知識網(wǎng)

安防知識網(wǎng)

手機(jī)站
手機(jī)站

手機(jī)站

大安防供需平臺
大安防供需平臺

大安防供需平臺

資訊頻道橫幅A1
首頁 > 資訊 > 正文

關(guān)于語音識別技術(shù)在會議中的應(yīng)用

語音識別技術(shù)始于幾十年前,近年來人工智能讓語音識別得到了長足發(fā)展。但由于語音識別系統(tǒng)對環(huán)境敏感,如何在真實(shí)的場景中落地仍有不小的挑戰(zhàn)。本文試圖從大數(shù)據(jù)思維角度,為會議場景中的語音識別應(yīng)用打開一扇不一樣的門戶。

  文 / 王唯 上海云思智慧信息技術(shù)有限公司 產(chǎn)品研發(fā)中心 副總經(jīng)理

  1. 語音識別技術(shù)的現(xiàn)狀

  語言是人類最自然的交互方式。數(shù)萬年來人類通過進(jìn)化獲得的語言交流能力,相比其他的交互方式具有更多的優(yōu)勢。當(dāng)計(jì)算機(jī)發(fā)明之后,人類與機(jī)器的交流雖然暫時(shí)受限于鼠標(biāo)鍵盤等面向機(jī)器的交互方式,但卻從不阻擋人類讓機(jī)器能夠聽懂人類的語言、理解語言中的內(nèi)在含義、做出正確回答的探索。這些場景反復(fù)出現(xiàn)在科幻電影中,那些智能先進(jìn)的機(jī)器人助手,通過語言與人類完成自由地交流。

  縱觀計(jì)算機(jī)模擬人類語言交流的整個(gè)過程,包括傾聽-理解-思考-表達(dá)四個(gè)階段。當(dāng)前計(jì)算機(jī)領(lǐng)域,按照技術(shù)難易度及普及順序,大致也可以分為以下四類與之相對應(yīng)的技術(shù)研究:

  自然語言生成——將大腦產(chǎn)生的思想轉(zhuǎn)換成語言

  語言合成——將語言轉(zhuǎn)換為相應(yīng)的語音

  語音識別——識別語言中表達(dá)的語音內(nèi)容

  自然語言理解——理解語音表達(dá)的語言含義

  其中,語音識別技術(shù)是指機(jī)器自動將人的語言轉(zhuǎn)成文字,又稱 Automatic Speech Recognition,即ASR技術(shù)。它是一門涉及聲學(xué)、語音學(xué)、語言學(xué)、情感學(xué)、心理學(xué)、信息理論、模式識別理論、數(shù)字信號處理、人工智能、數(shù)理統(tǒng)計(jì)學(xué)等多學(xué)科交叉的科學(xué)。近年來,隨著人工智能的興起,語音識別技術(shù)在理論和應(yīng)用方面都取得大突破,不僅開始從實(shí)驗(yàn)室走向市場,并且已逐漸走進(jìn)我們的日常生活。

  語音識別的本質(zhì)是一種基于語音特征參數(shù)的模式識別,即通過學(xué)習(xí),系統(tǒng)能夠把輸入的語音按一定模式進(jìn)行分類,進(jìn)而依據(jù)判定準(zhǔn)則找出最佳匹配結(jié)果。

  從語音識別算法的發(fā)展來看,語音識別技術(shù)主要分為三大類,第一類是模型匹配法,包括矢量量化(VQ) 、動態(tài)時(shí)間規(guī)整(DTW)等;第二類是概率統(tǒng)計(jì)方法,包括高斯混合模型(GMM) 、隱馬爾科夫模型(HMM)等;第三類是辨別器分類方法,如支持向量機(jī)(SVM) 、人工神經(jīng)網(wǎng)絡(luò)(ANN)和深度神經(jīng)網(wǎng)絡(luò)(DNN)等。

  目前語音識別技術(shù)已經(jīng)是相對成熟(商用)的技術(shù),各家主流公司均宣稱語音識別率達(dá)到了97%,甚至98%。現(xiàn)在語音識別已用于許多領(lǐng)域,主要包括語音識別聽寫器、語音尋呼和答疑平臺、自主廣告平臺,智能客服等。但需要指出的是,主流公司宣稱的語音識別率一般是需要用戶在安靜環(huán)境下,近距離、原地不動、慢慢地、認(rèn)真清晰發(fā)音時(shí)測試的結(jié)果。在實(shí)際場景,往往有很多種異常情況都會導(dǎo)致語音識別的效果大打折扣,比如距離太遠(yuǎn)、發(fā)音不標(biāo)準(zhǔn)、環(huán)境嘈雜、中間有時(shí)不時(shí)的打斷等等。

  所以語音識別技術(shù)在實(shí)際應(yīng)用中,受限于特定的場景,同時(shí)還需要有各種解決方案來配合。這雖然是一個(gè)應(yīng)用落地比較現(xiàn)實(shí)的問題,但并不影響我們做產(chǎn)品demo和初步的產(chǎn)品化工作,反而是我們AI產(chǎn)品經(jīng)理的發(fā)揮機(jī)會——用產(chǎn)品體驗(yàn)設(shè)計(jì)來優(yōu)化(彌補(bǔ))純技術(shù)效果的不足。

  2. 語音識別技術(shù)的發(fā)展與挑戰(zhàn)

  在協(xié)作工作模式下,我們常常通過開會來布置、協(xié)調(diào)、研討工作,以達(dá)成集思廣益、信息交流、加強(qiáng)領(lǐng)導(dǎo)、協(xié)調(diào)矛盾等目的。雖然現(xiàn)代辦公中,部分工作場景可以通過郵件、電話、工作群、OA系統(tǒng)、博客討論組、遠(yuǎn)程視頻會議等在線方式替代,但面對面的會議溝通仍然是辦公行為中非常重要的方式。這也是在生產(chǎn)工具私有化后,共享移動辦公未能占據(jù)辦公模式中絕對地位的重要因素。

  正是由于會議的重要性,在基礎(chǔ)建設(shè)中會議區(qū)單位面積的投資比例數(shù)倍于辦公區(qū)域。會議室建設(shè)的早期階段,其建設(shè)目標(biāo)集中定位在電子會議室。大家更關(guān)注從電子設(shè)備角度實(shí)現(xiàn)會議內(nèi)容電子化、會議設(shè)施自動化:

  會議內(nèi)容電子化——通過顯示、擴(kuò)聲等技術(shù)實(shí)現(xiàn)多媒體會議,豐富會議的表現(xiàn)形式。

  會議設(shè)施自動化——通過會議中控技術(shù)實(shí)現(xiàn)會議設(shè)施自動化管理,方便會議操作。

  會議室建設(shè)接下來的階段,人們將視線投向會議組織過程,通過人、物、場、過程的在線,重構(gòu)優(yōu)化會前、會中、會后全會議生命周期過程:

  人的在線——通過手機(jī)應(yīng)用、人員定位、人臉識別等方式顯示人員的在線狀態(tài)。

   物的在線——全面集成會議設(shè)施,從關(guān)注管理切換到關(guān)注使用面場景,面向最終使用者在線開放能力單元。

  場的在線——基于IoT技術(shù),結(jié)合空間管理類應(yīng)用,實(shí)現(xiàn)會議室及其相關(guān)配套場所的在線。

  過程在線——結(jié)合人、物、場鏡像構(gòu)建的虛擬孿生世界,重構(gòu)優(yōu)化會前、會中、會后全會議生命周期過程,提升效率并為更深層次的大數(shù)據(jù)衍生應(yīng)用打下基礎(chǔ)。

  走到這一步,很自然地就能發(fā)現(xiàn)下一步要做的事情就是會議內(nèi)容的在線。會議參與者是通過內(nèi)容作為媒介促成了會議目的的達(dá)成。因此在一場會議中,我們將會議內(nèi)容定義成靈魂一樣重要毫不為過。在第一步中,我們通過顯示、擴(kuò)聲設(shè)備確實(shí)實(shí)現(xiàn)了會議內(nèi)容的信息化。但記錄下來的內(nèi)容僅僅是諸如音視頻錄像為主的非結(jié)構(gòu)化內(nèi)容,難于查閱、分享、檢索,更無法形成知識點(diǎn)分段利用。這種大塊的非結(jié)構(gòu)數(shù)據(jù)就猶如一潭靜態(tài)的死水不具有流動性特征,因此不滿足在線使用對任意時(shí)間、任意地點(diǎn)、任意方式等特點(diǎn)的要求。

  雖然以前做不到內(nèi)容的真在線,但伴隨著AI技術(shù)在語音識別領(lǐng)域的長足發(fā)展,未來會議信息化也逐漸進(jìn)入了應(yīng)用的深水區(qū)。人類通過閱讀獲取信息的速度遠(yuǎn)遠(yuǎn)高于通過收聽方式接受信息。一場兩小時(shí)的會議錄像,如果采用會議紀(jì)要形式傳閱,僅僅需要很短的時(shí)間就能遍歷、快速發(fā)現(xiàn)重點(diǎn),并通過精讀方式獲取有效信息。于是主流廠商都將精力投向于會議紀(jì)要的轉(zhuǎn)寫應(yīng)用。

  目前語音識別AI算法建立的基礎(chǔ)是在近距離、安靜環(huán)境上的,同時(shí)發(fā)言人的語速、普通話標(biāo)準(zhǔn)程度等因素也對識別率影響較大。因此目前主推的會議紀(jì)要轉(zhuǎn)寫僅僅適合于單人話筒發(fā)言、發(fā)言內(nèi)容有精心準(zhǔn)備、發(fā)言者語言表達(dá)能力優(yōu)秀的場景,例如新聞發(fā)布會。而大多數(shù)會議環(huán)境中,由于環(huán)境噪音、多人交互重疊發(fā)言、發(fā)言內(nèi)容需要現(xiàn)場組織存在停頓、重讀、縮略等特點(diǎn),導(dǎo)致最終生成的會議轉(zhuǎn)寫紀(jì)要可讀性非常差。筆者曾試用過大多數(shù)一線廠商會議紀(jì)要轉(zhuǎn)寫產(chǎn)品,從主觀上看,這些紀(jì)要甚至不如直接聽錄音。更麻煩的是目前主流公司均宣稱語音識別率已經(jīng)高達(dá)97%,未來不太可能有太多進(jìn)一步提升的空間。而且就算還能提升,也無法解決因外部環(huán)境干擾對紀(jì)要可讀性的影響。會議紀(jì)要轉(zhuǎn)寫產(chǎn)品似乎走入了死胡同。

  3. 語音識別技術(shù)在會議中的運(yùn)用

  天生我材必有用!語音識別通過人工智能技術(shù)已經(jīng)將語音識別率提高到了97%,盡管受限于非理想場景,在絕大多數(shù)實(shí)際場景中會議紀(jì)要轉(zhuǎn)寫未必能夠達(dá)到良好的閱讀要求,但我們?nèi)圆豢煞裾J(rèn),在轉(zhuǎn)寫記錄中已經(jīng)初步提煉出大量可分析的信息。這就像原油,里面包含了有用的東西和無用的東西。后續(xù)我們要做的事情就應(yīng)該像石化企業(yè)一樣,將有用的部分給提取出來形成信息,并找到需要使用這種信息的場景。

  原油本身質(zhì)量的高低并不決定提煉出來的東西是否有價(jià)值,只是會影響到提煉的難度及成本。如果按照這樣的思路構(gòu)建應(yīng)用,我們就不會再糾結(jié)地等待語音轉(zhuǎn)文本的進(jìn)一步提升準(zhǔn)確率,而是現(xiàn)在就有的數(shù)據(jù),現(xiàn)在就應(yīng)該有應(yīng)用它的場景。

  這也符合當(dāng)下從精準(zhǔn)的小數(shù)據(jù)思維轉(zhuǎn)向模糊的大數(shù)據(jù)思維?;ヂ?lián)網(wǎng)時(shí)代,網(wǎng)絡(luò)上非結(jié)構(gòu)化數(shù)據(jù)占據(jù)了當(dāng)前數(shù)據(jù)海洋的80%,并在截止2020年前以每年44倍的數(shù)據(jù)快速增長。這些數(shù)據(jù)均是難于在一定時(shí)間內(nèi)用常規(guī)軟件工具進(jìn)行內(nèi)容抓取、管理和處理的,但具備數(shù)據(jù)再利用的沉默價(jià)值特征??纯垂雀?、百度等搜索引擎在做什么事情,本質(zhì)上他們也是在做非結(jié)構(gòu)化數(shù)據(jù)的提煉工作,同時(shí)他們并沒有刻意去要求源頭數(shù)據(jù)必須如何精準(zhǔn)。

  借鑒這樣的思維,我們可以把語音識別技術(shù)在會議中的應(yīng)用分為三個(gè)層次:

  數(shù)據(jù)轉(zhuǎn)換——音頻數(shù)據(jù)是難于衡量的,我們需要借助語音識別技術(shù)將其轉(zhuǎn)換為文本數(shù)據(jù)。這個(gè)數(shù)據(jù)雖然是不精準(zhǔn)的,但不可否認(rèn)中間蘊(yùn)含有豐富的可用信息,正如原油一樣。

  信息提取——有了不精準(zhǔn)的非結(jié)構(gòu)化文本數(shù)據(jù),我們就可以借助搜索引擎檢索其中的關(guān)鍵字、常用字、高頻字,形成可衡量的標(biāo)簽并與音軌對應(yīng)。通過這種映射,我們就能實(shí)現(xiàn)以前做不到的音頻檢索。一場會議的錄音往往是很冗長的,通過這種檢索我們就能幫助會后快速定位到感興趣的內(nèi)容。如果語音轉(zhuǎn)寫記錄效果不好,我們可以直接點(diǎn)擊音頻錄像播放,從而大大提升了會議回顧效率。未來我們還想借助聲紋識別技術(shù)定位每一個(gè)發(fā)言人,那么又可以在“誰的發(fā)言”這個(gè)維度形成標(biāo)簽,支持按發(fā)言人進(jìn)行檢索。

  信息利用——當(dāng)信息提取出來后,我們就可以依據(jù)不同人群不同場景的需求使之對應(yīng)到具體業(yè)務(wù)中,從而串接成更大的應(yīng)用邏輯,做到信息的再利用,這是一個(gè)逐步發(fā)掘完善的過程。以前沒有這么想是因?yàn)闆]有做到會議數(shù)據(jù)的結(jié)構(gòu)化,未來會有很多在這方面的探索。以下我們僅僅舉例說明其廣闊的價(jià)值:

  數(shù)字會議紀(jì)要——以前人工記錄會議紀(jì)要,由于涉及到記錄員專業(yè)水平、理解能力、概括能力等影響,很多時(shí)候紀(jì)要的準(zhǔn)確性很差。但又沒有其他較好的辦法會后獲取原意?,F(xiàn)在我們就能將每條紀(jì)要對應(yīng)到標(biāo)簽指向的音頻,從而提高會議紀(jì)要的準(zhǔn)確性及可用性。

  知識圖譜——當(dāng)語音標(biāo)簽通過會議紀(jì)要或其他方式在不同的人群中流動的時(shí)候,我們就可以通過點(diǎn)贊、推薦、朋友在看等當(dāng)下大家習(xí)慣的信息接受方式,讓有價(jià)值的內(nèi)容從一堆混雜信息中進(jìn)一步浮現(xiàn)出來。并且這種方式是無需雇用專人進(jìn)行整理的,且抽取出來的內(nèi)容更容易受大眾接受。選舉一個(gè)例子,未來企業(yè)中我們可以通過了解管理者關(guān)注會議中的哪一部分內(nèi)容,從而使管理者與員工在組織愿景和日常工作中迅速地聯(lián)系起來。

  事項(xiàng)跟蹤——一場會議中一般均會涉及多項(xiàng)事件議程,我們回顧一場會議的記錄實(shí)質(zhì)上是橫向地了解它所包含范圍內(nèi)所有事件的近況。但更多時(shí)候,我們更想知道一個(gè)事項(xiàng)從開始到現(xiàn)在整個(gè)縱向上面的信息,尤其是需要在會議中討論的重要信息。更難的是,往往同一個(gè)事項(xiàng)會依據(jù)分工在多個(gè)級別、不同參與者的會議中并行討論,這樣就很難有好的方式收集全局信息。以前沒有好的辦法解決這個(gè)問題,但在有價(jià)值的語音標(biāo)簽之后,我們就有了把不同會議按照我們目的縱向串接起來的可能。

  諸如此類的應(yīng)用還會有很多,以前沒有語音識別技術(shù)無法實(shí)現(xiàn)第一步,所有后面的事情大家都沒有這樣想,但相信有人工智能加持后,未來人類行為方式會得到加速進(jìn)化。

  工業(yè)社會經(jīng)濟(jì)的助推劑是能源,能源決定了我們大規(guī)模生產(chǎn)的成本及產(chǎn)能。最具經(jīng)濟(jì)代表性是石油,因此我們當(dāng)下也公認(rèn)為活在石油經(jīng)濟(jì)時(shí)代。未來科技社會經(jīng)濟(jì)的助推劑是數(shù)據(jù),數(shù)據(jù)決定了我們能夠造出什么具有競爭力的產(chǎn)品,我們把這個(gè)時(shí)代稱為知識經(jīng)濟(jì)時(shí)代。


參與評論
回復(fù):
0/300
文明上網(wǎng)理性發(fā)言,評論區(qū)僅供其表達(dá)個(gè)人看法,并不表明a&s觀點(diǎn)。
0
關(guān)于我們

a&s傳媒是全球知名展覽公司法蘭克福展覽集團(tuán)旗下的專業(yè)媒體平臺,自1994年品牌成立以來,一直專注于安全&自動化產(chǎn)業(yè)前沿產(chǎn)品、技術(shù)及市場趨勢的專業(yè)媒體傳播和品牌服務(wù)。從安全管理到產(chǎn)業(yè)數(shù)字化,a&s傳媒擁有首屈一指的國際行業(yè)展覽會資源以及豐富的媒體經(jīng)驗(yàn),提供媒體、活動、展會等整合營銷服務(wù)。

免責(zé)聲明:本站所使用的字體和圖片文字等素材部分來源于互聯(lián)網(wǎng)共享平臺。如使用任何字體和圖片文字有冒犯其版權(quán)所有方的,皆為無意。如您是字體廠商、圖片文字廠商等版權(quán)方,且不允許本站使用您的字體和圖片文字等素材,請聯(lián)系我們,本站核實(shí)后將立即刪除!任何版權(quán)方從未通知聯(lián)系本站管理者停止使用,并索要賠償或上訴法院的,均視為新型網(wǎng)絡(luò)碰瓷及敲詐勒索,將不予任何的法律和經(jīng)濟(jì)賠償!敬請諒解!
? 2024 - 2030 Messe Frankfurt (Shenzhen) Co., Ltd, All rights reserved.
法蘭克福展覽(深圳)有限公司版權(quán)所有 粵ICP備12072668號 粵公網(wǎng)安備 44030402000264號
用戶
反饋