隨著監(jiān)控系統(tǒng)的普及化及龐大化,傳統(tǒng)人為監(jiān)控的局限性越來越突出。現(xiàn)在的智能視頻監(jiān)控技術(shù),已從前幾年的演示階段逐漸進入規(guī)?;褂秒A段。在這個階段,如何應(yīng)用現(xiàn)有的智能視頻監(jiān)控技術(shù)切實地解決客戶的問題,為客戶創(chuàng)造價值,是智能視頻監(jiān)控產(chǎn)品供應(yīng)商所需要考慮并解決的重大問題。
隨著監(jiān)控系統(tǒng)的普及化及龐大化,傳統(tǒng)人為監(jiān)控的局限性越來越突出。人作為監(jiān)控者有其先天不足,人腦只能關(guān)注一件事物,所謂一心不能二用,當監(jiān)控者同時觀測多個監(jiān)視器時,監(jiān)控精度會隨著監(jiān)控視頻數(shù)量的上升而下降。再者,人對于單調(diào)的事物無法長時間的集中注意力,根據(jù)研究人在關(guān)注監(jiān)控圖像20分鐘后,其注意力會下降到無法接受的程度。最后人需要飲食休息等生理活動,這也會影響監(jiān)控系統(tǒng)的可靠性。這就是為什么傳統(tǒng)人為監(jiān)控系統(tǒng)往往存在漏報率高、響應(yīng)速度慢及可靠性差等問題。另外,監(jiān)控系統(tǒng)越來越龐大,如果全部采用人為監(jiān)控,其人力成本也會非常昂貴。
智能視頻監(jiān)控技術(shù)(intelligentvideosurveillance)起源于計算機視覺技術(shù)(computervision),它對視頻進行分析,從視頻中提取信息,發(fā)現(xiàn)感興趣事件,從而可以在某些場合替代人為監(jiān)控或者協(xié)助人為監(jiān)控。在911事件以后,國際上出于反恐斗爭的嚴峻形勢,對于智能視頻監(jiān)控技術(shù)的需求越來越迫切,CPU處理能力的快速提升,也使得許多復雜視頻算法的實現(xiàn)成為可能,這些因素不斷地推動著智能視頻監(jiān)控技術(shù)及其市場的發(fā)展。
智能視頻監(jiān)控技術(shù)的優(yōu)勢就在于它可以一天24小時不間斷地對視頻進行監(jiān)控,一旦有事件發(fā)生可以及時報警,相對于人為監(jiān)控來說,智能化監(jiān)控可靠性更高,成本更加低廉。智能視頻監(jiān)控技術(shù)的市場需求正在不斷上升,其產(chǎn)品形態(tài)也在不斷豐富。
智能視頻監(jiān)控技術(shù)產(chǎn)品化及市場化的過程中,出現(xiàn)了許多智能視頻監(jiān)控產(chǎn)品,應(yīng)用這些產(chǎn)品成功實現(xiàn)了許多的應(yīng)用案例,但是也有一些客戶表示智能視頻監(jiān)控產(chǎn)品沒有很好地滿足他們的需要,或者存在誤報率或漏報率過高的問題。
現(xiàn)在的智能視頻監(jiān)控技術(shù),已經(jīng)從前幾年的演示階段逐漸進入規(guī)?;褂秒A段。在這個階段,如何應(yīng)用現(xiàn)有的智能視頻監(jiān)控技術(shù)切實地解決客戶的問題,為客戶創(chuàng)造價值,是智能視頻監(jiān)控產(chǎn)品供應(yīng)商所需要考慮并解決的重大問題。
但要解決這一問題,必須立足于對智能視頻監(jiān)控技術(shù)核心的深入理解。只有具備了這樣的基礎(chǔ),才能了解現(xiàn)階段的智能視頻監(jiān)控技術(shù)能夠做什么,不能夠做什么,影響其性能的因素有哪些,要實現(xiàn)一些特定功能需要做什么。
技術(shù)背景
智能視頻監(jiān)控技術(shù)主要是指對固定的監(jiān)控攝像機拍攝的視頻進行分析,獲得視頻中的運動目標信息,提取語義級別的事件信息,從而做出反應(yīng)的一種技術(shù)(也有針對移動攝像機視頻進行分析的技術(shù),但不是智能視頻監(jiān)控產(chǎn)品的主流)。[nextpage]
智能視頻監(jiān)控技術(shù)的主要框架分為前景檢測、目標檢測、目標跟蹤、目標分類、軌跡分析、事件檢測等幾個部分。
首先利用前景檢測技術(shù)將視頻圖像中的前景團塊(blob)從圖像背景中分離出來,前景團塊是指視頻圖像中變化劇烈的圖像區(qū)域。前景檢測技術(shù)有多種實現(xiàn)方法,包括幀差法、多高斯背景建模及非參數(shù)背景建模等等方法,各種方法的復雜程度不同,對于各種場景的適應(yīng)能力也有很大差異。
目標檢測技術(shù)分析前景團塊在視頻序列中的狀態(tài),將具有穩(wěn)定存在狀態(tài)及運動規(guī)律的前景團塊作為運動目標提取出來。
目標跟蹤技術(shù)利用運動目標的歷史信息預測運動目標在本幀可能出現(xiàn)的位置,并在預測位置附近搜索該運動目標。目標跟蹤技術(shù)也有多種實現(xiàn)方法,包括連接區(qū)域跟蹤、模板匹配、粒子濾波等等,這些方法在不同場景下的表現(xiàn)也有較大的差異性。
目標分類技術(shù)對跟蹤成功的目標進行分類,一般將目標分為人和車輛兩類,也有一些特殊應(yīng)用會對目標進行其它類型的分辨。目標分類技術(shù)利用一些圖像特征值實現(xiàn)目標類型的甄別,許多種特征可供采用,例如目標輪廓、目標尺寸、目標紋理等等。一系列訓練樣本(各種視頻圖像)會被用于訓練分類算法,分類算法根據(jù)特征對監(jiān)控視頻中的目標進行類型甄別。分類算法也有多種實現(xiàn)方法,包括支撐向量機、Adaboost,神經(jīng)網(wǎng)絡(luò)等等。分類特征的選取,分類方法的實現(xiàn)及訓練樣本等,都會使分類技術(shù)產(chǎn)生較大的差異性。
軌跡分析技術(shù)對跟蹤成功的目標的運動軌跡進行分析,對運動軌跡進行平滑及誤差修正,使目標的運動軌跡更加接近于真實狀態(tài)。
事件檢測技術(shù)則將目標信息與用戶設(shè)定的報警規(guī)則進行邏輯判斷,判斷是否有目標觸發(fā)了報警規(guī)則,并做出報警響應(yīng)。
智能視頻監(jiān)控技術(shù)常用的算法框架,有時為了提高智能視頻監(jiān)控技術(shù)在某些場景下的性能,一些附加模塊也會被加入算法框架。例如抗抖動模塊可以提升該技術(shù)在攝像機抖動情況下的處理效果;陰影抑制模塊可以提升該技術(shù)在陰影嚴重的室外場景下的處理效果;車燈抑制模塊可以提升該技術(shù)在光照劇烈變化場景下的處理效果;碰撞處理模塊可以提升該技術(shù)在目標圖像頻繁互相遮擋場景下的跟蹤精度。
在智能視頻監(jiān)控技術(shù)的常用框架下大多數(shù)模塊有多種實現(xiàn)方案,僅前景檢測一項就有多達七、八種選擇(或者更多),這些實現(xiàn)方案之間的復雜度差異很大,它們的穩(wěn)定性及性能差異也非常明顯。如果在上述框架下采用簡單易用的方案來實現(xiàn)各個模塊,搭建一套智能視頻監(jiān)控技術(shù)并不是非常困難,但是其性能及其對各種場景的適應(yīng)能力就很難得到保證。這就是為什么各種智能視頻監(jiān)控產(chǎn)品提供的功能大同小異,而存在很大性能差異的原因。舉例來說,簡單的幀差法就可以實現(xiàn)前景檢測,在穩(wěn)定簡單的場景下該方法也可以得到較好的前景檢測結(jié)果,但是在視頻發(fā)生擾動或者光照變化時,大量的靜態(tài)圖像區(qū)域就會被當作前景誤檢出來。
一套性能優(yōu)越的智能視頻監(jiān)控技術(shù)在算法設(shè)計過程就需要考慮監(jiān)控場景中可能出現(xiàn)的各種復雜情況,內(nèi)部的各個算法模塊必須要具有對復雜場景的適應(yīng)性,并且加入各種附加模塊提升智能視頻監(jiān)控技術(shù)對特殊場景的處理效果。[nextpage]
性能分析
一套性能優(yōu)越的智能視頻監(jiān)控技術(shù)是否可以不受場景的影響,在各種場景下都達到最佳處理效果呢?答案是否定的。
這首先是由計算機視覺技術(shù)的發(fā)展水平?jīng)Q定的,因為計算機視覺技術(shù)還處于發(fā)展階段,與人腦相比,計算機的智能程度還遜色很多。它用一些數(shù)學模型來描述真實世界,并試圖用這些數(shù)學模型來分析視頻數(shù)據(jù)并從中獲取視頻信息內(nèi)容,但是最復雜的數(shù)學模型現(xiàn)階段也無法囊括真實世界中的所有特性(就算有這樣的模型,普通CPU也支撐不了這樣龐大的計算)。不同的監(jiān)控場景與智能視頻監(jiān)控技術(shù)內(nèi)部數(shù)學模型之間的吻合程度會有所不同,因此智能視頻監(jiān)控技術(shù)的精度或多或少會受監(jiān)控場景的影響。
其次,監(jiān)控場景的復雜程度也會對處理結(jié)果產(chǎn)生重要影響,因為復雜的場景往往意味著有效信息提取的困難。在傳統(tǒng)人為監(jiān)控系統(tǒng)中,監(jiān)控者對于低照度、高擾動、高擁擠程度視頻的監(jiān)測精度一般會較低。同樣,智能視頻監(jiān)控技術(shù)的精度也會受監(jiān)控場景復雜程度的影響。
怎樣才能利用智能視頻監(jiān)控技術(shù)獲得令人滿意的智能監(jiān)控效果呢?首先要基于對智能視頻監(jiān)控技術(shù)內(nèi)部算法的理解,調(diào)整監(jiān)控環(huán)境或者調(diào)試算法使監(jiān)控環(huán)境與智能視頻監(jiān)控技術(shù)內(nèi)部的算法模型達到最大的一致性。舉例來說,如果智能視頻監(jiān)控技術(shù)的目標分類模塊將目標尺寸作為重要的分類特征,在大景深的場景中,目標尺寸變化幅度很大,該目標分類模塊的精度就會大大降低。有多種方法可以解決這一問題,降低場景的景深,加入場景標定算法,降低尺寸特征在分類算法中的權(quán)重。
要在條件允許的情況下盡量降低監(jiān)控場景的復雜度,凸出有效信息。攝像機的選用及安裝非常重要,要選用性能較好的攝像機,提升圖像的信噪比,如果對夜晚場景進行監(jiān)控,則最好選用紅外攝像機。安裝攝像機時,要合理選擇安裝位置及攝像機角度,盡量使視頻圖像擾動較少且目標重疊較少。舉例來說,要在較擁擠的場景中統(tǒng)計人流量,俯視角度是一個理想攝像機安裝角度,因為在該角度下,目標的重疊程度較?。ㄈ绻悄芤曨l監(jiān)控技術(shù)中使用了人臉檢測算法來進行人流量統(tǒng)計,情況會有所不同)。除了攝像機的選用及安裝外,合理設(shè)置警戒規(guī)則也會提升智能視頻監(jiān)控技術(shù)的處理效果。舉例來說,在下圖場景中統(tǒng)計車流量,左圖的警戒規(guī)則就不太理想,因為在警戒規(guī)則的設(shè)置區(qū)域有樹木等物體遮擋目標,智能視頻監(jiān)控技術(shù)在該區(qū)域容易產(chǎn)生目標的誤檢及誤跟蹤;右圖的報警規(guī)則就避開了遮擋區(qū)域,其處理效果就比較理想
結(jié)語
智能視頻監(jiān)控產(chǎn)品能否有效地工作并滿足客戶的需要,主要取決于兩個方面:首先該產(chǎn)品所使用的智能視頻分析核心技術(shù)要足夠精確和穩(wěn)定,能夠適應(yīng)監(jiān)控現(xiàn)場復雜的情況;其次,需要基于對核心技術(shù)的理解,針對場景做應(yīng)用級別調(diào)試及開發(fā),合理架設(shè)系統(tǒng)并設(shè)置警戒規(guī)則,以發(fā)揮智能視頻監(jiān)控技術(shù)的最佳性能。