隨著信息技術的不斷發(fā)展,人們將計算機技術引入視頻采集、制作領域,傳統(tǒng)的視頻領域正面臨著模擬化向數(shù)字化的變革,過去需要用大量的人力和昂貴的設備去處理視頻圖像,如今已經(jīng)發(fā)展到在家用計算機上就能夠處理。用計算機處理視頻信息和用數(shù)字傳輸視頻信號在很多領域有著廣泛的應用前景。
1視頻模型
中國和歐洲采用的電視制式是PAL制(逐行倒相制),美國和日本采用的NTSC制,一個PAL信號有25fb/s的幀率,一個NTSC制信號有30fb/s的幀率。
視頻信號在質(zhì)量上可區(qū)分為復合視頻(Composite),S-Vide,YUV和數(shù)字(Digital)4個級別。復合視頻,SHS,VHS-C和Video8都是把亮度、色差和同步信號復合到一個信號中,當把復合信號分離時,濾波器會降低圖像的清晰度,亮度濾波時的帶寬是有限的,否則就會無法分離亮度和色差,這樣亮度的分離受到限制,對色差來講也是如此。因此復合信號的質(zhì)量比較一般,但他的硬件成本較低,目前普遍用于家用錄像機。S-Vide,S-VHS,S-VHS-C和Hi8都是利用2個信號表現(xiàn)視頻信號,即利用Y表現(xiàn)亮度同步,C信號是編碼后的色差信號,現(xiàn)在很多家用電器(電視機,VCD,SHVCD,DVD)上的S端子,是在信號的傳輸中,采用了Y/C獨立傳輸?shù)募夹g,避免濾波帶來的信號損失,因此圖像質(zhì)量較好。YUV視頻信號是3個信號Y,U,V組成的,Y是亮度和同步信號,U,V是色差信號,由于無需濾波、編碼和解碼,因而圖像質(zhì)量極好,主要應用于專業(yè)視頻領域。數(shù)字及同步信號利用4個信號:紅、綠、藍及同步信號加于電視機的顯像管,因此圖像質(zhì)量很高。還有一種信號叫射頻信號,他取自復合視頻信號,經(jīng)過調(diào)制到VHF或UHF(UltraHighFrequency),這種信號可長距離發(fā)送。現(xiàn)在電視臺就采用這種方式,通過使用不同的發(fā)射頻率同時發(fā)送多套電視節(jié)目。
模擬視頻信號攜帶了由電磁信號變化而建立的圖像信息,可用電壓值的不同來表示,比如黑白信號,0V表示黑,0.7V表示白,其他灰度介于兩者之間;數(shù)字視頻信號是通過把視頻幀的每個象素表現(xiàn)為不連續(xù)的顏色值來傳送圖像資料,并且由計算機使用二進制數(shù)據(jù)格式來傳送和儲存象素值,也就是對模擬信號進行A/D轉(zhuǎn)換后得到的數(shù)字化視頻信號。數(shù)字視頻信號的優(yōu)點很多:
(1)數(shù)字視頻信號沒有噪聲,用0和1表示,不會產(chǎn)生混淆,而模擬信號要求屏蔽以減少噪聲。
(2)數(shù)字視頻信號可利用大規(guī)模集成電路或微處理器進行各類運算處理,而模擬信號只能簡單地對亮度、對比度和顏色等進行調(diào)整。
(3)數(shù)字視頻信號可以長距離傳輸而不產(chǎn)生損失,可以通過網(wǎng)絡線、光纖等介質(zhì)傳輸,很方便地實現(xiàn)資源共享,而模擬信號在傳輸過程中會產(chǎn)生信號損失。
2數(shù)字化視頻采集
NTSC和PAL視頻信號是模擬信號,但計算機是以數(shù)字方式顯示信息的,因此NTSC和PAL信號在能被計算機使用之前,必須被數(shù)字化(或采樣)。一個視被用來數(shù)字化視頻模擬信號,并將之轉(zhuǎn)換為計算機圖形信號。視頻信號的數(shù)字記錄需要大量的磁盤空間,例如,一幅640×480中分辨率的彩色圖像(24b/pixel),其數(shù)據(jù)量約為0.92Mb/s,如果存放在650MB的光盤中,在不考慮音頻信號的情況下,每張光盤也只能播放24s,使用如此巨大的磁盤空間存儲數(shù)字視頻,是大多數(shù)計算機用戶所無法接受的。在這種情況下,將視頻帶到計算機上,以有效的幀率播放存儲信息,是使用計算機處理視頻能力的最大障礙,鑒于此種情況,我們采用數(shù)據(jù)壓縮系統(tǒng)和幀尺寸、色彩深度和圖像精度折衷的辦法,對視頻數(shù)據(jù)進行壓縮,以節(jié)省磁盤存儲空間,數(shù)字化視頻采集技術也就變成了現(xiàn)實。
數(shù)字化視頻的過程,通常被叫做數(shù)字化視頻采集。模擬信號到數(shù)字信號的轉(zhuǎn)換中通常用8b來表示,對于專業(yè)或廣播級的信號轉(zhuǎn)換等級會更高。對于彩色信號,無論是RGB還是YUV方式,只需用24b來表示。因此采樣頻率的高低是決定數(shù)字化視頻圖像質(zhì)量的重要指標,如表1所示。 [nextpage]
由于顯示時采用了4∶3方式,所以PAL制方陣的圖像大小是768×576,因為768∶576=4∶3,YUV信號在數(shù)字化過程中可以采用不同的采樣頻率,如4∶4∶4,4∶2∶2或4∶1∶0,由于色差信號用較低的采樣頻率不會影響到整體的圖像效果,通常是降低U,V的采樣頻率以減少數(shù)據(jù)量。4∶1∶0方式指U,V的采樣頻率是Y的1/4,而且是隔行采樣,也就是第1行采U,第2行采V,第3行采U等,這樣可以大大減少數(shù)據(jù)量,這對JPEG和MPEG編碼是很重要的。
視頻采集中計算機的處理設備通常有3種類型,即幀采集卡、動態(tài)圖像連續(xù)采集卡、電視節(jié)目接受卡。幀采集卡的工作原理是把偶合視頻信號解碼成RGB或YUV,RGB或YUV信號經(jīng)過A/D轉(zhuǎn)換后進入幀存體,幀存體內(nèi)的數(shù)據(jù)根據(jù)同步信號不斷被刷新。幀存體內(nèi)的數(shù)據(jù)需要保存時,計算機給出控制信號,幀存體數(shù)據(jù)不再被刷新,這時計算機可以讀出幀存體數(shù)據(jù)傳送到計算機內(nèi)存或存放到硬盤中。由于視頻信號是隔行掃描,在數(shù)字化過程中每幀圖像分成兩場,每場的分辨率是228行,因此高速運動的圖像采集后有抖動的感覺,要解決這一問題可以只采集一場或縮短快門時間。采集連續(xù)圖像到計算機中是比較困難的,因為單一幀靜止圖像的數(shù)據(jù)量已經(jīng)很大,而動態(tài)圖像是25~30幀/s,模擬的視頻圖像數(shù)字化后所得到的量數(shù)據(jù)巨大,使傳輸、存儲和處理很困難。解決這一問題的辦法一般有3種:
(1)利用局部數(shù)據(jù)總線,提高數(shù)據(jù)傳輸速度;
(2)大大降低分辨率;
(3)采用壓縮編碼。
對視頻圖像進行壓縮編碼,是目前最流行的方法,過去需要昂貴的設備才能處理的視頻圖像,如今已經(jīng)發(fā)展到家用計算機就能處理。在實際工作中,對數(shù)字視頻信號的質(zhì)量要求也不盡相同。在軍事和醫(yī)學領域,對圖像信號的采集要求高分辨率且不允許壓縮;在廣播級的視頻制作上,要求高質(zhì)量但允許壓縮,例如,MPEG1,MPEG2;在普通的家用錄像帶或VCD,DVD光盤制作上,由于存儲空間的限制,分辨率要求高但允許壓縮。
3幾種壓縮算法
目前,流行的壓縮算法主要有以下幾種:
(1)JPEG(JointPhotographicExpertsGroup)
他是用于靜態(tài)圖像壓縮的標準,主要方法是把一幅圖像分成8×8的方陣并進行離散余弦變換(DCT),把圖像變換成頻率,提高壓縮比的方法就是去掉高頻部分。原則上講JPEG標準是靜態(tài)壓縮標準,并不適合連續(xù)圖像采集。JPEG定義了2種基本壓縮算法:一種是基于差分脈沖碼調(diào)制(DPCM)的無失真壓縮算法;另一種是基于離散余弦(DCT)的有失真壓縮算法。JPEG的壓縮算法流程圖如圖1所示。
從RGB到Y(jié)UV的彩色空間的變換,對減少數(shù)據(jù)冗余很有益,但最重要的是DCT離散余弦變換,基于DCT的JPEG壓縮算法可分成以下幾步進行:
①通過DCT映射變換減少數(shù)據(jù)的冗余量。
②利用人的視覺加權函數(shù),對DCT的變換系數(shù)進行量化。
③差分編碼和行程編碼,把原始圖像數(shù)據(jù)分成一系列的8×8子塊進行DCT變換,對于每個8×8子塊的64個系數(shù)中的直流系數(shù)DC采用DPCM編碼或差分編碼,其余63個交流系數(shù)采用零行程長度編碼,即“zig-zag”之字形掃描。
④熵編碼,是JPEG壓縮編碼的最后一步,他是基于量化系數(shù)統(tǒng)計特性所進行的無失真編碼,通常采用游程長度編碼或Huffman(哈夫曼)編碼。
(2)M-JPEG(MotionJPEG)
他是利用JPEG算法把一系列圖像存于硬盤,目前用于視頻制作的非線性編輯系統(tǒng),廣泛采用的算法就是M-JPEG,這種壓縮方法對活動的視頻圖像通過實時幀內(nèi)編碼過程單獨地壓縮每一幀,在編輯過程中可以隨機存取壓縮視頻的任意幀,而與其他幀不相關,這對精確到幀的后期編輯是非常理想的,該系統(tǒng)的M-JPEG采集編輯卡對圖像的采集分辨率均可達到768×576,25幀/s(PAL制)或640×480,30幀/s(NTSC制)。M-JPEG的優(yōu)點很多,由于算法不太復雜,只是在頻域里對人眼不敏感的高頻分量進行取舍,而在時域里能量仍能均勻分布,可以用很小的壓縮比(如2∶1)全幀采集,從而實現(xiàn)廣播級指標所要求的無損壓縮。[nextpage]
(3)MPEG(MotionPictureExpertsGroup)
有MPEG1和MPEG2兩種壓縮編碼方式,MPEG1采用動態(tài)圖像編碼的的方法,目前在計算機和電視視頻制作領域獲得廣泛的應用,他的視頻壓縮算法的核心是處理幀間冗余,即在幀之間保持不變的圖像信息來更好地壓縮數(shù)據(jù)。而M-JPEG只壓縮單獨的幀,幀與幀之間并不壓縮,這就決定了他所形成的數(shù)據(jù)流是高質(zhì)量且龐大,必須由專門的硬件來實現(xiàn),在實際應用上受到了很大限制。MPEG1依賴于2個基本技術:一是基于16×16塊的運動補償;二是幀內(nèi)圖像的JPEG壓縮。所謂運動補償就是為了尋找冗余,軟件通常把這2個幀分成象素塊,在兩幀之間尋找相似的象素塊,并且只存儲在兩幀之間變化的圖像。如果幀與幀之間有快速豐富的圖像變化,圖像質(zhì)量就會迅速降低,為了避免這種失真,動態(tài)壓縮算法允許說明參考幀(也稱內(nèi)部幀、當前幀)。MPEG1的幀間編碼采用3種方式:
①Intra,簡稱I幀,也就是當前幀,大約半秒取1幀,作為其他幀的參考。
②Predicted,簡稱P幀,也稱預測幀,根據(jù)當前幀的變化預測下一幀,對其預測誤差做有條件的傳送,以達到提高壓縮比的目的。
③Bi-directional,簡稱B幀,也稱插補幀、雙向預測幀,他根據(jù)前面和后面的幀雙向預測產(chǎn)生增加B幀的數(shù)目會減少I幀和P幀之間的相關性。
這樣對提高壓縮比有益而對圖像質(zhì)量有損,所以I幀、B幀、P幀之間的時間間隔應根據(jù)被壓縮視頻畫面的復雜程度和重建圖像的質(zhì)量來綜合考慮決定。
MPEG1壓縮算法能將視頻信號壓縮到0.5~1b/pixel,壓縮數(shù)據(jù)率為1.2M/s,還原圖像的質(zhì)量與VHS相當,目前市場上流行的VCD光盤,也就是MPEG1的一個代表產(chǎn)品,但由于其圖像質(zhì)量較差,在不久的將來會被DVD產(chǎn)品所淘汰。
MPEG2是一種圖像能恢復到廣播質(zhì)量的編碼方法,也采用幀間壓縮的算法,但在視頻信號質(zhì)量上優(yōu)于MPEG1,目前發(fā)展非常迅速,典型產(chǎn)品是高清晰視頻光盤DVD、高清晰數(shù)字電視HDTV等。
(4)WTP小波變換壓縮法
小波變換起源于1989年,是在研究函數(shù)分析中為克服三角函數(shù)的時域分析能力不足而提出的。他采用局部函數(shù)在頻域和時域同時分析法,將圖像信號分析成不同的頻率區(qū)域,然后根據(jù)圖像統(tǒng)計特性和人眼生理特性,在不同的頻域采取不同的壓縮算法,使視頻數(shù)據(jù)量減小。小波變換不受帶寬限制,只要選取的小波函數(shù)和相關濾波器合適,就能使視頻能量集中在低頻分量上。即使在編碼過程中取較大的壓縮比,還原圖像的質(zhì)量仍然較好。加拿大和美國的知名視頻廠商生產(chǎn)的非線性編輯系統(tǒng)就采用小波變換算法,他的優(yōu)點是圖像采集質(zhì)量高,缺點是格式專用,與M-JPEG相比,交換性、通用性差。
(5)DV格式算法
DV格式是數(shù)字視頻磁帶經(jīng)常采用的一種壓縮格式,他的壓縮算法主要基于DCT離散余弦變換進行的幀內(nèi)壓縮,因此是一種可編輯的格式,如今已經(jīng)演變出DVCAM和DVCPRO兩種互不兼容的專業(yè)級數(shù)字視頻格式,主要應用于6.35mm數(shù)字磁帶攝錄系統(tǒng),他還支持IEEE1394接口和傳輸標準,可與當今流行的非線性編輯系統(tǒng)建立純數(shù)字連接,因而具有良好的發(fā)展空間和應用前景。
4結(jié)語
視頻信號被采集到計算機后,就可進入編輯制作階段,由于硬盤錄像機、數(shù)字攝像機、非線性編輯系統(tǒng)等數(shù)字產(chǎn)品的快速發(fā)展,將視頻制作帶入全面數(shù)字化時代,視頻的網(wǎng)絡化傳輸和直接播出技術已成為現(xiàn)實。