文/周明耀 海康威視圖像處理與分析部
大數(shù)據技術正在逐漸成為人們茶余飯后的必談話題,它為各行各業(yè)提供了日新月異的變化思路。國內外產業(yè)界、學術界和政府機構正在以最快速度,大力推動大數(shù)據技術的反戰(zhàn),比較有代表性的是制造業(yè)、服務業(yè)、金融業(yè)、互聯(lián)網、交通、醫(yī)療等諸多領域使用大數(shù)據技術的研究和發(fā)展,??低暈榇淼陌卜榔髽I(yè)也在智慧城市、平安城市、民用領域等快速布局大數(shù)據理念、技術、產品。通過3年時間的積累,大數(shù)據時代真正來臨了。
一、大數(shù)據介紹
大數(shù)據(Big Data)目前已經成為IT領域最為流行的詞匯,其實它并不是一個全新的概念。早在1980年,著名未來學家阿爾文.托夫勒在《第三次浪潮》一書中,明確提出“數(shù)據就是財富”這一觀點,并將大數(shù)據熱情地贊頌為“第三次浪潮的華彩樂章”。
2001年,知名咨詢公司Gartner的資深分析師Douglas Laney發(fā)表了一篇名為“3D Data Management:Controlling Data Volume, Velocity, and Variety”的文章,指出大數(shù)據管理面臨三個V的挑戰(zhàn):數(shù)據量、數(shù)據多樣性、高速。“3V”后來成為大數(shù)據公認的三個基本特征。
2011年5月,麥肯錫全球研究院發(fā)表白皮書,指出企業(yè)正在面臨海量的交易數(shù)據、顧客信息、供貨商信息和運營數(shù)據等,需要對這些數(shù)據進行管理與挖掘。在物聯(lián)網環(huán)境下,傳感器、智能手機、工業(yè)設備等都在產生海量數(shù)據?;ヂ?lián)網中的多媒體數(shù)據量也在以指數(shù)級上升,如何處理這些數(shù)據,為用戶提供有用的信息,成為需要考慮的重要問題。
2012年2月11日,紐約時報發(fā)表《The Age of Big Data》,向大眾宣傳大數(shù)據時代的到來。
2012年3月22日,奧巴馬宣布2億美元投資大數(shù)據領域,在次日的電話會議上,美國政府將數(shù)據定義為“未來的新石油”,美國政府認識到一個國家擁有數(shù)據的規(guī)模、活性及解釋運用的能力將成為綜合國力的重要組成部分,未來對數(shù)據的占有和控制甚至將成為繼陸權、海權、空權之外的另一種國家核心資產。
2012年7月10日,聯(lián)合國在紐約總部發(fā)布了一份大數(shù)據政務白皮書,總結了各國政府如何利用大數(shù)據更好地服務和保護人民。
二、大數(shù)據研究內容及現(xiàn)狀
2012年冬季,來自谷歌、IBM、微軟、MIT、斯坦福、伯克利、UIUC等產業(yè)界和學術界的數(shù)據庫領域專家通過在線的方式共同發(fā)布了一個關于大數(shù)據的白皮書,該白皮書指出大數(shù)據面臨著5個主要問題,分別是異構型、規(guī)模、時間性、復雜性和隱私性。白皮書指出現(xiàn)有的工作對數(shù)據的隱私性和易用性方面考慮不周。另外,大數(shù)據的分析包含多個步驟,目前的研究大多關注數(shù)據建模和分析,而對其他階段考慮不夠。即使是在數(shù)據分析階段,目前的研究仍然沒有很好地理解數(shù)據建模與分析在多租戶集群環(huán)境下的復雜性,在該環(huán)境中,多個用戶程序會并發(fā)執(zhí)行。為了應對上述挑戰(zhàn),白皮書建議采用現(xiàn)有成熟技術解決大數(shù)據帶來的挑戰(zhàn)。
大數(shù)據處理過程大致分為數(shù)據獲取/記錄、信息抽取/清洗/注記、數(shù)據集成/聚集/表現(xiàn)、數(shù)據分析/建模和數(shù)據解釋5個主要階段,貫穿所有節(jié)點,系統(tǒng)需要考慮數(shù)據的異構型、規(guī)模、時間性、隱私性和人機協(xié)作等方面的因素。在每一個階段,都面臨著各自的研究問題與挑戰(zhàn)。
1. 數(shù)據獲取和記錄階段的主要問題是如何利用在線處理技術對原始數(shù)據進行智能化處理,自動生成正確的元數(shù)據,過濾不需要的數(shù)據,而不需要存儲后再進行過濾。該階段可能的研究方向包括數(shù)據壓縮技術、在線數(shù)據分析技術、實時數(shù)據流分析技術、元數(shù)據自動獲取技術和相關系統(tǒng);
2. 信息抽取和清洗階段的主要問題是數(shù)據多樣性、數(shù)據真?zhèn)涡浴3槿〉膶ο罂赡馨瑘D像、視頻等具有復雜結構的數(shù)據,而且該過程通常是與應用高度相關的。除此以外,由于監(jiān)控攝像頭、裝載有GPS的智能手機、相機和其他便攜設備無處不在,豐富的、高保真度的位置和軌跡數(shù)據也可以被收集于處理。數(shù)據清洗的現(xiàn)有工作通常假設數(shù)據是真實有效的,這些假設在大數(shù)據領域不再正確;
3. 數(shù)據集成、聚集和表現(xiàn)階段由于大量異構數(shù)據的存在,大數(shù)據處理不能只對數(shù)據進行記錄,然后就將其存入存儲中。對大規(guī)模數(shù)據進行有效分析需要以自動化的方式對數(shù)據進行定位、識別、理解和引用。為了實現(xiàn)該目標,需要研究數(shù)據結構和語義的統(tǒng)一描述方式與智能理解技術,實現(xiàn)機器自動處理,從這一角度看,對數(shù)據結構與數(shù)據的設計也顯得尤為重要;
4. 查詢處理、數(shù)據建模和分析階段頻繁模式和相關分析得到的一般筒機數(shù)據通常強于具有波動性的個體數(shù)據,此外互聯(lián)的大數(shù)據可形成大型異構的信息網絡,可以發(fā)現(xiàn)隱藏的關系和模式。大數(shù)據使下一代的交互式數(shù)據分析實現(xiàn)實時解答,需要在TB級別上的可伸縮復雜交互查詢技術的進一步研究與落地。現(xiàn)有的數(shù)據處理方式是前述的交互式復雜處理過程的一個障礙,需要研究并實現(xiàn)將聲明性查詢語言與數(shù)據挖掘、數(shù)據統(tǒng)計包有機整合在一起的數(shù)據分析系統(tǒng);
5. 數(shù)據解釋階段應該支持用戶不斷提供附加資料,解釋這種結果是如何產生的。這種附加資料稱之為數(shù)據的出處。通過研究如何最好地捕獲、存儲和查詢數(shù)據出處,同時配合相關技術捕獲足夠的元數(shù)據,就可以創(chuàng)建一個基礎設施,為用戶提供解釋分析結果,重復分析不同假設、參數(shù)和數(shù)據集的能力。
目前國內外的學術界主要研究方式是與政府、大公司共同成立針對大數(shù)據研究實驗室,主要針對大數(shù)據在計算平臺、可伸縮的算法、機器學習和理解、隱私和安全等多個方面的科學問題與解決方案。學術界與專業(yè)機構的結合有利于業(yè)界大數(shù)據產品的落地,例如通過定期組織生物學、醫(yī)學、計算機等方面專家就大數(shù)據問題研討,可以跨科學地研究和探討大數(shù)據問題,為生物醫(yī)學專業(yè)的相關研究工作提供大數(shù)據支持。
谷歌作為全球技術領先企業(yè),一直在致力于大數(shù)據技術的推動工作,通過不斷開源已有系統(tǒng)、發(fā)布未來技術相關論文的方式,在機器學習、數(shù)據挖掘、數(shù)據分析等領域做出了杰出的貢獻。
三、大數(shù)據的應用領域
全球著名咨詢公司麥肯錫對醫(yī)療保健、零售、公共領域、制造、個人位置數(shù)據等5個領域進行了重點分析,提出了可以利用“大數(shù)據”的5種方法。
1. 以時效性更高的方式向用戶提供“大數(shù)據”。在公共領域,跨部門提供“大數(shù)據”能大幅減少檢索與處理時間。在制造業(yè),集成來自研發(fā)、工程、制造單元的數(shù)據可以實現(xiàn)并行工程,縮短產品投放市場的時間。
2. 通過展開數(shù)據分析和實驗尋找變化因素并改善產品性能。由于越來越多的交易數(shù)據都以數(shù)字形式存在,各機構可以收集有關產品或用戶的更加精確和詳盡的數(shù)據。
3. 區(qū)分用戶群,提供個性化服務。“大數(shù)據”能幫助機構對用戶群進行更加細化的區(qū)分,并針對用戶的不同需求提供更加個性化的服務。這是營銷和危機管理方面常用的方法,但也可以為公共領域等帶來變革。
4. 利用自動化算法支持或替代人工決策。復雜分析能極大改善決策效果,降低風險,并挖掘出其他方法無法實現(xiàn)的寶貴信息。此類復雜分析可用于稅務機構、零售商等。
5. 商業(yè)模式、產品與服務創(chuàng)新。制造商正在利用產品使用過程中獲得的數(shù)據來改善下一代產品開發(fā),以及提供創(chuàng)新性售后服務。實時位置數(shù)據的興起帶來了一系列基于位置的移動服務,例如導航和人物跟蹤。
目前已經逐漸落地的應用模式主要集中在金融業(yè)、制造業(yè)、服務業(yè)、交通行業(yè)、醫(yī)療行業(yè)及互聯(lián)網行業(yè)。
四、安防大數(shù)據
今后幾年平安城市將不斷向智慧城市靠攏,智慧城市中必須實現(xiàn)的是數(shù)據的共享,跨區(qū)域視頻監(jiān)控聯(lián)網、監(jiān)控資源整合與共享,政府各部門之間的視頻監(jiān)控資源的共享等等。近幾年平安城市、智能交通、智能建筑等行業(yè)的快速發(fā)展,大集成、大聯(lián)網推動安防行業(yè)進入大數(shù)據時代。面對大數(shù)據的存儲、管理、分析,出現(xiàn)了一系列問題:首先是PB級數(shù)據的存儲管理問題,這個問題目前主要通過分布式存儲方案來解決;其次是海量視頻數(shù)據中的有價值數(shù)據如何挖掘問題,這些問題都是安防行業(yè)需要使用大數(shù)據理念和相關技術去解決的。
視頻云存儲采用分布式存儲技術,能夠提供海量視頻、圖片的存儲,具備高容量、高帶寬、高可靠、高擴展等特性;交通卡口大數(shù)據處理平臺主要應用于智能交通中,存儲和處理海量的交通卡口過車數(shù)據,能夠針對海量過車數(shù)據提供快速檢索、智能研判、統(tǒng)計分析等服務,具體包括車輛軌跡研判、車輛誘導、車流量統(tǒng)計、車輛信息查詢等服務;視頻圖像信息數(shù)據庫主要應用于公安行業(yè)中,能夠存儲和處理案事件信息、卡口過車信息,針對海量數(shù)據能夠提供高效的數(shù)據處理服務,包括全文檢索等。