文/孫丹,希捷科技全球高級副總裁暨中國區(qū)總裁
根據(jù)IDC的最新報告《2021-2025年全球數(shù)據(jù)及存儲領(lǐng)域結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)預(yù)測(2021年7月)》,超過90%的現(xiàn)有數(shù)據(jù)是非結(jié)構(gòu)化數(shù)據(jù),并且在過去十年中大體保持不變。然而,隨著元數(shù)據(jù)的增加,越來越多的非結(jié)構(gòu)化數(shù)據(jù)被“馴服”并進入結(jié)構(gòu)化數(shù)據(jù)范疇。
其中有一個關(guān)鍵的驅(qū)動因素,那便是新型軟件的出現(xiàn),它使得非結(jié)構(gòu)化數(shù)據(jù)的內(nèi)容能夠得到分析并提供背景信息。舉例來說,視頻分析軟件可以對文件中的圖像進行標記,并賦以特定的索引以便存儲和搜索。這聽起來也許稀松平常,實現(xiàn)起來卻有諸多挑戰(zhàn),但這意味著非結(jié)構(gòu)化數(shù)據(jù)會變得極具價值。
我們先來了解幾個定義。非結(jié)構(gòu)化數(shù)據(jù)是指原始格式的信息,它通常駐留于采集的源頭或附近。非結(jié)構(gòu)化數(shù)據(jù)代表著采集的所有原始數(shù)據(jù)類型,包括尚未編目或分析的數(shù)據(jù)。而結(jié)構(gòu)化數(shù)據(jù)則是有組織的定量數(shù)據(jù),其中最為常見的是數(shù)字數(shù)據(jù)和文本數(shù)據(jù),它們以某種標準格式存在于文件或記錄的固定字段中。電子表格或關(guān)系型數(shù)據(jù)庫中駐留的信息是結(jié)構(gòu)化數(shù)據(jù)的典型例子。這種類型的結(jié)構(gòu)使得我們在查找特定數(shù)據(jù)或信息組時能夠簡便地查詢數(shù)據(jù)。
非結(jié)構(gòu)化信息也稱為定性數(shù)據(jù),也就是說它只是觀察或記錄的信息。舉例來說,工廠的物聯(lián)網(wǎng)(IoT)傳感器采集設(shè)備性能方面的數(shù)據(jù),然后,這些信息被發(fā)送至服務(wù)器,并以非結(jié)構(gòu)化的格式進行存儲,例如:PDF和視頻文件。
非結(jié)構(gòu)化數(shù)據(jù)的其他例子還包括衛(wèi)星照片、天氣報告、患者生物信號數(shù)據(jù),以及尚未以有組織的方式標記或編目的視頻圖像。它們的共同點是數(shù)據(jù)均為被動采集和傳輸,沒有預(yù)定義的組織格式。當非結(jié)構(gòu)化數(shù)據(jù)作為海量數(shù)據(jù)集的一部分進行審查和理解時,它非常有助于發(fā)現(xiàn)大規(guī)模的發(fā)展趨勢和構(gòu)建預(yù)測模型,但為了業(yè)務(wù)目的而進行搜索和分析卻比較困難。
結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)的差異
結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)之間的主要區(qū)別在于格式。非結(jié)構(gòu)化數(shù)據(jù)以其原生格式存儲,例如:PDF、視頻和傳感器輸出。結(jié)構(gòu)化數(shù)據(jù)嚴格以預(yù)定義的形式呈現(xiàn),或者帶有描述它的預(yù)定義能指,以便輕松置入表單、電子表格或關(guān)系型數(shù)據(jù)庫。
非結(jié)構(gòu)化數(shù)據(jù)通常存放于數(shù)據(jù)湖,所謂數(shù)據(jù)湖本質(zhì)上是一個以各種格式存儲原始數(shù)據(jù)的存儲庫。結(jié)構(gòu)化數(shù)據(jù)則駐留于數(shù)據(jù)倉庫,這種存儲庫只接受按照預(yù)定義規(guī)范格式化的數(shù)據(jù)。數(shù)據(jù)湖是一個存儲非結(jié)構(gòu)化數(shù)據(jù)的存儲庫,但它也可以存儲結(jié)構(gòu)化數(shù)據(jù),而數(shù)據(jù)倉庫只能存儲有組織和格式化的結(jié)構(gòu)化數(shù)據(jù)。
無論是在數(shù)據(jù)湖中還是在數(shù)據(jù)倉庫中,信息都是存儲于某種類型的數(shù)據(jù)庫。其主要區(qū)別在于:結(jié)構(gòu)化數(shù)據(jù)存儲在關(guān)系型數(shù)據(jù)庫中,以結(jié)構(gòu)化查詢語言(SQL)、PostgreSQL、MongoDB 等組織格式按行列進行存儲。這些格式使得用戶或機器搜索、整理和處理結(jié)構(gòu)化數(shù)據(jù)變得非常簡便。相比之下,非結(jié)構(gòu)化數(shù)據(jù)則存儲在非關(guān)系型數(shù)據(jù)庫中,例如:NoSQL。
結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的處理工具和技術(shù)
在分析方式以及處理和操作所需的工具和人員方面,這兩種類型的數(shù)據(jù)也有所不同。非結(jié)構(gòu)化數(shù)據(jù)通常借助數(shù)據(jù)堆疊、數(shù)據(jù)挖掘等技術(shù)進行分析,這些技術(shù)可以處理元數(shù)據(jù)并得出較為一般性的結(jié)論。結(jié)構(gòu)化數(shù)據(jù)則多采用數(shù)學(xué)方法進行分析,例如:數(shù)據(jù)分類、聚類和回歸分析。在工具和技術(shù)方面,結(jié)構(gòu)化數(shù)據(jù)比較便于管理和使用分析工具。用于處理結(jié)構(gòu)化數(shù)據(jù)的工具示例如下:
· 關(guān)系型數(shù)據(jù)庫管理系統(tǒng)(RDBMS)
· 客戶關(guān)系管理(CRM)
· 聯(lián)機分析處理(OLAP)
· 聯(lián)機事務(wù)處理(OLTP)
能夠處理多種格式的大型數(shù)據(jù)集的軟件,通常用于管理和分析非結(jié)構(gòu)化數(shù)據(jù)。用于管理非結(jié)構(gòu)化數(shù)據(jù)的工具示例如下:
· NoSQL數(shù)據(jù)庫管理系統(tǒng)(DBMS)
· AI驅(qū)動型數(shù)據(jù)分析工具
· 數(shù)據(jù)可視化工具
非結(jié)構(gòu)化數(shù)據(jù)通常需要由訓(xùn)練有素的專家進行管理,并且相較于結(jié)構(gòu)化數(shù)據(jù),其軟件處理工具也須具備更高級的人工智能(AI)和預(yù)測建模功能。機器學(xué)習(xí)便是用于分析非結(jié)構(gòu)化數(shù)據(jù)的技術(shù)策略之一。
非結(jié)構(gòu)化數(shù)據(jù)的存儲和移動
無論是原始的還是經(jīng)過初步處理的視頻圖像,都需要占用大量的存儲空間。這推動了以硬盤為中心的大容量存儲系統(tǒng)的需求不斷攀升,而硬盤技術(shù)的持續(xù)發(fā)展也使得進一步擴大容量成為了可能,從而繼續(xù)提供顯著的總體擁有成本優(yōu)勢。
在源頭附近訪問非結(jié)構(gòu)化數(shù)據(jù),并根據(jù)需要將其移動至各種私有及公共云數(shù)據(jù)中心以用于不同的目的,這種需求也推動著封閉、專有、孤立的IT架構(gòu)向開放、可組合、混合式的IT架構(gòu)轉(zhuǎn)變,以便數(shù)據(jù)在分布式企業(yè)范圍內(nèi)自由而高效地移動。
大容量存儲系統(tǒng),例如希捷的新型Exos? CORVAULT?,可以將大量的非結(jié)構(gòu)化數(shù)據(jù)存儲于區(qū)域邊緣和數(shù)據(jù)中心環(huán)境。這種高密度的存儲系統(tǒng)可以基于希捷突破性的存儲架構(gòu)提供SAN級的性能,該架構(gòu)融合了第六代VelosCT? ASIC、ADAPT糾刪碼數(shù)據(jù)保護和硬盤自主重建功能。
此外,希捷的新型Lyve Mobile等模塊化存儲解決方案還提供了一種更好的方式,通過道路運輸將大量數(shù)據(jù)從一個存儲位置物理移動至另一個存儲位置。
結(jié)論
目前,兩種類型的數(shù)據(jù)各有用途。非結(jié)構(gòu)化數(shù)據(jù)是設(shè)備或軟件的原始輸出,這些采集來的信息以原始格式移動至數(shù)據(jù)湖。結(jié)構(gòu)化數(shù)據(jù)以數(shù)字或文本格式進行組織,可以按預(yù)定義的參數(shù)進行編目、組織、重組和分析。
中國互聯(lián)網(wǎng)行業(yè)正在處于高速發(fā)展期,根據(jù)國際數(shù)據(jù)公司(IDC)預(yù)測,到2023年,中國的數(shù)據(jù)量將達到40ZB,其中80%超過是非結(jié)構(gòu)化數(shù)據(jù)。釋放非結(jié)構(gòu)化數(shù)據(jù)背后的價值成為國內(nèi)互聯(lián)網(wǎng)企業(yè)角逐的目標。隨著越來越多的非結(jié)構(gòu)化數(shù)據(jù)進入結(jié)構(gòu)化IT環(huán)境,尤其是來自于大量物聯(lián)網(wǎng)設(shè)備的流媒體數(shù)據(jù)和大量的標記視頻數(shù)據(jù),機構(gòu)有機會將這些數(shù)據(jù)轉(zhuǎn)化成為信息和知識。當非結(jié)構(gòu)化數(shù)據(jù)作為海量數(shù)據(jù)集的一部分進行審查和理解時,非常有助于發(fā)現(xiàn)大規(guī)模的發(fā)展趨勢和構(gòu)建預(yù)測模型。具有遠見卓識的人們可以從中獲取全新的、創(chuàng)新的洞察力,以推出新產(chǎn)品和新服務(wù),從而充分挖掘這口蘊藏豐富的智慧之井。