文/希捷科技全球高級副總裁暨中國區(qū)總裁 孫丹
這篇文章并非出自于ChatGPT之手。不過在過去幾個月中,生成式AI的確是炙手可熱的話題。
科技巨頭已將他們的運(yùn)營計劃建立在AI基礎(chǔ)上。微軟表示,生成式AI可為其增加400億美元的營收。生成式AI市場可推動全球GDP增長近7萬億美元。約75%的公司預(yù)計在未來五年內(nèi)會采用人工智能技術(shù)。ChatGPT在推出的最初兩個月就擁有了1億多用戶,成為有史以來增長速度最快的消費(fèi)級應(yīng)用。
但是,如果缺失一個要素:數(shù)據(jù),最好的人工智能模型也將毫無用處。
公司需要海量數(shù)據(jù)來訓(xùn)練人工智能模型,以便于從之前未開發(fā)的信息中獲得洞察和價值。由于將來的人工智能工具將可以從過去的數(shù)據(jù)中挖掘到難以想象的見解,因此應(yīng)盡可能多地保存數(shù)據(jù)。
聊天機(jī)器人以及圖像和視頻AI生成器會創(chuàng)建更多需要公司管理的數(shù)據(jù),并且需要保留它們的推論以便于為未來的算法提供信息支撐。Gartner預(yù)計,到2025年,生成式AI將占生成數(shù)據(jù)總量的10%,而目前該比例還不足1%。將此項研究與IDC的全球數(shù)據(jù)圈預(yù)測研究進(jìn)行交叉印證,我們預(yù)計ChatGPT、DALL-E、Bard和DeepBrain AI等生成式AI技術(shù)將在未來五年內(nèi)創(chuàng)建ZB級數(shù)據(jù)。
只有采用簡單且經(jīng)濟(jì)高效的數(shù)據(jù)存儲策略,企業(yè)才能大規(guī)模訓(xùn)練和部署人工智能工具,最終利用人工智能應(yīng)用。海量數(shù)據(jù)集需要大容量存儲。如果以前數(shù)據(jù)沒有存下來,那么現(xiàn)在必須采取行動。
為什么AI需要數(shù)據(jù)?
IDC數(shù)據(jù)顯示,2022年創(chuàng)建的企業(yè)數(shù)據(jù)中有84%可用于分析,但得到分析或應(yīng)用到人工智能或機(jī)器學(xué)習(xí)算法中的僅有24%。這意味著公司未能利用大部分的可用數(shù)據(jù)。也就錯失了商業(yè)價值。這就像電動汽車:如果電池沒有充電,汽車無法帶您到目的地。如果數(shù)據(jù)沒有存儲,即使是最智能的AI工具也無濟(jì)于事。
隨著眾多公司著眼于訓(xùn)練人工智能模型,大容量存儲將為原始數(shù)據(jù)和生成數(shù)據(jù)提供支持。企業(yè)將需要強(qiáng)有力的數(shù)據(jù)存儲策略。他們可借助云來解決一些人工智能工作負(fù)載和存儲,也可以在本地存儲和處理一些數(shù)據(jù)。機(jī)械硬盤(約占公有云存儲的90%)是專為海量數(shù)據(jù)集而生的經(jīng)濟(jì)高效、耐用可靠的解決方案,能夠存儲持續(xù)訓(xùn)練人工智能模型所需的大量數(shù)據(jù)。
保留原始數(shù)據(jù)是非常必要的,哪怕這些數(shù)據(jù)已經(jīng)被處理過。比如人工智能創(chuàng)建的一些內(nèi)容可能會產(chǎn)生知識產(chǎn)權(quán)糾紛,在行業(yè)調(diào)查或訴訟期間,當(dāng)問到人工智能洞察的相關(guān)問題,便可以用存儲的數(shù)據(jù)證明所有權(quán)以及結(jié)論的可靠性。
數(shù)據(jù)質(zhì)量也會影響洞察的可靠性。為了確保更好的數(shù)據(jù)質(zhì)量,企業(yè)應(yīng)該使用包括數(shù)據(jù)預(yù)處理、數(shù)據(jù)標(biāo)記、數(shù)據(jù)增強(qiáng)、監(jiān)控數(shù)據(jù)質(zhì)量指標(biāo)、數(shù)據(jù)治理和主題專家評審等方法。
企業(yè)如何做好準(zhǔn)備
如果保留數(shù)據(jù)的成本太高,企業(yè)會不得不刪除數(shù)據(jù)。這是可以理解的,企業(yè)需要平衡成本與人工智能洞察需求的關(guān)系。
為了降低數(shù)據(jù)成本,領(lǐng)先的企業(yè)部署了云成本比較和估算工具。對于本地存儲的企業(yè)來說,更應(yīng)該考慮用硬盤構(gòu)建可以優(yōu)化TCO的存儲系統(tǒng)。此外,企業(yè)都需要對監(jiān)測的數(shù)據(jù)和工作負(fù)載模式進(jìn)行優(yōu)先級排序,并盡可能地實(shí)現(xiàn)工作流程的自動化。
全面的數(shù)據(jù)分類對于識別訓(xùn)練人工智能模型所需的數(shù)據(jù)至關(guān)重要。要確保敏感數(shù)據(jù)的處理是合規(guī)的,比如個人身份數(shù)據(jù)或財務(wù)數(shù)據(jù)等需具備非常強(qiáng)的數(shù)據(jù)安全性。許多企業(yè)對數(shù)據(jù)進(jìn)行加密以確保安全性,但人工智能算法通常無法從加密數(shù)據(jù)中進(jìn)行學(xué)習(xí)。所以企業(yè)還需要一個流程來安全地解密數(shù)據(jù),以便進(jìn)行培訓(xùn),并且可以重新加密存儲。
為了確保人工智能分析成功,企業(yè)應(yīng)該:
1、養(yǎng)成存儲更多數(shù)據(jù)的習(xí)慣,因為在人工智能時代,數(shù)據(jù)更有價值。保留原始數(shù)據(jù)及洞察,不限制可存儲的數(shù)據(jù)量,但要限定哪些數(shù)據(jù)是可以刪除的。
2、制定可以提高數(shù)據(jù)質(zhì)量的工作流程。
3、降低數(shù)據(jù)存儲成本。
4、實(shí)施穩(wěn)健的數(shù)據(jù)分類和合規(guī)性。
5、確保數(shù)據(jù)安全。
不采取以上行動的話,最好的生成式AI模型也會毫無用處。
在生成式AI出現(xiàn)之前,數(shù)據(jù)就是開啟創(chuàng)新的關(guān)鍵,最擅長管理多云存儲的企業(yè)實(shí)現(xiàn)收入目標(biāo)的可能性是同行的5.3倍。未來,生成式AI會顯著拉大企業(yè)之間的創(chuàng)新差距。
當(dāng)前,圍繞生成式AI的討論更多地集中在企業(yè)的創(chuàng)新潛力上。但企業(yè)領(lǐng)導(dǎo)很快就會意識到,數(shù)據(jù)存儲及管理策略才是人工智能成功與否的關(guān)鍵因素。