數(shù)據(jù)中心管理是不容易的:計算部署每天都在變化,數(shù)據(jù)中心氣流也是復(fù)雜的,而錯位的激勵會導致企業(yè)的支出不斷增長,此外,大多數(shù)企業(yè)數(shù)據(jù)中心的利用率和總擁有成本遠遠落后于基于云計算的節(jié)點。
數(shù)據(jù)中心管理低效的一個原因就是在企業(yè)數(shù)據(jù)中心在這三方面的注意力不集中,這三方面稱之為現(xiàn)代數(shù)據(jù)中心管理的三大支柱:跟蹤(測量和庫存控制),開發(fā)好的程序,對物理原理和工程限制的理解。
另一個原因是,數(shù)據(jù)中心高級管理人員往往不知道這些問題的范圍。例如,最近的一項研究表明,全球30%的服務(wù)器沒有提供有用的信息服務(wù),卻仍舊在使用電力。其結(jié)果是全球各地的企業(yè)數(shù)據(jù)中心浪費了數(shù)百億美元的資金。自從服務(wù)器昏迷這個問題浮出水面以來,Uptime Institute機構(gòu)就制定了服務(wù)器目標,但進展不大。
解決這些問題的一個方法就是采用科學方法進行數(shù)據(jù)中心管理。這意味著要創(chuàng)建一些假設(shè)和實驗,以測試它們,并相應(yīng)地改變運營策略,在一個永無止境的循環(huán)中不斷改進。在數(shù)據(jù)中心這樣做并不是很容易,因為部署的設(shè)備是昂貴的,而進行實驗也是有風險的。
有沒有一種方法可以降低數(shù)據(jù)中心試驗的低風險,并且成本更低?當然有。通過數(shù)據(jù)中心的校準模型,測試不同的軟件部署在氣流、溫度、可靠性、用電量,以及數(shù)據(jù)中心容量的影響。事實上,使用這些模型是用來評估數(shù)據(jù)中心運營商關(guān)心的事情,也就是數(shù)據(jù)中心配置潛在變化影響的唯一準確的方法,因為該系統(tǒng)是如此復(fù)雜。
最近,紐約州立賓漢姆頓大學的科學家們在一個部署41個機架的數(shù)據(jù)中心創(chuàng)造了一個校準模型,用來準確地測試一個軟件的類型(6sigmaDC)可以預(yù)測數(shù)據(jù)中心設(shè)施的氣溫,并創(chuàng)造未來的實驗測試環(huán)境??茖W家們可以輕松地配置數(shù)據(jù)中心,而不必擔心中斷關(guān)鍵任務(wù)操作,因為其安裝僅用于測試。他們還可以運行不同的工作負載,看看那些可能會影響數(shù)據(jù)中心設(shè)施能源使用或可靠性。
大多數(shù)企業(yè)的數(shù)據(jù)中心沒有這樣的靈活性,但他們可以采用數(shù)據(jù)中心設(shè)施的一部分作為一個測試平臺,只要他們有足夠的規(guī)模。對大多數(shù)企業(yè)來說,這樣的直接試驗是不切實際的。幾乎所有人都可以做的事就是建立一個校準模型,在他們的設(shè)施中運行實驗的軟件。
賓厄姆頓大學的研究工作表明,對于數(shù)據(jù)中心實驗,采用軟件代碼更便宜,更方便,比部署物理硬件風險較小,并且也是比較準確的(只要該模型正確校準)。在最初的測試設(shè)置中,他們可靠地預(yù)測溫度與每個機架的異常值,這些結(jié)果可以進一步校準,并可以進一步何改善。他們能夠識別模型結(jié)果和測量結(jié)果之間的差異的物理原因,一旦確定,可以找到一個更好的、更準確的明確路徑的模型。
人們需要這種更多的測試實驗室,適用于數(shù)據(jù)中心管理,提高評估準確性,并改進最佳實踐所有的建模軟件,但高層次的教訓很清楚:企業(yè)數(shù)據(jù)中心應(yīng)用軟件來提高他們的經(jīng)營業(yè)績,賓厄姆頓大學的研究工作指明了方向。IT技術(shù)正在改變著經(jīng)濟的其他部分,為什么不使用其來改造自身的IT?