在AI計算機訓練與推理領域,存在著這樣一種理念:如果計算需求很大,那么為其提供動力所需的能量也將很大。這種理念也被該領域廣泛接受。那么有沒有可能開發(fā)出一種既可以顯著提升計算能力又無需消耗過多能量的方法呢?IBM在頂會ISSCC上介紹了一種7nm訓練推理節(jié)能芯片。
自動駕駛汽車、文本轉語音和送貨無人機,這些都是人工智能的典型應用。為了不斷推動 AI 淘金熱,人們一直致力于改善 AI 硬件技術的核心,即賦能深度學習的數字 AI 內核,它是人工智能的關鍵推動力。
在該領域的深入探索中,IBM Research 通過材料、設備、芯片架構和整體軟件堆棧方面的創(chuàng)新,在適應 AI 系統的負載復雜性以及簡化和加速性能方面取得了長足進步,從而推動具有尖端性能和無可比擬能效的下一代 AI 計算機系統的開發(fā)。
近日,在 2021 年國際固態(tài)電路虛擬會議(ISSCC)上發(fā)表的一篇新論文《A 7nm 4-Core AI Chip with 25.6TFLOPS Hybrid FP8 Training, 102.4TOPS INT4 Inference and Workload-Aware Throttling》中,IBM 團隊詳細介紹了全球首個采用 7nm 技術進行低精度訓練與推斷的節(jié)能 AI 芯片。通過其新穎的設計,該 AI 硬件加速器芯片支持多種模型類型,同時在所有模型類型上均實現了領先的能效。
IBM 表示,通過令訓練更靠近邊緣以及使數據更靠近來源,這一芯片技術可以擴展并用于多種商業(yè)應用,從云上的大規(guī)模模型訓練到安全隱私服務。此外,這種高效節(jié)能的 AI 硬件加速器可以顯著提升計算能力,包括混合云環(huán)境中的計算能力,并且無需大量的能源。
AI 模型的復雜性和適應性正在迅速擴展,現已用于藥物發(fā)現、遺留 IT 應用的現代化以及為新應用編寫代碼等。但是,AI 模型復雜性的快速演化也增加了該技術的能耗,并且面臨的一個主要問題是如何創(chuàng)建復雜的 AI 模型而不增加碳排放量。從歷史上看,該領域已經接受了這樣一種理念,即如果計算需求很大,那么為其提供動力所需的能源也將很大。
IBM 想要改變這種理念,開發(fā)出一種既可以顯著提升計算能力又無需消耗過多能量的全新節(jié)能 AI 硬件加速器。
如何實現
這篇 ISSCC 論文聚焦如何創(chuàng)建針對所有不同 AI 模型類型的低精度訓練與推斷進行高度優(yōu)化的芯片,且該芯片在應用層面上對質量不造成損害。
IBM 展示了該新芯片的多種新特性:
IBM 表示這是首個集成了超低精度混合 FP8 (HFP8) 形式的硅芯片,可以 SOTA 硅技術節(jié)點(7 nm EUV-based 芯片)訓練深度學習模型。在所有不同精度條件下,其原始能效是最優(yōu)的。下圖 2 展示了 IBM 芯片性能與能效超過其他專用的推斷和訓練芯片。
從上圖中,我們可以看到 IBM 將該 7nm 芯片與多款芯片做了對比,包括阿里巴巴 12nm 的芯片以及英偉達的 A100。
但這并不是全部。它還是將電源管理整合到 AI 硬件加速器中的第一批芯片之一。該研究表明,通過放慢高功耗計算階段的速度,可以在芯片的總功耗預算內最大化其性能。
最后,芯片除具有出色的峰值性能外,還具有可轉化為實際應用性能的高持續(xù)利用率,這也是該芯片提高能效的關鍵部分。作者稱,與遠低于 30%的典型 GPU 利用率相比,該芯片可實現 80%以上的訓練利用率和 60%以上的推斷利用率。
應用前景廣泛
IBM 研究員表示,這一新的 AI 核與芯片可用于多種跨行業(yè)的云與邊緣應用。例如,相對于當前行業(yè)中使用的 16 位(bit)和 32 位格式,該芯片可用于 8 位視覺、語音和自然語言處理的大規(guī)模深度學習模型云訓練。它們還可用于語音到文本 AI 服務、文本到語音 AI 服務、NLP 服務、金融交易欺詐檢測等云推斷應用程序。
自動駕駛汽車、安全攝像頭和移動電話也可以從中受益,該芯片可以方便地在邊緣設備上進行聯邦學習,以實現定制化,保護客戶的隱私、安全性和合規(guī)性。
作者希望通過這項工作建立一種全新的方式,來創(chuàng)建和部署可擴展性能并降低功耗的 AI 模型。