微軟和Nvidia合作研究語言模型,發(fā)布了目前最大的單體Transformer語言模型MT-NLG(Turing Natural Language Generation Model),具有5,300億個參數(shù),作為Turing NLG 17B和Megatron-LM的后繼者,MT-NLG的規(guī)模是目前這類最大模型的3倍,能在完成預(yù)測、閱讀理解、常識推理、自然語言推理和詞義消歧等自然語言任務(wù),提供極高的準(zhǔn)確性。
近年來自然語言處理領(lǐng)域,得利于Transformer語言模型的大規(guī)模運算、大資料集,和高端的訓(xùn)練算法,使得語言模型能夠具有大量參數(shù),進行更豐富、細(xì)致的語言理解,因此語言模型也能更有效地作為零樣本或是少樣本學(xué)習(xí)器,應(yīng)用在更廣泛的自然語言任務(wù)中。
現(xiàn)在訓(xùn)練大型語言模型,仍具有不小的挑戰(zhàn)性,研究人員解釋,即便是最大的GPU內(nèi)存,也難以放下這么大量的參數(shù),而且如果不對算法、軟件和硬件堆棧進行優(yōu)化,過長的運算時間將會使得訓(xùn)練模型變得不切實際。
微軟和Nvidia密切合作,應(yīng)用GPU和分布式學(xué)習(xí)軟件堆棧,實現(xiàn)超高效率模型訓(xùn)練,并且使用數(shù)千億的令牌,構(gòu)建高品質(zhì)自然語言訓(xùn)練語料庫,共同開發(fā)訓(xùn)練配置,以優(yōu)化效率和穩(wěn)定性。
模型訓(xùn)練使用基于NvidiaDGX SuperPOD的Selene超級計算機,以混合精度訓(xùn)練完成,該超級計算機搭載560臺DGX A100服務(wù)器,這些服務(wù)器使用HDR InfiniBand以全胖樹拓?fù)溥B接,每臺DGX A100擁有8顆A100 80GB Tensor Core GPU,之間以NVLink和NVSwitch相互聯(lián)接。
研究人員解釋,只有這種能夠在數(shù)千個GPU間實現(xiàn)平行性的架構(gòu),才能在合理的時間,訓(xùn)練具有數(shù)千億個參數(shù)的模型。但就現(xiàn)有的平行策略,包括資料、工作管線和張量切片,還是無法用于訓(xùn)練這種模型。
因此研究人員結(jié)合Megatron-LM和PyTorch深度學(xué)習(xí)優(yōu)化函數(shù)庫DeepSpeed,創(chuàng)建了高效且可擴展的3D平行系統(tǒng),將資料、工作管線和基于張量切片的平行性結(jié)合在一起,來克服訓(xùn)練大型語言模型所遭遇的困難。
Megatron-LM的張量切片能夠擴展節(jié)點內(nèi)的模型,并借由DeepSpeed工作管線的平行性,來跨節(jié)點擴展模型。就5,300億個參數(shù)的MT-NLG來說,每個模型副本需橫跨280個A100 GPU,具有8路張量切片和跨節(jié)點的35路工作管線并行性,并且通過DeepSpeed的資料平行性,擴展模型至數(shù)千個GPU。
MT-NLG在多種類型的自然語言任務(wù),都達到了目前最佳的結(jié)果,以少樣本預(yù)測來說,比較或是尋找兩句子間的關(guān)系,通常是對語言模型較具有挑戰(zhàn)性的任務(wù),但是MT-NLG能夠使用更少的令牌訓(xùn)練,也就是說,更大型的模型訓(xùn)練速度更快。
除了一般自然語言任務(wù)都已經(jīng)難不倒MT-NLG,MT-NLG還具有基本的數(shù)學(xué)運算能力,研究人員提到,雖然離真正具有算術(shù)能力還有一段距離,但該模型展現(xiàn)了超過記憶算數(shù)的能力。
另外,研究人員還在HANS資料集測試MT-NLG,借由向模型提供包含簡單句法結(jié)構(gòu)的句子作為問題,并且提示模型給予答案,過去這樣的用例,即便結(jié)構(gòu)相當(dāng)簡單,但是自然語言推理模型仍會對于這類輸入感到苦手,但是MT-NLG在不需要微調(diào)的情況下,就能表現(xiàn)良好。