a&s專業(yè)的自動化&安全生態(tài)服務(wù)平臺

公眾號

安全自動化

安防知識網(wǎng)

手機站

大安防供需平臺

搜索
登錄
|
注冊

搜索

全站搜索
AI應(yīng)用搜索

首頁 > 資訊 > 正文

微軟與Nvidia發(fā)布全球最大含5，300億個參數(shù)的AI語言模型

2021-10-14 09:48 閱讀 3149 來源：十輪網(wǎng)科技評論區(qū)

微軟和Nvidia合作研究語言模型，發(fā)布了目前最大的單體Transformer語言模型MT-NLG（Turing Natural Language Generation Model），具有5,300億個參數(shù)，作為Turing NLG 17B和Megatron-LM的后繼者，MT-NLG的規(guī)模是目前這類最大模型的3倍，能在完成預(yù)測、閱讀理解、常識推理、自然語言推理和詞義消歧等自然語言任務(wù)，提供極高的準確性。

　　近年來自然語言處理領(lǐng)域，得利于Transformer語言模型的大規(guī)模運算、大資料集，和高端的訓(xùn)練算法，使得語言模型能夠具有大量參數(shù)，進行更豐富、細致的語言理解，因此語言模型也能更有效地作為零樣本或是少樣本學(xué)習器，應(yīng)用在更廣泛的自然語言任務(wù)中。

　　現(xiàn)在訓(xùn)練大型語言模型，仍具有不小的挑戰(zhàn)性，研究人員解釋，即便是最大的GPU內(nèi)存，也難以放下這么大量的參數(shù)，而且如果不對算法、軟件和硬件堆棧進行優(yōu)化，過長的運算時間將會使得訓(xùn)練模型變得不切實際。

　　微軟和Nvidia密切合作，應(yīng)用GPU和分布式學(xué)習軟件堆棧，實現(xiàn)超高效率模型訓(xùn)練，并且使用數(shù)千億的令牌，構(gòu)建高品質(zhì)自然語言訓(xùn)練語料庫，共同開發(fā)訓(xùn)練配置，以優(yōu)化效率和穩(wěn)定性。

　　模型訓(xùn)練使用基于NvidiaDGX SuperPOD的Selene超級計算機，以混合精度訓(xùn)練完成，該超級計算機搭載560臺DGX A100服務(wù)器，這些服務(wù)器使用HDR InfiniBand以全胖樹拓撲連接，每臺DGX A100擁有8顆A100 80GB Tensor Core GPU，之間以NVLink和NVSwitch相互聯(lián)接。

　　研究人員解釋，只有這種能夠在數(shù)千個GPU間實現(xiàn)平行性的架構(gòu)，才能在合理的時間，訓(xùn)練具有數(shù)千億個參數(shù)的模型。但就現(xiàn)有的平行策略，包括資料、工作管線和張量切片，還是無法用于訓(xùn)練這種模型。

　　因此研究人員結(jié)合Megatron-LM和PyTorch深度學(xué)習優(yōu)化函數(shù)庫DeepSpeed，創(chuàng)建了高效且可擴展的3D平行系統(tǒng)，將資料、工作管線和基于張量切片的平行性結(jié)合在一起，來克服訓(xùn)練大型語言模型所遭遇的困難。

　　Megatron-LM的張量切片能夠擴展節(jié)點內(nèi)的模型，并借由DeepSpeed工作管線的平行性，來跨節(jié)點擴展模型。就5,300億個參數(shù)的MT-NLG來說，每個模型副本需橫跨280個A100 GPU，具有8路張量切片和跨節(jié)點的35路工作管線并行性，并且通過DeepSpeed的資料平行性，擴展模型至數(shù)千個GPU。

　　MT-NLG在多種類型的自然語言任務(wù)，都達到了目前最佳的結(jié)果，以少樣本預(yù)測來說，比較或是尋找兩句子間的關(guān)系，通常是對語言模型較具有挑戰(zhàn)性的任務(wù)，但是MT-NLG能夠使用更少的令牌訓(xùn)練，也就是說，更大型的模型訓(xùn)練速度更快。

　　除了一般自然語言任務(wù)都已經(jīng)難不倒MT-NLG，MT-NLG還具有基本的數(shù)學(xué)運算能力，研究人員提到，雖然離真正具有算術(shù)能力還有一段距離，但該模型展現(xiàn)了超過記憶算數(shù)的能力。

　　另外，研究人員還在HANS資料集測試MT-NLG，借由向模型提供包含簡單句法結(jié)構(gòu)的句子作為問題，并且提示模型給予答案，過去這樣的用例，即便結(jié)構(gòu)相當簡單，但是自然語言推理模型仍會對于這類輸入感到苦手，但是MT-NLG在不需要微調(diào)的情況下，就能表現(xiàn)良好。

免責聲明：本站所使用的字體和圖片文字等素材部分來源于互聯(lián)網(wǎng)共享平臺。如使用任何字體和圖片文字有冒犯其版權(quán)所有方的，皆為無意。如您是字體廠商、圖片文字廠商等版權(quán)方，且不允許本站使用您的字體和圖片文字等素材，請聯(lián)系我們，本站核實后將立即刪除！任何版權(quán)方從未通知聯(lián)系本站管理者停止使用，并索要賠償或上訴法院的，均視為新型網(wǎng)絡(luò)碰瓷及敲詐勒索，將不予任何的法律和經(jīng)濟賠償！敬請諒解！

您可能也喜歡這些文章

參與評論

回復(fù)：

0/300

文明上網(wǎng)理性發(fā)言，評論區(qū)僅供其表達個人看法，并不表明a&s觀點。

0

推薦專題

熱門排行

關(guān)于我們

a&s傳媒是全球知名展覽公司法蘭克福展覽集團旗下的專業(yè)媒體平臺，自1994年品牌成立以來，一直專注于安全&自動化產(chǎn)業(yè)前沿產(chǎn)品、技術(shù)及市場趨勢的專業(yè)媒體傳播和品牌服務(wù)。從安全管理到產(chǎn)業(yè)數(shù)字化，a&s傳媒擁有首屈一指的國際行業(yè)展覽會資源以及豐富的媒體經(jīng)驗，提供媒體、活動、展會等整合營銷服務(wù)。

全球網(wǎng)站
法蘭克福
asmag.com
asmag.com.cn
中國臺灣智慧安防網(wǎng)

免責聲明：本站所使用的字體和圖片文字等素材部分來源于互聯(lián)網(wǎng)共享平臺。如使用任何字體和圖片文字有冒犯其版權(quán)所有方的，皆為無意。如您是字體廠商、圖片文字廠商等版權(quán)方，且不允許本站使用您的字體和圖片文字等素材，請聯(lián)系我們，本站核實后將立即刪除！任何版權(quán)方從未通知聯(lián)系本站管理者停止使用，并索要賠償或上訴法院的，均視為新型網(wǎng)絡(luò)碰瓷及敲詐勒索，將不予任何的法律和經(jīng)濟賠償！敬請諒解！

粵公網(wǎng)安備 44030402000264號

用戶
反饋

久久久18,天天躁夜夜躁狠狠躁婷婷,国产成人三级一区二区在线观看一,最近的2019中文字幕视频 ,最新免费av在线观看

微軟與Nvidia發(fā)布全球最大含5，300億個參數(shù)的AI語言模型

微軟與Nvidia發(fā)布全球最大含5，300億個參數(shù)的AI語言模型