微軟發(fā)布史上最大AI模型：170億參數(shù)橫掃各種語言建?；鶞?zhǔn)，將用于Office套件

ainet.cn 2020年02月11日

　　今天(2月11日)，微軟發(fā)布史上最大語言模型，名為Turing-NLG。

　　170億參數(shù)量，是此前最大的語言模型英偉達(dá)“威震天”(Megatron)的兩倍，是OpenAI模型GPT-2的10多倍。

　　“隨著更大的自然語言模型導(dǎo)致更好結(jié)果的趨勢，微軟引入了Turing-NLG，”微軟在研究博客中寫道。“它在各種語言建?；鶞?zhǔn)方面的表現(xiàn)超過了最先進(jìn)的水平，并且在許多實(shí)際任務(wù)的應(yīng)用上，比如回答問題和摘要生成方面表現(xiàn)都十分優(yōu)異?！?/FONT>

　　與此同時，微軟研究也發(fā)布了另一篇博客文章，介紹了用于分布式訓(xùn)練大型模型的DeepSpeed深度學(xué)習(xí)庫和ZeRO優(yōu)化技術(shù)，并表示如果沒有這些突破，Turing-NLG不可能完成。

史上最大語言模型

　　Turing-NLG，簡稱T-NLG，是一個基于Transformer的生成語言模型，可以生成單詞來完成開放式的文本任務(wù)，比如回答問題，提取文檔摘要等等。

　　微軟認(rèn)為，想要在任何情況下，都能使機(jī)器像人類一樣直接、準(zhǔn)確、流暢地做出反應(yīng)，開發(fā)像T-NLG這樣的生成模型對解決NLP任務(wù)非常重要。

　　以前，回答問題和提取摘要的系統(tǒng)，主要依賴于從文檔中提取現(xiàn)有的內(nèi)容。雖然可以作為替代答案或摘要，但常常顯得不自然或不連貫。

　　“有了T-NLG，我們可以自然地總結(jié)或回答有關(guān)個人文件或電子郵件線程的問題，”微軟表示。

　　這背后的邏輯在于：即使訓(xùn)練樣本較少，但模型越大，預(yù)訓(xùn)練的數(shù)據(jù)越多樣化和全面，它就越能更好地推廣到多個下游任務(wù)。

　　所以，微軟也認(rèn)為訓(xùn)練一個大型的集中式多任務(wù)模型，并在眾多任務(wù)之間共享它的能力，比為每個任務(wù)單獨(dú)訓(xùn)練一個新模型更有效。

T-NLG是怎么訓(xùn)練出來的?

　　訓(xùn)練大型模型的一個常識是：任何超過13億參數(shù)的模型，單靠一個GPU(即使是一個有32GB內(nèi)存的 GPU)也是不可能訓(xùn)練出來的，因此必須在多個GPU之間并行訓(xùn)練模型，或者將模型分解成多個部分。

　　微軟介紹稱，能夠訓(xùn)練T-NLG，得益于硬件和軟件的突破，一共體現(xiàn)在三個方面：

　　第一，他們利用NVIDIA DGX-2硬件設(shè)置，使用InfiniBand連接，以便GPU之間實(shí)現(xiàn)比以前更快的通信。

　　第二，使用四個英偉達(dá)V100 GPU，在英偉達(dá) Megatron-LM框架中應(yīng)用張量切片分割模型。

　　第三，使用Deepspeed和ZeRO降低了模型的并行度(從16降低到4) ，將每個節(jié)點(diǎn)的批處理大小增加4倍，并且減少了三倍的訓(xùn)練時間。

　　Deepspeed使得使用更少的GPU訓(xùn)練非常大的模型更有效率，并且它訓(xùn)練的批量大小為512，使用256個 NVIDIA GPU。如果用Megatron-LM 需要1024個 NVIDIA GPU。此外，Deepspeed還與PyTorch兼容。

　　最終的T-NLG模型中，有78個Transformer層，隱藏大小為4256，有28個注意頭。

　　為了使模型的結(jié)果能與Megatron-LM媲美，他們使用了與其相同的超參數(shù)和學(xué)習(xí)時間表進(jìn)行預(yù)訓(xùn)練。與此同時，他們也使用與Megatron-LM相同類型的數(shù)據(jù)對模型進(jìn)行訓(xùn)練。

效果達(dá)到最先進(jìn)水平，將用于Office套件

　　模型預(yù)訓(xùn)練完成后，他們也在WikiText-103(越低越好)和LAMBADA(越高越好)數(shù)據(jù)集上，與英偉達(dá)Megatron-LM和OpenAI的GPT-2完整版進(jìn)行了比較，都達(dá)到了最新的水平。

　　不僅僅是數(shù)據(jù)集上，微軟也公布了T-NLG在具體任務(wù)中的表現(xiàn)。

　　首先是回答問題。其不僅能夠使用一個完成的句子回答，還能夠在不需要上下文的情況下回答問題，比如下面的這個問題并沒有給出更多的信息。在這些情況下，T-NLG能基于預(yù)訓(xùn)練中獲得的知識來生成一個答案。

　　其次是生成摘要。微軟表示，為了使 T-NLG 盡可能多用于總結(jié)不同類型的文本，他們幾乎在所有公開可用的摘要數(shù)據(jù)集上以多任務(wù)的方式完善了T-NLG模型，總計約400萬個訓(xùn)練實(shí)例。

　　他們與另一個最新的基于Transformer的語言模型PEGASUS，以及先前最先進(jìn)的模型進(jìn)行了比較，ROUGE評分結(jié)果如下，基本上實(shí)現(xiàn)了超越。

實(shí)際效果怎樣?

　　為了秀這個模型的能力，微軟用T-NLG模型，給介紹T-NLG的博客文章寫了一份摘要：

　　Turing Natural Language Generation (T-NLG) is a 17 billion parameter language model by Microsoft that outperforms the state of the art on many downstream NLP tasks. We present a demo of the model, including its freeform generation, question answering, and summarization capabilities, to academics for feedback and research purposes. <|endoftext|>

　　正如摘要中所說的，微軟的T-NLG目前并不對外公開。

　　對于T-NLG的應(yīng)用潛力，微軟說它為其和客戶提供了新的機(jī)會。

　　除了通過總結(jié)文檔和電子郵件來節(jié)省用戶時間，還可以通過向作者提供寫作幫助和回答讀者可能提出的關(guān)于文檔的問題，來增強(qiáng)使用 Microsoft Office 套件的體驗(yàn)，打造更強(qiáng)的聊天機(jī)器人等等。

　　微軟表示，他們對新的可能性感到興奮，將繼續(xù)提高語言模型的質(zhì)量。

（轉(zhuǎn)載）

標(biāo)簽：微軟 AI模型

我要反饋