xx色综合,国产午夜亚洲精品不卡网站,成年在线欧美,最近免费中文字幕mv在线视频3 ,亚洲综合人成网免费视频

人工智能

微軟發(fā)布史上最大AI模型:170億參數(shù)橫掃各種語言建?;鶞?zhǔn),將用于Office套件

ainet.cn   2020年02月11日

  今天(2月11日),微軟發(fā)布史上最大語言模型,名為Turing-NLG。

  170億參數(shù)量,是此前最大的語言模型英偉達(dá)“威震天”(Megatron)的兩倍,是OpenAI模型GPT-2的10多倍。

  “隨著更大的自然語言模型導(dǎo)致更好結(jié)果的趨勢,微軟引入了Turing-NLG,”微軟在研究博客中寫道。“它在各種語言建?;鶞?zhǔn)方面的表現(xiàn)超過了最先進(jìn)的水平,并且在許多實(shí)際任務(wù)的應(yīng)用上,比如回答問題和摘要生成方面表現(xiàn)都十分優(yōu)異?!?/FONT>

  與此同時,微軟研究也發(fā)布了另一篇博客文章,介紹了用于分布式訓(xùn)練大型模型的DeepSpeed深度學(xué)習(xí)庫和ZeRO優(yōu)化技術(shù),并表示如果沒有這些突破,Turing-NLG不可能完成。

史上最大語言模型

  Turing-NLG,簡稱T-NLG,是一個基于Transformer的生成語言模型,可以生成單詞來完成開放式的文本任務(wù),比如回答問題,提取文檔摘要等等。

  微軟認(rèn)為,想要在任何情況下,都能使機(jī)器像人類一樣直接、準(zhǔn)確、流暢地做出反應(yīng),開發(fā)像T-NLG這樣的生成模型對解決NLP任務(wù)非常重要。

  以前,回答問題和提取摘要的系統(tǒng),主要依賴于從文檔中提取現(xiàn)有的內(nèi)容。雖然可以作為替代答案或摘要,但常常顯得不自然或不連貫。

  “有了T-NLG,我們可以自然地總結(jié)或回答有關(guān)個人文件或電子郵件線程的問題,”微軟表示。

  這背后的邏輯在于:即使訓(xùn)練樣本較少,但模型越大,預(yù)訓(xùn)練的數(shù)據(jù)越多樣化和全面,它就越能更好地推廣到多個下游任務(wù)。

  所以,微軟也認(rèn)為訓(xùn)練一個大型的集中式多任務(wù)模型,并在眾多任務(wù)之間共享它的能力,比為每個任務(wù)單獨(dú)訓(xùn)練一個新模型更有效。

T-NLG是怎么訓(xùn)練出來的?

  訓(xùn)練大型模型的一個常識是:任何超過13億參數(shù)的模型,單靠一個GPU(即使是一個有32GB內(nèi)存的 GPU)也是不可能訓(xùn)練出來的,因此必須在多個GPU之間并行訓(xùn)練模型,或者將模型分解成多個部分。

  微軟介紹稱,能夠訓(xùn)練T-NLG,得益于硬件和軟件的突破,一共體現(xiàn)在三個方面:

  第一,他們利用NVIDIA DGX-2硬件設(shè)置,使用InfiniBand連接,以便GPU之間實(shí)現(xiàn)比以前更快的通信。

  第二,使用四個英偉達(dá)V100 GPU,在英偉達(dá) Megatron-LM框架中應(yīng)用張量切片分割模型。

  第三,使用Deepspeed和ZeRO降低了模型的并行度(從16降低到4) ,將每個節(jié)點(diǎn)的批處理大小增加4倍,并且減少了三倍的訓(xùn)練時間。

  Deepspeed使得使用更少的GPU訓(xùn)練非常大的模型更有效率,并且它訓(xùn)練的批量大小為512,使用256個 NVIDIA GPU。如果用Megatron-LM 需要1024個 NVIDIA GPU。此外,Deepspeed還與PyTorch兼容。

  最終的T-NLG模型中,有78個Transformer層,隱藏大小為4256,有28個注意頭。

  為了使模型的結(jié)果能與Megatron-LM媲美,他們使用了與其相同的超參數(shù)和學(xué)習(xí)時間表進(jìn)行預(yù)訓(xùn)練。與此同時,他們也使用與Megatron-LM相同類型的數(shù)據(jù)對模型進(jìn)行訓(xùn)練。

效果達(dá)到最先進(jìn)水平,將用于Office套件

  模型預(yù)訓(xùn)練完成后,他們也在WikiText-103(越低越好)和LAMBADA(越高越好)數(shù)據(jù)集上,與英偉達(dá)Megatron-LM和OpenAI的GPT-2完整版進(jìn)行了比較,都達(dá)到了最新的水平。

  不僅僅是數(shù)據(jù)集上,微軟也公布了T-NLG在具體任務(wù)中的表現(xiàn)。

  首先是回答問題。其不僅能夠使用一個完成的句子回答,還能夠在不需要上下文的情況下回答問題,比如下面的這個問題并沒有給出更多的信息。在這些情況下,T-NLG能基于預(yù)訓(xùn)練中獲得的知識來生成一個答案。

  其次是生成摘要。微軟表示,為了使 T-NLG 盡可能多用于總結(jié)不同類型的文本,他們幾乎在所有公開可用的摘要數(shù)據(jù)集上以多任務(wù)的方式完善了T-NLG模型,總計約400萬個訓(xùn)練實(shí)例。

  他們與另一個最新的基于Transformer的語言模型PEGASUS,以及先前最先進(jìn)的模型進(jìn)行了比較,ROUGE評分結(jié)果如下,基本上實(shí)現(xiàn)了超越。

實(shí)際效果怎樣?

  為了秀這個模型的能力,微軟用T-NLG模型,給介紹T-NLG的博客文章寫了一份摘要:

  Turing Natural Language Generation (T-NLG) is a 17 billion parameter language model by Microsoft that outperforms the state of the art on many downstream NLP tasks. We present a demo of the model, including its freeform generation, question answering, and summarization capabilities, to academics for feedback and research purposes. <|endoftext|>

  正如摘要中所說的,微軟的T-NLG目前并不對外公開。

  對于T-NLG的應(yīng)用潛力,微軟說它為其和客戶提供了新的機(jī)會。

  除了通過總結(jié)文檔和電子郵件來節(jié)省用戶時間,還可以通過向作者提供寫作幫助和回答讀者可能提出的關(guān)于文檔的問題,來增強(qiáng)使用 Microsoft Office 套件的體驗(yàn),打造更強(qiáng)的聊天機(jī)器人等等。

  微軟表示,他們對新的可能性感到興奮,將繼續(xù)提高語言模型的質(zhì)量。

(轉(zhuǎn)載)

標(biāo)簽:微軟 AI模型 我要反饋 
泰科電子ECK、ECP系列高壓直流接觸器白皮書下載
億萬克
專題報道
2025世界人工智能大會
2025世界人工智能大會

2025世界人工智能大會暨人工智能全球治理高級別會議(簡稱“WAIC 2025”)將于7月在上海世博中心和世博展覽館舉行... [更多]

加入全球AI浪潮第一現(xiàn)場
加入全球AI浪潮第一現(xiàn)場

2025世界人工智能大會暨人工智能全球治理高級別會議將于7月26日至28日在上海世博中心和世博展覽館舉辦,本屆大會主題為... [更多]

聚力同行 · 新智“碳”索
聚力同行 · 新智“碳”索

“新華社-智能·零碳”項(xiàng)目策劃以“聚力同行·新智‘碳’索”為主題的新能源專題,主要圍繞光伏、儲能、鋰電、氫能、風(fēng)能五大新... [更多]