據(jù)微軟亞洲研究院發(fā)布,作為目前唯一被證明能夠?qū)⑸疃葘W(xué)模型擴(kuò)展到萬億以上參數(shù)的方法,MoE 能讓模型學(xué)更多信息。
并為計(jì)算機(jī)視覺、語音識別、自然語言處理和機(jī)器翻譯系統(tǒng)等提供支持。
日前微軟亞洲研究院發(fā)布了一個高能 MoE 庫 ——Tutel,并在 8x 80GB NVIDIA A100 和 8x 200Gbps 的 InfiniBand 網(wǎng)絡(luò)的 Azure NDm A100 v4 節(jié)點(diǎn)上進(jìn)行了實(shí)驗(yàn)。
讓我們來看一看,這個用于促進(jìn)大規(guī)模 DNN 模型開發(fā)的高能 MoE 庫有哪些優(yōu)勢?其表現(xiàn)又如何?
混合專家(Mixture-of-Experts,簡稱 MoE)是一種深度學(xué)模型架構(gòu),其計(jì)算成本與參數(shù)的數(shù)量呈次線關(guān)系,因此更容易擴(kuò)展。
MoE 是目前唯一被證明能夠?qū)⑸疃葘W(xué)模型擴(kuò)展到萬億以上參數(shù)的方法,它能讓模型學(xué)更多信息。
并為計(jì)算機(jī)視覺、語音識別、自然語言處理和機(jī)器翻譯系統(tǒng)等提供支持,從而以全新的方式為人類社會提供幫助。
微軟亞洲研究院發(fā)布了一個用于促進(jìn)大規(guī)模 DNN 模型開發(fā)的高能 MoE 庫 ——Tutel,并針對已普遍使用的新 Azure NDm A100 v4 系列進(jìn)行了高度優(yōu)化。