當(dāng)前位置：首頁 > 新聞資訊 > 機(jī)器人開發(fā) > 讓大規(guī)模深度學(xué)習(xí)訓(xùn)練線性加速、性能無損，基于BMUF的Adam優(yōu)化器并行化實(shí)踐

讓大規(guī)模深度學(xué)習(xí)訓(xùn)練線性加速、性能無損，基于BMUF的Adam優(yōu)化器并行化實(shí)踐

來源：AI科技大本營編輯：創(chuàng)澤時(shí)間：2020/5/29 主題：其他 [加盟]

作為一種自適應(yīng)步長隨機(jī)梯度優(yōu)化器，自2014年提出以來，Adam 算法便以其卓越的性能風(fēng)靡深度學(xué)習(xí)領(lǐng)域。為了提高應(yīng)用于訓(xùn)練大規(guī)模任務(wù)時(shí)的效率，該算法通常與同步隨機(jī)梯度（Synchronous Stochastic Gradient，SSG）技術(shù)相結(jié)合，采用數(shù)據(jù)并行（data parallel）的方式在多臺(tái)機(jī)器上執(zhí)行。在本文中，我們稱這一方法為 Sync-Adam。

本質(zhì)上來講，Sync-Adam 通過將一個(gè) minibatch 內(nèi)樣本的梯度計(jì)算分布到多臺(tái)機(jī)器上達(dá)到加速目的，因此通信十分頻繁，并且隨著并行機(jī)器數(shù)目增多，minibatch 內(nèi)樣本的數(shù)量也成比例增加，這種情況下，通常會(huì)損害最終得到的模型的性能。為解決基于 SSG 的 Adam 算法可擴(kuò)展性差的難題，我們把目光投向了逐區(qū)塊模型更新濾波（Blockwise Model-Update Filtering, BMUF）框架。

BMUF 是一種通信高效的通用分布式優(yōu)化算法框架，于2016年由微軟亞洲研究院語音組的研究人員提出并發(fā)表。該算法在多個(gè)并行工作機(jī)之間周期性同步模型更新信息，并與歷史更新信息相結(jié)合提升全局模型性能。與基于 SSG 的算法相比，BMUF 具有通信頻率較低、訓(xùn)練幾乎線性加速、模型性能基本無損的特點(diǎn)。這一算法已經(jīng)在工業(yè)界廣泛用于大規(guī)模深度學(xué)習(xí)模型的訓(xùn)練。

本文中，我們采用 BMUF 框架并行化 Adam 算法，并在微軟大規(guī)模 OCR 和語音產(chǎn)品數(shù)據(jù)集上進(jìn)行了測(cè)試。實(shí)驗(yàn)結(jié)果表明，在大規(guī)模 OCR 任務(wù)中，BMUF-Adam 在多達(dá)64機(jī)的并行訓(xùn)練中幾乎實(shí)現(xiàn)了線性加速的同時(shí)，基本沒有模型性能損失，在32機(jī)大詞匯量連續(xù)語音識(shí)別任務(wù)中也獲得了類似效果。

接下來我們探討如何采用 BMUF 框架賦能 Adam 算法，在大規(guī)模深度學(xué)習(xí)任務(wù)上成就不凡。

在基于 BMUF 的訓(xùn)練框架下，假設(shè)我們總共有 N 個(gè)并行工作機(jī)，一個(gè)工作機(jī)可以是一塊或多塊 GPU 卡，也可以是一個(gè)計(jì)算節(jié)點(diǎn)。給定一個(gè)包含 Nτ 個(gè) minibatch 的訓(xùn)練數(shù)據(jù)子集，首先我們將這些數(shù)據(jù)均勻分布到 N 個(gè)并行工作機(jī)，每臺(tái)工作機(jī)獲得 τ 個(gè) minibatch。從一個(gè)共同的初始模型 θ_(t-τ)^((init)) 開始，N 個(gè)工作機(jī)獨(dú)立更新各自的局部模型 τ 步，得到 {θ_(t,1),θ_(t,2),…,θ_(t,N)}，對(duì)局部模型取平均得到 θ ̅_t。這一過程稱之為數(shù)據(jù)塊內(nèi)并行優(yōu)化（Intra-Block Parallel Optimization, IBPO）。與直接將 θ ̅_t 作為全局模型不同，BMUF 技術(shù)將歷史更新信息與當(dāng)前更新信息結(jié)合，得到全局模型：

91嫩草精品在线,久草中文网,国产亚洲情侣一区二区无,亞洲av美女二區免費在線播放,天天干网,亚洲第一黄网,亚洲第一黄网

讓大規(guī)模深度學(xué)習(xí)訓(xùn)練線性加速、性能無損，基于BMUF的Adam優(yōu)化器并行化實(shí)踐

基于深度學(xué)習(xí)和傳統(tǒng)算法的人體姿態(tài)估計(jì)，技術(shù)細(xì)節(jié)都講清楚了

傳統(tǒng)目標(biāo)檢測(cè)算法對(duì)比

基于深度學(xué)習(xí)目標(biāo)檢測(cè)模型優(yōu)缺點(diǎn)對(duì)比

如何更高效地壓縮時(shí)序數(shù)據(jù)？基于深度強(qiáng)化學(xué)習(xí)的探索

滴滴機(jī)器學(xué)習(xí)平臺(tái)調(diào)度系統(tǒng)的演進(jìn)與K8s二次開發(fā)

人工智能和機(jī)器學(xué)習(xí)之間的差異及其重要性

面向動(dòng)態(tài)記憶和學(xué)習(xí)功能的神經(jīng)電晶體可塑性研究

CVPOS自助收銀的挑戰(zhàn)以及商品識(shí)別算法工程落地方法和經(jīng)驗(yàn)

內(nèi)容流量管理的關(guān)鍵技術(shù)：多任務(wù)保量優(yōu)化算法實(shí)踐

百變應(yīng)用場(chǎng)景下，優(yōu)酷基于圖執(zhí)行引擎的算法服務(wù)框架筑造之路

餓了么推薦算法的演進(jìn)及在線學(xué)習(xí)實(shí)踐

拯救渣畫質(zhì)，馬賽克圖秒變高清，杜克大學(xué)提出AI新算法

服務(wù)機(jī)器人(迎賓、講解、導(dǎo)診...)

智能消毒機(jī)器人

機(jī)器人開發(fā)平臺(tái)

讓大規(guī)模深度學(xué)習(xí)訓(xùn)練線性加速、性能無損，基于BMUF的Adam優(yōu)化器并行化實(shí)踐

服務(wù)機(jī)器人(迎賓、講解、導(dǎo)診...)

智能消毒機(jī)器人

機(jī)器人開發(fā)平臺(tái)

讓大規(guī)模深度學(xué)習(xí)訓(xùn)練線性加速、性能無損，基于BMUF的Adam優(yōu)化器并行化實(shí)踐

服務(wù)機(jī)器人(迎賓、講解、導(dǎo)診...)