微軟研究人(people)員推出(out)了(Got it)名爲(for)ZeRO++的(of)新系統,用(use)于(At)優化訓練大(big)型AI模型,以(by)應對高數據傳輸開銷和(and)有限帶寬的(of)難題。
ZeRO++ 建立在(exist)現有的(of) ZeRO 優化的(of)基礎上(superior),并提供增強的(of)通信策略,以(by)提高訓練效率,減少訓練時(hour)間和(and)成本。
像Turing-NLG、ChatGPT和(and)GPT-4這(this)樣的(of)大(big)型模型的(of)訓練需要(want)跨多個(indivual)GPU設備占用(use)大(big)量内存和(and)計算資源。DeepSpeed開發的(of)ZeRO++引入了(Got it)通信優化策略,以(by)克服在(exist)每個(indivual)GPU上(superior)批量大(big)小較小時(hour)或在(exist)低帶寬集群上(superior)進行訓練時(hour)ZeRO的(of)限制。
ZeRO優化系列包括ZeRO-Inference,它使用(use)GPU的(of)集體内存和(and)計算能力,将模型狀态分割在(exist)多個(indivual)GPU之間。然而,在(exist)訓練過程中,ZeRO可能會産生(born)較高的(of)通信開銷。ZeRO++通過整合三組通信優化來(Come)解決這(this)個(indivual)問題:量化權重通信(qwZ)、分層權重分割(hpZ)和(and)量化梯度通信(qgZ)。
爲(for)了(Got it)減少參數通信量,ZeRO++對權重進行量化,利用(use)基于(At)塊的(of)量化方法來(Come)保持訓練精度。這(this)種優化的(of)量化過程比基本量化更快更準确。爲(for)了(Got it)在(exist)反向傳播過程中盡量減少通信開銷,ZeRO++通過在(exist)每台機器上(superior)保持完整的(of)模型副本,以(by) GPU 内存換取通信。梯度通信方面,ZeRO++引入了(Got it)一(one)種新的(of)量化梯度通信範式 qgZ,可以(by)減少跨節點的(of)流量和(and)延遲。
這(this)些通信優化大(big)大(big)減少了(Got it)通信量。與ZeRO相比,ZeRO++實現了(Got it)減少高達4倍的(of)通信量,提高了(Got it)訓練吞吐量和(and)效率。當在(exist)每個(indivual)GPU上(superior)使用(use)小批量大(big)小時(hour),在(exist)高帶寬集群中,ZeRO++相比ZeRO-3的(of)吞吐量提高了(Got it)28%至36%。在(exist)低帶寬集群中,與ZeRO-3相比,ZeRO++實現了(Got it)平均2倍的(of)加速,使得大(big)模型訓練在(exist)更多種類的(of)集群上(superior)更爲(for)可行。
ZeRO++不(No)僅限于(At)訓練場景,還可應用(use)于(At)對話模型中使用(use)的(of)人(people)類反饋強化學習(RLHF)訓練。通過将ZeRO++與DeepSpeed-Chat集成,RLHF訓練可以(by)獲得更好的(of)生(born)成和(and)訓練吞吐量,生(born)成吞吐量提高了(Got it)高達2.25倍,訓練吞吐量提高了(Got it)1.26倍,超過了(Got it)ZeRO。
DeepSpeed已經發布了(Got it)ZeRO++,以(by)使大(big)型模型的(of)訓練在(exist)AI社區更加高效和(and)可訪問。該系統旨在(exist)加快訓練速度,減少通信開銷,并實現更大(big)的(of)批量大(big)小,從而節省時(hour)間和(and)資源。研究人(people)員和(and)實踐者可以(by)利用(use)ZeRO++更有效地(land)訓練像ChatGPT這(this)樣的(of)模型,并在(exist)AI領域探索新的(of)可能性。
Copyright © 2022 陝西邦德偉業電子商務有限公司 All Rights Reserved. 京ICP證000000号
技術支持:微動雲