“燒錢”的大模型，如何邁過存儲這道坎？

2023-08-31 12:30:13 來源: Alter聊科技

幾乎每一個行業(yè)都在討論大模型，每一個行業(yè)巨頭都在訓練大模型，人工智能已然進入了大模型主導的時代。

想要占領大模型應用的高地，數據和算力可以說是不可或缺的基石。和算力相關的討論已經有很多，以至于英偉達的市值在2023年翻了兩番。同樣不應小覷的還有數據，除了數據量的爆炸性增長，數據的讀取、寫入、傳輸等基礎性能，開始遇到越來越多的新挑戰(zhàn)。

01 “榨干”算力必須邁過的一道坎

在許多人的認知里，訓練大模型是一門燒錢的生意。坊間傳聞，GPT-4的訓練成本高達10億美元，想要讓大模型釋放出應有的“魔法”，“涌現”出對答如流的能力，需要一只“獨角獸”的前期投入。

(資料圖)

再具體一些的話，大模型訓練的成本構成中，硬件投資包括算力、運力、存力，其中算力相關硬件投資占比80%。畢竟一顆80GB的A100芯片在國外的定價就高達萬美元左右，一個千億級參數的大模型，往往需要上萬顆A100的算力?？稍诂F實的訓練過程中，GPU的平均利用率卻不足50%，制約因素包括大模型參數需要頻繁調優(yōu)、訓練中斷后恢復周期長、數據加載速度慢等等。

不客氣的說，算力資源閑置的每一分鐘都是在燃燒經費，倘若可以進一步提高算力資源的利用率，等于間接降低了大模型的訓練成本。要提到算力利用率，必須要邁過的一道坎就是數據讀寫性能的挑戰(zhàn)。

大模型在訓練過程中，需要先讀取一塊數據，在數據讀取完成后進行訓練，訓練過程中會讀取下一塊數據。如果訓練結束時下一塊數據沒有讀取完成，就會造成一定的等待時間。再加上網絡波動、算力故障導致的訓練中斷，即Checkpoint時刻，重啟訓練會退回到前一個節(jié)點，同樣會產生算力空置的等待時間。

不那么樂觀的是，目前的訓練數據通常以圖片、文檔等小文件的形式存在，意味著在訓練過程中需要頻繁地讀取和寫入數據，并且需要支持快速地隨機訪問。何況大模型訓練的原始數據集動輒幾十個TB，當前文件系統(tǒng)的小文件加載速度不足100MB/s，無形中限制了整個系統(tǒng)的運轉效率。

根據第一性原理，大模型訓練時算力利用率低的誘因是海量的小文件，傳統(tǒng)存儲系統(tǒng)無法高效地處理這些數據，導致加載速度緩慢。大模型訓練的效率要達到極致，減少不必要的浪費，必須在數據上下功夫，準確地說，必須要在數據存儲性能上進行創(chuàng)新。

而華為在高性能NAS存儲上深耕多年，其OceanStor Dorado全閃存NAS擁有業(yè)界領先性能，尤其在海量小文件場景，性能做到了領先業(yè)界30%。

在openEuler開發(fā)者大會2023上，華為還攜手openEuler發(fā)布了NFS+協議，矛頭直指客戶端訪問OceanStor Dorado NAS的性能，試圖通過引入外置高性能并行文件存儲系統(tǒng)，縮短大模型訓練中的等待時間，盡可能把算力的價值“榨”出來。

02 華為NFS+協議帶來的“屠龍術”

揭開華為NFS+協議的“面紗”前，似乎有必要回顧下NFS協議的歷史。作為Sun公司在1984年開發(fā)的分布式文件系統(tǒng)協議，NFS已經存在了近40年，廣泛應用于金融、EDA仿真、話單、票據影像等行業(yè)。

只是在時間的推移下，“老將”NFS逐漸暴露出了一些短板。比如傳統(tǒng)NFS單個掛載點僅指定一個服務端IP地址，在網口故障或者鏈路故障場景下，可能出現掛載點無法訪問的情況；一端故障時IP無法感知時，僅依靠應用層手動掛載文件系統(tǒng)，雙活鏈路無法自動切換；單個掛載點性能受限于單個物理鏈路性能，重要業(yè)務存在性能瓶頸。

大約在兩年前，華為開始了NFS+協議的研發(fā)，著力解決傳統(tǒng)NFS的不足，最終交出了一份“高可靠高可用”的答卷：

一是可靠性。打個比方的話，傳統(tǒng)NFS的客戶端和服務端之間僅有一條路，NFS+協議允許單個NFS掛載點使用多個IP進行訪問，等于在客戶端和服務端之間修了多條路，巧妙解決了傳統(tǒng)NFS被詬病的“可靠性”問題。

二是多鏈路聚合。客戶端和服務端之間僅有一條路時，一旦出現事故就會導致交通擁堵；而NFS+協議在選路算法的加持下，實現了單個掛載點在多條鏈路上均衡下發(fā)IO，確保服務端和客戶端的數據傳輸暢通無阻。

三是緩存加速。大模型訓練時，需要將元數據緩存到計算節(jié)點。傳統(tǒng)NFS相對保守，緩存過期的時間比較短。而NFS+協議改善了緩存大小和失效機制，可以讓元數據更多、更長時間保存在主機側，以滿足大模型訓練的高時延需求。

四是數據視圖同步。正如前面所提到的，大模型訓練需要快速的隨機訪問，NFS+協議采用了數據視圖同步的方式，大模型訓練需要讀取某個節(jié)點的數據時，直接與對應節(jié)點高效地放置和訪問數據，找到最優(yōu)的訪問鏈路。

做一個總結的話，NFS+協議采用了高性能并行文件存儲系統(tǒng)的設計，針對海量小文件場景進行了特殊優(yōu)化，比如多鏈路聚合、緩存加速、數據視圖同步等，均在提升海量小文件的讀寫性能，最終在大模型訓練過程中實現“讀寫快、少等待”，減少算力的空置時間。

一組Client測試數據印證了NFS+協議的路線正確：相較于傳統(tǒng)的文件存儲，訓練樣本小IO隨機讀性能提升了4倍以上，CheckPoint大文件切片+多路徑傳輸提升了4-6倍的帶寬能力，足以滿足大模型訓練的苛刻要求。

03 數據存儲進入到“大模型時代”

某種程度上說，大模型訓練催生的數據存儲性能要求，不過是文件存儲系統(tǒng)加速演變的一個側面。

直到今天，文件存儲的需求仍在不斷更新，文件系統(tǒng)的創(chuàng)新也在持續(xù)發(fā)生，就像大模型訓練需求所折射出的演進方向。

要知道，英偉達的一個訓練節(jié)點，每秒就可以處理2萬張圖片，每個節(jié)點需要8萬IOPS，大模型典型配置有是千億參數千卡，單位時間內對海量小文件的讀寫頻率要求極高。

這恐怕也是華為和openEuler聯合發(fā)布NFS+協議的原因，市場對于文件系統(tǒng)的創(chuàng)新需求驟然加快，勢必會引發(fā)頭部科技企業(yè)圍繞數據存儲的“軍備競賽”，華為無疑是這場競賽中沖在最前面的玩家之一。

但對文件存儲系統(tǒng)的市場格局稍作了解的話，華為自研NFS+協議，還隱藏著另一重深意。

一方面，Lustre、GFPS、BeeGFS等并行系統(tǒng)的MDS方案，將元數據和文件數據訪問分開，仍存在性能和可靠性的瓶頸；而NFS+協議的元數據不再聚焦于某個性能節(jié)點，而是分配到集群的所有節(jié)點里面，可以在主機側實現多連接，消除了大模型語境下高頻處理小文件的底層瓶頸。

另一方面，站在大多數用戶的角度上，NFS+協議可以更好的兼容已有的使用習慣，原先建立在傳統(tǒng)NFS上的運維機制和知識體系不作廢，文件系統(tǒng)的切換過程更平緩，不用修改操作系統(tǒng)數據面，即可讓NAS存儲訪問性能提升6倍、可靠性提升3倍，以極低的成本擁抱大模型訓推浪潮。

無可否認的是，大模型正在從前臺的“火熱”，轉向整個產業(yè)鏈條的協同驅動，數據存儲正是其中的關鍵一環(huán)。

在這樣的趨勢下，行業(yè)注意力將從“煉?！币徊讲睫D向更高效、更快速的“煉?！?，海量小文件的采集和加載性能、算力資源的利用率等指標，將被越來越多的企業(yè)所關注，勢必會掀起一場化繁為簡的文件存儲革命。

關鍵詞：

“燒錢”的大模型，如何邁過存儲這道坎？

01 “榨干”算力必須邁過的一道坎

02 華為NFS+協議帶來的“屠龍術”

03 數據存儲進入到“大模型時代”

您可能也感興趣:

今日熱點

8月29日三聯鍛造漲停分析：新能源車零部件，汽車零部件，新能源汽車...

p4550凱撒（p4550!!!!!!!）

加拿大一原住民寄宿學校舊址新發(fā)現93個疑似無標記墓地

更多

更多

排行

最近更新

今日要聞

“燒錢”的大模型，如何邁過存儲這道坎？

01 “榨干”算力必須邁過的一道坎

02 華為NFS+協議帶來的“屠龍術”

03 數據存儲進入到“大模型時代”

您可能也感興趣:

今日熱點

8月29日三聯鍛造漲停分析：新能源車零部件，汽車零部件，新能源汽車...

p4550凱撒（p4550!!!!!!!）

加拿大一原住民寄宿學校舊址新發(fā)現93個疑似無標記墓地

為您推薦

鄉(xiāng)村振興板塊8月30日跌0.75%，廈門象嶼領跌，主力資金凈流出3.93億元

下雨了抒發(fā)心情的說說

怎么算無期徒刑假釋考驗期

酒駕應該如何處,法律是如何規(guī)定的

更多

更多

排行

最近更新

今日要聞

“燒錢”的大模型，如何邁過存儲這道坎？

8月29日三聯鍛造漲停分析：新能源車零部件，汽車零部件，新能源汽車...

鄉(xiāng)村振興板塊8月30日跌0.75%，廈門象嶼領跌，主力資金凈流出3.93億元