一文解析「小米大模型」

2023-08-26 12:19:33 來源: 小米公司

站在科技變革的交匯點(diǎn)，以智能為核心的技術(shù)正掀起新一輪的科技浪潮。浪潮之下，大模型技術(shù)讓AI發(fā)展看到了新的光芒，小米便是浪潮中的逐光者。

8月14日晚，雷軍在年度演講中宣布小米科技戰(zhàn)略升級(jí)：深耕底層技術(shù)、長(zhǎng)期持續(xù)投入，軟硬深度融合，AI全面賦能，總結(jié)為公式（軟件×硬件）??。作為首家把AI放在次方地位的科技公司，小米將包括大模型在內(nèi)的AI技術(shù)看作一種生產(chǎn)力，將AI真正鑲嵌在業(yè)務(wù)與產(chǎn)品中，為生產(chǎn)、生活賦能。

本次演講中，小米自研大模型正式亮相，雷軍宣布小米大模型技術(shù)的主力突破方向?yàn)椤拜p量化、本地部署”，讓用戶在享受安心的數(shù)據(jù)保護(hù)的同時(shí)，擁有大模型帶來的先進(jìn)生產(chǎn)力。值得一提的是，小米自研大模型在近日的權(quán)威中文評(píng)測(cè)榜單C-EVAL和CMMLU中，取得同參數(shù)量級(jí)第一的好成績(jī)；小米自研手機(jī)端側(cè)大模型初步跑通，部分場(chǎng)景效果媲美云端。

(相關(guān)資料圖)

那什么是大模型？小米為什么要做大模型？小米大模型有哪些獨(dú)特閃光點(diǎn)？今天，我們來告訴你答案。

解碼大模型

ChatGPT出現(xiàn)以來，大模型優(yōu)異的理解能力和生成能力令人驚艷，關(guān)于其用途的探索也越來越多。目前看來，很多傳統(tǒng)的自然語言處理任務(wù)都可以用它來完成，比如搜索、翻譯、問答、摘要、信息抽取和分類以及寫作等。在日常生活中，所有基于對(duì)話的服務(wù)，如客服、教育、咨詢、導(dǎo)游等，以ChatGPT為代表的大模型都有一定的用武之地。

大模型指參數(shù)數(shù)量巨大、層次結(jié)構(gòu)復(fù)雜的機(jī)器學(xué)習(xí)模型。這些模型通常具有十億到千億甚至萬億個(gè)參數(shù)，通過大量的數(shù)據(jù)進(jìn)行訓(xùn)練，提供更高的理解和生成能力。

在小米看來，大模型不僅是指模型參數(shù)多、尺寸大，更重要的是代表了一種新的訓(xùn)練范式。我們將其總結(jié)為：大數(shù)據(jù)、大任務(wù)、大參數(shù)。

- 大數(shù)據(jù)：指需要用海量的數(shù)據(jù)去訓(xùn)練，讓模型從中自動(dòng)挖掘出所需的信息。通常采用自監(jiān)督或者無監(jiān)督學(xué)習(xí)方式，無需人工標(biāo)注就可以提煉規(guī)律、學(xué)習(xí)知識(shí)，從而提升模型的眼界。

- 大任務(wù)：指學(xué)習(xí)的目標(biāo)足夠復(fù)雜、覆蓋面廣。這樣才能“強(qiáng)迫”模型按照模塊化、高類聚、低耦合的方式組織知識(shí)點(diǎn)，實(shí)現(xiàn)舉一反三的泛化能力。

- 大參數(shù)：指模型的知識(shí)容量。大模型的參數(shù)規(guī)模越大，模型的表達(dá)能力和學(xué)習(xí)能力也就越強(qiáng)。

在這個(gè)范式中，我們認(rèn)為大數(shù)據(jù)和大任務(wù)是不可或缺的。如果沒有大數(shù)據(jù)，模型不可能學(xué)到豐富的常識(shí)；如果沒有大任務(wù)，知識(shí)點(diǎn)和技能點(diǎn)不可能在模型中有機(jī)高效地組織起來。

布局人工智能

全力突破大模型

▍以AI為基石，沉淀技術(shù)積累

小米基于對(duì)產(chǎn)業(yè)和時(shí)代的思考與理解，選擇對(duì)人類文明有長(zhǎng)期價(jià)值的戰(zhàn)略方向，并堅(jiān)持長(zhǎng)期持續(xù)的投入。我們已經(jīng)布局了12個(gè)技術(shù)領(lǐng)域，99個(gè)細(xì)分賽道，未來五年（2022-2026）我們至少會(huì)投1000億以上的研發(fā)經(jīng)費(fèi)。由此構(gòu)建核心競(jìng)爭(zhēng)力、牢筑護(hù)城河，對(duì)人類社會(huì)未來的進(jìn)步發(fā)展注入澎湃力量。

AI是未來的生產(chǎn)力，也是小米長(zhǎng)期持續(xù)投入的底層賽道。小米很早就對(duì)人工智能進(jìn)行布局，2016年小米AI實(shí)驗(yàn)室成立，并組建了第一支視覺AI團(tuán)隊(duì)，今年4月成立專職大模型團(tuán)隊(duì)，歷經(jīng)7年6次擴(kuò)展，小米人工智能團(tuán)隊(duì)已經(jīng)有3000多人，逐步建立了視覺、語音、聲學(xué)、知識(shí)圖譜、NLP、機(jī)器學(xué)習(xí)、多模態(tài)等AI技術(shù)能力。

成為浪潮之上的角逐者，必須有對(duì)技術(shù)的沉淀和積累。作為小米AI技術(shù)的“試驗(yàn)田”和“彈藥庫”，小米AI實(shí)驗(yàn)室會(huì)研發(fā)中長(zhǎng)期的前沿技術(shù)，圍繞小米業(yè)務(wù)做儲(chǔ)備，在集團(tuán)需要的時(shí)候輸出“彈藥”。小米對(duì)AI的深刻認(rèn)識(shí)與掌握的技術(shù)能力，也有效地賦能了手機(jī)、機(jī)器人等各個(gè)業(yè)務(wù)板塊。

大模型是未來科技的發(fā)展趨勢(shì)，更是下一個(gè)人工智能的高地。2021年開始，小米就對(duì)大模型的方向特別關(guān)注，并開展了對(duì)話大模型的預(yù)研工作。在閑聊對(duì)話場(chǎng)景下，依托于月活超過1.15億的智能語音助理小愛同學(xué)，小米研發(fā)了參數(shù)規(guī)模為28億的對(duì)話模型，達(dá)到了當(dāng)時(shí)同等參數(shù)規(guī)模下業(yè)界的最佳效果。這為小米積累了多卡分布式訓(xùn)練的經(jīng)驗(yàn)，為后續(xù)開展大規(guī)模語言模型訓(xùn)練奠定了基礎(chǔ)。

▍小米大模型：輕量化、本地部署

通用大模型需要海量數(shù)據(jù)，和巨大的算力，使用成本也很高。面對(duì)這種情況，小米如何突圍？

小米的機(jī)會(huì)在設(shè)備端。截至2023年一季度，小米AIoT平臺(tái)已連接設(shè)備（不包括智能手機(jī)、平板及筆記本電腦）達(dá)6.18億臺(tái)，是全球規(guī)模領(lǐng)先的消費(fèi)級(jí)物聯(lián)網(wǎng)平臺(tái)。設(shè)備多樣，使用場(chǎng)景也各不相同，一個(gè)大模型難以兼顧。而我們判斷在大多數(shù)場(chǎng)景和垂域，可能并不需要那么大的模型。在一個(gè)較小的基座模型上，使用業(yè)務(wù)數(shù)據(jù)進(jìn)行深入定制，就應(yīng)該能達(dá)到用戶的需求。更進(jìn)一步，如果把一部分大模型能力下放到端側(cè)，不僅能更好地保護(hù)用戶隱私、而且有機(jī)會(huì)在本地實(shí)現(xiàn)千人千面的個(gè)性化定制。

不盲目追求模型參數(shù)規(guī)模，而是綜合考慮效果、效率與使用成本的均衡，軟硬結(jié)合，生態(tài)連結(jié)，這是大模型技術(shù)與小米生態(tài)結(jié)合的最優(yōu)方案，也是小米為用戶提供獨(dú)特體驗(yàn)的根本保證。因此，“輕量化、本地部署”是小米大模型技術(shù)的主力突破方向。

目前，我們自研的13億參數(shù)的端側(cè)模型已經(jīng)在手機(jī)端跑通，部分場(chǎng)景效果媲美60億模型在云端的運(yùn)算結(jié)果。與早些時(shí)候市場(chǎng)上放出的手機(jī)端大模型的方案相比，小米會(huì)調(diào)整模型結(jié)構(gòu)和參數(shù)大小，適配各種芯片在內(nèi)存和算力上的特點(diǎn)，達(dá)到功耗、推理速度和生成效果的最佳平衡。

布局人工智能

全力突破大模型

▍自有數(shù)據(jù)更懂小米

數(shù)據(jù)上，我們自己挖掘整理的訓(xùn)練數(shù)據(jù)占比達(dá)到了80%，其中小米自有的產(chǎn)品和業(yè)務(wù)數(shù)據(jù)量達(dá)到3TB。因此我們的大模型最懂小米的產(chǎn)品，最懂小米的業(yè)務(wù)。

▍效率和效果的最佳平衡結(jié)構(gòu)上，我們根據(jù)對(duì)Transformer結(jié)構(gòu)的理解，融合了自身的實(shí)踐經(jīng)驗(yàn)進(jìn)行改良；并且充分考慮設(shè)備端芯片的特色要求，合理設(shè)置模型的寬度和深度，以達(dá)到效率和效果的最佳均衡。

▍更多策略更少浪費(fèi)

訓(xùn)練策略上，采用小米提出的ScaledAdam優(yōu)化器和Eden學(xué)習(xí)率調(diào)度器，顯著提升收斂速度的同時(shí)減少了優(yōu)化器中顯存的浪費(fèi)。由于模型的知識(shí)容量有限，需要更精巧地安排訓(xùn)練數(shù)據(jù)的順序，使得模型盡可能多地掌握知識(shí)點(diǎn)和技能，減少參數(shù)的浪費(fèi)，以此實(shí)現(xiàn)“輕量化”。

▍為用戶隱私安全保駕護(hù)航模型部署到端側(cè)后，信息不用上傳到云端，所有計(jì)算都在本地進(jìn)行，可以從根本上保證用戶隱私不被泄露。即使在端云結(jié)合的服務(wù)框架下，隱私信息會(huì)存儲(chǔ)在端側(cè)，涉及它們的計(jì)算也盡可能在端側(cè)完成。即使偶爾需要使用云端的能力，信息也會(huì)經(jīng)過處理和加密。

仰望技術(shù)星空

腳踏體驗(yàn)實(shí)地

截至2023年8月10日，小米自研的大規(guī)模預(yù)訓(xùn)練語言模型MiLM-6B，參數(shù)規(guī)模為64億，在權(quán)威中文評(píng)測(cè)榜單C-EVAL和CMMLU中位列同等參數(shù)規(guī)模大模型第一。

在C-Eval評(píng)估中，MiLM-6B 的平均分為60.2，總榜單排名第10、同參數(shù)量級(jí)排名第1。

“C-Eval”是由上海交通大學(xué)、清華大學(xué)、愛丁堡大學(xué)共同構(gòu)建的一個(gè)針對(duì)基礎(chǔ)模型的綜合中文評(píng)估套件。它由 13948 道多項(xiàng)選擇題組成，涵蓋 52 個(gè)不同學(xué)科和四個(gè)難度級(jí)別，覆蓋人文、社科、理工，及其他專業(yè)四個(gè)大方向，用以幫助中文社區(qū)研發(fā)大模型。

在CMMLU評(píng)估中，MiLM-6B在Five-shot和Zero-shot 測(cè)試中的平均分分別為57.17和60.37，均位列中文向模型第1。

“CMMLU”是一個(gè)綜合性的中文大模型評(píng)估基準(zhǔn)，涵蓋了從基礎(chǔ)學(xué)科到高級(jí)專業(yè)水平的67個(gè)主題，涉及自然科學(xué)、社會(huì)科學(xué)、人文、以及常識(shí)等，專門用于評(píng)估語言模型在中文語境下的知識(shí)和推理能力。

通過打榜，驗(yàn)證了我們對(duì)特定垂域進(jìn)行定向增強(qiáng)的技術(shù)能夠達(dá)到怎樣的效果，這也是用輕量化模型進(jìn)行業(yè)務(wù)定制的必備能力。雖然小米大模型取得了優(yōu)異的成績(jī)，但我們不會(huì)把榜單排名與用戶體驗(yàn)畫上等號(hào)。好成績(jī)的背后，更重要的還是打磨技術(shù)、沉淀方法論，將它們運(yùn)用到產(chǎn)品，提升用戶體驗(yàn)才是我們的終極目標(biāo)。

—

科技應(yīng)著眼于解決問題，以需求與應(yīng)用為落點(diǎn)。小米大模型采用“輕量化、本地部署”的方案，能夠更好地解決多場(chǎng)景、個(gè)性化的用戶需求。一方面，大模型本地運(yùn)行無需擔(dān)心“弱網(wǎng)、無網(wǎng)”情況，且響應(yīng)速度快，使用穩(wěn)定；另一方面，在提供更加個(gè)性化服務(wù)的同時(shí)，也能夠更好地保護(hù)用戶隱私，讓技術(shù)真正改善用戶體驗(yàn)，讓成績(jī)真正落地有效。

未來，小米將擴(kuò)大模型規(guī)模，不斷探索端云結(jié)合、多模態(tài)融合的大模型解決方案，與小愛同學(xué)、手機(jī)操作系統(tǒng)MIUI、IoT、機(jī)器人、汽車等業(yè)務(wù)結(jié)合，提升小愛同學(xué)的理解能力與智能家居指令的識(shí)別能力等，給予用戶更加個(gè)性化的智能體驗(yàn)，讓全球每個(gè)人都能享受大模型帶來的美好生活。

關(guān)鍵詞：

一文解析「小米大模型」

您可能也感興趣:

今日熱點(diǎn)

河北財(cái)經(jīng)職業(yè)學(xué)院（關(guān)于河北財(cái)經(jīng)職業(yè)學(xué)院的基本詳情介紹）

【JOJO同人】行走于陰影之下的我們（一）

天海防務(wù)(300008.SZ)：擬以2.73億元對(duì)大津重工增資

更多

更多

排行

最近更新

今日要聞

一文解析「小米大模型」

您可能也感興趣:

今日熱點(diǎn)

河北財(cái)經(jīng)職業(yè)學(xué)院（關(guān)于河北財(cái)經(jīng)職業(yè)學(xué)院的基本詳情介紹）

【JOJO同人】行走于陰影之下的我們（一）

天海防務(wù)(300008.SZ)：擬以2.73億元對(duì)大津重工增資

為您推薦

房企又開始卷了

2023年廈門最新公積金買房首付比例是多少？沒有房貸的首付比例是多少？

李開復(fù)在京成立零一萬物AI公司

“蘭州－阿拉木圖”國(guó)際貨運(yùn)航線開通

更多

更多

排行

最近更新

今日要聞

2023年廈門最新公積金買房首付比例是多少？沒有房貸的首付比例是多少？