首頁(yè) 資訊 > 科技 > 正文

在輕薄本上跑 Stable Diffusion 和端側(cè)大模型?英特爾說(shuō)沒(méi)問(wèn)題

不管被動(dòng)還是主動(dòng),大模型,AIGC,ChatGPT,Stable Diffusion,MidJourney 等等名詞在大家的新聞列表里狂轟濫炸,經(jīng)歷了上半年的驚喜、恐慌、期待和擔(dān)憂之后,AIGC 現(xiàn)今已不是天降福音或者天網(wǎng)再臨,人們開(kāi)始正視它,理解它,適度利用它。


(資料圖)

當(dāng)然,這一輪 AIGC 浪潮主要發(fā)生在云端,無(wú)論是 ChatGPT,還是文心一言,通義千問(wèn)這類大語(yǔ)言模型應(yīng)用,亦或是 MidJourney 這類 AI 生成圖片的應(yīng)用,還有不少像 Runway 這樣 AI 生成視頻的應(yīng)用,都需要聯(lián)網(wǎng),因?yàn)?AI 計(jì)算都發(fā)生在千里之外的云端服務(wù)器上。

畢竟一般而言,服務(wù)器端能夠提供的算力和存儲(chǔ),要遠(yuǎn)大于電腦端和手機(jī)端,但情況也并非絕對(duì),響應(yīng)快,無(wú)需聯(lián)網(wǎng)的端側(cè) AI 毫無(wú)疑問(wèn)是另一個(gè)趨勢(shì),和云端 AI 能夠相互互補(bǔ)。

在前不久的小米年度演講中,小米創(chuàng)始人雷軍表示,小米 AI 大模型最新一個(gè) 13 億參數(shù)大模型已經(jīng)成功在手機(jī)本地跑通,部分場(chǎng)景可以媲美 60 億參數(shù)模型在云端運(yùn)行結(jié)果。

雖然參數(shù)量不太大,但說(shuō)明了大模型在端側(cè)的可行性和潛力。

在算力大得多的 PC 端,是否也有端側(cè)大模型等 AIGC 運(yùn)用的可行性和潛力呢?8 月 18 日,英特爾舉辦了一場(chǎng)技術(shù)分享會(huì),著重分享了 2 個(gè)方面的信息:英特爾銳炫顯卡 DX11 性能更新,并推出全新英特爾 PresentMon Beta 工具,以及展示英特爾在 AIGC 領(lǐng)域的進(jìn)展。

去年英特爾銳炫臺(tái)式機(jī)產(chǎn)品發(fā)布時(shí),就承諾過(guò)英特爾銳炫顯卡會(huì)持續(xù)優(yōu)化升級(jí),帶來(lái)更出色的體驗(yàn)。

通過(guò)最新 Game On 驅(qū)動(dòng)的發(fā)布,英特爾銳炫顯卡在運(yùn)行一系列 DX11 游戲的時(shí)候,能夠獲得 19% 的幀率提升,以及平均約 20% 的99th Percentile幀率流暢度提升(相較于首個(gè)驅(qū)動(dòng)版本)。此前購(gòu)買使用過(guò)英特爾銳炫 A750 顯卡的用戶,可以直接下載最新驅(qū)動(dòng),在《守望先鋒 2》、《DOTA 2》、《Apex Legends》等游戲中獲得體驗(yàn)升級(jí)。

對(duì)于在顯卡選擇上有點(diǎn)猶豫的用戶來(lái)說(shuō),1700 元檔位上的銳炫 A750 顯卡也成為了頗有競(jìng)爭(zhēng)力的選擇。

PresentMon Beta 則是英特爾推出的圖形性能分析工具,提供了 Overlay(疊加視圖)等功能,可以在運(yùn)行游戲時(shí)在屏幕上顯示性能數(shù)據(jù),幫助玩家實(shí)時(shí)遙測(cè) GPU 的電壓和溫度等,實(shí)時(shí)分析大量信息。同時(shí)也可以查看 99th Percentile 幀時(shí)間與 GPU 占用率圖表。

另外,PresentMon Beta 也帶來(lái)了名為「GPU Busy」的全新指標(biāo)。這里可以解釋一下,用戶通過(guò)它可以看到 GPU 實(shí)際使用了多少時(shí)間進(jìn)行實(shí)際渲染而不是處于等待狀態(tài),或者在運(yùn)行游戲的 PC 是否處于 CPU 和 GPU 平衡。

游戲是 PC 永恒的主題,而 AI 則是新晉的主題。

實(shí)際上,這一輪 AIGC 浪潮發(fā)生的主陣地設(shè)備,就是 PC,無(wú)論是 ChatGPT,還是 MidJourney,或者 Stable Diffusion 等等應(yīng)用,包括基于大模型的微軟 Office Copilot,亦或是金山辦公的 WPS AI,都是在 PC 上才可以獲得更好的體驗(yàn)。

但 PC 相較于其他設(shè)備,諸如手機(jī),平板和優(yōu)勢(shì),不僅在于屏幕更大,交互輸入更高效,還在于芯片性能。

在英特爾談 PC 上的 AIGC 之前,我們關(guān)注到 PC 端側(cè)跑 AIGC,往往就是用高性能游戲本去跑圖,但輕薄本往往被排除在外。

現(xiàn)在,英特爾明確表示了,基于英特爾處理器的輕薄本能跑大模型,也可以跑大模型和 Stable Diffusion。

英特爾基于 OpenVINO PyTorch (英特爾推出的一個(gè)開(kāi)放源碼工具包,旨在優(yōu)化深度學(xué)習(xí)模型的推理性能,并將其部署到不同的硬件平臺(tái)上)后端的方案,通過(guò) Pytorch API 讓社區(qū)開(kāi)源模型能夠很好地運(yùn)行在英特爾的客戶端處理器、集成顯卡、獨(dú)立顯卡和專用 AI 引擎上。

比如開(kāi)源的圖像生成模型 Stable Diffusion (具體講,是 Automatic1111 WebUI)就可以通過(guò)這種方式,在英特爾 CPU 和 GPU(包括集成顯卡和獨(dú)立顯卡)上運(yùn)行 FP16 精度的模型,用戶實(shí)現(xiàn)文字生成圖片、圖片生成圖片以及局部修復(fù)等功能。

(圖片來(lái)自:愛(ài)極物)

比如這張 512 x 512 分辨率的蜂蜜薄餅圖在英特爾處理器輕薄本(只用 i7-13700H 的核顯)上,只需要十幾秒就可以生成出來(lái)。

這主要得益于 13 代酷睿處理器在核心數(shù)、性能、功耗比還有圖形性能上的進(jìn)步,以 14 核心 20 線程的 i7-13700H 處理器為例,它的 TDP 達(dá)到了 45W,集成的 Intel Iris Xe Graphics (96EU) 顯卡也不容小覷。

作為目前最高規(guī)格的核顯之一,Intel Iris Xe Graphics (96EU) 相較于 Iris Plus 核顯最高 64EU,基本規(guī)格提升明顯,F(xiàn)P16、FP32 浮點(diǎn)性能提升幅度高達(dá) 84%,還引入了 INT8 整數(shù)計(jì)算能力 ,這些都加強(qiáng)了它的 AI 圖形計(jì)算能力,也是英特爾輕薄本能夠很好支持 Stable Diffusion 的主要原因。

在以往,TDP 45W 左右的英特爾處理器很難裝進(jìn)輕薄本,不過(guò)到了 13 代酷睿,已經(jīng)出現(xiàn)了一大批在 1.4KG 左右的輕薄本把 14 核心 20 線程的 i7-13700H 處理器乃至性能更高的 i7-13900H 處理器塞了進(jìn)去,所以,在筆記本上跑 Stable Diffusion 快速出圖已經(jīng)不是高性能獨(dú)顯游戲本的專屬,今后輕薄本同樣能夠勝任這項(xiàng)工作。

當(dāng)然,Stable Diffusion 本身主要跑在本地,輕薄本通過(guò)芯片性能的提升和優(yōu)化來(lái)運(yùn)行合乎邏輯,不過(guò)本地的端側(cè)大模型則屬于較為新生的事物。

通過(guò)通過(guò)模型優(yōu)化,降低了模型對(duì)硬件資源的需求,進(jìn)而提升了模型的推理速度,英特爾讓一些社區(qū)開(kāi)源模型能夠很好地運(yùn)行在個(gè)人電腦上。

以大語(yǔ)言模型為例,英特爾通過(guò)第 13 代英特爾酷睿處理器 XPU 的加速、low-bit 量化以及其它軟件層面的優(yōu)化,讓最高達(dá) 160 億參數(shù)的大語(yǔ)言模型,通過(guò) BigDL-LLM 框架運(yùn)行在 16GB 及以上內(nèi)存容量的個(gè)人電腦上。

雖然離 ChatGPT3.5 的 1750 億參數(shù)有量級(jí)差距,但畢竟 ChatGPT3.5 是跑在一萬(wàn)顆英偉達(dá) V100 芯片構(gòu)建的 AGI 網(wǎng)絡(luò)集群上。而這通過(guò) BigDL-LLM 框架運(yùn)行 160 億參數(shù)大模型是跑在英特爾酷睿 i7-13700H 或 i7-13900H 這樣為高性能輕薄本打造的處理器上。

不過(guò)這里也可以看到,PC 端側(cè)的大語(yǔ)言模型,也比手機(jī)端側(cè)的大語(yǔ)言模型高一個(gè)量級(jí)。

出現(xiàn)了數(shù)十年的 PC,并非運(yùn)行云端大模型的工具人,得益于硬件進(jìn)步,英特爾處理器支持的 PC 已經(jīng)能夠快速對(duì)接新興模型,兼容 HuggingFace 上的 Transformers 模型,目前已經(jīng)驗(yàn)證過(guò)的模型包括但不限于:LLAMA/LLAMA2、ChatGLM/ChatGLM2、MPT、Falcon、MOSS、Baichuan、QWen、Dolly、RedPajama、StarCoder、Whisper 等。

(圖片來(lái)自:愛(ài)極物)

在技術(shù)分享會(huì)現(xiàn)場(chǎng),英特爾演示了基于酷睿 i7-13700H 設(shè)備跑大模型的表現(xiàn):ChatGLM-6b 可以做到首個(gè) token 生成 first latency 241.7ms,后續(xù) token 平均生成率為 55.63ms/token。在在自然語(yǔ)言處理領(lǐng)域,「token」 是指文本中的一個(gè)基本單元,可以是一個(gè)單詞、一個(gè)字、一個(gè)子詞(subword)、一個(gè)標(biāo)點(diǎn)符號(hào),或者其他可以進(jìn)行語(yǔ)義處理的最小單元。可以看到,這個(gè)處理器速度相當(dāng)不錯(cuò)。

目前還可以得到的消息是,英特爾的下一代處理器 Meteor Lake 具備獨(dú)特的分離式模塊架構(gòu)的優(yōu)勢(shì),更好地為 AI 服務(wù),包括像 Adobe Premiere Pro 中的自動(dòng)重新構(gòu)圖和場(chǎng)景編輯檢測(cè)等多媒體功能,并實(shí)現(xiàn)更有效的機(jī)器學(xué)習(xí)加速。

雖然 AIGC 是 2023 年的一個(gè)關(guān)鍵詞,但是 AI 并不新鮮,而且也是英特爾這幾年來(lái)經(jīng)常掛在嘴邊的關(guān)鍵詞。

更早之前的 AI 視頻通話降噪,AI 視頻通話背景降噪等等,其實(shí)都是 AI 的應(yīng)用。

可以看到,未來(lái)處理器的競(jìng)爭(zhēng)力,將不局限于核心數(shù)、線程數(shù)、主頻這些,能否更好地驅(qū)動(dòng) AI 功能,將成為愈發(fā)重要的維度,也會(huì)是今后消費(fèi)者選購(gòu)產(chǎn)品會(huì)考慮的因素之一。

關(guān)鍵詞:

最近更新

關(guān)于本站 管理團(tuán)隊(duì) 版權(quán)申明 網(wǎng)站地圖 聯(lián)系合作 招聘信息

Copyright © 2005-2023 創(chuàng)投網(wǎng) - www.mallikadua.com All rights reserved
聯(lián)系我們:39 60 29 14 2@qq.com
皖I(lǐng)CP備2022009963號(hào)-3