首頁 保險(xiǎn) > 正文

【世界獨(dú)家】Meta世界模型首揭秘!首個(gè)「類人」模型怎么來的?

【導(dǎo)讀】LeCun的高徒費(fèi)心整理了全套筆記,把他去年在暑假學(xué)校演講世界模型的精華部分全部囊括。這不得好好拜讀下?

LeCun究竟是經(jīng)過了怎樣的思考,才得出了世界模型是AI大模型未來最理想道路的結(jié)論?


(資料圖片)

很幸運(yùn),去年曾聽過他在暑假學(xué)校關(guān)于統(tǒng)計(jì)物理和機(jī)器學(xué)習(xí)演講的學(xué)生Ania Dawid,將他的觀點(diǎn)仔細(xì)地整理和發(fā)表出來。

LeCun對(duì)于她的工作也表示了盛贊。

這篇筆記解釋了當(dāng)前機(jī)器學(xué)習(xí)方法的局限性,并且介紹了LeCun在2022年的論文中提出的autonomous AI所需的核心概念,以及設(shè)計(jì)背后的主要思想。

論文地址:/abs/

類人智能的可能性

在AI達(dá)到類人水平并帶來新的技術(shù)革新之前,當(dāng)前的自動(dòng)化系統(tǒng)仍然有重大的局限性。

最理想的情況下,會(huì)出現(xiàn)L5自動(dòng)駕駛、家用機(jī)器人、虛擬助理,這些機(jī)器人會(huì)學(xué)習(xí)可靠的世界模型,然后進(jìn)行推理,對(duì)復(fù)雜的行動(dòng)序列做出計(jì)劃。

在這些筆記中,Ania Dawid總結(jié)了LeCun提出未來自主智能架構(gòu)背后的主要思想,引入了基于能力的潛變量模型,在LeCun建議構(gòu)建的模塊——分層聯(lián)合嵌入預(yù)測(cè)架構(gòu)(H-JEPA)中結(jié)合了它們的優(yōu)勢(shì)。

在過去十年中,機(jī)器學(xué)習(xí)方法迅速普及,ML模型在圍棋、國際象棋和Shogi等戰(zhàn)略游戲中都表現(xiàn)出了專家級(jí)的性能。

作為交換,創(chuàng)建深度學(xué)習(xí)模型需要在大量數(shù)據(jù)集上訓(xùn)練,這是一種極端的計(jì)算成本。

相比之下,人類的學(xué)習(xí)卻十分高效,我們可以快速直觀地找到方法來完成任務(wù),連嬰兒都能很快獲得對(duì)物理世界的直觀理解。

如何讓AI模型發(fā)展出像人類一樣的潛能?在這些課堂講稿中,LeCun與學(xué)生們探索了autonomous intelligence的概念。

他們希望能夠?qū)崿F(xiàn)一個(gè)充分自主的AI,他通過轉(zhuǎn)移知識(shí)和自動(dòng)適應(yīng)新情況而在通用任務(wù)上表現(xiàn)良好,無需首先嘗試很多解決方案。

自主機(jī)器智能

到目前為止,機(jī)器學(xué)習(xí)系統(tǒng)仍然在很大程度上依賴于SL,這就需要大量的標(biāo)記樣本,而RL需要大量的試驗(yàn),這在當(dāng)前的現(xiàn)實(shí)中不切實(shí)際。在現(xiàn)實(shí)世界中,每個(gè)行動(dòng)都需要時(shí)間和成本。

相比之下,人類和動(dòng)物主要依靠對(duì)環(huán)境的積極觀察,并以此建立世界模型。

嬰兒就幾乎完全通過觀察來學(xué)習(xí),他們的學(xué)習(xí)過程與SSL最相似,只有一點(diǎn)點(diǎn)SL(和家長互動(dòng))或RL(通過實(shí)踐嘗試各種解釋方案)。

實(shí)際上,人類是想象和推演大部分結(jié)果,而不是全部嘗試一遍。

因此,實(shí)現(xiàn)完全自主類人智能的道路主要有三個(gè)挑戰(zhàn):

1.學(xué)習(xí)世界的表征和預(yù)測(cè)模型,使AI系統(tǒng)能夠預(yù)測(cè)未來,特別是自己行動(dòng)會(huì)導(dǎo)致的結(jié)果。

最有可能的方法就是自監(jiān)督學(xué)習(xí)(SSL),因?yàn)镾L和RL需要太多的成本或試驗(yàn)。

2.學(xué)習(xí)以一種與DL兼容的方式推理。推理需要考慮到與前饋潛意識(shí)計(jì)算相反的意圖。最可能的方法就是像energy minimization那樣設(shè)計(jì)推理和規(guī)劃。

3.學(xué)習(xí)規(guī)劃復(fù)雜動(dòng)作序列,這個(gè)過程中需要行動(dòng)計(jì)劃的分層(hierarchical)表征。

在論文中,LeCun提出了自主AI應(yīng)該有的模塊化結(jié)構(gòu)。

這個(gè)AI架構(gòu)由多個(gè)相互連接的模塊組成。

Perception模塊估計(jì)世界的當(dāng)前狀態(tài),actor可以使用該狀態(tài),并在world model的指導(dǎo)下提出最佳動(dòng)作序列,根據(jù)actor的動(dòng)作預(yù)測(cè)或「想象」未來可能的世界狀態(tài)。

這些聯(lián)系被稱為「感知-計(jì)劃-行動(dòng)循環(huán)」。

在想象actor行為的可能后果時(shí),世界模型使用cost推理模塊。

它可以分成兩個(gè)子模塊——對(duì)痛苦、快樂、饑餓等基本需求進(jìn)行建模的intrinsic cost,以及預(yù)測(cè)內(nèi)在成本未來值的critic。

Short-term memory模塊用于預(yù)測(cè)未來世界狀態(tài)。Configurator模塊通過配置所有其他模塊來實(shí)現(xiàn)任務(wù)之間的切換。

a.在SSL中,系統(tǒng)經(jīng)過訓(xùn)練,可以從輸入的可見部分(藍(lán)色)預(yù)測(cè)輸入的隱藏部分(橙色)。b. SSL將在未來的AI系統(tǒng)中發(fā)揮核心作用,SSL是蛋糕,SL是糖衣,RL是櫻桃

模型中的「感知-計(jì)劃-行動(dòng)循環(huán)」類似于最優(yōu)控制中的model-predictive control(MPC)。關(guān)鍵的區(qū)別在于,世界模型預(yù)測(cè)未來是通過學(xué)習(xí)。

它也不同于RL,因?yàn)樵谶@里成本函數(shù)是已知的,所有模塊都是可微的,在現(xiàn)實(shí)中不需要采取行動(dòng)。

自監(jiān)督學(xué)習(xí)的主要目的,就是重建輸入或預(yù)測(cè)輸入的缺失部分,如上圖a所示。

輸入可以是圖像、視頻或文本。在訓(xùn)練中,模型學(xué)習(xí)數(shù)據(jù)的分層表征,因此,SSL的預(yù)訓(xùn)練通常先于SL或RL階段。

它還用于學(xué)習(xí)預(yù)測(cè)(前向)模型MPC,或者學(xué)習(xí)控制策略,或基于模型的RL。

自監(jiān)督學(xué)習(xí)對(duì)于文本非常有效,但對(duì)于圖像來說,當(dāng)模型被訓(xùn)練進(jìn)行單一預(yù)測(cè)時(shí),訓(xùn)練使它們預(yù)測(cè)的是所有可能的平均值,因此,SSL產(chǎn)生了模糊的預(yù)測(cè)。

不過,做決定通常不需要預(yù)測(cè)世界上所有可能的細(xì)節(jié),只需要預(yù)測(cè)與任務(wù)相關(guān)的細(xì)節(jié)即可。

基于能量的模型

概率模型需要規(guī)范化,因此在高維數(shù)據(jù)的限制下,可能變得難以處理。

然而,在駕駛汽車的決策任務(wù)中,系統(tǒng)只需要選擇正確的答案,其他答案的概率是無關(guān)緊要的。

因此,我們可以讓模型通過能量函數(shù)來表示變量之間的依賴關(guān)系(例如下圖a所示的決策y和條件x)。

在這種情況下,能量指導(dǎo)模型只需要將最低的能量分配給正確的答案,將較大的能量分配給不正確的答案即可。

圖b中的能量函數(shù),表示了x和y之間的二次依賴關(guān)系。推理涉及為給定的x找到最小能量值。

EBM的一個(gè)優(yōu)點(diǎn)是,可以表示多模態(tài)的依賴關(guān)系。理論上,還可以以各種形式(文本、視覺等)描述數(shù)據(jù)之間的依賴關(guān)系。

在概率設(shè)置中,訓(xùn)練包括找到這樣的模型參數(shù)w,使給定輸入的觀察輸出的可能性最大(或負(fù)可能性最小)。

第一個(gè)等式是基于數(shù)據(jù)點(diǎn)之間相互獨(dú)立的假設(shè),而進(jìn)行第二個(gè)變換,是因?yàn)榍蠛陀?jì)算比乘法計(jì)算更容易。

對(duì)于概率模型,訓(xùn)練僅限于從負(fù)對(duì)數(shù)似然(如交叉熵)生成的損失函數(shù)。

雖然放棄概率設(shè)置可能會(huì)令人驚訝,但請(qǐng)注意,做決策可以被視為選擇得分最高的選項(xiàng),而不是最有可能的選項(xiàng)。

比如在下棋的時(shí)候,如果查看所有可能性來決定下一步怎么走,顯然非常棘手。

相反,可以通過探索可能性樹的一部分,比如用蒙特卡洛樹搜索的最短路徑,給出最小能量。

因此,沒有必要使用概率框架。

不過,如果需要的話,也可以通過將能量考慮為非歸一化的負(fù)對(duì)數(shù)概率,在EBM和概率模型之間建立聯(lián)系。

最常見的方法是通過Gibbs-Boltzmann distribution:

通過使用依賴于一組潛變量z的額外能量函數(shù),我們可以擴(kuò)展EBM的可能性。

這些隱藏變量通常被稱為潛變量(latent variables),旨在捕捉在x中無法直接獲得的y的信息。

在人臉檢測(cè)任務(wù)中,這些潛變量的示例可能是性別、姿勢(shì)或發(fā)色。

在自動(dòng)駕駛汽車的情況下,潛變量可以參數(shù)化其他駕駛者的可能行為。

因此,它們?yōu)槲覀兲幚憩F(xiàn)實(shí)世界的不確定性提供了一種方法。

在結(jié)構(gòu)化預(yù)測(cè)問題中,我們假設(shè)數(shù)據(jù)具有一些未知的結(jié)構(gòu),學(xué)習(xí)器必須解析這些結(jié)構(gòu)才能進(jìn)行準(zhǔn)確的預(yù)測(cè)

最后,潛變量在所謂的結(jié)構(gòu)化預(yù)測(cè)問題中非常有用。

a.潛變量推斷EBM還包括潛變量的最小化(或邊緣化)。b. 一個(gè)潛變量EBM的例子,在尋找綠色點(diǎn)y和橢圓距離的問題中,它會(huì)從訓(xùn)練點(diǎn)(藍(lán)點(diǎn))學(xué)習(xí)

訓(xùn)練基于能量的模型

到目前為止,我們已經(jīng)討論了如何使用EBM,特別是潛變量EBM進(jìn)行推理。

在本節(jié)中,我們將介紹如何訓(xùn)練EBM。

訓(xùn)練技術(shù)的選擇,取決于EBM架構(gòu)的選擇。

讓我們比較下圖中的兩種EBM架構(gòu)。

能量模型(EBM)可能會(huì)發(fā)生能量崩潰。(a)標(biāo)準(zhǔn)的確定性預(yù)測(cè)或回歸架構(gòu),其中能量函數(shù)Fw(x, y)是x的神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)與y本身之間的距離,不容易發(fā)生能量崩潰。(b)一個(gè)可能發(fā)生能量崩潰的EBM示例

在第一種情況下,能量函數(shù)只是數(shù)據(jù)點(diǎn)y和數(shù)據(jù)點(diǎn)x的編碼器(如NN)輸出之間的距離。

這種架構(gòu)可以被認(rèn)為是一個(gè)回歸模型,并通過簡單地最小化訓(xùn)練樣本的能量來訓(xùn)練。

然而,對(duì)于其他架構(gòu),這樣的訓(xùn)練可能會(huì)導(dǎo)致能量函數(shù)的崩潰,即給定一個(gè)x,能量(energy)可能會(huì)變得「平坦」,為 y 的所有值提供基本相同的能量。

例如,圖b中的聯(lián)合嵌入架構(gòu),將輸入x和y分別編碼為

,目標(biāo)是找到這樣的

,這樣它們的x和y的表示就是接近的。

如果我們訓(xùn)練模型只是為了最小化編碼器輸出之間的距離,那么兩個(gè)編碼器可能會(huì)完全忽略輸入而只產(chǎn)生相同的恒定輸出。

為了防止能量崩潰,我們可以采取對(duì)比式方法。

x和y是我們希望降低能量的訓(xùn)練數(shù)據(jù)點(diǎn),在下圖b中表示為藍(lán)點(diǎn)。

?y是一個(gè)對(duì)比點(diǎn),在下圖b中表示為綠點(diǎn),我們需要增加其能量。

能量模型(EBM)的訓(xùn)練:(a) 正確的訓(xùn)練方式在最小化訓(xùn)練樣本的能量的同時(shí)防止能量崩潰。(b) 對(duì)比式方法通過最小化訓(xùn)練樣本的能量同時(shí)增加訓(xùn)練集之外樣本的能量。(c) 正則化方法限制了低能量區(qū)域所占據(jù)的空間體積

當(dāng)最小化

時(shí),我們需要確保訓(xùn)練樣本的能量雄安與訓(xùn)練樣本和對(duì)比樣本的能量,至少是邊際m,這取決于y和?y之間的距離。

適當(dāng)?shù)膶?duì)比損失函數(shù)需要確保非零邊界,以避免能量崩潰。

對(duì)比損失函數(shù)可以像下面這個(gè)方程中的鉸鏈損失,那樣針對(duì)特定數(shù)據(jù)集進(jìn)行成對(duì)計(jì)算。

對(duì)比性方法最核心的問題是如何生成對(duì)比性點(diǎn),然后最大可能性就可以被解釋為對(duì)比方性方法的特例。

我們的主要挑戰(zhàn)在于,選擇如何限制低能量空間的體積。

一種方法是構(gòu)建低能量空間體積受限的體系結(jié)構(gòu)。

另一種方法是添加一個(gè)正則化項(xiàng),該項(xiàng)最小化低能量空間的某種度量。

最后,評(píng)分匹配(score matching)是一種正則化技術(shù),它最小化數(shù)據(jù)點(diǎn)周圍能量景觀的梯度并最大化曲率。

幾個(gè)能量模型的實(shí)例

Hopfield網(wǎng)絡(luò)網(wǎng)絡(luò)是由John Hopfield在1982年推廣的全連接循環(huán)網(wǎng)絡(luò),方案如圖a所示,能量函數(shù)如下:

但是因?yàn)樗鼤?huì)出現(xiàn)虛假最小值,使得在實(shí)踐中可用性不強(qiáng)。

在1983年,由Geoffrey Hinton和Terrence Sejnowski提出了Hopfield網(wǎng)絡(luò)的擴(kuò)展,稱為玻爾茲曼機(jī)。

它引入了被稱為隱藏單元的神經(jīng)元,如下圖7(b)所示。

它的能量函數(shù)及其自由能如下:

這個(gè)提議對(duì)整個(gè)機(jī)器學(xué)習(xí)社區(qū)來說非常重要,因?yàn)樗状我肓穗[藏單元的概念,即那些輸入和輸出不可觀測(cè)的神經(jīng)元。

這些隱藏單元也可以理解為模型的潛變量。

去噪自編碼器(Denoising Autoencoder,AE)是一種對(duì)比式EBM。

它是一種經(jīng)過訓(xùn)練的自編碼器,用于恢復(fù)被損壞輸入的干凈版本。

其架構(gòu)示意圖如下圖8(a)所示。

例如,該自編碼器可以經(jīng)過訓(xùn)練,使數(shù)據(jù)點(diǎn)在添加隨機(jī)噪聲后恢復(fù)到其原始位置,如圖8(b)所示。

原始數(shù)據(jù)點(diǎn)來自橙色螺旋線,并通過在其位置上添加一些噪聲進(jìn)行損壞。

然后,將損壞的綠色數(shù)據(jù)點(diǎn)作為x輸入到下圖8(a)中的去噪自編碼器,同時(shí)提供其干凈版本y。

重構(gòu)誤差是損壞點(diǎn)與原始點(diǎn)之間的距離,當(dāng)最小化時(shí),去噪自編碼器輸出的藍(lán)色數(shù)據(jù)點(diǎn)將回到螺旋線上。

需要注意的是,在同一個(gè)問題中,也存在對(duì)于去噪自編碼器可能無法處理的問題點(diǎn)。例如,自編碼器無法重構(gòu)位于螺旋線兩個(gè)分支之間、與它們等距離的數(shù)據(jù)點(diǎn)。

這個(gè)問題是由數(shù)據(jù)的折疊結(jié)構(gòu)導(dǎo)致的,然而,在真實(shí)世界的數(shù)據(jù)中很少出現(xiàn)這種情況。

未來自主系統(tǒng)的構(gòu)建模塊

在上文中,我們看到了EBM如何克服概率模型的局限性之后,并且對(duì)于高維數(shù)據(jù),可能應(yīng)該使用正則化方法而不是對(duì)比式方法來訓(xùn)練它們。

討論了潛變量模型并解釋了它們?cè)诮Y(jié)構(gòu)化預(yù)測(cè)問題或融入不確定性方面的用途之后,可以這些優(yōu)勢(shì)結(jié)合到一種稱為聯(lián)合嵌入預(yù)測(cè)架構(gòu)(JEPA)的架構(gòu)中。

這就是昨天Meta發(fā)布的I-JEPA模型的原理。

聯(lián)合嵌入預(yù)測(cè)架構(gòu)(JEPA)是一種將嵌入模塊與潛變量結(jié)合的EBM,如圖9所示。

作為一個(gè)EBM,JEPA學(xué)習(xí)輸入數(shù)據(jù)x和y之間的依賴關(guān)系,但是在學(xué)習(xí)的內(nèi)部表示Sx和Sy的層次上進(jìn)行比較,其中si = Enc(i)。

產(chǎn)生表示sx和sy的兩個(gè)編碼器可以不同,特別是具有不同的架構(gòu),并且不共享參數(shù)。

由于這一點(diǎn),輸入數(shù)據(jù)可以具有各種格式(例如視頻和音頻)。

此外,JEPA自然地處理多模態(tài)數(shù)據(jù)。

首先,x和y的編碼器可以具有不變性特性,例如,將各種y映射到相同的Sy。

訓(xùn)練JEPA的最終目標(biāo)是使表示Sx和Sy可以相互預(yù)測(cè)。

如我們?cè)诘?節(jié)中討論的,EBM可以使用對(duì)比式方法和正則化方法進(jìn)行訓(xùn)練,但對(duì)比式方法在高維情況下往往效率非常低下。

因此,JEPA可以使用損失函數(shù)進(jìn)行訓(xùn)練,該損失函數(shù)除了包括預(yù)測(cè)誤差外,還包括如下圖10所示的正則化項(xiàng)。

特別是為了防止信息能量崩潰,我們需要確保sx和sy盡可能多地?cái)y帶關(guān)于x和y的信息。

否則,訓(xùn)練過程可能會(huì)導(dǎo)致編碼器成為常數(shù)。

最后,我們需要最小化或限制潛變量的信息內(nèi)容,以防止模型僅僅依賴于其中的信息。

結(jié)論

在筆記中,我們總結(jié)了LeCun的主要觀點(diǎn),解決了上邊提到的AI現(xiàn)在發(fā)展中的局限性。

在第3節(jié)中,我們解釋了由于現(xiàn)實(shí)世界的數(shù)據(jù)(如視頻或文本)通常具有高維度,基于能量模型的發(fā)展方向(EBM)可能是比概率模型更有前景的發(fā)展方向。

在第4節(jié)中,我們介紹了對(duì)訓(xùn)練EBM的對(duì)比和正則化方法,并解釋了由于在高維度中生成對(duì)比樣本的成本巨大,正則化方法似乎更有前景用于訓(xùn)練未來的EBM。

在第5節(jié)中,我們給出了EBM的歷史和現(xiàn)實(shí)的實(shí)際用例。

最后,第6節(jié)集中討論了這個(gè)事實(shí):人類決策過程基于各種格式和模態(tài)的數(shù)據(jù),其結(jié)構(gòu)通常需要解碼才能進(jìn)行預(yù)測(cè),而且還包含可能是多余的信息。

這種多模態(tài)的障礙可以通過LeCun提出的一種新架構(gòu),在3個(gè)維度解決,這種構(gòu)架被稱為聯(lián)合嵌入預(yù)測(cè)架構(gòu)(JEPAs)。

最終,我們將要面對(duì)的挑戰(zhàn)是使未來的自主AI能夠?qū)Ω鞣N時(shí)間尺度和抽象級(jí)別上的世界狀態(tài)進(jìn)行預(yù)測(cè)。這種多層次的預(yù)測(cè)可以通過分層聯(lián)合嵌入預(yù)測(cè)架構(gòu)(H-JEPA)來實(shí)現(xiàn)。

通過正則化方法訓(xùn)練的這種架構(gòu),可能是設(shè)計(jì)能夠在不確定性下的預(yù)測(cè)世界模型的起點(diǎn),這將成為未來自主AI發(fā)展中取得突破。

參考資料:

/pdf/

版權(quán)聲明

版權(quán)屬于原作者,僅用于學(xué)術(shù)分享

關(guān)鍵詞:

最近更新

關(guān)于本站 管理團(tuán)隊(duì) 版權(quán)申明 網(wǎng)站地圖 聯(lián)系合作 招聘信息

Copyright © 2005-2023 創(chuàng)投網(wǎng) - www.mallikadua.com All rights reserved
聯(lián)系我們:39 60 29 14 2@qq.com
皖I(lǐng)CP備2022009963號(hào)-3