首頁(yè) 資訊 > 金融 > 正文

GPT-4 由 8 個(gè) MoE 模型組成,真的嗎?|環(huán)球快看點(diǎn)


(相關(guān)資料圖)

讓大家沒想到的是,被傳的神乎其神的GPT-4依舊是大力出奇跡的產(chǎn)物?;氐絜nsemble的老路上去了,OpenAI一直在畫的AGI的大餅感覺又離我們遠(yuǎn)了。

黑客 George Hotz 在一個(gè)播客中透露,GPT-4 是由 8 個(gè) 2200 億參數(shù)的 MoE 模型組成的,每個(gè)模型都針對(duì)不同的數(shù)據(jù)和任務(wù)分布進(jìn)行了訓(xùn)練,然后通過(guò)一些小技巧將它們混合起來(lái)。他還說(shuō),這樣做是因?yàn)閱蝹€(gè)模型的參數(shù)規(guī)模已經(jīng)達(dá)到了極限,而且訓(xùn)練時(shí)間越長(zhǎng)效果越差,所以他們采用了多模型集成的方法來(lái)提高性能。他認(rèn)為,OpenAI 對(duì)此保密的原因是不想讓別人知道他們的模型并不是那么先進(jìn),只要花更多的錢就能復(fù)制。

這個(gè)說(shuō)法得到了 PyTorch 創(chuàng)始人 Soumith Chintala 的認(rèn)可2,他表示自己也聽過(guò)類似的傳聞,但只有 George Hotz 在公開場(chǎng)合說(shuō)出來(lái)了。不過(guò),也有人對(duì)這個(gè)說(shuō)法表示懷疑或質(zhì)疑134,認(rèn)為這樣的模型推理成本太高,而且沒有充分利用 GPT-4 的潛力。目前,OpenAI 還沒有對(duì)這個(gè)爆料做出任何回應(yīng)或證實(shí)。

這件事情很可能是真的,理由如下:

已知的Prior:

1.多個(gè)信源認(rèn)為GPT4比GPT3.5參數(shù)量大至少一個(gè)數(shù)量級(jí),也就是1.7萬(wàn)億以上。

2. OpenAI去年六月發(fā)表過(guò)技術(shù)報(bào)告說(shuō)他們訓(xùn)練LLM用了MoE.

現(xiàn)在的觀測(cè):

有人說(shuō)GPT4是一個(gè)1.76萬(wàn)億參數(shù)的MoE

網(wǎng)友得知秘訣后,打算自己也要訓(xùn)練一個(gè)LLaMA集合體與GPT-4競(jìng)爭(zhēng)。

關(guān)鍵詞:

最近更新

關(guān)于本站 管理團(tuán)隊(duì) 版權(quán)申明 網(wǎng)站地圖 聯(lián)系合作 招聘信息

Copyright © 2005-2023 創(chuàng)投網(wǎng) - www.mallikadua.com All rights reserved
聯(lián)系我們:39 60 29 14 2@qq.com
皖I(lǐng)CP備2022009963號(hào)-3