首頁 資訊 > 創(chuàng)新 > 正文

世界新消息丨斯坦福訓(xùn)練Transformer替代模型:1.7億參數(shù),能除偏、可控可解釋性強

機器之心報道

編輯:Panda W

用背包(backpack)裝詞比用袋子(bag)好?在這篇論文中,斯坦福大學(xué)的研究者提出了可干預(yù)的 Backpac k 語言模型,通過調(diào)控意義向量來干預(yù)語言模型行為,引導(dǎo)語言模型輸出想要的結(jié)果。

以 GPT 為代表的大型語言模型已經(jīng)并還將繼續(xù)取得非凡成就,但它們也存在著眾所周知的問題,比如由于訓(xùn)練集不平衡導(dǎo)致的偏見問題。


(相關(guān)資料圖)

針對這一問題,斯坦福大學(xué)幾位研究者提出了一種新型神經(jīng)架構(gòu) Backpack,宣稱能夠調(diào)控意義向量來干預(yù)語言模型的行為,引導(dǎo)語言模型輸出想要的結(jié)果。該項目的代碼和模型都已發(fā)布。

論文地址:

https://arxiv.org/abs/2305.16765

項目地址:

https://backpackmodels.science

論文一作、斯坦福大學(xué) CS 博士生 John Hewitt 表示,Backpacks 是 Transformers 的替代,它可以在表現(xiàn)力(expressivity)上進行擴展,并為通過控制實現(xiàn)可解釋性提供一種新接口。一個 backpack 學(xué)習(xí)每個字詞的 k 個非上下文意義向量,從而無監(jiān)督地解耦字詞的預(yù)測用途。

引言

首先我們假設(shè)有前半個語句「The CEO believes that _」,我們的問題是消除神經(jīng)語言模型在該句子的性別分布上的偏見。憑直覺我們就能知道該句子的性別偏見源自「CEO」一詞,因為如果把「CEO」換成「護士」,偏見就會發(fā)生性別逆轉(zhuǎn)。為了消除在 CEO 上的偏見,必須要對模型進行干預(yù)并且要應(yīng)用到 CEO 一詞所出現(xiàn)的所有上下文中。

理想情況下,我們希望采取的干預(yù)措施不會改變模型的上下文并且可以預(yù)測這個干預(yù)帶來的影響。通常來說,從可解釋性與控制的各個方面看,我們更傾向于通過一個全局應(yīng)用的容易操作的接口(比如非上下文表征)來實施干預(yù)。

但對 Transformer 來說,這種干預(yù)卻難以實現(xiàn),因為它們的上下文表征是其輸入的單體函數(shù)(monolithic function)。單體函數(shù)是指內(nèi)部具有邏輯分支的函數(shù),能夠根據(jù)輸入執(zhí)行不同的邏輯。對 Transformer 模型的任何干預(yù)都會根據(jù)上下文情況產(chǎn)生復(fù)雜的非線性影響。但我們希望模型能實現(xiàn)豐富的精準干預(yù),nenggou 預(yù)測在所有上下文中的情況,并依然能富有表現(xiàn)力;如此一來,這樣的模型就能成為 Transformer 的可行替代模型。

針對這些挑戰(zhàn),研究者提出了一種新的神經(jīng)架構(gòu) Backpack,其預(yù)測是非上下文表征的對數(shù) - 線性組合。他們的做法是將詞匯表中的每個詞都表示成一組非上下文的意義向量(sense vector),這些向量表示的是學(xué)習(xí)到的該詞的不同方面。

舉個例子,「science」這個詞的意義向量可以編碼科學(xué)的類型、與技術(shù)的關(guān)系、已經(jīng)得到公認的科學(xué)概念以及科學(xué)過程的不同方面(復(fù)現(xiàn)或?qū)嶒灒瑓⒁娤卤?1。意義向量學(xué)習(xí)的不是經(jīng)典的詞義,而是一個詞在不同語境中的潛在作用的更一般性方面;事實上,意義向量可被視為經(jīng)典詞向量的一種多向量泛化。

圖 1 :Transformer 是序列的單體函數(shù),而 Backpack 的輸出是非上下文的、所學(xué)詞的各個方面的加權(quán)和。

在干預(yù)意義向量時,為了使干預(yù)結(jié)果在不同上下文中都是可預(yù)測的,Backpack 會將一個序列中的每個詞都表示成該序列中所有詞的意義向量的一個線性組合。Backpack 的表現(xiàn)能力來自于計算該線性組合的權(quán)重的網(wǎng)絡(luò)模型,其計算方式是將這些權(quán)重作為整個序列的一個函數(shù)。順便一提,研究者在實驗中使用的網(wǎng)絡(luò)模型是 Transformer。由于意義向量是根據(jù)上下文大致選擇的,因此它們可以專門限定到特定領(lǐng)域;每個意義都可以學(xué)會僅在某些上下文中才有用,并且是否有用可以預(yù)測出來。也就是說,意義對預(yù)測的貢獻呈對數(shù) - 線性模式,這意味著不管上下文如何,對意義向量的干預(yù)也同樣適用(直到權(quán)重變成非負標(biāo)量)。

研究者的實驗表明 Backpack 語言模型確實表現(xiàn)力強大,并且表明對意義向量進行干預(yù)有助于解釋和控制模型。在實驗中,研究者在 OpenWebText 的 500 億 token 上訓(xùn)練了 Backpack 語言模型;這個 Backpack 模型的上下文網(wǎng)絡(luò)有 1.24 億參數(shù)(意義向量有 4600 萬參數(shù)),能達到一個 1.24 億參數(shù) Transformer 的困惑度;但如果想要更高的可解釋性,就需要更大的模型。研究者還展示了如何通過意義向量來針對性地編碼豐富的詞義概念。

在四個詞匯相似性數(shù)據(jù)集(例如 SimLex999)上的定量分析結(jié)果看,1.7 億參數(shù)的 Backpack 的意義向量優(yōu)于 60 億參數(shù)的 GPT-J-6B Transformer 的詞嵌入,并且接近針對該任務(wù)的專用方法的當(dāng)前最佳表現(xiàn)。研究者還表明意義向量能為 Backpack 語言模型提供一種控制機制。

舉個例子,對于具有職業(yè)性別刻板偏見的詞(如「CEO」或「護士」),往往會學(xué)習(xí)到與該性別偏見相關(guān)聯(lián)的意義向量;研究者發(fā)現(xiàn)通過為該意義向量降幅,能在有限環(huán)境中極大降低上下文預(yù)測中的性別差異。

表 1:左側(cè)是表示 science 一詞的意義向量示例,其中具有豐富的特定領(lǐng)域指向;右側(cè)是以非上下文的方式編輯意義向量的示例(將 MacBook 變得與惠普相關(guān)),從而改變了所得的上下文預(yù)測。

Backpack 架構(gòu)

下面首先將定義 Backpack 架構(gòu)的一般形式,然后會證明連續(xù)詞袋 word2vec(CBOW)和僅自注意力網(wǎng)絡(luò)其實就是 Backpack 的特例。

Backpack 的一般形式

Backpack 是一個將符號序列

映射成向量序列

的參數(shù)函數(shù),其中每個符號 x_i 都屬于一個有限詞匯表 V,而

這里將 o_i 稱為 x_i 在上下文序列 x_ 中的 Backpack 表征。

意義向量。對于每個 x ∈ V,Backpack 構(gòu)建 k 個意義向量:

其中

意義向量是一種多向量,類似于 word2vec 或 GloVe 等經(jīng)典的非上下文詞表征。

加權(quán)和。對于一個序列 x_,元素 x_i 的表征 o_i 是詞在上下文中的預(yù)測意義向量的加權(quán)和:給定上下文化權(quán)重

Backpack 的上下文化權(quán)重

則由整個序列 x_ 的一個(非線性)上下文函數(shù)定義:

其中

Backpack 這個名稱靈感來自這一事實:backpack 是指背包,就像是一個袋子(類比于詞袋 /bag-of-words),但是背包更有秩序一些。類似于詞袋,Backpack 表征也是非上下文意義的加權(quán)和;但 Backpack 更加有序,因為這個加權(quán)和的權(quán)重取決于有序的序列。

Backpack 模型。Backpack 模型是一種概率模型,它將在某一輸出空間 Y 上的概率定義為一個 Backpack 表征 o_ 的對數(shù) - 線性函數(shù):

其中

是一種線性變換。因為 Backpack 模型的表征呈現(xiàn)對數(shù) - 線性模式,所以意義向量對預(yù)測的貢獻也呈對數(shù) - 線性模式。這讓我們可以檢查意義向量,具體做法是經(jīng)由 E 將意義向量投射到詞匯表上,然后在任意上下文中觀察其究竟會如何對預(yù)測做出貢獻。

模型的參數(shù)化可使用常用的深度神經(jīng)網(wǎng)絡(luò),包括 LSTM 和 Transformer;這些都不是 Backpack,因為它們的輸出表征是整個序列的(相對而言)無約束函數(shù)。相對而言,Backpack 的表現(xiàn)力看起來是有限的:其表征 o_i 是非上下文向量

以標(biāo)量加權(quán)的和。序列元素之間的上下文關(guān)系只能通過權(quán)重 α 來表示。盡管如此,研究者的實驗表明,一個表現(xiàn)能力強的上下文化權(quán)重網(wǎng)絡(luò)可以通過意義向量的加權(quán)和來表示復(fù)雜函數(shù),比如新提出的 1.7 億參數(shù)的 Backpack 語言模型使用了一個 1.24 億參數(shù)的 Transformer 模型來計算 α,并實現(xiàn)了和 1.24 億參數(shù) Transformer 語言模型一樣的損失。

研究者通過數(shù)學(xué)形式證明了連續(xù)詞袋與單層注意力都是 Backpack 的特例,但這里我們不再過多論述了,詳情參閱原論文。

使用 Backpack 的語言建模

研究者使用 Backpack 來進行參數(shù)化,定義了一個神經(jīng)自回歸語言模型。對于序列的下一 token 的概率,他們使用了標(biāo)準的 softmax 參數(shù)化,其中有一個將表征

映射成 logit

的權(quán)重矩陣

回想一下,Backpack 表征 o_j 是通過意義向量 C (x) 和上下文化權(quán)重 α_j 定義的。下面首先會介紹等式 (1) 中預(yù)測意義向量 C 的參數(shù)化,然后是上下文化權(quán)重網(wǎng)絡(luò) A 的參數(shù)化。當(dāng) o_j 是由 Backpack 參數(shù)化時,就可以稱該模型為 Backpack 語言模型。

對意義參數(shù)化

對于意義函數(shù)

我們將每個 x ∈ V 都嵌入到

中,然后將這些嵌入通過一個前向網(wǎng)絡(luò)

其中,嵌入 / 投射矩陣 E 與 (9) 式中的輸出矩陣緊密關(guān)聯(lián)。現(xiàn)在我們可以使用一個查找表來定義所有 k × |V| 意義向量,但隨著 k 增大,參數(shù)數(shù)量也會變得非常大。于是研究者在這里采用的做法是將詞嵌入成

然后使用共享權(quán)重將它們放大到

這也許可以解釋在不同詞類型上觀察到的相關(guān)意義作用。

對上下文化權(quán)重參數(shù)化

研究者使用了一個標(biāo)準 Transformer 加一層多頭關(guān)鍵詞查詢自注意力來對

進行參數(shù)化,也就是讓一個嵌入的序列通過一個 Transformer:

這里使用了適當(dāng)?shù)淖曰貧w掩碼和某種位置表征,然后計算

其中對于每個預(yù)測意義 ?=1,...,k 有

并且矩陣

研究者把這 k 個意義看作是頭,對于每個頭,上下文化權(quán)重都為對詞的注意力定義一個分布。

訓(xùn)練 Backpack 語言模型的實驗

這一節(jié)介紹了研究者為了進行驗證而做的實驗,其中包含訓(xùn)練 Backpack 和 Transformer 語言模型的超參數(shù)、數(shù)據(jù)和優(yōu)化流程、評估和結(jié)果。這里我們不多介紹了,但研究者重點指出:學(xué)習(xí) k>1 個意義向量對于實現(xiàn)優(yōu)良的語言建模性能而言是必需的。

表 2:語言建模性能,所有模型都訓(xùn)練了 10 萬步,token 批大小為 50 萬,是在 OWT 上。對于 PPL 指標(biāo),越低越好;對于準確度指標(biāo),越高越好。注意這些模型的參數(shù)沒有可比性;每個 Backpack 的上下文化網(wǎng)絡(luò)中都有一個大小相當(dāng)?shù)?Transformer。

可以看出,對比每個 Backpack 語言模型以及與 Backpack 的上下文化網(wǎng)絡(luò)的規(guī)格相當(dāng)?shù)?Transformer 語言模型,Backpack 語言模型的表現(xiàn)大致相當(dāng)。需要指出,Backpack 的參數(shù)更多,這主要來自意義向量。研究者發(fā)現(xiàn),在訓(xùn)練時,Backpack 語言模型的收斂時間長于 Transformer。奇怪的是,盡管 Small Backpack 和 Transformer 實現(xiàn)了幾乎一樣的 OWT 困惑度,但 Backpack 語言模型在 LAMBADA 和 Wikitext 上的表現(xiàn)卻顯著更好,同時在 BLiMP 上卻又更差。

意義向量中的涌現(xiàn)結(jié)構(gòu)

下面將通過定性和定量實驗,來驗證意義向量在計算詞匯相似性和相關(guān)性方面的有效性。這些結(jié)果表明意義向量可以成為實施干預(yù)的高層面接口。

意義的可視化

基于實驗經(jīng)驗,經(jīng)過訓(xùn)練的 Backpack 模型會將特定的意義向量索引與不同的預(yù)測作用關(guān)聯(lián)起來。研究者為了解釋這些作用,做法是選取詞 x 的意義 ? 并將這個意義投射到詞嵌入:

請注意,這正是(直到一個標(biāo)量)意義有助于模型的任何預(yù)測的方式。研究者是通過報告該投射下分數(shù)最高的詞來解釋意義向量的作用。

下表 3 可視化地展示一些意義,比如意義 12 似乎為幾乎所有單詞都編碼了廣泛的相關(guān)概念;意義 3 編碼了給定 x 的二元分布的特定情況;意義 14 似乎為動詞編碼了相關(guān)的賓語,也為名詞編碼了相關(guān)的修飾詞依賴子項。

表 3:可視化地展示了在許多詞上的同一意義索引如何編碼細粒度的含義、相關(guān)性和預(yù)測使用情況的概念。

詞匯關(guān)系測試

從下表 4 可以看到,意義 12(同義詞意義)在所有數(shù)據(jù)集上都表現(xiàn)良好,媲美或者優(yōu)于 GPT-2-1.5B 和 GPT-J-6B 等嵌入,而 GPT-J-6B 在 RG-65 上則例外。意義 14 是動詞賓語意義,僅在動詞相似度(VerbSim3500)上表現(xiàn)好,而意義的最小相似性在名詞詞匯相似性上表現(xiàn)尤其出色 (SimLex999)。這說明新提出的方法足以比肩當(dāng)前最優(yōu)的方法,盡管它們的訓(xùn)練任務(wù)非常不同,意義向量編碼了大量的詞匯信息。

表 4:詞匯相似性評估結(jié)果。所有的數(shù)值都是 Spearman 相關(guān)度;越高越好。

用于控制的意義向量

最后,研究者通過一些具體案例進行了概念驗證,即可以使用意義向量來控制語言模型的行為。

生成限定主題的內(nèi)容

下圖 2 中,通過 Backpack 中的意義干預(yù)來控制生成主題,對比了 Transformer 的 PPLM。

降低性別偏見

研究者發(fā)現(xiàn),許多職業(yè)名詞(比如護士、CEO、教師)的意義向量 10 都帶有性別的刻板印象,并且這種刻板印象會通過代詞連貫地表達出來。通過調(diào)降意義 10(乘以小于 1 的標(biāo)量),研究者發(fā)現(xiàn)可以降低 Backpack 在這些職業(yè)名詞上的性別偏見。

表 5:在有限設(shè)置中降低基于代詞的性別偏見。

圖 3:對于前半句「when the nurse walked into the room」(當(dāng)那位護士走進房間),Backpack 語言模型通過將「護士」一詞的意義 10 從 0(完全移除)變成 1(原始情況),條件概率分布受到的影響。

知識編輯

研究者還研究了新方法在知識編輯方面的應(yīng)用。知識編輯是指編輯模型對于世界知識的預(yù)測。特別要指出,與專有名詞相關(guān)的許多詞都可以定位到該名詞的意義向量。在定性的概念驗證實驗中,研究者編輯了目標(biāo)詞(比如 MacBook)的意義向量,移除了與另一個詞(比如 Apple)的相關(guān)性,然后用再一個詞(比如 HP)替代了這些相關(guān)性??梢韵胍姡@種干預(yù)會導(dǎo)致 MacBook 與 HP 在預(yù)測結(jié)果中產(chǎn)生關(guān)聯(lián)。

表 6:來自 Backpack 的樣本,其中 Apple 被投射到了 MacBook 的意義嵌入之外,而 Apple 原來的位置被 HP 替代。第三個樣本類似,是美式橄欖球球隊和運動員相關(guān)的樣本。其中加粗的部分為 prompt。

責(zé)任編輯:

關(guān)鍵詞:

最近更新

關(guān)于本站 管理團隊 版權(quán)申明 網(wǎng)站地圖 聯(lián)系合作 招聘信息

Copyright © 2005-2023 創(chuàng)投網(wǎng) - www.mallikadua.com All rights reserved
聯(lián)系我們:39 60 29 14 2@qq.com
皖I(lǐng)CP備2022009963號-3