首頁 項(xiàng)目 > 正文

以大模型“對(duì)抗”大模型,2023WAIC專家熱議大模型時(shí)代如何保護(hù)隱私和安全

憑借大數(shù)據(jù)、大算力的"大力出奇跡", AI大模型帶來的"智能涌現(xiàn)",讓人類又一次站在了技術(shù)革命的轉(zhuǎn)折點(diǎn)。與之伴生的用戶隱私泄漏、數(shù)據(jù)濫用等問題被敲響了警鐘。作為平衡數(shù)據(jù)使用與隱私安全的關(guān)鍵技術(shù),隱私計(jì)算面臨新的機(jī)遇和挑戰(zhàn)。

在2023世界人工智能大會(huì)(WAIC)"數(shù)據(jù)要素與隱私計(jì)算高峰論壇"上,復(fù)旦大學(xué)教授、上海市數(shù)據(jù)科學(xué)重點(diǎn)實(shí)驗(yàn)室主任肖仰華與中國(guó)信通院云大所大數(shù)據(jù)與區(qū)塊鏈部副主任閆樹展開高端對(duì)話,深入研討了大模型時(shí)代隱私計(jì)算研究發(fā)展。


(資料圖)

(圖:"數(shù)據(jù)要素與隱私計(jì)算高峰論壇"對(duì)話大模型時(shí)代的隱私計(jì)算)

兩位專家共同認(rèn)為,總體上大模型是先進(jìn)生產(chǎn)力,不能因?yàn)殡[私等的顧慮放棄對(duì)大模型的應(yīng)用。某種程度上,大模型是一種不確定市場(chǎng),要正面正視隱私等問題,積極應(yīng)用大模型。

但大模型的破壞性已經(jīng)顯化,要兼顧安全,不能盲目發(fā)展。要建立大模型安全底線和合規(guī)規(guī)范,從數(shù)據(jù)源頭把關(guān),加快大模型語料合規(guī)性認(rèn)證等。非常重要的一點(diǎn)是,要用大模型"對(duì)抗"大模型,如利用大模型對(duì)生成內(nèi)容的評(píng)估,用大模型自身的能力來保護(hù)我們的隱私。要用隱私計(jì)算的隨機(jī)性、匿名化等方法,優(yōu)化大模型數(shù)據(jù)分層,同時(shí)提升隱私計(jì)算本身的性能。

"隱私安全是老問題,但是在大模型時(shí)代變得特別突出"

"對(duì)于AI的發(fā)展來說,今年可能是比較特殊的一年。各類大模型‘智能涌現(xiàn)’,再一次詮釋了數(shù)據(jù)的重要價(jià)值。然而 AI 大模型是把雙刃劍,帶來了突出的隱私和安全問題,隱私計(jì)算作為保護(hù)數(shù)據(jù)安全的技術(shù)可以做什么?"閆樹強(qiáng)調(diào)了加速隱私計(jì)算研究的必要性。

肖仰華認(rèn)為,大模型對(duì)隱私保護(hù)問題帶來了前所未有的挑戰(zhàn),主要表現(xiàn)在侵權(quán)識(shí)別和保護(hù)兩個(gè)層面,比如隱私泄露、版權(quán)侵犯。首先,大模型是一個(gè)大規(guī)模參數(shù)化的模型,訓(xùn)練數(shù)據(jù)來源多樣,隱私保護(hù)非常困難。其次,生成式大模型往往是一種概率化的生產(chǎn),是一種海量拼接式的生產(chǎn),大模型是否侵犯隱私的識(shí)別本身很困難。所以傳統(tǒng)意義上的隱私侵犯認(rèn)定,在大模型時(shí)代往往會(huì)失效。另外,從保護(hù)角度來說更困難。大模型是基于深度神經(jīng)網(wǎng)絡(luò)的架構(gòu),本質(zhì)上是黑盒模式。它的不同的參數(shù)到底習(xí)得了什么樣的知識(shí)或能力我們無從得知。"問題是老問題,但是在大模型時(shí)代這些問題變得特別突出"。

解決使用大模型時(shí)的隱私安全問題,隱私計(jì)算技術(shù)已有探索

不止訓(xùn)練大模型帶來隱私安全問題,大模型使用的安全問題也是當(dāng)前的重點(diǎn)。隱私計(jì)算如何保證大模型使用的隱私安全?當(dāng)前業(yè)界已經(jīng)有了一些探索。

閆樹介紹,現(xiàn)在隱私計(jì)算各種各樣的路線,包括可信執(zhí)行環(huán)境TEE、多方安全計(jì)算MPC等都有與大模型結(jié)合的探索,比如在云端部署TEE,用戶在推理時(shí)將輸入數(shù)據(jù)加密傳輸至云端,在其內(nèi)部解密然后進(jìn)行推理;還有在模型推理階段使用多方安全計(jì)算來提升隱私保護(hù)能力,但不可避免地會(huì)對(duì)模型訓(xùn)練和推理的性能造成影響。

肖仰華認(rèn)為,一是要建立系統(tǒng)性防范體系。從用戶角度講,要建立大模型隱私安全意識(shí),充分意識(shí)到使用過中數(shù)據(jù)有可能被服務(wù)方收集;從提供服務(wù)的廠商來看,要提升服務(wù)的規(guī)范性,在用戶完全授權(quán)的情況下收集用戶相關(guān)的使用數(shù)據(jù),不能超出用戶授權(quán)范疇。二是從技術(shù)本身做創(chuàng)新,比如通過設(shè)置網(wǎng)絡(luò)中間層,在中間層來自很多用戶的查詢或者使用可以混淆打亂,這時(shí)平臺(tái)方就無法知道哪個(gè)用戶在查哪個(gè)數(shù)據(jù)。所以傳統(tǒng)的隨機(jī)化匿名化,在大模型時(shí)代仍然還是有一定的適用性。

大模型時(shí)代隱私計(jì)算研究的機(jī)遇與挑戰(zhàn)

大模型一定程度上也會(huì)改變隱私計(jì)算技術(shù)的發(fā)展和研究,那么該如何更好地適用與大模型?

閆樹認(rèn)為,首先可以重點(diǎn)關(guān)注隱私計(jì)算的可用性研究。就是目前來講,隱私計(jì)算用于大部分訓(xùn)練時(shí),性能是主要問題。另外合規(guī)性的探討也是需要各界攜手來,加強(qiáng)技術(shù)和法律領(lǐng)域的聯(lián)合研究,共同探討隱私計(jì)算技術(shù)的應(yīng)用場(chǎng)景和效果,明確隱私計(jì)算技術(shù)的合規(guī)性。

肖仰華認(rèn)為,大模型時(shí)代隱私計(jì)算迎來全新機(jī)遇。傳統(tǒng)的隱私計(jì)算如差分隱私、聯(lián)邦學(xué)習(xí)多是算法層開展工作。但算法工作前提是保護(hù)對(duì)象是明確的,協(xié)作機(jī)制清晰。但大模型時(shí)代是海量參數(shù)化的模型,不透明、無邊界、不可解釋,對(duì)于以前的基于可解釋、清晰、可控的技術(shù)路線的隱私計(jì)算方法提供了全新挑戰(zhàn)。包括上升到技術(shù)架構(gòu)層面,大模型的隱私保護(hù),要分層分級(jí)保護(hù)數(shù)據(jù),大模型做基本的智能能力,要保護(hù)的數(shù)據(jù)還是在傳統(tǒng)的加密數(shù)據(jù)庫,二者如何協(xié)同,這個(gè)是從架構(gòu)層面要研究的。

行業(yè)已有很多動(dòng)作助力隱私計(jì)算未來更復(fù)雜更高要求的應(yīng)用。在本次論壇上螞蟻就開源了自研隱語技術(shù)棧中的隱語框架1.0版,和國(guó)產(chǎn)金融安全級(jí)TEE方案"HyperEnclave",將為行業(yè)提供易用通用的技術(shù)方案。

(圖:2023WAIC,業(yè)內(nèi)首個(gè)金融安全級(jí)國(guó)產(chǎn)TEE方案 HyperEnclave正式開源)

由螞蟻牽頭的行業(yè)首個(gè)"可信執(zhí)行環(huán)境安全"國(guó)際標(biāo)準(zhǔn)IEEE2952-2023在論壇上正式發(fā)布,制定了基于TEE技術(shù)的安全計(jì)算系統(tǒng)的技術(shù)框架,為將為業(yè)界提供有效指導(dǎo)。

關(guān)鍵詞:

最近更新

關(guān)于本站 管理團(tuán)隊(duì) 版權(quán)申明 網(wǎng)站地圖 聯(lián)系合作 招聘信息

Copyright © 2005-2023 創(chuàng)投網(wǎng) - www.mallikadua.com All rights reserved
聯(lián)系我們:39 60 29 14 2@qq.com
皖I(lǐng)CP備2022009963號(hào)-3