首頁 資訊 > 產(chǎn)業(yè) > 正文

突破技術(shù)難題,尚躍智能布局人工智能數(shù)據(jù)流轉(zhuǎn)開放生態(tài)!

“尚躍智能”科研團(tuán)隊(duì)計(jì)劃推出“數(shù)據(jù)可視化”“數(shù)據(jù)可流轉(zhuǎn)化”的開放型數(shù)據(jù)流轉(zhuǎn)平臺(tái)。隨著大數(shù)據(jù)和人工智能技術(shù)的發(fā)展,數(shù)據(jù)成為了當(dāng)今社會(huì)最有價(jià)值的資源之一。但同時(shí)在數(shù)據(jù)的利用過程中,如何兼顧數(shù)據(jù)安全與隱私保護(hù)仍然是一個(gè)待解決的問題?;跀?shù)據(jù)隱私的產(chǎn)品應(yīng)運(yùn)而生,通過分布式機(jī)器學(xué)習(xí)技術(shù),實(shí)現(xiàn)了在保護(hù)用戶隱私的同時(shí)挖掘數(shù)據(jù)價(jià)值。

目前,該公司團(tuán)隊(duì)已準(zhǔn)備推出開放服務(wù)平臺(tái)1.0、AIGC智能數(shù)據(jù)生成平臺(tái),并整合產(chǎn)學(xué)研用各方資源搭建人工智能數(shù)據(jù)流轉(zhuǎn)開放生態(tài),探索通用人工智能數(shù)據(jù)流轉(zhuǎn)產(chǎn)業(yè)化路徑。

以下為尚立卓的演講實(shí)錄:

大家上午好!我是數(shù)據(jù)流轉(zhuǎn)平臺(tái)負(fù)責(zé)人尚立卓。

首先解釋一下,我個(gè)人是大數(shù)據(jù)和計(jì)算機(jī)應(yīng)用專業(yè)的理科出身,從事的是數(shù)據(jù)標(biāo)注業(yè)務(wù)的研究。往年一直在人工智能領(lǐng)域深耕和挖掘,在大模型到來之后,我和我的團(tuán)隊(duì)提出了數(shù)據(jù)可視化,數(shù)據(jù)可交易化的想法,也參與過一些大模型項(xiàng)目,今天我作為一個(gè)人工智能領(lǐng)域的參與者,跟大家分享一下開放型數(shù)據(jù)流轉(zhuǎn)平臺(tái)相關(guān)的情況。

一、大模型目前正在面臨非常大的制約

自從各大 AIGC 橫空出世之后,大型語言模型(LLM)相關(guān)的研究與應(yīng)用也層出不窮,盡管這些技術(shù)能夠?yàn)槲覀兲峁└悄?、精?zhǔn)和便利的信息和服務(wù),但也帶來了一系列的難題和風(fēng)險(xiǎn)。

大模型面對(duì)的挑戰(zhàn)主要可以分為三大類:“設(shè)計(jì)”、“行為”和“科學(xué)”,其中,大模型的“設(shè)計(jì)”與部署前的決策有關(guān),在部署過程中會(huì)出現(xiàn)“行為”的挑戰(zhàn),而“科學(xué)”的挑戰(zhàn)則阻礙了研究大模型的學(xué)術(shù)進(jìn)步。

挑戰(zhàn) 1:難以理解的數(shù)據(jù)集

由于各團(tuán)隊(duì)在擴(kuò)展預(yù)訓(xùn)練的數(shù)據(jù)量,隨著現(xiàn)如今預(yù)訓(xùn)練數(shù)據(jù)集規(guī)模的擴(kuò)大,個(gè)人難以完整閱讀和檢查整個(gè)文檔的質(zhì)量。

如圖所示,近年來預(yù)訓(xùn)練數(shù)據(jù)集變得不可控,因?yàn)樗鼈兊拇笮『投鄻有匝杆僭鲩L(zhǎng),而并非所有的數(shù)據(jù)集都是公開可用的。

因此,當(dāng)GPT發(fā)布之后,我們就認(rèn)為數(shù)據(jù)和知識(shí)必將是一個(gè)未來的方向,我們現(xiàn)在也看到大多數(shù)大模型已經(jīng)處于“學(xué)識(shí)淵博”的狀態(tài)不知道該去學(xué)習(xí)什么了。

挑戰(zhàn) 2:對(duì)分詞器的依賴

大語言模型的訓(xùn)練和運(yùn)行通常依賴于特定的分詞器,這可能對(duì)其性能和適應(yīng)性產(chǎn)生影響。

分詞(Tokenization)是將一系列單詞或字符拆分為較小單元(即 token)的過程,以便輸入模型。其中一種常見的分詞方法是子詞分詞(subword tokenization),將單詞分解為子詞或 WordPieces。這樣做的目的是有效處理模型詞匯表中的罕見和未登錄詞匯,同時(shí)限制每個(gè)序列的 token 數(shù)量,以減少計(jì)算復(fù)雜性。子詞分詞器通常通過無監(jiān)督訓(xùn)練來構(gòu)建詞匯表,并可選地使用合并規(guī)則以提高對(duì)訓(xùn)練數(shù)據(jù)的編碼效率。

然而,分詞的必要性也存在一些缺點(diǎn):

1;不同語言傳達(dá)相同信息所需的 token 數(shù)量差異很大,這可能導(dǎo)致基于 token 數(shù)量計(jì)費(fèi)的 API 語言模型在許多受支持的語言中過度收費(fèi)且結(jié)果不佳,特別是在這些 API 在本身就較不可負(fù)擔(dān)的地區(qū)使用。

2;分詞器和預(yù)訓(xùn)練語料庫(kù)之間的不一致性可能導(dǎo)致錯(cuò)誤 token,進(jìn)而導(dǎo)致模型行為異常。

3;不同語言的分詞方案也面臨一些挑戰(zhàn),特別是對(duì)于非空格分隔的語言如中文或日文?,F(xiàn)有的子詞分詞方法主要是貪婪算法,試圖以盡可能高效的方式編碼語言,從而導(dǎo)致對(duì)較多語言共享的子詞的偏好,不利于低資源語言的 token。

4;此外,分詞器會(huì)帶來計(jì)算負(fù)擔(dān)、語言依賴性、處理新詞、固定詞匯表大小、信息丟失和人類可解釋性等多個(gè)挑戰(zhàn)。

挑戰(zhàn) 3:高昂的預(yù)訓(xùn)練成本

大型語言模型的訓(xùn)練需要大量的計(jì)算資源和時(shí)間,這可能會(huì)對(duì)其廣泛應(yīng)用產(chǎn)生限制。

訓(xùn)練 LLM 的主要消耗是在預(yù)訓(xùn)練過程中,需要數(shù)十萬個(gè)計(jì)算小時(shí)、數(shù)百萬元的成本,以及相當(dāng)于數(shù)個(gè)普通美國(guó)家庭年度能源消耗量的能量。而近期提出的縮放定律認(rèn)為,模型性能隨著模型大小、數(shù)據(jù)集大小和訓(xùn)練中使用的計(jì)算量呈冪律關(guān)系,這種不可持續(xù)的情況被稱為“紅色 AI”。

為了解決這些問題,有兩條研究路線:

1:計(jì)算最優(yōu)訓(xùn)練方法:通過學(xué)習(xí)經(jīng)驗(yàn)性的“縮放定律”,以實(shí)現(xiàn)在給定計(jì)算預(yù)算下最大化訓(xùn)練效率;

2:預(yù)訓(xùn)練目標(biāo):如圖所示,利用各種目標(biāo)進(jìn)行自監(jiān)督訓(xùn)練,其中不同的預(yù)訓(xùn)練目標(biāo)會(huì)影響模型的數(shù)據(jù)效率和所需迭代次數(shù)。

此外,還有其他研究方向,如并行策略、層疊模型、遞增批量大小和最新權(quán)重平均等,這些方法在提高模型性能和減少計(jì)算成本方面具有一定效果。

1:預(yù)訓(xùn)練目標(biāo)的選擇包括語言建模、掩碼語言建模、前綴語言建模、連續(xù)區(qū)間損壞和混合去噪等。

2:并行策略是解決訓(xùn)練和推理中巨大 LLM 規(guī)模的常見方法,其中模型并行(model parallelism)和流程并行(pipeline parallelism)是兩種常見的策略。

所以,如何減少大模型的訓(xùn)練成本非常關(guān)鍵,直接影響到了大模型未來的發(fā)展空間和生存狀態(tài),我們的數(shù)據(jù)流轉(zhuǎn)中心可以解決絕大多數(shù)大模型訓(xùn)練所需的數(shù)據(jù)和知識(shí)數(shù)據(jù)和知識(shí)。

二、人工智能過不去的“坎”

我和我團(tuán)隊(duì)起初在有這個(gè)想法的時(shí)候,就一直在做市場(chǎng)調(diào)研并且在考慮應(yīng)該如何設(shè)計(jì),將不同的數(shù)據(jù)集導(dǎo)入在一個(gè)平臺(tái)里面供市場(chǎng)上有需求的的大模型公司進(jìn)行訓(xùn)練學(xué)習(xí)。我在晚上休息的時(shí)候看到周鴻祎老師的視頻啟發(fā)到了我。

他說道:大模型之所以能有今天的能力最關(guān)鍵的還是要把人類產(chǎn)生的知識(shí)要訓(xùn)練進(jìn)去,要教給他用但是在2021年訓(xùn)練GPT4的時(shí)候就已經(jīng)耗盡了他們能找到的所有關(guān)于人類的文本知識(shí)。

也正是因?yàn)橹芾蠋煹倪@句話堅(jiān)定了我們要開發(fā)制造數(shù)據(jù)流轉(zhuǎn)平臺(tái)的信心。我們提出的數(shù)據(jù)流轉(zhuǎn)中心和數(shù)據(jù)可視化就是要把目前人類所認(rèn)知到的和未被市場(chǎng)商業(yè)化的數(shù)據(jù)給結(jié)合起來形成一個(gè)數(shù)據(jù)倉(cāng)庫(kù)集中起來,進(jìn)而滿足各種各樣大模型的數(shù)據(jù)和知識(shí)需求。

三、打造開放服務(wù)平臺(tái) 1.0,做到數(shù)據(jù)流轉(zhuǎn)合規(guī)化

數(shù)據(jù)合規(guī)一詞,已經(jīng)越來越被大眾所熟知并認(rèn)可,其中涵蓋的合規(guī)內(nèi)容很多,從全生命周期的角度,就包括收集合規(guī)、存儲(chǔ)合規(guī)、使用合規(guī)、流轉(zhuǎn)合規(guī)等等。根據(jù)我們的觀察,流轉(zhuǎn)階段是目前普遍最不受重視的領(lǐng)域,例如,隨便將個(gè)人信息/數(shù)據(jù)發(fā)在微信群、沒有對(duì)接收方的數(shù)據(jù)處理行為進(jìn)行監(jiān)管等,更別提簽訂合同明確各方的權(quán)利義務(wù)了。但事實(shí)上,數(shù)據(jù)流轉(zhuǎn),可能是除了收集之外,離我們生活最近的一環(huán)。只要稍加留意,就會(huì)發(fā)現(xiàn),數(shù)據(jù)流轉(zhuǎn)的場(chǎng)景到處都是。例如,某寶上購(gòu)物,買家信息先是給到平臺(tái),平臺(tái)再給到商家;再如,代發(fā)工資,公司會(huì)將財(cái)務(wù)數(shù)據(jù)給到銀行,等等。更何況,生產(chǎn)要素要最大化的發(fā)揮出價(jià)值,必須要充分的流動(dòng)起來,從這個(gè)角度看,數(shù)據(jù)流動(dòng)的合規(guī)化可能是數(shù)據(jù)合規(guī)鏈條中最重要的一環(huán)。那么數(shù)據(jù)流動(dòng)如何做到合規(guī)呢?

1:明確合規(guī)紅線。我們會(huì)基于風(fēng)險(xiǎn)維度的審查思路,梳理法律法規(guī)的相關(guān)要求以及結(jié)合企業(yè)內(nèi)部的合規(guī)管理要求,設(shè)定合規(guī)審查紅線,并將其作為合規(guī)審查的優(yōu)先項(xiàng);當(dāng)出現(xiàn)觸發(fā)合規(guī)審查紅線的情形,則應(yīng)拒絕接入相關(guān)數(shù)據(jù),實(shí)現(xiàn)明確合規(guī)底線,提高審查效率的效果。合規(guī)審查紅線可以根據(jù)數(shù)據(jù)源(即出售方)類型、數(shù)據(jù)類型、數(shù)據(jù)收集手段等方面予以全面考量。

2:數(shù)據(jù)來源的分類分級(jí)。在推進(jìn)數(shù)據(jù)合規(guī)審查工作過程中,建立數(shù)據(jù)來源分類分級(jí)審查規(guī)則,風(fēng)險(xiǎn)評(píng)價(jià)指標(biāo)和可結(jié)合采購(gòu)業(yè)務(wù)場(chǎng)景、數(shù)據(jù)源的情況等予以綜合確定。例如數(shù)據(jù)源類型、數(shù)據(jù)主體類型、數(shù)據(jù)類型、數(shù)據(jù)來源業(yè)務(wù)場(chǎng)景、數(shù)據(jù)應(yīng)用業(yè)務(wù)場(chǎng)景等因素都會(huì)對(duì)數(shù)據(jù)來源合規(guī)審查的風(fēng)險(xiǎn)等級(jí)判斷產(chǎn)生影響;其中,對(duì)于高風(fēng)險(xiǎn)數(shù)據(jù)源應(yīng)當(dāng)予以審慎審查。

3: 實(shí)現(xiàn)穿透審查。數(shù)據(jù)來源的合規(guī)審查應(yīng)當(dāng)堅(jiān)持穿透性原則,對(duì)于多主體間流轉(zhuǎn)、數(shù)據(jù)處理活動(dòng)復(fù)雜的數(shù)據(jù)源審查應(yīng)當(dāng)穿透至底層數(shù)據(jù),重點(diǎn)關(guān)注收集和提供過程中獲得授權(quán)同意等的完整性、連續(xù)性。例如業(yè)務(wù)交互場(chǎng)景下收集和產(chǎn)生的數(shù)據(jù)是否可以用于其他目的,就需通過審查協(xié)議文本等確認(rèn)數(shù)據(jù)源對(duì)數(shù)據(jù)所享有權(quán)益的具體范圍。

四、服務(wù)于大模型,打造簡(jiǎn)單,優(yōu)質(zhì),低成本的道路

我們?yōu)榇竽P烷_發(fā)高價(jià)值的開放平臺(tái),把無規(guī)律的數(shù)據(jù)提煉為高價(jià)值的數(shù)據(jù)提供給機(jī)器學(xué)習(xí),提供“動(dòng)力來源”,“提供糧食”像石油一樣源源不斷的給大模型輸送。傳播開放數(shù)據(jù)產(chǎn)生的價(jià)值,為大模型的訓(xùn)練提供有價(jià)值的數(shù)據(jù)為跨領(lǐng)域跨行業(yè)應(yīng)用提升開放數(shù)據(jù)的利用建議,幫助用戶突破行業(yè)間的認(rèn)知壁壘,促進(jìn)數(shù)據(jù)應(yīng)用

我們不斷追趕,不斷深耕探索,從數(shù)據(jù)到算力和算法,我們一直在進(jìn)步,公司將會(huì)一直在人工智能領(lǐng)域里鉆研,同時(shí)也希望大家和我們一起共同推動(dòng)人工智能的發(fā)展

謝謝大家!

 

 

關(guān)鍵詞:

最近更新

關(guān)于本站 管理團(tuán)隊(duì) 版權(quán)申明 網(wǎng)站地圖 聯(lián)系合作 招聘信息

Copyright © 2005-2023 創(chuàng)投網(wǎng) - www.mallikadua.com All rights reserved
聯(lián)系我們:39 60 29 14 2@qq.com
皖I(lǐng)CP備2022009963號(hào)-3