突破技術(shù)難題，尚躍智能布局人工智能數(shù)據(jù)流轉(zhuǎn)開放生態(tài)!

2024-05-10 10:10:33 來源: 今日熱點(diǎn)網(wǎng)

“尚躍智能”科研團(tuán)隊(duì)計(jì)劃推出“數(shù)據(jù)可視化”“數(shù)據(jù)可流轉(zhuǎn)化”的開放型數(shù)據(jù)流轉(zhuǎn)平臺(tái)。隨著大數(shù)據(jù)和人工智能技術(shù)的發(fā)展，數(shù)據(jù)成為了當(dāng)今社會(huì)最有價(jià)值的資源之一。但同時(shí)在數(shù)據(jù)的利用過程中，如何兼顧數(shù)據(jù)安全與隱私保護(hù)仍然是一個(gè)待解決的問題?；跀?shù)據(jù)隱私的產(chǎn)品應(yīng)運(yùn)而生，通過分布式機(jī)器學(xué)習(xí)技術(shù)，實(shí)現(xiàn)了在保護(hù)用戶隱私的同時(shí)挖掘數(shù)據(jù)價(jià)值。

目前，該公司團(tuán)隊(duì)已準(zhǔn)備推出開放服務(wù)平臺(tái)1.0、AIGC智能數(shù)據(jù)生成平臺(tái)，并整合產(chǎn)學(xué)研用各方資源搭建人工智能數(shù)據(jù)流轉(zhuǎn)開放生態(tài)，探索通用人工智能數(shù)據(jù)流轉(zhuǎn)產(chǎn)業(yè)化路徑。

以下為尚立卓的演講實(shí)錄：

大家上午好!我是數(shù)據(jù)流轉(zhuǎn)平臺(tái)負(fù)責(zé)人尚立卓。

首先解釋一下，我個(gè)人是大數(shù)據(jù)和計(jì)算機(jī)應(yīng)用專業(yè)的理科出身，從事的是數(shù)據(jù)標(biāo)注業(yè)務(wù)的研究。往年一直在人工智能領(lǐng)域深耕和挖掘，在大模型到來之后，我和我的團(tuán)隊(duì)提出了數(shù)據(jù)可視化，數(shù)據(jù)可交易化的想法，也參與過一些大模型項(xiàng)目，今天我作為一個(gè)人工智能領(lǐng)域的參與者，跟大家分享一下開放型數(shù)據(jù)流轉(zhuǎn)平臺(tái)相關(guān)的情況。

一、大模型目前正在面臨非常大的制約

自從各大 AIGC 橫空出世之后，大型語言模型(LLM)相關(guān)的研究與應(yīng)用也層出不窮，盡管這些技術(shù)能夠?yàn)槲覀兲峁└悄?、精?zhǔn)和便利的信息和服務(wù)，但也帶來了一系列的難題和風(fēng)險(xiǎn)。

大模型面對(duì)的挑戰(zhàn)主要可以分為三大類：“設(shè)計(jì)”、“行為”和“科學(xué)”，其中，大模型的“設(shè)計(jì)”與部署前的決策有關(guān)，在部署過程中會(huì)出現(xiàn)“行為”的挑戰(zhàn)，而“科學(xué)”的挑戰(zhàn)則阻礙了研究大模型的學(xué)術(shù)進(jìn)步。

挑戰(zhàn) 1：難以理解的數(shù)據(jù)集

由于各團(tuán)隊(duì)在擴(kuò)展預(yù)訓(xùn)練的數(shù)據(jù)量，隨著現(xiàn)如今預(yù)訓(xùn)練數(shù)據(jù)集規(guī)模的擴(kuò)大，個(gè)人難以完整閱讀和檢查整個(gè)文檔的質(zhì)量。

如圖所示，近年來預(yù)訓(xùn)練數(shù)據(jù)集變得不可控，因?yàn)樗鼈兊拇笮『投鄻有匝杆僭鲩L(zhǎng)，而并非所有的數(shù)據(jù)集都是公開可用的。

因此，當(dāng)GPT發(fā)布之后，我們就認(rèn)為數(shù)據(jù)和知識(shí)必將是一個(gè)未來的方向，我們現(xiàn)在也看到大多數(shù)大模型已經(jīng)處于“學(xué)識(shí)淵博”的狀態(tài)不知道該去學(xué)習(xí)什么了。

挑戰(zhàn) 2：對(duì)分詞器的依賴

大語言模型的訓(xùn)練和運(yùn)行通常依賴于特定的分詞器，這可能對(duì)其性能和適應(yīng)性產(chǎn)生影響。

分詞(Tokenization)是將一系列單詞或字符拆分為較小單元(即 token)的過程，以便輸入模型。其中一種常見的分詞方法是子詞分詞(subword tokenization)，將單詞分解為子詞或 WordPieces。這樣做的目的是有效處理模型詞匯表中的罕見和未登錄詞匯，同時(shí)限制每個(gè)序列的 token 數(shù)量，以減少計(jì)算復(fù)雜性。子詞分詞器通常通過無監(jiān)督訓(xùn)練來構(gòu)建詞匯表，并可選地使用合并規(guī)則以提高對(duì)訓(xùn)練數(shù)據(jù)的編碼效率。

然而，分詞的必要性也存在一些缺點(diǎn)：

1;不同語言傳達(dá)相同信息所需的 token 數(shù)量差異很大，這可能導(dǎo)致基于 token 數(shù)量計(jì)費(fèi)的 API 語言模型在許多受支持的語言中過度收費(fèi)且結(jié)果不佳，特別是在這些 API 在本身就較不可負(fù)擔(dān)的地區(qū)使用。

2;分詞器和預(yù)訓(xùn)練語料庫(kù)之間的不一致性可能導(dǎo)致錯(cuò)誤 token，進(jìn)而導(dǎo)致模型行為異常。

3;不同語言的分詞方案也面臨一些挑戰(zhàn)，特別是對(duì)于非空格分隔的語言如中文或日文?，F(xiàn)有的子詞分詞方法主要是貪婪算法，試圖以盡可能高效的方式編碼語言，從而導(dǎo)致對(duì)較多語言共享的子詞的偏好，不利于低資源語言的 token。

4;此外，分詞器會(huì)帶來計(jì)算負(fù)擔(dān)、語言依賴性、處理新詞、固定詞匯表大小、信息丟失和人類可解釋性等多個(gè)挑戰(zhàn)。

挑戰(zhàn) 3：高昂的預(yù)訓(xùn)練成本

大型語言模型的訓(xùn)練需要大量的計(jì)算資源和時(shí)間，這可能會(huì)對(duì)其廣泛應(yīng)用產(chǎn)生限制。

訓(xùn)練 LLM 的主要消耗是在預(yù)訓(xùn)練過程中，需要數(shù)十萬個(gè)計(jì)算小時(shí)、數(shù)百萬元的成本，以及相當(dāng)于數(shù)個(gè)普通美國(guó)家庭年度能源消耗量的能量。而近期提出的縮放定律認(rèn)為，模型性能隨著模型大小、數(shù)據(jù)集大小和訓(xùn)練中使用的計(jì)算量呈冪律關(guān)系，這種不可持續(xù)的情況被稱為“紅色 AI”。

為了解決這些問題，有兩條研究路線：

1：計(jì)算最優(yōu)訓(xùn)練方法：通過學(xué)習(xí)經(jīng)驗(yàn)性的“縮放定律”，以實(shí)現(xiàn)在給定計(jì)算預(yù)算下最大化訓(xùn)練效率;

2:預(yù)訓(xùn)練目標(biāo)：如圖所示，利用各種目標(biāo)進(jìn)行自監(jiān)督訓(xùn)練，其中不同的預(yù)訓(xùn)練目標(biāo)會(huì)影響模型的數(shù)據(jù)效率和所需迭代次數(shù)。

此外，還有其他研究方向，如并行策略、層疊模型、遞增批量大小和最新權(quán)重平均等，這些方法在提高模型性能和減少計(jì)算成本方面具有一定效果。

1:預(yù)訓(xùn)練目標(biāo)的選擇包括語言建模、掩碼語言建模、前綴語言建模、連續(xù)區(qū)間損壞和混合去噪等。

2:并行策略是解決訓(xùn)練和推理中巨大 LLM 規(guī)模的常見方法，其中模型并行(model parallelism)和流程并行(pipeline parallelism)是兩種常見的策略。

所以，如何減少大模型的訓(xùn)練成本非常關(guān)鍵，直接影響到了大模型未來的發(fā)展空間和生存狀態(tài)，我們的數(shù)據(jù)流轉(zhuǎn)中心可以解決絕大多數(shù)大模型訓(xùn)練所需的數(shù)據(jù)和知識(shí)數(shù)據(jù)和知識(shí)。

二、人工智能過不去的“坎”

我和我團(tuán)隊(duì)起初在有這個(gè)想法的時(shí)候，就一直在做市場(chǎng)調(diào)研并且在考慮應(yīng)該如何設(shè)計(jì)，將不同的數(shù)據(jù)集導(dǎo)入在一個(gè)平臺(tái)里面供市場(chǎng)上有需求的的大模型公司進(jìn)行訓(xùn)練學(xué)習(xí)。我在晚上休息的時(shí)候看到周鴻祎老師的視頻啟發(fā)到了我。

他說道：大模型之所以能有今天的能力最關(guān)鍵的還是要把人類產(chǎn)生的知識(shí)要訓(xùn)練進(jìn)去，要教給他用但是在2021年訓(xùn)練GPT4的時(shí)候就已經(jīng)耗盡了他們能找到的所有關(guān)于人類的文本知識(shí)。

也正是因?yàn)橹芾蠋煹倪@句話堅(jiān)定了我們要開發(fā)制造數(shù)據(jù)流轉(zhuǎn)平臺(tái)的信心。我們提出的數(shù)據(jù)流轉(zhuǎn)中心和數(shù)據(jù)可視化就是要把目前人類所認(rèn)知到的和未被市場(chǎng)商業(yè)化的數(shù)據(jù)給結(jié)合起來形成一個(gè)數(shù)據(jù)倉(cāng)庫(kù)集中起來，進(jìn)而滿足各種各樣大模型的數(shù)據(jù)和知識(shí)需求。

三、打造開放服務(wù)平臺(tái) 1.0，做到數(shù)據(jù)流轉(zhuǎn)合規(guī)化

數(shù)據(jù)合規(guī)一詞，已經(jīng)越來越被大眾所熟知并認(rèn)可，其中涵蓋的合規(guī)內(nèi)容很多，從全生命周期的角度，就包括收集合規(guī)、存儲(chǔ)合規(guī)、使用合規(guī)、流轉(zhuǎn)合規(guī)等等。根據(jù)我們的觀察，流轉(zhuǎn)階段是目前普遍最不受重視的領(lǐng)域，例如，隨便將個(gè)人信息/數(shù)據(jù)發(fā)在微信群、沒有對(duì)接收方的數(shù)據(jù)處理行為進(jìn)行監(jiān)管等，更別提簽訂合同明確各方的權(quán)利義務(wù)了。但事實(shí)上，數(shù)據(jù)流轉(zhuǎn)，可能是除了收集之外，離我們生活最近的一環(huán)。只要稍加留意，就會(huì)發(fā)現(xiàn)，數(shù)據(jù)流轉(zhuǎn)的場(chǎng)景到處都是。例如，某寶上購(gòu)物，買家信息先是給到平臺(tái)，平臺(tái)再給到商家;再如，代發(fā)工資，公司會(huì)將財(cái)務(wù)數(shù)據(jù)給到銀行，等等。更何況，生產(chǎn)要素要最大化的發(fā)揮出價(jià)值，必須要充分的流動(dòng)起來，從這個(gè)角度看，數(shù)據(jù)流動(dòng)的合規(guī)化可能是數(shù)據(jù)合規(guī)鏈條中最重要的一環(huán)。那么數(shù)據(jù)流動(dòng)如何做到合規(guī)呢?

1:明確合規(guī)紅線。我們會(huì)基于風(fēng)險(xiǎn)維度的審查思路，梳理法律法規(guī)的相關(guān)要求以及結(jié)合企業(yè)內(nèi)部的合規(guī)管理要求，設(shè)定合規(guī)審查紅線，并將其作為合規(guī)審查的優(yōu)先項(xiàng);當(dāng)出現(xiàn)觸發(fā)合規(guī)審查紅線的情形，則應(yīng)拒絕接入相關(guān)數(shù)據(jù)，實(shí)現(xiàn)明確合規(guī)底線，提高審查效率的效果。合規(guī)審查紅線可以根據(jù)數(shù)據(jù)源(即出售方)類型、數(shù)據(jù)類型、數(shù)據(jù)收集手段等方面予以全面考量。

2:數(shù)據(jù)來源的分類分級(jí)。在推進(jìn)數(shù)據(jù)合規(guī)審查工作過程中，建立數(shù)據(jù)來源分類分級(jí)審查規(guī)則，風(fēng)險(xiǎn)評(píng)價(jià)指標(biāo)和可結(jié)合采購(gòu)業(yè)務(wù)場(chǎng)景、數(shù)據(jù)源的情況等予以綜合確定。例如數(shù)據(jù)源類型、數(shù)據(jù)主體類型、數(shù)據(jù)類型、數(shù)據(jù)來源業(yè)務(wù)場(chǎng)景、數(shù)據(jù)應(yīng)用業(yè)務(wù)場(chǎng)景等因素都會(huì)對(duì)數(shù)據(jù)來源合規(guī)審查的風(fēng)險(xiǎn)等級(jí)判斷產(chǎn)生影響;其中，對(duì)于高風(fēng)險(xiǎn)數(shù)據(jù)源應(yīng)當(dāng)予以審慎審查。

3: 實(shí)現(xiàn)穿透審查。數(shù)據(jù)來源的合規(guī)審查應(yīng)當(dāng)堅(jiān)持穿透性原則，對(duì)于多主體間流轉(zhuǎn)、數(shù)據(jù)處理活動(dòng)復(fù)雜的數(shù)據(jù)源審查應(yīng)當(dāng)穿透至底層數(shù)據(jù)，重點(diǎn)關(guān)注收集和提供過程中獲得授權(quán)同意等的完整性、連續(xù)性。例如業(yè)務(wù)交互場(chǎng)景下收集和產(chǎn)生的數(shù)據(jù)是否可以用于其他目的，就需通過審查協(xié)議文本等確認(rèn)數(shù)據(jù)源對(duì)數(shù)據(jù)所享有權(quán)益的具體范圍。

四、服務(wù)于大模型，打造簡(jiǎn)單，優(yōu)質(zhì)，低成本的道路

我們?yōu)榇竽Ｐ烷_發(fā)高價(jià)值的開放平臺(tái)，把無規(guī)律的數(shù)據(jù)提煉為高價(jià)值的數(shù)據(jù)提供給機(jī)器學(xué)習(xí)，提供“動(dòng)力來源”，“提供糧食”像石油一樣源源不斷的給大模型輸送。傳播開放數(shù)據(jù)產(chǎn)生的價(jià)值，為大模型的訓(xùn)練提供有價(jià)值的數(shù)據(jù)為跨領(lǐng)域跨行業(yè)應(yīng)用提升開放數(shù)據(jù)的利用建議，幫助用戶突破行業(yè)間的認(rèn)知壁壘，促進(jìn)數(shù)據(jù)應(yīng)用

我們不斷追趕，不斷深耕探索，從數(shù)據(jù)到算力和算法，我們一直在進(jìn)步，公司將會(huì)一直在人工智能領(lǐng)域里鉆研，同時(shí)也希望大家和我們一起共同推動(dòng)人工智能的發(fā)展

謝謝大家!

關(guān)鍵詞：

突破技術(shù)難題，尚躍智能布局人工智能數(shù)據(jù)流轉(zhuǎn)開放生態(tài)!

您可能也感興趣:

今日熱點(diǎn)

【糧食大事】增強(qiáng)糧食全鏈條協(xié)同保障能力

北交所將穩(wěn)步擴(kuò)大指數(shù)化投資

融券新規(guī)對(duì)ETF投資有影響么？

更多

更多

排行

最近更新

今日要聞

突破技術(shù)難題，尚躍智能布局人工智能數(shù)據(jù)流轉(zhuǎn)開放生態(tài)!

您可能也感興趣:

今日熱點(diǎn)

【糧食大事】增強(qiáng)糧食全鏈條協(xié)同保障能力

北交所將穩(wěn)步擴(kuò)大指數(shù)化投資

融券新規(guī)對(duì)ETF投資有影響么？

為您推薦

國(guó)家郵政局：1—9月中國(guó)快遞業(yè)務(wù)量同比增長(zhǎng)16.4%

中國(guó)紅APP正式上線發(fā)布

第十二屆東亞地方政府會(huì)議將在山東臨沂召開 促進(jìn)東亞地區(qū)交流合作

（鄉(xiāng)村行·看振興）山西柳林依托“數(shù)商興農(nóng)”打造鄉(xiāng)村e(cuò)鎮(zhèn) 電商交易9個(gè)月達(dá)3.5億元

更多

更多

排行

最近更新

今日要聞

第十二屆東亞地方政府會(huì)議將在山東臨沂召開促進(jìn)東亞地區(qū)交流合作