首頁(yè) 資訊 > 資訊 > 正文

用“人造”的數(shù)據(jù)喂養(yǎng)AI?合成數(shù)據(jù)億級(jí)市場(chǎng)涌現(xiàn)

21世紀(jì)經(jīng)濟(jì)報(bào)道 記者郭美婷 林曦 實(shí)習(xí)生溫泳珊 廣州報(bào)道


(資料圖片僅供參考)

AI潮水洶涌,數(shù)據(jù)正成為一門(mén)火爆的生意。

為了給人工智能喂上充足的“養(yǎng)料”,從發(fā)掘、采集到標(biāo)注,企業(yè)在數(shù)據(jù)處理的各個(gè)環(huán)節(jié)掘金。到如今,真實(shí)的數(shù)據(jù)已無(wú)法滿足日漸膨脹的AI“胃口”,企業(yè)開(kāi)始探索AI自產(chǎn)自銷的“假”數(shù)據(jù)——合成數(shù)據(jù)產(chǎn)業(yè)應(yīng)用而生。

上個(gè)月底,國(guó)內(nèi)合成數(shù)據(jù)公司“光輪智能”宣布完成天使+輪融資;幾個(gè)月前,新加坡合成數(shù)據(jù)初創(chuàng)公司Betterdata也獲得一筆165萬(wàn)美元規(guī)模的種子輪融資?;ヂ?lián)網(wǎng)大廠也開(kāi)始了布局。微軟、英偉達(dá)、meta、亞馬遜等數(shù)得上號(hào)的科技巨頭中,均有合成數(shù)據(jù)相關(guān)的業(yè)務(wù)布局、投資或收購(gòu)舉動(dòng)。

合成數(shù)據(jù)究竟是“何方神圣”?它有怎樣的產(chǎn)業(yè)價(jià)值和風(fēng)險(xiǎn)?會(huì)給AI產(chǎn)業(yè)帶來(lái)怎樣的顛覆?

“人造”數(shù)據(jù)崛起

相比于從現(xiàn)實(shí)世界中采集或測(cè)量的真實(shí)數(shù)據(jù),合成數(shù)據(jù)顧名思義是人工合成的“假”數(shù)據(jù)。由于能夠反映原始數(shù)據(jù)的屬性,合成數(shù)據(jù)可以作為原始數(shù)據(jù)的替代品來(lái)訓(xùn)練、測(cè)試和驗(yàn)證AI模型。

但人工合成并不意味著完全憑空捏造?,F(xiàn)階段,大部分合成數(shù)據(jù)的“根”仍然是真實(shí)數(shù)據(jù)。

Unity中國(guó)高級(jí)軟件工程師錢(qián)文億向21世紀(jì)經(jīng)濟(jì)報(bào)道記者介紹了其合成數(shù)據(jù)產(chǎn)品在計(jì)算機(jī)視覺(jué)相關(guān)項(xiàng)目中的普遍生成過(guò)程:第一步,在現(xiàn)實(shí)中找到可識(shí)別的對(duì)象,通過(guò)掃描技術(shù),將物體模型真實(shí)地還原在3D場(chǎng)景中;在此基礎(chǔ)上,對(duì)該物體模型進(jìn)行打標(biāo)簽,如顏色、大小等,具體標(biāo)簽類型依據(jù)訓(xùn)練需求而定;最后,將這些物體放置于各種設(shè)定的場(chǎng)景中,隨機(jī)組合,快速地生成多張圖片。

因此,訓(xùn)練同一個(gè)AI模型時(shí),使用真實(shí)數(shù)據(jù)也許需要攝像頭不斷變換地捕捉物體在不同場(chǎng)景、狀態(tài)下的多張照片,而合成數(shù)據(jù)則能夠通過(guò)調(diào)整物體位置、角度、所處背景等參數(shù),一分鐘內(nèi)生產(chǎn)成百上千張不同的圖片,降低成本,提高數(shù)據(jù)集生成效率。

事實(shí)上,合成數(shù)據(jù)的概念并不新穎。據(jù)說(shuō),這一概念早在1993年Donald Rubin的一篇文章中就有雛形。近年來(lái),隨著人工智能技術(shù)一次次取得突破性發(fā)展,真實(shí)數(shù)據(jù)的采集、獲取難度也水漲船高,已難以填飽AI訓(xùn)練的龐大“胃口”。

合成數(shù)據(jù)常常作為真實(shí)數(shù)據(jù)的“平替”而存在。據(jù)人工智能初創(chuàng)公司Cohere首席執(zhí)行官Aiden Gomez在上個(gè)月底透露,由于Reddit、推特等公司的數(shù)據(jù)采集要價(jià)太高,微軟、OpenAI和Cohere等公司,已使用合成數(shù)據(jù)來(lái)訓(xùn)練AI模型。Gomez表示,合成數(shù)據(jù)可以適用于很多訓(xùn)練場(chǎng)景,只是目前尚未全面推廣。

但在廣州大學(xué)計(jì)算機(jī)科學(xué)與網(wǎng)絡(luò)工程學(xué)院教授王員根看來(lái),價(jià)格反而不是選擇合成數(shù)據(jù)最主要的考慮因素。

真實(shí)數(shù)據(jù)涉及大量個(gè)人隱私,冒然使用可能引起嚴(yán)重的法律糾紛問(wèn)題,而且并非所有的真實(shí)數(shù)據(jù)都是可用的?;ヂ?lián)網(wǎng)上充斥著大量真?zhèn)坞y辨的信息,要從雜亂無(wú)章的真實(shí)數(shù)據(jù)中挖掘出可用的信息,需要大量的人工篩選。另外,真實(shí)數(shù)據(jù)還存在分布不均衡的問(wèn)題。例如,訓(xùn)練人臉識(shí)別系統(tǒng)時(shí),從互聯(lián)網(wǎng)上爬取到的人臉數(shù)據(jù)中亮皮膚人臉圖像占多,而暗皮膚人臉圖像偏少,這將導(dǎo)致所訓(xùn)練的模型存在偏見(jiàn)。合成數(shù)據(jù)恰能在一定程度上人為規(guī)避上述問(wèn)題。

“部分真實(shí)數(shù)據(jù)無(wú)法獲取,如清晰的水下圖像等,通過(guò)合成數(shù)據(jù)技術(shù)模擬生成相關(guān)數(shù)據(jù),能夠補(bǔ)充訓(xùn)練數(shù)據(jù)的完備性。”王員根補(bǔ)充道,盡管現(xiàn)階段大量合成數(shù)據(jù)建立在真實(shí)數(shù)據(jù)基礎(chǔ)上,但隨著技術(shù)的進(jìn)步,未來(lái)對(duì)真實(shí)數(shù)據(jù)的依賴將逐步減少,目前已有技術(shù)能讓直接合成的數(shù)據(jù)“以假亂真”。

但合成數(shù)據(jù)并非十全十美。在AI訓(xùn)練數(shù)據(jù)服務(wù)商Appen澳鵬官方發(fā)布的一篇文章中,就提到合成數(shù)據(jù)缺乏異常值,而這些異常值自然出現(xiàn)在真實(shí)數(shù)據(jù)中,對(duì)于模型精確度至關(guān)重要。另外,合成數(shù)據(jù)的質(zhì)量通常取決于用于生成的輸入數(shù)據(jù),輸入數(shù)據(jù)中的偏見(jiàn)很容易傳播到合成數(shù)據(jù)中,因此不能低估使用高質(zhì)量數(shù)據(jù)作為起點(diǎn)的重要性。所以,企業(yè)需要將合成數(shù)據(jù)與人工標(biāo)注的真實(shí)數(shù)據(jù)進(jìn)行比較,作為額外的輸出控制。

越敏感,越先突破

目前,合成數(shù)據(jù)主要應(yīng)用于哪些領(lǐng)域?

相比于自然語(yǔ)言、音頻等形式,合成數(shù)據(jù)最先在計(jì)算機(jī)視覺(jué)上展露拳腳。受訪專家們認(rèn)為,這與圖片處理更加簡(jiǎn)單直接、人類與環(huán)境進(jìn)行交互時(shí)優(yōu)先通過(guò)視覺(jué)系統(tǒng)等因素相關(guān)。未來(lái),其他領(lǐng)域的合成數(shù)據(jù)也將得到進(jìn)一步的發(fā)展。

合成數(shù)據(jù)在自動(dòng)駕駛、醫(yī)療、金融等場(chǎng)景有著廣闊的應(yīng)用前景。這些場(chǎng)景的共同點(diǎn)在于,真實(shí)數(shù)據(jù)敏感,難以獲取,但又關(guān)涉重大,有的還涉及人身安全,對(duì)數(shù)據(jù)質(zhì)量要求極高?!澳睦镒钣行枰?,哪里就會(huì)最先得到發(fā)展和應(yīng)用。合成數(shù)據(jù)技術(shù)最有可能在這些敏感場(chǎng)景中取得突破?!蓖鯁T根表示。

以自動(dòng)駕駛為例,實(shí)際駕駛過(guò)程中,車輛可能會(huì)碰到各種復(fù)雜多變的路況,甚至是極端情況,如嚴(yán)重的交通堵塞、事故、惡劣天氣等。尤其是在極端情況下,使用真車冒險(xiǎn)測(cè)試幾乎不可能,極難采集和獲取到真實(shí)數(shù)據(jù)。

合成數(shù)據(jù)可以模擬出這些情景。王員根介紹,“比如,要模擬暴雨天氣,我們就用日常能夠收集到的普通天氣的數(shù)據(jù),構(gòu)建一個(gè)物理或網(wǎng)絡(luò)模型,將‘暴雨’的關(guān)鍵參數(shù)輸入進(jìn)去,就能生成相應(yīng)的場(chǎng)景。模型和參數(shù)越準(zhǔn)確,場(chǎng)景的逼真程度越高?!比绱?,能夠在保障人員和設(shè)備安全的條件下,提升自動(dòng)駕駛能力。

公開(kāi)資料顯示,許多自動(dòng)駕駛汽車廠商都在合成數(shù)據(jù)和模擬方面進(jìn)行了大量投資。例如,谷歌母公司Alphabet旗下的自動(dòng)駕駛子公司W(wǎng)aymo在2106年就生成了25億英里的模擬駕駛數(shù)據(jù)來(lái)訓(xùn)練其自動(dòng)駕駛系統(tǒng)(相比之下,從現(xiàn)實(shí)世界收集的駕駛數(shù)據(jù)僅為300萬(wàn)英里)。到 2019 年,這一數(shù)字已達(dá)到100 億英里。

國(guó)內(nèi),騰訊自動(dòng)駕駛實(shí)驗(yàn)室開(kāi)發(fā)的自動(dòng)駕駛仿真系統(tǒng)TADSim已經(jīng)可以自動(dòng)生成無(wú)需標(biāo)注的各種交通場(chǎng)景數(shù)據(jù)。華為云也基于盤(pán)古大模型開(kāi)發(fā)了場(chǎng)景重建大模型,該模型可基于采集的路采視頻數(shù)據(jù)做場(chǎng)景重建(合成數(shù)據(jù)),普通用戶很難用肉眼分清這些重建的場(chǎng)景跟真實(shí)場(chǎng)景有何區(qū)別。

然而,自動(dòng)駕駛涉及人身安全,合成數(shù)據(jù)畢竟不是完全真實(shí)的,這注定了企業(yè)使用這類數(shù)據(jù)進(jìn)行訓(xùn)練時(shí)會(huì)表現(xiàn)得更加謹(jǐn)慎。

小馬智行聯(lián)合創(chuàng)始人兼CTO樓天城向21記者強(qiáng)調(diào),合成數(shù)據(jù)既有憑空生成的虛擬數(shù)據(jù),也有基于真實(shí)數(shù)據(jù)加以修改得到的數(shù)據(jù),目前在L4的感知模塊中,小馬智行沒(méi)有使用憑空生成的虛擬數(shù)據(jù)。主要是因?yàn)長(zhǎng)4方案依賴于激光雷達(dá),對(duì)于如惡劣天氣、長(zhǎng)尾物體等難度場(chǎng)景,生成激光雷達(dá)的虛擬數(shù)據(jù)與真實(shí)數(shù)據(jù)的分布差異較大,無(wú)法用虛擬數(shù)據(jù)來(lái)達(dá)到在真實(shí)場(chǎng)景下提升的效果。

但小馬智行會(huì)對(duì)真實(shí)數(shù)據(jù)加以修改來(lái)合成數(shù)據(jù)用于感知算法,對(duì)于不依賴原始傳感器輸入的模塊,例如路徑規(guī)劃和一些場(chǎng)景理解等算法,也會(huì)使用合成數(shù)據(jù)進(jìn)行訓(xùn)練和仿真評(píng)估。

樓天城認(rèn)為,要把虛擬數(shù)據(jù)做到足夠逼真對(duì)標(biāo)注質(zhì)量的要求反而更高。而對(duì)于一般的簡(jiǎn)單場(chǎng)景,做數(shù)據(jù)挖掘和智能標(biāo)注的數(shù)據(jù)閉環(huán)相比于研發(fā)合成逼真的虛擬數(shù)據(jù)的成本還要低不少。目前學(xué)術(shù)界對(duì)使用完全虛擬的數(shù)據(jù)進(jìn)行自動(dòng)駕駛的訓(xùn)練有一些研究,不少公司也在做相關(guān)預(yù)研。從訓(xùn)練效果來(lái)看,從0到80分有幫助,但對(duì)90到99分效果一般,實(shí)際落地部署的案例并不普遍。

“我們也在關(guān)注合成虛擬數(shù)據(jù)相關(guān)的技術(shù)進(jìn)展并持開(kāi)放的態(tài)度,如果某一天技術(shù)足夠成熟時(shí)也會(huì)考慮應(yīng)用?!睒翘斐潜硎?。

數(shù)據(jù)標(biāo)注產(chǎn)業(yè)將被重構(gòu)?

據(jù)咨詢公司Gartner預(yù)測(cè),到2030年,合成數(shù)據(jù)將徹底取代真實(shí)數(shù)據(jù),成為 AI 模型所使用的數(shù)據(jù)的主要來(lái)源。而美國(guó)AI研究機(jī)構(gòu)Cognilytica數(shù)據(jù)顯示,2021 年合成數(shù)據(jù)市場(chǎng)規(guī)模大概在1.1億美元,到2027 年將達(dá)到11.5億美元。這是一塊讓不少科技大廠和初創(chuàng)公司垂涎的大蛋糕。

多家的科技巨頭均有合成數(shù)據(jù)相關(guān)的業(yè)務(wù)布局、投資或收購(gòu)舉動(dòng)。例如,2021年,英偉達(dá)發(fā)布了用于訓(xùn)練AI的Omniverse Replicator合成數(shù)據(jù)生成引擎,今年7月,英偉達(dá)初創(chuàng)加速計(jì)劃成員Rendered.ai將Omniverse Replicator集成到其合成數(shù)據(jù)生成平臺(tái),使AI訓(xùn)練變得更加簡(jiǎn)單易用;亞馬遜也在多個(gè)場(chǎng)景探索合成數(shù)據(jù)的應(yīng)用,例如使用合成數(shù)據(jù)來(lái)訓(xùn)練、調(diào)試其虛擬助手Alexa,以避免用戶隱私問(wèn)題等;Meta則直接收購(gòu)了合成數(shù)據(jù)創(chuàng)業(yè)公司AI.Reverie,以整合至旗下元宇宙部門(mén)Reality Labs。

創(chuàng)業(yè)公司方面,合成數(shù)據(jù)領(lǐng)域的投資并購(gòu)持續(xù)升溫。計(jì)算機(jī)視覺(jué)合成數(shù)據(jù)提供商Datagen于2022年初宣布完成5000萬(wàn)美元B輪融資;今年4月,新加坡合成數(shù)據(jù)初創(chuàng)公司Betterdata在獲得一筆165萬(wàn)美元規(guī)模的種子輪融資;7月末,國(guó)內(nèi)合成數(shù)據(jù)公司“光輪智能”宣布完成天使+輪融資,這家今年剛成立的新公司,已經(jīng)完成種子輪、天使輪、天使+三輪融資,累計(jì)融資金額達(dá)數(shù)千萬(wàn)元。

錢(qián)文億觀察到,“過(guò)去幾年,全球幾乎每年都有好幾百甚至上千家新型初創(chuàng)公司建立,為各行各業(yè)提供用于算法訓(xùn)練的合成數(shù)據(jù)產(chǎn)品?!?/p>

產(chǎn)業(yè)繁榮之下,我國(guó)也開(kāi)始鼓勵(lì)和引導(dǎo)合成數(shù)據(jù)產(chǎn)業(yè)的發(fā)展。今年3月初,中國(guó)證監(jiān)會(huì)科技監(jiān)管局局長(zhǎng)姚前曾在《中國(guó)金融》雜志撰文稱,建議重點(diǎn)發(fā)展基于AIGC技術(shù)的合成數(shù)據(jù)產(chǎn)業(yè)。以更高效率、更低成本、更高質(zhì)量為數(shù)據(jù)要素市場(chǎng)“增量擴(kuò)容”,助力打造面向人工智能未來(lái)發(fā)展的數(shù)據(jù)優(yōu)勢(shì)。5月19日,北京發(fā)布的“北京市通用人工智能產(chǎn)業(yè)創(chuàng)新伙伴計(jì)劃”,提到謀劃建設(shè)國(guó)家級(jí)數(shù)據(jù)訓(xùn)練基地,也提出了支持發(fā)展基于AIGC技術(shù)的合成數(shù)據(jù)新產(chǎn)業(yè)。

而在過(guò)去很長(zhǎng)一段時(shí)間里,人工智能對(duì)數(shù)據(jù)的海量需求催生了一批數(shù)據(jù)標(biāo)注師的就業(yè)群體。如今,當(dāng)合成數(shù)據(jù)逐漸成勢(shì),數(shù)據(jù)標(biāo)注產(chǎn)業(yè)的格局是否會(huì)因此遭到?jīng)_擊?

王員根認(rèn)為,沖擊是必然的,但需求仍在?!笆紫冗@件事沒(méi)有那么快到來(lái),其次,標(biāo)注師們要進(jìn)行轉(zhuǎn)型。比如,過(guò)去需要標(biāo)注的是原始數(shù)據(jù),如今則變成了AI生成的數(shù)據(jù);又如在原本數(shù)據(jù)標(biāo)注工作的基礎(chǔ)上,標(biāo)注師們還將被要求分辨哪些是AI生成的數(shù)據(jù),哪些是自然數(shù)據(jù)等。即使合成數(shù)據(jù)越來(lái)越多、質(zhì)量越來(lái)越高,也離不開(kāi)人類的引導(dǎo)和監(jiān)督,以及時(shí)修正可能出現(xiàn)的偏差?!?/p>

關(guān)鍵詞:

最近更新

關(guān)于本站 管理團(tuán)隊(duì) 版權(quán)申明 網(wǎng)站地圖 聯(lián)系合作 招聘信息

Copyright © 2005-2023 創(chuàng)投網(wǎng) - www.mallikadua.com All rights reserved
聯(lián)系我們:39 60 29 14 2@qq.com
皖I(lǐng)CP備2022009963號(hào)-3