首頁 新聞 > 產(chǎn)業(yè) > 正文

格物鈦崔運凱WAIC演講:從開源軟件到開放數(shù)據(jù)的AI創(chuàng)新之路

2021年7月9日,第四屆人工智能大會在上?;馃岢掷m(xù),全球AI領域產(chǎn)學研各界大佬在此云集,突破300家科技企業(yè)在線下深度參與。一場名為“AI時代數(shù)據(jù)開放共享”的創(chuàng)新論壇將數(shù)據(jù)生態(tài)新活力引入高潮。AI創(chuàng)新明星企業(yè)格物鈦受邀出席,創(chuàng)始人兼CEO崔運凱發(fā)表主題演講,從全球視野分享格物鈦對于未來AI創(chuàng)新格局的看法,以及開源軟件和開放數(shù)據(jù)對于未來格局的影響。崔運凱表示:“開源軟件讓科技創(chuàng)業(yè)變得可能,如果說在AI時代數(shù)據(jù)就相當于代碼,那么開源數(shù)據(jù)之于AI的影響力和作用,絲毫不亞于開源軟件之于應用的影響力和作用。”

以下為格物鈦創(chuàng)始人兼CEO崔運演講全文:

各位領導和嘉賓們,大家上午好。我是格物鈦的創(chuàng)始人兼CEO崔運凱。很高興受到上海白玉蘭開源開放研究院的邀請,有機會跟大家分享格物鈦對于未來AI創(chuàng)新格局的看法,和開源軟件及開放數(shù)據(jù)對于這個格局的影響。

在分享開頭,我想和大家講幾個創(chuàng)業(yè)故事。第一個創(chuàng)業(yè)故事就是馬克·扎克伯格創(chuàng)立Facebook的故事。大家都知道扎克伯格是在大學的宿舍里寫了第一版Facebook的程序。但是大家可能不知道的是他使用了PHP編程語言、使用了MySQL數(shù)據(jù)庫,和Linux操作系統(tǒng)來為他的服務做托管。而這里的PHP、MySQL和Linux都是開源軟件。

第二個創(chuàng)業(yè)故事我要分享的是一家國內(nèi)非常知名的企業(yè),張一鳴的今日頭條。張一鳴創(chuàng)業(yè)的時候就要幸運得多,有更多的技術可以使用。比如說消息隊列,他們使用了Kafka,大數(shù)據(jù)分析系統(tǒng)用了Hadoop,數(shù)據(jù)庫用了MongoDB,內(nèi)存加速使用了Redis。同樣的,這些也都是開源軟件。

跟大家分享上面兩個故事實際上是想引出我們對于過去20年科技創(chuàng)新驅(qū)動力的觀察,那就是開源軟件讓科技創(chuàng)業(yè)變得可能。沒有開源軟件,全球就不會有這么多科技公司的涌現(xiàn),更不會有這么多便捷的產(chǎn)品,豐富我們的生活。

然而科技還在繼續(xù)進步,工作和生活的組織形式還在不斷進化。我們從PC互聯(lián)網(wǎng)時代,進入到了移動互聯(lián)網(wǎng)時代,再進而向著人工智能的時代進化。如果說軟件開源是PC和移動時代創(chuàng)新的動力,那么什么是AI時代的創(chuàng)新動力呢?這是我們不斷在思考并且追問自己的。我想用另外幾個故事,引出我們對這個問題的答案。

第一個故事發(fā)生在計算機視覺領域。2009年斯坦福的李菲菲教授發(fā)布了一個公開數(shù)據(jù)集,這個數(shù)據(jù)叫ImageNet。它的發(fā)表推動了計算機視覺的飛速發(fā)展。這個數(shù)據(jù)集包含1400百萬張圖片,發(fā)布至今被引用了29000多次。而今天大家體驗到的人工智能熱潮,其實也是被一篇叫AlexNet的論文帶起來的。通過使用卷積神經(jīng)網(wǎng)絡,它大規(guī)模地提升了計算機視覺識別算法的性能。更是比排名第二的算法的精確度高了40%。

第二個故事我想跟大家分享的發(fā)生在自然語言處理領域。斯坦福大學的科學家Jure在2013年發(fā)布了一個叫做亞馬遜評論的公開數(shù)據(jù)集。這個數(shù)據(jù)集涵蓋了從1994年到2013年在亞馬遜網(wǎng)站上的一共一億四千三百萬條評論。這個數(shù)據(jù)集的發(fā)表也極大推動了自然語言處理領域的創(chuàng)新。圖靈獎獲得者Yann LeCun也將卷積神經(jīng)網(wǎng)絡模型應用在了這個數(shù)據(jù)及上,取得了非常不錯的效果。他不僅推動了算法的發(fā)展,也推動了算力的發(fā)展。英偉達在2018年完成了LSTM(長短記憶模型)在整個數(shù)據(jù)集上的訓練,這個訓練用了分布式的顯卡資源,只用了4個小時。而之前訓練同樣的模型,需要數(shù)月時間。

同樣的故事也發(fā)生在語音處理領域。TIMIT數(shù)據(jù)集的發(fā)表,讓因素識別模型的預測準確性從過去10年的78%提高到了92.85%。最近幾年火熱的無人駕駛也有很多類似的例子,比如說KITT數(shù)據(jù)集。KITTI數(shù)據(jù)集的誕生和基于KITTI數(shù)據(jù)集做的大量算法的研究,為今天無人駕駛的發(fā)展奠定了基礎。

剛剛講了這么多在AI不同領域的驅(qū)動力故事,實際上是想引出我們對于什么是AI時代創(chuàng)新驅(qū)動力的回答——那就是開源數(shù)據(jù)。如果說在AI時代,數(shù)據(jù)就相當于代碼;那么開源數(shù)據(jù)之于AI的影響力和作用,絲毫不亞于開源軟件之于應用的影響力和作用。

雖然開源數(shù)據(jù)將會成為未來驅(qū)動AI創(chuàng)新的核心驅(qū)動力,但并不意味著開源一個數(shù)據(jù)集就是一件簡單的事情。我們觀察到做數(shù)據(jù)開源至少有四個痛點:

1、協(xié)議痛點:數(shù)據(jù)和軟件一樣,都有版權,但是開源數(shù)據(jù)并不像開源軟件那樣有相對標準的協(xié)議;

2、運營痛點:當一個數(shù)據(jù)集開放后,運營以這個數(shù)據(jù)集為核心的社區(qū),并吸引足夠多的關注者,也是一件非常有挑戰(zhàn)的事情;

3、數(shù)據(jù)標準:數(shù)據(jù)以什么樣的格式向公眾開放,方便社區(qū)成員使用,其實也沒有通用的國際標準。最后數(shù)據(jù)的開放方還要開發(fā)并提供SDK,才能讓用戶方便使用開放的數(shù)據(jù);

4、資金來源:ImageNet從想法到最后的發(fā)布,歷時3年才最終完成,這里少不了數(shù)據(jù)的采集、清洗、標注等工作,而所有這些工作都需要資金的支持,才能完成。而如何籌措這些資金,可能會成為數(shù)據(jù)開源的影響因素。

中國的數(shù)據(jù)開源又有一些自身的獨特點,其中包括但不限于:

中國的數(shù)據(jù)開源起步比較晚。現(xiàn)在世界知名的公開數(shù)據(jù)集基本都是海外機構發(fā)布和分享的。國內(nèi)只有最近幾年才開始有學術機構和企業(yè)開始做類似的嘗試。比如說去年年底由我們格物鈦發(fā)起的尋集令計劃,就是其中的嘗試之一;

雖然中國AI應用有大量的場景,但是現(xiàn)在國內(nèi)機構和企業(yè)發(fā)布的公開數(shù)據(jù)卻沒有涵蓋那么多場景。豐富度還是遠遠不足的;

同時國內(nèi)的從業(yè)者,或者是場景的擁有方,對于數(shù)據(jù)開放的認識不足,或?qū)τ趧?chuàng)新應用沒有規(guī)劃,也是導致現(xiàn)在國內(nèi)開放數(shù)據(jù)不足的重要原因。

在這次活動中發(fā)布的《木蘭-白玉蘭開放數(shù)據(jù)許可協(xié)議》標志著一個很好的開始,也推動著中國的數(shù)據(jù)開源邁出了非常重要的一步。我們堅信開發(fā)數(shù)據(jù)協(xié)議的發(fā)布和推廣,可以很好地降低數(shù)據(jù)開源的壁壘。在海外,開源軟件的協(xié)議已經(jīng)標準化,并整合進三個標準的協(xié)議,MIT、BSD和GPL,但是開源數(shù)據(jù)協(xié)議卻沒有一個統(tǒng)一的標注,處在多個協(xié)議并存的階段。這為數(shù)據(jù)的開放增加了很多難度。

剛才講了這么多數(shù)據(jù)開源的挑戰(zhàn)和痛點,我也想借此機會分享格物鈦在做哪些事情,如何幫助全球的AI社區(qū)解決這些痛點。格物鈦為全球開發(fā)者、場景和數(shù)據(jù)的擁有者提供了一個開放數(shù)據(jù)托管和協(xié)作的平臺。我們支持開源數(shù)據(jù)在我們平臺上的免費托管。不僅如此,我們?yōu)閿?shù)據(jù)的擁有者可以更好地運營社區(qū),開發(fā)了很多產(chǎn)品的功能,包括開源數(shù)據(jù)協(xié)議結構化和可視化,方便數(shù)據(jù)集的使用者快速了解自己使用數(shù)據(jù)的權限。同時我們有很多和社區(qū)交互相關的功能和版塊,方便數(shù)據(jù)集的擁有者直接并且快速地提供社區(qū)支持,和激發(fā)社區(qū)的貢獻活躍。最后我們提供了團隊協(xié)作能力,方便社區(qū)用戶可以一起完成開源數(shù)據(jù)相關的任務。這一切的功能,都是希望將開源數(shù)據(jù)的發(fā)布和使用的門檻降低。

格物鈦的產(chǎn)品幫助企業(yè)和數(shù)據(jù)的擁有者降低了開源數(shù)據(jù)的門檻,但是真正讓企業(yè)做出開放數(shù)據(jù)決定的,還是要讓企業(yè)清楚如何通過開源數(shù)據(jù)獲得成功。我們分析了大量開源數(shù)據(jù)和開源軟件的案例,發(fā)現(xiàn)開源數(shù)據(jù)至少可以在如下5個方面幫助企業(yè)獲得成功:

1、幫助企業(yè)發(fā)現(xiàn)積累數(shù)據(jù)的新創(chuàng)新應用,幫助企業(yè)可以拓寬產(chǎn)品線或者改善現(xiàn)有產(chǎn)品,提供更好的用戶體驗;

2、發(fā)現(xiàn)新的商業(yè)機會,包括銷售線索的獲得;

3、幫助將企業(yè)內(nèi)部的標準推動成全社區(qū)的標準,因為一個數(shù)據(jù)被使用的多了,它的組織形式就會成為事實的標準;

4、幫助企業(yè)吸引人才,優(yōu)秀的人才會因為數(shù)據(jù)的應用潛力而加入一家公司,或者公司可以發(fā)現(xiàn)社區(qū)中最具有潛力的人才;

5、提升公司品牌,比如你在做無人駕駛,你發(fā)布的數(shù)據(jù)集中有大量的長尾場景,例如突然過馬路的小動物,這些場景被識別并被追蹤,會讓用戶體會到品牌帶來的安全感。

在我演講的最后,我想分享一些我對數(shù)據(jù)開源和AI行業(yè)未來的一點看法。AI行業(yè)正在由以模型為中心的開發(fā)模式,向著以數(shù)據(jù)為中心的開發(fā)模式遷移。在未來以數(shù)據(jù)為中心的開發(fā)模式中,數(shù)據(jù)必然會扮演越來越重要的角色。開源數(shù)據(jù)從來都不是呼吁企業(yè)開源全部數(shù)據(jù),而是將一部分場景中的一部分數(shù)據(jù)進行開源。即便是其中很小的一部分場景化的數(shù)據(jù)被開源,也會給AI的發(fā)展帶來巨大價值。

我想借此機會發(fā)出呼吁:格物鈦希望和大家一起出發(fā),通過開放更多的數(shù)據(jù)和創(chuàng)造更活躍的社區(qū),來改變未來基于人工智能的全球創(chuàng)新。謝謝大家!

免責聲明:市場有風險,選擇需謹慎!此文僅供參考,不作買賣依據(jù)。

關鍵詞:

最近更新

關于本站 管理團隊 版權申明 網(wǎng)站地圖 聯(lián)系合作 招聘信息

Copyright © 2005-2018 創(chuàng)投網(wǎng) - mallikadua.com All rights reserved
聯(lián)系我們:33 92 950@qq.com
豫ICP備2020035879號-12