首頁 資訊 > 創(chuàng)新 > 正文

環(huán)球今日訊!誰說搞人工智能一定要大公司?這家不足兩百人的本土公司搞出了垂直應(yīng)用領(lǐng)域大模型!

作者:電子創(chuàng)新網(wǎng)張國斌


(資料圖)

今年以來,隨著chatGPT的火爆,國內(nèi)各種互聯(lián)網(wǎng)公司、云計算公司、大數(shù)據(jù)公司紛紛出洞,聲稱自己都在搞大模型,而且一幫自媒體也推波助瀾,為各大公司抬轎子吹號子,似乎只有大公司才能玩轉(zhuǎn)大模型,但是,大家可能忘了一個基本的事實,那就是,目前火爆的幾家人工智能大模型公司人數(shù)并不多!

今年1月,OpenAI創(chuàng)始人及CEO奧特曼透露公司員工人數(shù)為375人 ,與谷歌和臉書等科技巨頭從事人工智能工作的數(shù)千名員工相比,這是一個很小的數(shù)字?!拔抑牢也粦?yīng)該吹噓OpenAI,我們要感謝我們所有的外包公司為訓(xùn)練模型提供了必不可少的數(shù)據(jù)?!倍嬲贑hatGPT項目中做出貢獻(xiàn)的人員,據(jù)OpenAI官網(wǎng)顯示,

共有87人。

該團隊平均年齡為32歲,“90后”是主力軍。華人成為了該團隊中一支重要的科技創(chuàng)新力量,共9人,占團隊總?cè)藬?shù)的比例超10%。華人學(xué)者歐陽龍更是參與了與 ChatGPT 相關(guān)的 7 大技術(shù)項目中的 4 大項目的研發(fā),是InstructGPT 論文的第一作者,也是RLHF 論文的第二作者。

AI繪畫工具Midjourney的公司竟然

只有10人!

Midjourney繪畫作品:平民窟里的百萬富翁

所以老張認(rèn)為,在人工智能領(lǐng)域,會走出類似半導(dǎo)體領(lǐng)域fabless的模式:就是小公司專注特色大模型開發(fā),然后利用云算力通過互聯(lián)網(wǎng)數(shù)據(jù)和人類知識體系進行訓(xùn)練,最后將訓(xùn)練好的模型用于推理應(yīng)用。

所以,在大模型應(yīng)用領(lǐng)域,比拼的是模型的優(yōu)劣而不是公司的規(guī)模,小公司如果開發(fā)出好的模型一樣可以完勝大公司!就好比10人不到的一家IC設(shè)計公司也可以設(shè)計一顆比拼大公司的IC!

在4月18日貿(mào)澤電子芯英雄聯(lián)盟直播“聊聊ChatGPT以及生成式AI對產(chǎn)業(yè)的顛覆”中,直播嘉賓南京云創(chuàng)大數(shù)據(jù)科技股份有限公司總裁劉鵬教授現(xiàn)場發(fā)布了該公司的大模型產(chǎn)品:云創(chuàng)大數(shù)據(jù)發(fā)布cGPT S1000自然語言搜索一體機!,云創(chuàng)大數(shù)據(jù)公司只有不到200人,其人工智能成果已經(jīng)在政府、高校等領(lǐng)域廣泛應(yīng)用!

據(jù)劉教授介紹,在人工智能實際應(yīng)用中,我們常常需要對內(nèi)部數(shù)據(jù)進行安全快速的搜索。比如對于企業(yè)內(nèi)部積存的大量檔案、資料、文書等形式的文檔,如果使用傳統(tǒng)的關(guān)鍵詞匹配搜索某個特定文件,需要準(zhǔn)確輸入文件名,一旦忘記文件名,搜索猶如大海撈針。

針對這一問題,cGPT S1000自然語言搜索一體機應(yīng)運而生。該一體機在自然語言處理技術(shù)的加持下,基于對語句本身的理解,根據(jù)計算后的關(guān)聯(lián)相似度進行排序,可達(dá)0.1秒響應(yīng),快速篩選出接近語句語義的內(nèi)容。比如,在專利搜索時,傳統(tǒng)算法只能通過關(guān)鍵詞搜索專利,無法查找包含相近含義的所有專利,現(xiàn)在在cGPT S1000自然語言搜索一體機中導(dǎo)入專利數(shù)據(jù),經(jīng)過一體機自動預(yù)處理后,即可在0.1秒內(nèi)找到所有相關(guān)專利。

歡迎大家自行搜索體驗!

網(wǎng)址:zl.cstor.cn或識別下圖二維碼體驗:

據(jù)他介紹,之所以能夠達(dá)到這樣的效果,是因為cGPT S1000自然語言搜索一體機通過人工智能理解了自然語言相互之間的關(guān)系。正如以下視頻所展現(xiàn)的,這些詞語、句子之間相互關(guān)聯(lián),它們或許是表達(dá)方式不同但是含義相同的語句,或許是同一學(xué)科領(lǐng)域內(nèi)的相似概念。通過解讀這些關(guān)系,人工智能能夠真正理解自然語言的含義以及人類的意圖,繼而做出相應(yīng)反饋。

對于資料紛繁復(fù)雜的各大企事業(yè)單位而言,將所有信息和資料放進cGPT S1000自然語言搜索一體機并通過一體機完成自動預(yù)處理,相當(dāng)于構(gòu)建了一個高保密的內(nèi)部資源庫,內(nèi)部員工可以在庫中快速查找所需信息。

cGPT S1000自然語言搜索一體機是云創(chuàng)大數(shù)據(jù)針對大規(guī)模自然語言處理應(yīng)用場景,自主研發(fā)的高速向量計算搜索一體機。該一體機采用并行計算架構(gòu),融合高密度混合服務(wù)硬件,為用戶提供軟硬件一體化的高性能自然語言搜索解決方案。cGPT S1000自然語言搜索一體機支持TXT、Word、PDF、CSV等多種格式的數(shù)據(jù)源,支持對采集的數(shù)據(jù)源進行文本提取和數(shù)據(jù)清洗,采用分布式集群架構(gòu),智能化自動構(gòu)建搜索資料庫。用戶只需將海量的業(yè)務(wù)文件、圖書論文文獻(xiàn)、文本數(shù)據(jù)等導(dǎo)入該一體機,即可建立個性化的定制搜索引擎

(運行原理)

cGPT S1000自然語言搜索一體機支持基于文本語義理解技術(shù),具備更加準(zhǔn)確的檢索能力,能夠?qū)⑤斎氩樵兊奈谋九c一體機中的文本進行快速比對,并將搜索到與輸入文本語義相近的多組結(jié)果根據(jù)相似度排序返回輸出。針對千萬級甚至上億量級的文本數(shù)據(jù)庫,該一體機依舊可以達(dá)到0.1秒級的返回結(jié)果速率。

cGPT S1000自然語言搜索一體機基于大數(shù)據(jù)分布式實時計算框架,結(jié)合定制化高密度計算硬件,實現(xiàn)大規(guī)模自然語言處理任務(wù)的分發(fā)與計算結(jié)果匯聚,保證計算任務(wù)執(zhí)行的高效和穩(wěn)定。基于特征向量計算算法以及分布式集群處理資源調(diào)度技術(shù),該一體機實現(xiàn)了海量特征庫條件下1:N對比任務(wù)的高效分解與并行處理,可將單個任務(wù)響應(yīng)效率提升到0.1秒級。

(總體架構(gòu))

劉教授表示,對于不同數(shù)據(jù)規(guī)模需求的用戶,自然語言搜索一體機提供了彈性的性能資源配置模式,可以有效地控制系統(tǒng)建設(shè)成本,靈活滿足千萬甚至上億量級業(yè)務(wù)規(guī)模的性能需求和使用場景。

它提供API接口,搜索應(yīng)用可部署至本地服務(wù)器或者用戶私有云環(huán)境,與用戶業(yè)務(wù)打通融合的同時,實現(xiàn)內(nèi)外網(wǎng)的物理隔絕,保障數(shù)據(jù)的私密性。

cGPT S1000自然語言搜索一體機基于語義理解技術(shù),能夠快速查找需要的內(nèi)容,可廣泛應(yīng)用于資料查詢、專利搜索、電子病歷檢索、法律文獻(xiàn)檢索、學(xué)術(shù)文獻(xiàn)檢索、論文查重等多種場景。

資料查詢

用戶內(nèi)部積存大量的檔案、資料、文書等各種形式的文檔,檢索資料不僅繁瑣且重復(fù)性高,耗費大量時間和精力。通過自然語言處理技術(shù),只需簡短的一句話或幾個關(guān)鍵詞,自然語言搜索一體機即可完成資料搜索,命中率和準(zhǔn)確率都大幅提高。

專利搜索

通過關(guān)鍵詞匹配不一定能夠找出某一主題的所有相關(guān)專利,而借助自然語言搜索一體機,可以準(zhǔn)確找到已經(jīng)成功申請的與該主題相關(guān)的所有專利信息,包括描述、編號等,從而在專利申請時避免重復(fù)申請等問題,大大節(jié)省時間和費用。

電子病歷檢索

基于自然語言搜索一體機,在自然語言處理技術(shù)的助力下,用戶可建設(shè)面向特定醫(yī)療領(lǐng)域的知識服務(wù)平臺,以此更好地提供電子病例檢索、處方查詢、醫(yī)療知識問答等醫(yī)療服務(wù)。

法律文獻(xiàn)搜索

基于自然語言搜索一體機,用戶可對案件信息進行查詢和梳理,比如針對某一案件,律師通過輸入描述,即可在資料庫中找出相似案例情況以及司法解釋,有助于案件分析、訴訟準(zhǔn)備等,司法人員也可借助該一體機節(jié)省資料整理、分析的時間。

學(xué)術(shù)文獻(xiàn)檢索

查閱論文時,根據(jù)關(guān)鍵詞匹配,可以檢索出不少結(jié)果,但主要是包含關(guān)鍵詞的內(nèi)容,不一定是用戶真正需要查找的,而借助自然語言搜索一體機,在準(zhǔn)確表達(dá)查找內(nèi)容的情況下,只需一句簡單描述,即可檢索到真正為用戶所需的論文。

論文查重

在論文查重時,針對論文可能存在的不同語種相互翻譯導(dǎo)致的抄襲,或者以替換詞語、改變表達(dá)的方式規(guī)避查重等問題,借助自然語言搜索一體機,可對其進行準(zhǔn)確檢測,以語義為準(zhǔn),及時發(fā)現(xiàn)論文寫作時的抄襲、剽竊等亂象。

據(jù)劉教授介紹,云創(chuàng)微調(diào)的最大模型參數(shù)量達(dá)到1700多億,可以適合各種垂直領(lǐng)域應(yīng)用。在本次直播活動中,由于航班延誤,劉鵬教授不得已在機場候機大廳進行直播報告,但報告效果絲毫未受影響,約3000名網(wǎng)友參與觀看。

具體而言,劉鵬教授所作報告主題為《人工智能引領(lǐng)未來》。在報告中,劉鵬教授分享了人工智能近10年的三次大飛躍及其技術(shù)本質(zhì),并梳理了人工智能技術(shù)創(chuàng)新發(fā)展對各行各業(yè)的影響。在此基礎(chǔ)上,劉鵬教授也介紹了云創(chuàng)大數(shù)據(jù)在大數(shù)據(jù)、人工智能領(lǐng)域的技術(shù)探索與成功案例。大家紛紛表示,本次報告幫助自己對ChatGPT與生成式AI建立了立體深入的認(rèn)識,可謂收獲滿滿!

劉鵬教授,清華大學(xué)博士,中國大數(shù)據(jù)應(yīng)用聯(lián)盟人工智能專家委員會主任、中國信息協(xié)會教育分會人工智能教育專家委員會主任、教育部全國普通高校畢業(yè)生就業(yè)創(chuàng)業(yè)指導(dǎo)委員會委員、2019年全國大學(xué)生數(shù)學(xué)建模比賽命題人、第45屆世界技能大賽中國區(qū)云計算選拔賽裁判長/專家指導(dǎo)組組長、中國電子學(xué)會云計算專家委員會云存儲組組長、工業(yè)和信息化部云計算研究中心專家、2002年P(guān)ennySort國際計算機排序比賽冠軍與2003年全國挑戰(zhàn)杯比賽總冠軍。

貿(mào)澤電子“芯英雄聯(lián)盟”是電子創(chuàng)新網(wǎng)新推出的一檔知識分享型直播欄目,每期直播邀請半導(dǎo)體產(chǎn)業(yè)專家與電子創(chuàng)新網(wǎng)CEO張國斌先生共同分享產(chǎn)業(yè)趨勢、探討技術(shù)未來,助力本土半導(dǎo)體產(chǎn)業(yè)創(chuàng)新。

這是本次直播的回放,大家可以掃碼回看:

網(wǎng)址是:https://v.eetrend.com/content/2023/100569672.html

關(guān)鍵詞:

最近更新

關(guān)于本站 管理團隊 版權(quán)申明 網(wǎng)站地圖 聯(lián)系合作 招聘信息

Copyright © 2005-2018 創(chuàng)投網(wǎng) - www.mallikadua.com All rights reserved
聯(lián)系我們:39 60 29 14 2@qq.com
皖I(lǐng)CP備2022009963號-3