首頁(yè) 資訊 > 產(chǎn)業(yè) > 正文

一知智能算法團(tuán)隊(duì):去摘遙不可及的星

如果你問(wèn)一知人最喜歡聽(tīng)到的話(huà)是什么,那一定會(huì)是“你們的機(jī)器人也太像真人了吧!”。

從一句話(huà)通知到平均對(duì)話(huà)時(shí)長(zhǎng)超過(guò)一分鐘,從“人工智障”到“金牌客服”,底層核心能力逐漸成熟,語(yǔ)音識(shí)別準(zhǔn)確率穩(wěn)步提升,一點(diǎn)一滴的進(jìn)步讓人工智能電話(huà)通道的有效觸達(dá)成為可能。而在對(duì)話(huà)體驗(yàn)不斷提升的背后,站著的,是一群敢于摘星的人,他們就是一知智能算法團(tuán)隊(duì)。

這是一個(gè)碩博率達(dá)到100%的部門(mén),匯集了眾多業(yè)內(nèi)頂尖的技術(shù)人才。其中有AI Lab主任姜興華等屢獲行業(yè)大獎(jiǎng)的牛人,有薛弘揚(yáng)博士等人工智能科學(xué)家,也有畢業(yè)于東京大學(xué)、美國(guó)加州大學(xué)洛杉磯分校、南安普頓大學(xué)、瑞典皇家理工學(xué)院、利物浦大學(xué),浙江大學(xué)、中國(guó)科學(xué)技術(shù)大學(xué)、西安交通大學(xué)、華中科技大學(xué)等國(guó)內(nèi)外頂尖院校的精英。

作為技術(shù)驅(qū)動(dòng)型公司,一知智能始終保持對(duì)技術(shù)先進(jìn)性的追求。一知智能算法團(tuán)隊(duì)核心成員來(lái)自浙江大學(xué)人工智能研究所和國(guó)家重點(diǎn)實(shí)驗(yàn)室,擁有強(qiáng)大的高校研發(fā)背景。創(chuàng)始團(tuán)隊(duì)在校期間屢次在國(guó)際大賽中獲獎(jiǎng)。2016年知識(shí)圖譜構(gòu)建競(jìng)賽(Knowledge Base Population,簡(jiǎn)稱(chēng) KBP)領(lǐng)先IBM、科大訊飛、CMU等研究機(jī)構(gòu)獲實(shí)體檢測(cè)任務(wù)(Mention Detection)國(guó)際綜合排名第一;2017年在機(jī)器閱讀理解大賽(Stanford Question Answering Dataset,簡(jiǎn)稱(chēng)SQuAD)中,領(lǐng)先谷歌、微軟、BAT、科大訊飛等名企,榮獲國(guó)際單模型組國(guó)際排名第二(國(guó)內(nèi)第一)、國(guó)際多模型組國(guó)際排名第三;2017年SNLI機(jī)器閱讀理解大賽打敗了斯坦福、MIT、UIUC、清華等國(guó)際頂尖知名高校位列國(guó)際排名第一。2019年2月,一知智能與浙江大學(xué)聯(lián)合成立了浙大·一知人工智能研究中心。其中,與微軟亞研院聯(lián)合研發(fā)的FastSpeech算法合成速度比谷歌快260倍;SimulSpeech同聲傳譯算法為同等翻譯效果下業(yè)界最快實(shí)時(shí)性翻譯;FastLR唇語(yǔ)識(shí)別算法為目前世界上解碼速度最快的唇語(yǔ)識(shí)別系統(tǒng),比第二名caseded算法快10倍。與此同時(shí),算法團(tuán)隊(duì)還擁有十余項(xiàng)自主研發(fā)的人機(jī)語(yǔ)音交互國(guó)家專(zhuān)利,語(yǔ)音人工智能領(lǐng)域國(guó)家專(zhuān)利數(shù)量在業(yè)內(nèi)遙遙領(lǐng)先,在核心算法技術(shù)上自研已達(dá)到行業(yè)頂尖和國(guó)際前沿水平。

正是這樣一群人聚在一起,解決行業(yè)頂尖的技術(shù)難題,試圖摘取人工智能皇冠上的明珠,再通過(guò)技術(shù)落地讓每一次人機(jī)交互的體驗(yàn)變得更好。2022年,一知智能算法團(tuán)隊(duì)實(shí)現(xiàn)了意圖識(shí)別系統(tǒng)全面升級(jí),在電商、反電詐、游戲等場(chǎng)景下均實(shí)現(xiàn)了超過(guò)96%的準(zhǔn)確率,與此同時(shí),他們還完成了新一代自研ASR系統(tǒng),識(shí)別準(zhǔn)確率大幅提升,也進(jìn)一步優(yōu)化了語(yǔ)音人機(jī)交互對(duì)話(huà)體驗(yàn)。

他們不僅是一知底層技術(shù)的挖掘者,也是站在行業(yè)前沿的“弄潮兒”。自2022年8月以來(lái),為保護(hù)消費(fèi)者隱私,各大電商平臺(tái)相繼推出虛擬號(hào)功能,將消費(fèi)者的手機(jī)號(hào)碼改為虛擬號(hào)碼,現(xiàn)有的外呼手段無(wú)法觸達(dá)品牌相關(guān)用戶(hù)群體。而在短短一個(gè)月內(nèi),一知智能就實(shí)現(xiàn)了基于虛擬號(hào)的完整外呼方案,也是當(dāng)時(shí)市場(chǎng)上唯一實(shí)現(xiàn)該外呼方式的廠(chǎng)商。一知智能算法團(tuán)隊(duì)研發(fā)的分機(jī)號(hào)接通時(shí)刻判斷算法也獲得了國(guó)家發(fā)明專(zhuān)利,分機(jī)號(hào)輸入判斷模型和接通狀態(tài)判斷模型能夠在毫秒級(jí)(20ms)的時(shí)間內(nèi)判斷何時(shí)輸入分機(jī)號(hào)以及用戶(hù)是否接起通話(huà),準(zhǔn)確率高達(dá)99%,在提升外呼效率的同時(shí),也能確保運(yùn)營(yíng)商側(cè)能夠準(zhǔn)確的接收分機(jī)號(hào)輸入。

另一方面,算法的優(yōu)化也大幅提高了AI訓(xùn)練師的工作效率。目前,公司已研發(fā)意向等級(jí)自動(dòng)判斷算法,平均可節(jié)約訓(xùn)練師配置話(huà)術(shù)約20%的時(shí)間,并針對(duì)行業(yè)首創(chuàng)的生成式話(huà)術(shù)自動(dòng)化算法完成算法驗(yàn)證,該項(xiàng)技術(shù)為探索需要大批量話(huà)術(shù)交付的業(yè)務(wù)場(chǎng)景提供了可能性。

看看一知 Labs 的核心方向還有哪些!

持續(xù)突破底層核心技術(shù)

語(yǔ)音識(shí)別系統(tǒng)

一知智能自研ASR系統(tǒng)使用了最新的conformer模型,與之前版本的傳統(tǒng)模型相比,層數(shù)更多,效果更好。模型設(shè)計(jì)采用了U2++結(jié)構(gòu),統(tǒng)一了流式和非流式的模式。在業(yè)務(wù)使用中,采用CTC流式解碼,結(jié)合attention和語(yǔ)言模型rescore,能夠?qū)崟r(shí)快速獲得識(shí)別的中間結(jié)果,并確保最終預(yù)測(cè)結(jié)果的準(zhǔn)確率。與此同時(shí),算法團(tuán)隊(duì)還根據(jù)具體業(yè)務(wù)場(chǎng)景的實(shí)際使用情況,增加了專(zhuān)有名詞糾錯(cuò)模塊,提高了ASR系統(tǒng)在各個(gè)定制領(lǐng)域中的識(shí)別準(zhǔn)確率。

意圖識(shí)別算法

一知智能的意圖識(shí)別算法利用蒸餾算法,有效地減少了算法模型參數(shù),在保持模型高識(shí)別率的前提下,大幅度提升算法模型的推理性能,有助于支撐一知業(yè)務(wù)量的增長(zhǎng)。同時(shí),一知智能算法團(tuán)隊(duì)也長(zhǎng)期致力于模型能力的提升,研究并發(fā)表了相關(guān)技術(shù)的發(fā)明專(zhuān)利。與此同時(shí),利用少樣本學(xué)習(xí)技術(shù),用少量的標(biāo)注數(shù)據(jù),訓(xùn)練出具有相同性能的算法模型,將模型的通用能力和特定行業(yè)下的垂直場(chǎng)景進(jìn)行高效融合,賦予了多樣場(chǎng)景快速平鋪的能力。

而近期ChatGPT的出現(xiàn)和火熱意味著深度學(xué)習(xí)意圖識(shí)別算法能力有了全新突破,除了ChatGPT這類(lèi)直接面向終端用戶(hù)的產(chǎn)品以外,生成式AI還有更為廣闊的技術(shù)應(yīng)用空間。ChatGPT及其相關(guān)的人工智能內(nèi)容生成技術(shù)也與一知智能現(xiàn)有業(yè)務(wù)息息相關(guān)。一知智能的AI外呼產(chǎn)品已廣泛應(yīng)用于電商、政企、出海等各個(gè)行業(yè),引入ChatGPT的強(qiáng)大能力,協(xié)助AI訓(xùn)練師的編寫(xiě)話(huà)術(shù)腳本,能夠顯著提升工作效率,與此同時(shí),將ChatGPT納入真實(shí)對(duì)話(huà)體系,提升對(duì)話(huà)廣度和深度,最大限度減少“答非所問(wèn)”。AIGC通用模型能力的持續(xù)發(fā)展必將催生一場(chǎng)內(nèi)容生成產(chǎn)業(yè)變革,也期待多模態(tài)人機(jī)交互能力能乘著這陣東風(fēng)上更上一層樓。

快速響應(yīng)客戶(hù)需求和痛點(diǎn)

意向等級(jí)判斷算法

在AI外呼場(chǎng)景中,當(dāng)我們的AI機(jī)器人結(jié)束與客戶(hù)的通話(huà)后,了解該客戶(hù)的意向等級(jí)(意向強(qiáng)烈、意向一般、意向弱等)是AI外呼公司一項(xiàng)不可避免的緊迫任務(wù),企業(yè)客戶(hù)對(duì)于意向等級(jí)判斷的效率和質(zhì)量有著極高的要求。在算法介入之前,AI訓(xùn)練師需要編寫(xiě)大量的意向規(guī)則以匹配相關(guān)關(guān)鍵詞來(lái)判斷意向,該方式非常耗時(shí)且準(zhǔn)確率也不高。

算法同學(xué)在分析該場(chǎng)景后發(fā)現(xiàn),這一場(chǎng)景其實(shí)非常符合決策樹(shù)的邏輯,基于這一判斷,我們針對(duì)AI機(jī)器人話(huà)術(shù)和客戶(hù)話(huà)術(shù)分別訓(xùn)練了分類(lèi)算法模型,在拿到這些話(huà)術(shù)標(biāo)簽后,依據(jù)話(huà)術(shù)標(biāo)簽的轉(zhuǎn)換邏輯,從上至下遍歷整個(gè)話(huà)術(shù),最終自動(dòng)完成話(huà)術(shù)意向等級(jí)的判斷。這一算法的引入平均可節(jié)約訓(xùn)練師配置話(huà)術(shù)約20%的時(shí)間,同時(shí)也能大幅提升準(zhǔn)確率

話(huà)術(shù)自動(dòng)化系統(tǒng)

一知智能最新研發(fā)的話(huà)術(shù)自動(dòng)化系統(tǒng)能夠根據(jù)用戶(hù)輸入的數(shù)據(jù)直接生成準(zhǔn)確、通順的話(huà)術(shù)草稿。在算法層面,該系統(tǒng)分為兩部分:一是將話(huà)術(shù)編輯的專(zhuān)家知識(shí)解構(gòu)成本體模型、語(yǔ)義推理規(guī)則體系、語(yǔ)用分類(lèi)規(guī)則體系三個(gè)維度的數(shù)據(jù);二是基于語(yǔ)義角色和語(yǔ)法規(guī)則的文本生成引擎。話(huà)術(shù)自動(dòng)化系統(tǒng)能夠大大減少AI訓(xùn)練師的早期工作量,并使大批量精細(xì)化場(chǎng)景的話(huà)術(shù)高效交付成為可能。

分機(jī)號(hào)外呼算法

為了保護(hù)個(gè)人隱私,天貓、美團(tuán)等主流電商平臺(tái),不再直接提供客戶(hù)的手機(jī)號(hào),而是通過(guò)虛擬號(hào)的方式提供客戶(hù)信息。

對(duì)于一知智能這類(lèi)外號(hào)平臺(tái)來(lái)說(shuō),最大的困難在于我們無(wú)法在客戶(hù)拿起電話(huà)的那一刻獲得信號(hào)信息,這就導(dǎo)致我們的AI機(jī)器人不知從何時(shí)開(kāi)始和客戶(hù)對(duì)話(huà)。因此,一知智能算法團(tuán)隊(duì)針對(duì)這一問(wèn)題,自研了一套分機(jī)號(hào)接通時(shí)刻點(diǎn)判斷系統(tǒng),成為業(yè)內(nèi)最早支持此項(xiàng)技術(shù)的外呼廠(chǎng)商之一,同時(shí)該項(xiàng)技術(shù)也獲得了國(guó)家發(fā)明專(zhuān)利。分機(jī)號(hào)輸入判斷模型和接通狀態(tài)判斷模型均能在毫秒級(jí)(20ms)的時(shí)間內(nèi)判斷何時(shí)輸入分機(jī)號(hào)以及用戶(hù)是否接起通話(huà),準(zhǔn)確率高達(dá)99%,在提升外呼效率的同時(shí),還可以確保運(yùn)營(yíng)商側(cè)能夠準(zhǔn)確接收分機(jī)號(hào)碼輸入。

向前一步探索第二曲線(xiàn)

數(shù)字人口型合成算法

一知智能自主研發(fā)的數(shù)字人產(chǎn)品采用了一知智能數(shù)字人業(yè)務(wù)研發(fā)團(tuán)隊(duì)最新推出的由文本和語(yǔ)音驅(qū)動(dòng)的數(shù)字人口型合成算法,并基于自然語(yǔ)言理解、語(yǔ)音識(shí)別、意圖識(shí)別、語(yǔ)音合成等一知智能底層核心技術(shù)能力,集成于一知大腦“Yi Brain”,可根據(jù)對(duì)話(huà)情境完成高度擬人化的對(duì)話(huà)交流,支持直播、人機(jī)交互大屏、終端機(jī)等多種交互場(chǎng)景。

利用口型合成算法,只需提前拍攝一個(gè)幾分鐘的視頻,即可為視頻中的人物生成虛擬形象。此后就可以使用任意文本和語(yǔ)音,驅(qū)動(dòng)虛擬形象講述新的內(nèi)容。在生成的視頻中,虛擬形象的面部表情和口型會(huì)與新的講述內(nèi)容匹配一致,實(shí)現(xiàn)實(shí)時(shí)表情、音唇同步,如同重新拍攝的短視頻一般,具備極高的真實(shí)感;同時(shí)又省去了重新布置場(chǎng)景、拍攝真人短視頻的復(fù)雜工序和高昂成本。這項(xiàng)技術(shù)可廣泛應(yīng)用于虛擬人短視頻口播、直播等豐富的商業(yè)化落地場(chǎng)景。

一知智能數(shù)字人研發(fā)團(tuán)隊(duì)由多模態(tài)人機(jī)交互領(lǐng)域?qū)<已霌P(yáng)博士擔(dān)任負(fù)責(zé)人,薛弘揚(yáng)博士在多模態(tài)可視化交互技術(shù)上的研發(fā)背景和應(yīng)用研究經(jīng)驗(yàn)補(bǔ)上了一知智能全棧人機(jī)交互的最后一塊拼圖。數(shù)字人業(yè)務(wù)的開(kāi)拓能夠補(bǔ)齊一知現(xiàn)有產(chǎn)品在公域獲客、提升品牌用戶(hù)心智的需求短板,為企業(yè)提供更多場(chǎng)景、更高水平的解決方案,幫助企業(yè)客戶(hù)在全域營(yíng)銷(xiāo)擁有更多AI數(shù)字生產(chǎn)力。

2023年,一知智能算法團(tuán)隊(duì)將持續(xù)研發(fā)語(yǔ)音、文本、圖像等多模態(tài)內(nèi)容理解和內(nèi)容生成算法,通過(guò)AI技術(shù)提升對(duì)話(huà)體驗(yàn),提升外呼機(jī)器人的實(shí)施效率。在深入研究多模態(tài)人機(jī)交互技術(shù)的同時(shí),借助ChatGPT等大模型算法能力,構(gòu)建屬于一知的技術(shù)護(hù)城河。

免責(zé)聲明:市場(chǎng)有風(fēng)險(xiǎn),選擇需謹(jǐn)慎!此文僅供參考,不作買(mǎi)賣(mài)依據(jù)。

關(guān)鍵詞:

最近更新

關(guān)于本站 管理團(tuán)隊(duì) 版權(quán)申明 網(wǎng)站地圖 聯(lián)系合作 招聘信息

Copyright © 2005-2018 創(chuàng)投網(wǎng) - www.mallikadua.com All rights reserved
聯(lián)系我們:39 60 29 14 2@qq.com
皖I(lǐng)CP備2022009963號(hào)-3