世界熱訊:生成式AI下一站：文本轉(zhuǎn)視頻——技術(shù)與道德倫理挑戰(zhàn)如影隨形

2023-04-14 12:13:42 來源: 科技日報

聊天機(jī)器人ChatGPT的爆紅，讓生成式人工智能(AI)成為科技領(lǐng)域的“當(dāng)紅炸子雞”。除了如今“霸屏”的類似ChatGPT的語言模型之外，生成式AI領(lǐng)域還有大量其他技術(shù)：文本生成圖像正在成為一種主流的聊天形式，而能夠?qū)⑽谋巨D(zhuǎn)換成視頻的生成式AI則是“羞答答的玫瑰靜悄悄地開”，有望成為該領(lǐng)域下一個“大事件”。

但專家也指出，盡管文本生成視頻AI有望應(yīng)用于娛樂、藝術(shù)等諸多領(lǐng)域，但從技術(shù)到倫理道德等多方面都面臨挑戰(zhàn)。

文本生成視頻初露頭角

【資料圖】

紐約人工智能初創(chuàng)企業(yè)朗韋(Runway)公司軟件架構(gòu)師伊恩·桑薩韋拉在電腦上輸入了一段簡短的文字：森林中一條寧靜的河流。

約兩分鐘后，該公司開發(fā)的生成視頻模型Gen-2就生成了一段短視頻：在陽光的照耀下，河面波光粼粼，河水蜿蜒穿過森林和草叢，輕輕撞擊巖石。

朗韋公司計劃近期向少數(shù)測試人員開放Gen-2服務(wù)。該公司表示，用于圖像和視頻合成的深度神經(jīng)網(wǎng)絡(luò)正變得越來越精確、逼真和可控，也使人們能獲得極其逼真且兼具美學(xué)藝術(shù)的圖像，催生合成媒體的興起。

據(jù)“數(shù)字趨勢”網(wǎng)站3月27日報道，僅過去7天就有5款此類AI視頻生成器面世：朗韋公司的Gen-2，美易(Picsart)公司的Text2Video-Zero、Video-P2P、TemporalNet，以及中國阿里巴巴公司研發(fā)的Text-to-video。

弄潮兒向潮頭立!這些系統(tǒng)AI競爭進(jìn)入下一個階段，微軟和谷歌等行業(yè)巨頭和小規(guī)模初創(chuàng)企業(yè)紛紛入局。

據(jù)《印度時報》報道，早在2022年9月，元宇宙平臺公司就展示了“制作一段視頻”(Make-A-Video)軟件。只需輸入幾個字詞，軟件就能制作出無聲視頻。谷歌公司緊隨其后，推出了生成式AI模型Imagen Video。該公司稱，給出一段文本提示，Imagen Video就能生成高清晰視頻。該公司還展示了另一款模型Phenaki，目標(biāo)是在輸入文本的基礎(chǔ)上，制作出長視頻。

《紐約時報》的報道指出，這可能是技術(shù)領(lǐng)域的下一個重大事件，其重要性堪比網(wǎng)絡(luò)瀏覽器或iphone的誕生。

相關(guān)技術(shù)亟待改進(jìn)

不過，也有專家指出，這些AI軟件的質(zhì)量良莠不齊，面臨一些技術(shù)挑戰(zhàn)。

比如，桑薩韋拉生成的“清泉石上流”的視頻時長只有4秒，如果細(xì)看，會發(fā)現(xiàn)畫面不太連貫，畫質(zhì)也比較模糊，有時還會出現(xiàn)怪異、扭曲、令人不安的畫面。

美國《Vice》雜志網(wǎng)站則在3月28日的報道中，將AI生成的“威爾·史密斯吃意大利面”的視頻評為最怪異AI生成視頻。在Modelscope生成的視頻中，面容扭曲的史密斯看起來更像由他配音的電影《鯊魚故事》中那條怪異的魚，他試圖將成堆的面條舀進(jìn)嘴里，從叉子上或手中咀嚼大塊意大利面。這是一個噩夢般的定格動畫視頻，僅由一行無害的文字生成：威爾·史密斯吃意大利面。

文本生成視頻AI制作的視頻截圖。左為威爾·斯密斯吃意大利面;右為唐納德·特朗普遇到哥斯拉。

圖片來源：dailyhive.com網(wǎng)站

DeepMedia.AI是一家美國初創(chuàng)公司，其為美國政府構(gòu)建數(shù)據(jù)集，為高精確檢測“深度造假”內(nèi)容提供支持，該公司創(chuàng)始人兼首席執(zhí)行官瑞杰勒·古普塔4月4日接受媒體采訪時指出，目前AI生成的視頻存在兩個主要的問題：首先，單幀并不完全逼真;其次，幀與幀之間的銜接并不流暢。不過，通過使用越來越多的數(shù)據(jù)訓(xùn)練，這種技術(shù)應(yīng)能解決這些問題，快速提高和擴(kuò)展這些文本生成視頻系統(tǒng)的能力。

改良后的視頻生成系統(tǒng)可加快電影制片人和其他數(shù)字藝術(shù)家的工作速度。專家認(rèn)為，他們很快就能在這些系統(tǒng)的加持下，制作出配有音樂和對話、看起來非常專業(yè)的微電影。

有專家認(rèn)為，未來AI生成視頻有可能制作出可信且良好的內(nèi)容，并喚起人類的情感。

“深度造假”值得警惕

這些系統(tǒng)還會成為一種快速制造難以覺察的網(wǎng)絡(luò)虛假信息的新方式，使人們更難辨別互聯(lián)網(wǎng)上的真實(shí)信息，深度偽造技術(shù)目前所帶來的問題可能會變得更加嚴(yán)重。

美國麻省理工學(xué)院人工智能教授菲利普·伊索拉就表示，如果看到高分辨率的視頻，人們很可能會相信它。還有專家指出，隨著人工智能語音匹配的出現(xiàn)，以及逐漸擁有改變和創(chuàng)建幾乎觸手可及的逼真視頻的能力，偽造公眾人物和普通人的言行可能會造成不可估量的傷害，“潘多拉的魔盒已經(jīng)打開”。

目前，已有公司在開發(fā)檢測軟件并將其集成到音視頻媒體平臺上。

關(guān)鍵詞：

世界熱訊:生成式AI下一站：文本轉(zhuǎn)視頻——技術(shù)與道德倫理挑戰(zhàn)如影隨形

您可能也感興趣:

今日熱點(diǎn)

抖音直播如何看回放？抖音怎么刪除直播記錄？

藍(lán)牙耳機(jī)如何和手機(jī)配對？藍(lán)牙耳機(jī)可以同時連接兩個手機(jī)嗎？

中國算力發(fā)展指數(shù)白皮書發(fā)布廣東算力創(chuàng)新水平和研發(fā)投入居首

更多

更多

排行

最近更新

今日要聞

世界熱訊:生成式AI下一站：文本轉(zhuǎn)視頻——技術(shù)與道德倫理挑戰(zhàn)如影隨形

您可能也感興趣:

今日熱點(diǎn)

抖音直播如何看回放？抖音怎么刪除直播記錄？

藍(lán)牙耳機(jī)如何和手機(jī)配對？藍(lán)牙耳機(jī)可以同時連接兩個手機(jī)嗎？

中國算力發(fā)展指數(shù)白皮書發(fā)布 廣東算力創(chuàng)新水平和研發(fā)投入居首

為您推薦

交強(qiáng)險未出險第二年為什么沒優(yōu)惠？第一年不出險第二年打幾折？

機(jī)票里面包含保險嗎？飛機(jī)保險有必要買嗎？

遼寧擴(kuò)大緩繳社保費(fèi)政策實(shí)施范圍 補(bǔ)繳期間免收滯納金

近十年財險業(yè)務(wù)快速發(fā)展 財產(chǎn)保險業(yè)風(fēng)險保障水平不提升

更多

更多

排行

最近更新

今日要聞

抖音直播如何看回放？抖音怎么刪除直播記錄？

藍(lán)牙耳機(jī)如何和手機(jī)配對？藍(lán)牙耳機(jī)可以同時連接兩個手機(jī)嗎？

中國算力發(fā)展指數(shù)白皮書發(fā)布廣東算力創(chuàng)新水平和研發(fā)投入居首

交強(qiáng)險未出險第二年為什么沒優(yōu)惠？第一年不出險第二年打幾折？

機(jī)票里面包含保險嗎？飛機(jī)保險有必要買嗎？

遼寧擴(kuò)大緩繳社保費(fèi)政策實(shí)施范圍補(bǔ)繳期間免收滯納金

近十年財險業(yè)務(wù)快速發(fā)展財產(chǎn)保險業(yè)風(fēng)險保障水平不提升