首頁 區(qū)塊鏈 > 正文

從妙鴨爆火到老片修復(fù),大模型已經(jīng)開始干活了

撰文| 文燁豪??

編輯| 王? ?潘


(相關(guān)資料圖)

自AIGC熱潮涌現(xiàn)以來,敏銳的科技巨頭們紛紛下場,推動著國內(nèi)大模型賽道一路狂奔。

然而,技術(shù)本身很難直接創(chuàng)造價值,訓(xùn)練大模型只是一個起點,沸沸揚揚的“百模大戰(zhàn)”,也或多或少夾雜了一絲“重復(fù)制造輪子”的意味。

對大模型而言,嵌入應(yīng)用場景,從而實現(xiàn)成熟的商業(yè)化落地,才是終點所在——而隨著大模型賽道的邏輯從訓(xùn)練轉(zhuǎn)向落地,AIGC應(yīng)用正逐漸在各個領(lǐng)域涌現(xiàn)。

7月,AI寫真應(yīng)用妙鴨相機爆火出圈,不僅在社交平臺里瘋狂刷屏,更是激起了科技語境的廣泛討論。很多此前不太熟悉科技語境的用戶,也從中第一次真切地感受到AIGC的魅力。

8月,抖音及火山引擎發(fā)起了“經(jīng)典影像修復(fù)計劃”,首次將AIGC視覺大模型應(yīng)用于老片修復(fù)場景,計劃修復(fù)100部香港老電影,還原大眾記憶中的香港電影,最初的、最清晰的模樣。

左圖為修復(fù)前,右圖為修復(fù)后

這意味著,大模型已逐漸走出了“實驗室”,走入人們的視野。

妙鴨相機與老片修復(fù),藏著大模型的答案

妙鴨相機的爆火,對當(dāng)下仍困于落地的大模型賽道無疑有著啟示作用。

其實,從技術(shù)路徑來看,妙鴨相機背后的AIGC圖像生成能力,并沒有太高的技術(shù)壁壘,亦不及Midjourney、Stable Diffusion等主流應(yīng)用全面。

只是,諸如Midjourney等應(yīng)用有著極高的上手門檻,需要用戶不斷摸索提示詞(Prompt),在此過程中難免產(chǎn)生消費障礙。

而妙鴨相機則將前述繁瑣的步驟封裝、簡化為一鍵操作,用戶僅需上傳一張正面半身照,以及不少于20張的補充照,便能根據(jù)設(shè)定模板一鍵生成各式各樣的寫真,易用性大幅提高。

從中不難窺見,前沿技術(shù)若想實現(xiàn)大規(guī)模落地,不僅需要找準(zhǔn)應(yīng)用場景,更需解決相應(yīng)場景過往的痛點與難點。這正是火山引擎切入“老片修復(fù)”場景的重要原因。

一直以來,老片修復(fù)都是影像領(lǐng)域的重要議題,根據(jù)來自65個國家超過130電影資料館統(tǒng)計,電影自誕生以來平均存活率不過 10%。

背后的邏輯在于,早期電影拍攝后大都儲存于膠片上,可膠片作為儲存介質(zhì)可謂相當(dāng)脆弱,不僅對儲存環(huán)境的溫度、濕度要求極高,亦極易在使用、搬運等過程遭受物理和化學(xué)損傷,從而產(chǎn)生褪色、撕裂、臟點、霉變、酸變等問題。

一個簡單的例子,如今許多早期電影的畫面色調(diào)常常偏紅或偏紫,除卻導(dǎo)演本身藝術(shù)表達(dá)的因素,更多是電影膠片因保存不當(dāng)而患上醋酸綜合征的表現(xiàn)——膠片褪色變紅的同時,還會釋放出刺鼻的酸味,加劇保存環(huán)境的惡化。而酸化一旦開始,便很難完全逆轉(zhuǎn)。

此外,電影在制作、分發(fā)過程中,膠片往往會經(jīng)歷反復(fù)翻印,每次翻印都會帶來細(xì)微的畫面細(xì)節(jié)損失,而隨著翻印次數(shù)增加,畫質(zhì)衰減將愈發(fā)嚴(yán)重?;诜N種因素,多數(shù)港片的畫面表現(xiàn)遠(yuǎn)不及當(dāng)下的高清視頻,用戶的觀影體驗難言友好。

另一方面,傳統(tǒng)修復(fù)技術(shù)主要仰仗于人工進(jìn)行——先將膠片轉(zhuǎn)制為數(shù)字格式,再由修復(fù)師一幀一幀地處理畫面上的霉斑、污漬等問題。

然而,一部電影通常包含數(shù)十萬幀畫面。若完全依賴人工修復(fù),不僅成本高昂,效率也難以令人滿意。以《東邪西毒》為例,王家衛(wèi)曾回憶道,因為膠片受潮,當(dāng)時的修復(fù)耗費了整整四年時間。盡管如此,還是因為修復(fù)不及時,使《東邪西毒終極版》的極少數(shù)片段仍有花片的情況出現(xiàn)。

換言之,傳統(tǒng)影像修復(fù)技術(shù),難以進(jìn)行大規(guī)模修復(fù)。而若無法實現(xiàn)規(guī)?;娪百Y料館修復(fù)膠片的效率,或許難以追趕數(shù)十萬卷膠片在時光荏苒下逐漸褪色的速度。

在此背景下,AIGC視覺大模型,成為了影視領(lǐng)域老片修復(fù)“心病”的解藥。

火山引擎的大模型答卷

利用AI深度學(xué)習(xí)算法修復(fù)影像,其實并不是什么新鮮事。早在幾年前,國內(nèi)影像垂直論壇上,便已有影像發(fā)燒友通過深度學(xué)習(xí)算法提升老片分辨率,以提升畫面觀感。

然而,過去的影像處理算法雖能在一定程度上起到提升畫質(zhì)的作用,但并不足以支撐嚴(yán)肅的商業(yè)應(yīng)用場景,以現(xiàn)階段基于Stable Diffusion的開源大模型為例,其主要針對圖片生成任務(wù),對偏向于退化修復(fù)的老片修復(fù)場景的針對性較差,很難簡單套用。

基于此,火山引擎在現(xiàn)有成熟大模型的基礎(chǔ)上,疊加了自身的老片修復(fù)網(wǎng)絡(luò),對模糊、失焦、人像、色彩等常見修復(fù)問題進(jìn)行了針對性優(yōu)化,使得大模型可以充分感知和適應(yīng)老片場景。

一個簡單的例子,傳遞角色的情感狀態(tài)和內(nèi)心世界的人像鏡頭,在電影語言中尤為重要。對此,火山引擎針對不同畫面質(zhì)量的影片,自適應(yīng)使用了不同人像解決方案。

針對制作時間久遠(yuǎn),影片畫質(zhì)較差的老電影,火山引擎使用基于生成式的人像修復(fù)模塊,在保持人像真實特征的前提下,進(jìn)行高清五官重建;針對中高質(zhì)量的人像,火山引擎則使用了人像超清模塊,優(yōu)化五官清晰度,實現(xiàn)了對睫毛、眉毛、發(fā)絲和膚質(zhì)等臉部細(xì)節(jié)最大程度地還原和紋理增強。

值得一提的是,除了面向泛化老片修復(fù)場景的調(diào)優(yōu),火山引擎此次更是針對港片的特性,打磨出了更垂直細(xì)分的修復(fù)能力。

以武打場景為例,不同于海外電影“直截了當(dāng)”的打斗,打戲作為貫穿香港電影黃金年代的獨特標(biāo)志,更像是華麗的舞蹈,強調(diào)每一招每一式的對壘,有著極強的辨識度。

可武打場景,對AIGC模型而言卻是不小的考驗。一方面,畫面中迅速變化的動作和快速運動,往往會造成較大的幀間位移,進(jìn)而導(dǎo)致光流模型的準(zhǔn)確性下降,從而產(chǎn)生拖影;另一方面,復(fù)雜的武打動作更容易導(dǎo)致插幀結(jié)果的失真,產(chǎn)生偽影,直接影響了觀眾的視覺體驗。

為此,火山引擎自研了智能插幀算法,通過對前后幀的內(nèi)容進(jìn)行光流估計,根據(jù)光流信息將前后幀像素轉(zhuǎn)換到中間幀,然后進(jìn)行整合,生成中間幀,提升視頻幀率;通過針對性優(yōu)化,降低處理大運動時的計算負(fù)擔(dān),從而提升模型的穩(wěn)定性和效果。

而武俠元素,向來是香港電影的重要組成部分,但由于早期電影拍攝制作方式較為簡陋,部分武打場面往往會有威亞的部分殘留,從而破壞了畫面的完整性。對此,火山引擎利用去噪點和去劃痕等算法批量處理畫面瑕疵的同時,亦針對威亞優(yōu)化了去劃痕算法,在消除威亞痕跡的同時保證了畫面主體人物的完整性。

左圖為修復(fù)前,右圖為修復(fù)后

據(jù)中國電影資料館副館長張小光介紹,此次電影修復(fù)也邀請了電影的主創(chuàng)人員參與到修復(fù)流程中,既通過技術(shù)還原影像的“形態(tài)”,亦還原影片原本的“靈魂”,使其“修舊如舊”。

背后的邏輯在于,電影修復(fù)并不僅是前沿技術(shù)的找尋落地場景的嘗試,更是一種商業(yè)行為。而“修舊如舊”,正是經(jīng)典電影觸動大眾情懷、喚醒集體記憶,從而提升商業(yè)化價值的關(guān)鍵。從中不難窺見,火山引擎務(wù)實的技術(shù)觀。

飛入尋常百姓家

盡管AIGC初期爆發(fā)初期,互聯(lián)網(wǎng)語境曾困于技術(shù)與應(yīng)用的激烈爭論,但妙鴨相機與火山引擎卻證明了,二者其實并不對立。

一方面,前沿技術(shù)的演化不斷擴展著應(yīng)用的邊界,既使普羅大眾無需負(fù)擔(dān)寫真館高昂的價格,便能看到自己的多元面貌;也使昔日陳舊的影像擺脫了生存危機,穿越時空煥發(fā)了新的生命力。

另一方面,前沿技術(shù)從研發(fā)到落地往往需要經(jīng)歷較長的周期,過去更多活在“實驗室”里、商業(yè)化遇冷的大模型,更是需要這些深入人心的內(nèi)容來賦予它們生命,以此真正走入人們的生活。

面對前沿技術(shù)落地的桎梏,玩家們不斷交出的答卷,對行業(yè)無疑有著重要的參考價值。

出圈的妙鴨相機,一改過去前沿技術(shù)落地“苦大仇深”的面貌,通過貼近普通用戶的場景與更易上手的功能,以更活潑、輕快的姿態(tài)切入了C端市場。

無獨有偶,火山引擎亦在不斷探索落地場景。早在2021年,火山引擎便基于畫質(zhì)增強技術(shù),將哪吒、葫蘆娃、黑貓警長等童年記憶中的經(jīng)典動畫修復(fù)為4K版本;去年,其則是使Beyond樂隊在紅磡體育館的演唱會,時隔30多年于大眾視野中重現(xiàn)。

換言之,從還原經(jīng)典動畫,到演唱會重映,再到港片修復(fù),有如一個個錨點,昭示著火山引擎在商業(yè)化應(yīng)用領(lǐng)域的落地生根。時至今日,火山引擎已打磨出不俗的技術(shù)力,并已在內(nèi)部業(yè)務(wù)線以及外部企服市場,實現(xiàn)了規(guī)模化實踐與批量規(guī)?;a(chǎn)應(yīng)用。

歸根結(jié)底,妙鴨相機也好,火山引擎也罷,均在通過更多元、靈活的應(yīng)用,解構(gòu)了AIGC的科技高墻,使活在科技語境里的前沿技術(shù),演變?yōu)榱擞脩粲|手可及的現(xiàn)實??梢灶A(yù)見,在這批務(wù)實派玩家的帶動下,AIGC未來或?qū)⒁愿S富的形態(tài),飛入尋常百姓家。

關(guān)鍵詞:

最近更新