首頁 保險 > 正文

AI 重塑圖像生成:觀黑夜如白晝,洞微處若觀火

作者:吳昕


(資料圖片僅供參考)

「色彩就是歡樂(Color is joy)?!?0 世紀(jì)最有名、也最具影響力的攝影大師 Ernst Haas 曾說。在 20 世紀(jì) 60 年代,「最嚴(yán)肅」的攝影師只愿看到黑白世界,而這位彩色成像技術(shù)的先驅(qū)率先使用柯達(dá)膠片,表達(dá)出色彩不可否認(rèn)的力量。

同一時期,法國火山學(xué)家 Katia 和 Maurice Krafft 夫婦使用 16 毫米拍攝鏡頭和尼康 F2 膠片相機(jī)記錄下驚心動魄的活火山運動,噴涌而出的橘紅色巖漿猶如地球心臟跳動時流動的血液。

光學(xué)成像技術(shù)的發(fā)展大大擴(kuò)展了人類的視覺和表達(dá)能力,但很難讓人類走出彩色的困境,我們不可能像在白天一樣自由地看到黑夜的一切,盡管大多數(shù)魔法都發(fā)生在夜晚。

一、人眼、ISP 與數(shù)字成像

光學(xué)成像技術(shù)的靈感源自對人類視覺活動的觀察。當(dāng)進(jìn)入眼睛的光子撞擊每只眼睛后部視網(wǎng)膜中 125 億個光敏神經(jīng)細(xì)胞中的一個或多個時,視覺處理就開始了: 人類約有1.3 億視桿細(xì)胞,這種桿狀細(xì)胞使用視紫紅質(zhì)來接收微弱的光線,幫助我們感知特定光強(qiáng)度的亮度變化,也主導(dǎo)了我們在晨昏弱光下和夜間的視覺功能。

可見光波長范圍 380-790 納米,也是唯一有色彩信息的波長范圍。

相較于勢力龐大的視桿細(xì)胞,人類僅有 7 百萬左右的視錐細(xì)胞。視錐細(xì)胞依靠相關(guān)的感光色素來辨別顏色,只有在光線充足的時候它才能正常工作。

如果是在特別暗的環(huán)境里,視錐細(xì)胞會停止工作,無法區(qū)分不同波長的光,我們只能看到灰暗的場景。

兩種細(xì)胞在視網(wǎng)膜的分布不同,功能不同。視桿細(xì)胞(藍(lán)色)主要是感知明暗,視錐細(xì)胞(紅色)感受不同的顏色。

我們身邊常見的手機(jī)、監(jiān)控、安防等設(shè)備的攝像頭也都是可見光攝像頭,它們和膠片成像最大區(qū)別之一就是感光媒介從膠片變成圖像傳感器(比如常見的 CMOS),一種金屬氧化物,負(fù)責(zé)將光信號轉(zhuǎn)變成電信號。

CMOS 上面按規(guī)則布滿了微型的金屬元件,它們就像一個個忠于職守的小小記錄員,記錄對應(yīng)位置的亮度信息,叫做像素。 CMOS 就像桿狀細(xì)胞,只能感受光的強(qiáng)弱,無法感受光的波長(等于無法記錄顏色)??茖W(xué)家后來在圖像傳感器之前添置了一個濾光層,透過 CMOS 上接收到的過濾結(jié)果(RAW 圖),依靠專門的算法計算出每個像素的顏色。

這時就輪到 ISP(Image Signal Processor,圖像信號處理器)出場了。它專門負(fù)責(zé)對前端圖像傳感器輸出的電壓、電流信號做后期處理,力求較好還原現(xiàn)場細(xì)節(jié),讓人看懂圖像。

事實上,這些后期處理都是基于圖像算法實現(xiàn)的。比如,推測出像素顏色的算法就是「去馬賽克(demosaicing)」

現(xiàn)在幾乎所有的設(shè)備都會默認(rèn)自動執(zhí)行「線性校正」,就是通過 ISP 給機(jī)器較為偏暗的成像來一個線性變換,以抵消過于暗淡的不良輸出,讓最后得到的結(jié)果與肉眼實際看到的一致。

在弱光條件下,圖像傳感器很難接收到足夠的光信息。因此需要較高的 ISO(感光度) 或較慢的快門速度,增加感光芯片接收到的光子量,但這往往容易導(dǎo)致發(fā)熱問題,產(chǎn)生噪點圖像。ISP 具有先進(jìn)的降噪算法,可減少各種顏色或圖案噪聲,同時保留紋理細(xì)節(jié)。

白平衡,是力求在各種復(fù)雜場景下都能精確還原物體本來的顏色,哪怕你是在白熾燈下拍攝了一張白紙。自動曝光控制,則是透過分析來自傳感器的亮度信息,計算和控制光圈、快門速度和 ISO ,使得圖像亮度適宜。

因此,ISP 技術(shù)很大程度上決定數(shù)字相機(jī)的成像質(zhì)量,被稱為攝像設(shè)備的 「大腦」。

二、 ISP 與傳統(tǒng)夜視方案的困境

不過,可見光這位魔術(shù)大師也給 ISP 出了不少難解的題。 白天,如果光線過強(qiáng)或者反差太大,比如逆光或者是車輛從隧道里出來突然面對強(qiáng)光時的感知,人眼很難解決,攝像頭也不行。

隨著太陽被地平線吞沒,在極弱光下,傳統(tǒng) ISP 幾乎什么都看不到。

按照軍工標(biāo)準(zhǔn),滿月大概是 0.1 Lux(單位面積的光通量),接著是 1/4 月,大概是 0.01Lux。 沒有月亮,天上只有星星的話,大概是 0.001Lux,我們把這種星光級別(的照度)就定義為極弱光。深知未來 CEO 張齊寧解釋道。

每當(dāng)夜晚來臨,深圳城市公園湖泊等燈光覆蓋不好的地方,基本上屬于極弱光。小區(qū)里的車位停車,因為路燈昏暗,倒車很不方便,也是弱光或極弱光的場景。

自 2017 年底成立以來,深知未來就致力于用自研 AI ISP 技術(shù)突破極弱光場景(低照度、逆光、背光等復(fù)雜光線及雨雪霧環(huán)境)條件限制,實現(xiàn)此類場景下的實時全彩成像。

在戶外運動場景里,越來越多人喜歡夜爬,而深圳幾乎每周都會有一、兩個人因為夜里爬山走失,此時相關(guān)救援隊收到消息后會用無人機(jī)在山上進(jìn)行搜救。

黑夜也是罪犯的天然保護(hù)傘。近 70% 的犯罪都是在夜間發(fā)生,從晚上 7 點到次日凌晨 5 點是犯罪事件的高發(fā)期。

除此之外,兩萬多公里邊境的駐防、山嶺和沙漠油田作業(yè)區(qū)的違規(guī)監(jiān)控、長江十年禁漁令下河流常態(tài)化監(jiān)管、電力巡檢以及野生動物監(jiān)測等等,由于光線太弱,傳統(tǒng)攝影設(shè)備很難在夜間進(jìn)行探測,必須借助紅外攝像頭。

在一些國家自然保護(hù)區(qū),你可以看到用鐵絲捆綁在樹干上的紅外相機(jī),監(jiān)測野生動物。它會主動向外發(fā)射紅外光束(非可見光),照射目標(biāo),并將目標(biāo)反射的紅外圖像轉(zhuǎn)化成為可見光圖像,進(jìn)行夜間觀察。

這種主動紅外夜視系統(tǒng)在全黑情況下也可以進(jìn)行觀察。 不過,由于接收的是物體反射的單一頻段的紅外光,不包含可見光的綠藍(lán)等基色,無法呈現(xiàn)彩色效果。經(jīng)處理后,紅外成像僅能呈現(xiàn)黑白效果,無法滿足需要捕捉更多目標(biāo)細(xì)節(jié),比如顏色、斑紋等的需求。

在城市監(jiān)控場景下,通過紅外補(bǔ)光車牌這類高反光的物體很容易過曝,而衣著顏色、車身顏色、車牌等又往往都是破案的關(guān)鍵線索,丟失不得。

激光夜視儀和紅外夜視儀原理差不多,也屬于主動傳感成像,但觀測距離更遠(yuǎn),最高可達(dá)幾公里。除了同樣面臨信號干擾的問題,模塊價格都不便宜,間接提高了構(gòu)建高質(zhì)量相機(jī)的總系統(tǒng)(可見光+不可見光)成本。

除了上面常見的主動傳感成像的手段,還有一種被動紅外夜視系統(tǒng)。熱像儀會自動收集來自場景中所有物體的不可見熱輻射,將熱分布數(shù)據(jù)轉(zhuǎn)換為視頻圖像,使用也很廣泛。

比如,監(jiān)測輸電線需是否有接觸不良、漏電、過熱或存在樹障;搭載在無人機(jī)上觀測象群、可疑人群、車輛的動向以及油田、海面可疑人物、車輛和船只的監(jiān)測。

熱像儀監(jiān)測象群移動。熱像儀的原理是基于一切溫度高于絕對零度的物體時時刻刻都在不停地輻射著紅外線。

和可見光成像一樣,熱成像也屬于被動傳感成像手段。但成像的結(jié)果丟失了很多特征、紋理等信息,看起來就像鬼影。

張齊寧認(rèn)為,(熱成像里)人臉是整體的模糊呈現(xiàn),很難辨別面部細(xì)節(jié)(包括眼睛、鼻子甚至皺紋),難以完成高質(zhì)量的視覺成像。

由于成像質(zhì)量不高,在目標(biāo)(比如野火監(jiān)測)溫差都不大的情況下,容易引發(fā)誤報。另外,因為無法光學(xué)變焦,熱像儀也不能遠(yuǎn)距離看清目標(biāo),而可見光鏡頭探測距離要遠(yuǎn)得多。

近期 Nature 報道了美國普渡大學(xué)和洛斯阿拉莫斯國家實驗室的研究人員開發(fā)了一種熱輔助探測和測距(HADAR)系統(tǒng),通過訓(xùn)練人工智能(AI)來確定熱像中每個像素的溫度、能量特征和物理紋理,產(chǎn)生的圖像幾乎與傳統(tǒng)相機(jī)在日光下拍攝的圖像一樣清晰。

那一期的 Nature 以 HADAR 研究作為封面

該研究提出了一種辦法HADAR,結(jié)合熱物理學(xué)、紅外成像和機(jī)器學(xué)習(xí),試圖恢復(fù)目標(biāo)紋理并克服鬼影效應(yīng)。

這個技術(shù)實際上是一種偽色彩,根據(jù)材質(zhì)預(yù)測物體的顏色。張齊寧也注意到了這份研究?!高@仿佛蠟筆作畫,蠟筆材質(zhì)本身都一樣,但是從顏色上來說又各有各的色彩,其實很難預(yù)測這個蠟筆到底是什么顏色。」

站在商用層面,HADAR 技術(shù)更不占優(yōu)勢。

數(shù)碼相機(jī)誕生之初只有 28 萬像素。后來,人們一直致力于讓 CMOS 在很小面積上容納更多的感光單元,瘋狂提升相機(jī)分辨率——從 100 萬、500 萬到上千萬、3500 萬甚至上億,成像效果完全可以與傳統(tǒng)膠片相機(jī)媲美。

現(xiàn)在的手機(jī)鏡頭普遍都在幾千萬像素,高端紅外熱像儀才不過上百萬像素。為什么?因為核心元件探測器的像元沒辦法做?。?

熱成像利用的紅外光(8 微米到 14 微米)波長非常長,能量更大,導(dǎo)致探測器上的像元(像素)尺寸要做得非常大。可見光相機(jī)的像素只有 1-2 微米,而紅外熱成像儀的探測器像元每個有 12-17 微米。

在鏡頭尺寸一樣的情況下,熱像儀的鏡頭像素要比可見光鏡頭的像素少得多,成像效果自然差很多。

熱成像儀的探測器像元尺寸越小,像元的數(shù)量就越多,分辨率也就越高,視場角也越大,視野更廣闊。

熱成像的芯片很難做小,即使走量也沒辦法將成本攤薄到比 CMOS 還便宜。張齊寧認(rèn)為,熱成像技術(shù)會在特定細(xì)分領(lǐng)域,比如完全無光的場景識別生命跡象,具有明顯優(yōu)勢。如果放在其他需要仔細(xì)辨別細(xì)節(jié)的場景,優(yōu)勢相對并不明顯。

目前,攝像頭在極弱光環(huán)境下至今「基本上就停留在黑白時代」,之前也沒有特別好的方法去解決彩色成像的問題。張齊寧說,在極弱光下,實現(xiàn)高信噪比質(zhì)量成像的方法幾乎是沒有的。

SONY 創(chuàng)始人盛田昭夫在其回憶錄中談到 1960 年代索尼自研特利瓏,認(rèn)為彩電是大勢所趨。

但是,人類會為體驗感的升級而買單。彩色膠片、彩色電影、彩電對黑白競對的更替,均是如此?!稌r代雜志》在 2016 年將日本索尼特麗瓏(Trinitron ,彩色顯像管)電視,與 iPod、iPhone、Macintosh 、谷歌眼鏡一并列入有史以來最有影響力的 50 個電子設(shè)備排行榜。

在產(chǎn)品功能方面,錄像、存儲和夜視功能已成為攝像頭的標(biāo)配。洛圖科技 2022 年報數(shù)字顯示,97% 的攝像頭支持夜視功能,并且逐漸向彩色進(jìn)化,日夜全彩攝像頭份額從 1 月的 20% 增長至 12 月的 31%。

摩爾定律還在發(fā)揮作用。在未來,當(dāng) AI 算力足夠便宜,功耗也足夠低的時候,我們就能以不高的代價為每一個攝像頭更換夜間視覺引擎。張齊寧說。

如果性價比、功耗都跟現(xiàn)在的成像的芯片相當(dāng),我們?yōu)槭裁床蝗ビ靡粋€全彩夜視的攝像頭?

三、另一條路:融合 AI,軟化 ISP

我們現(xiàn)在的技術(shù)已經(jīng)可以在極弱光下,真正做一些高質(zhì)量成像,在黑暗中仔細(xì)地分辨人和事物的一些細(xì)節(jié)。據(jù)張齊寧介紹,在很多關(guān)鍵成像任務(wù)上,可以做幾百倍的提升。

極弱光下,激光方案(左),熱成像(中)和深知未來的全彩夜視成像效果(右)對比。

比如,基于傳統(tǒng) ISP 硬件,只能去做 0. 1Lux 的成像,經(jīng)過我們 AI-ISP 增強(qiáng)之后,可以做到 0.0001Lux 成像。

能看多清楚,跟目標(biāo)物體大小有關(guān)。他解釋說,如果監(jiān)測范圍要到 10 公里,極弱光下依舊可以看清很高的大樓、大橋等巨大建筑物。如果需要監(jiān)測 3-5 公里的范圍,基本上就是監(jiān)測海上的船、地面上的大型車輛等。

如果是要看清一個人,現(xiàn)在光學(xué)上能夠做到的也就是一兩百米。

2018 年英特爾的一篇 CVPR 論文 Learning to see in the dark 使用了一個模型來擬合整個 ISP 過程,從一個 RAW 數(shù)據(jù)作為輸入,直接輸出一個 sRGB 的成片,效果很驚艷。

論文大火,某種程度上,它論證了通過整個神經(jīng)網(wǎng)絡(luò)來實現(xiàn) ISP 全部功能的可能性。特別是在商業(yè)角度,它增加了可見光攝像頭系統(tǒng)的有用范圍,提供了一個以更低成本提供實時日夜全彩清晰圖像的可能性。

隨后,深知未來、安霸、華為海思、愛芯元智、眼擎科技等一些企業(yè)開始探索用神經(jīng)網(wǎng)絡(luò)搭建視覺成像引擎。

鏡頭、CMOS 以模擬器件為主,很難把算法加進(jìn)去,鑒于兩個產(chǎn)業(yè)已經(jīng)非常成熟,很難實現(xiàn)原理層面上的突破(除非是材料)。

但是,ISP和算法相關(guān)。它會對接收到的電信號做很多處理,會把大量的有用的信息都抹掉,在這個基礎(chǔ)上,再試圖提升下游的識別效果,已經(jīng)失去先機(jī)。特別是暗光和高動態(tài)場景,圖像失真和信息損失不可避免。

比如,有的 CMOS 已經(jīng)達(dá)到 160dB,但多數(shù)傳統(tǒng) ISP 動態(tài)范圍還停留在 48dB,猶如高速公路過后接著走一段鄉(xiāng)村小路。由于 ISP 這條鄉(xiāng)村小路容納的車流量有限,會對接收到的電信號做一定處理,比如通過去掉最暗部分和最亮部分,扔掉大量信息。

如果一次性端掉整個 ISP 不可靠,考慮到目前端側(cè)的算力也有限,結(jié)合落地中的功耗以及成本問題,能不能將其中與成像質(zhì)量相關(guān)的關(guān)鍵環(huán)節(jié) AI 化,直接從原始數(shù)據(jù)(比如感光芯片數(shù)據(jù))里提取更多信息,讓 AI 來處理? 比如,用一個DNN 做白平衡,另一個 DNN 做 Demosaic,然后讓很多個神經(jīng)網(wǎng)絡(luò)協(xié)同工作?

循著這一思路,2021 年華為海思發(fā)布越影 ISP 芯片,被視為推動了整個安防行業(yè)的 ISP 轉(zhuǎn)向。越影 AI ISP 能智能區(qū)分圖像中的信號和噪聲,實現(xiàn)低照度場景下的智能降噪。

2022年,在 ISP 處理方面 17 年的經(jīng)驗的安霸公司也宣布推出 AI ISP ,可以在極低的照度和最小的噪聲下實現(xiàn)低光下的彩色成像,比主流 ISP 性能提升 10 到 100 倍,并具有更自然的顏色再現(xiàn)和更高的動態(tài)范圍處理能力。

深知未來也利用神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)噪聲和信號的分布特性,訓(xùn)練出一套能從極弱光信號中分離噪聲和真實信號的深度學(xué)習(xí) AI 算法,在降噪的同時將真實信號增強(qiáng)至正常光環(huán)境強(qiáng)度,信噪比提升最高可達(dá) 25dB,實現(xiàn)了在極弱光環(huán)境下的正常成像。

深知未來 AI ISP技術(shù),信噪比提升最高可達(dá) 25dB,實現(xiàn)了在極弱光環(huán)境下的正常成像。

云南昆明消防總隊在夜間使用深知未來夜視相機(jī)掛載 S3 搭配無人機(jī)進(jìn)行測試,此圖為 S3 VS 其他夜視相機(jī)載荷對比圖。

神經(jīng)網(wǎng)絡(luò)強(qiáng)大的地方在于對復(fù)雜場景的建模能力,使得圖像效果超越傳統(tǒng) ISP,特別是極低照度下的降噪、增強(qiáng)對比度等方面。

「我們所做的一切就是收集足夠多的數(shù)據(jù),增強(qiáng)建模能力,特別是各種 corner case。」 張齊寧舉例道,在深圳生活長大的人可能無法想象西藏高原、冰川等夜晚有多黑。我們從來沒有見過那么黑的場景。在整個中國甚至全球范圍內(nèi),成像還會遇到哪些極端情況?我們的算法能不能覆蓋到?

獲取這些 Bad case,再針對性在做訓(xùn)練,就能增強(qiáng)應(yīng)對復(fù)雜場景的能力,實時更新 ISP 參數(shù)。迭代視覺模型,即可快速實現(xiàn)芯片產(chǎn)品畫質(zhì)的升級換代。

比較之下,由于傳統(tǒng) ISP 在做成像時,必須在 FPGA 或者是 ASIC 上運行,因為它必須有一個非常嚴(yán)格的有時序的硬件來保證它的時延可控,完全固化成了電路邏輯,因此,它們無法有效進(jìn)行個性化調(diào)整,也永遠(yuǎn)無法升級。

目前,AI 與傳統(tǒng) ISP 的結(jié)合趨勢在手機(jī)廠商中非常突出,目的是增加手機(jī)拍照效果,深化品牌差異。另外,AI ISP 也在走入安防、無人機(jī)甚至自動駕駛領(lǐng)域。

去年至今,我們最大的一個商業(yè)化場景就是行業(yè)級無人機(jī)的全彩夜視相機(jī)掛載。張齊寧告訴我們,無人機(jī)市場的商業(yè)模式已經(jīng)被驗證,現(xiàn)在已經(jīng)擁有成熟的系列產(chǎn)品線。

國內(nèi)行業(yè)級無人機(jī)的應(yīng)用其實很廣泛,包括公共安全、漁政、邊防、海防、消防、應(yīng)急等等。目前國內(nèi) 200 家以上的行業(yè)級無人機(jī)相關(guān)企業(yè),主要圍繞著農(nóng)業(yè)植保、電力巡檢和警用安防三大重點領(lǐng)域。

與此同時,深知未來也在探索夜視相機(jī)的消費級市場,如手持夜視望遠(yuǎn)鏡等。

四、邁向 2.0 ,干掉 ISP

現(xiàn)在,我們都還在 AI ISP 1. 0 時代——部分的傳統(tǒng) ISP 流程加上部分神經(jīng)網(wǎng)絡(luò)流程——本質(zhì)上還是一種過渡。在張齊寧看來。

目前的方案不僅要傳統(tǒng) ISP,還需要 NPU,無論是成本還是功率消耗,肯定都比原來的要高,沒那么容易實現(xiàn)平替。

芯片寸土寸金,如今還要給 ISP 留一塊地,面積還挺大,甚至比 NPU 還要大。有時候,功耗還會超越 NPU。

因為 ISP 和 NPU 需要進(jìn)行協(xié)同工作,雙方的一些數(shù)據(jù)交換就會導(dǎo)致 NPU 沒有辦法全功率工作,通??赡苤挥邪俜种畮住⒍睦寐?。

不過,ISP 的技術(shù)還在不斷演進(jìn),與 AI 的融合只是其中一個方向。也有觀點認(rèn)為,基于一些自身不足(比如功率、端側(cè)算力、訓(xùn)練推理成本等),AI ISP 也不可能全部取代傳統(tǒng) ISP。

而在張齊寧看來,與 AI 融合的技術(shù)路徑必須繼續(xù)進(jìn)化到一個大家都無腦選擇的狀態(tài),才能真正實現(xiàn)規(guī)?;鎿Q?!?接下來,我們想完全切掉所有傳統(tǒng) ISP 流程,用神經(jīng)網(wǎng)絡(luò)替代?!?

視覺從誕生的第一天起就是在用神經(jīng)網(wǎng)絡(luò)在做成像。三葉蟲因此成為寒武紀(jì)海洋中的霸主,在地球上生存了近三億年才滅絕。人的視覺本身就是一個非常純粹的神經(jīng)網(wǎng)絡(luò)。

深知未來預(yù)計會在今年年底實現(xiàn) 2. 0 框架的雛形。據(jù)張齊寧介紹,這是一個 all in one 的神經(jīng)網(wǎng)絡(luò),不再依賴于任何傳統(tǒng) ISP pipeline。

你可以認(rèn)為它是一個 multitask 的神經(jīng)網(wǎng)絡(luò),可以實現(xiàn)非常多的任務(wù),不像現(xiàn)在的方案還需要有很多神經(jīng)網(wǎng)絡(luò)協(xié)作。

「只需要 NPU,它是一個全新物種?!?

關(guān)鍵詞:

最近更新

關(guān)于本站 管理團(tuán)隊 版權(quán)申明 網(wǎng)站地圖 聯(lián)系合作 招聘信息

Copyright © 2005-2023 創(chuàng)投網(wǎng) - www.mallikadua.com All rights reserved
聯(lián)系我們:39 60 29 14 2@qq.com
皖I(lǐng)CP備2022009963號-3