富士通實(shí)驗(yàn)室有限公司開發(fā)了一種技術(shù),用于將超高清,大容量視頻數(shù)據(jù)壓縮到AI視頻識(shí)別應(yīng)用所需的最小大小。這項(xiàng)技術(shù)可以將視頻數(shù)據(jù)壓縮到使用常規(guī)壓縮技術(shù)準(zhǔn)備的,供人類視覺確認(rèn)的數(shù)據(jù)大小的十分之一。
近年來,各個(gè)業(yè)務(wù)領(lǐng)域?qū)σ曨l數(shù)據(jù)的AI分析的需求急劇增加。尤其是第五代移動(dòng)通信系統(tǒng)(1)的普及 ,預(yù)計(jì)將極大地增加相機(jī)拍攝的超高清視頻圖像的數(shù)量,以及在街上和路上拍攝的許多圖像的數(shù)量。生產(chǎn)線。
在開發(fā)這項(xiàng)新的壓縮技術(shù)時(shí),富士通專注于AI和人類識(shí)別圖像的方式上的重要差異。即,在識(shí)別視頻數(shù)據(jù)中的人,動(dòng)物或物體時(shí),人工智能和人類在圖像區(qū)域上往往會(huì)有所不同,這些區(qū)域被認(rèn)為對(duì)判斷很重要。富士通開發(fā)了一種技術(shù),可以自動(dòng)分析AI所重視的區(qū)域,并將數(shù)據(jù)壓縮到AI可以識(shí)別的最小大小。這使得可以分析大量視頻數(shù)據(jù)而不會(huì)影響識(shí)別精度,同時(shí)可以顯著降低操作和數(shù)據(jù)傳輸成本。還可以預(yù)料,該技術(shù)將允許用戶通過組合存儲(chǔ)在云中的多個(gè)視頻數(shù)據(jù),傳感器數(shù)據(jù)和性能數(shù)據(jù)(例如銷售數(shù)據(jù))來分析更高級(jí)的視頻數(shù)據(jù)。
背景與挑戰(zhàn)
近年來,使用AI分析圖像的技術(shù)發(fā)展迅速,并且有望成為許多行業(yè)中許多公司進(jìn)行數(shù)字化轉(zhuǎn)型的驅(qū)動(dòng)力之一。隨著2020年復(fù)雜的5G移動(dòng)服務(wù)的到來,對(duì)AI分析的需求預(yù)計(jì)會(huì)進(jìn)一步增加,同時(shí)超高清4K和8K攝像機(jī)以及大量視頻數(shù)據(jù)在包括行為分析在內(nèi)的應(yīng)用中的使用也將增加。制造業(yè)和零售業(yè)。
盡管如此,對(duì)于用于圖像分析的深度學(xué)習(xí)技術(shù)的處理要求仍提出了巨大的挑戰(zhàn)。一種確保處理這些任務(wù)的計(jì)算能力的有效技術(shù)是與云一起處理,但是由于視頻數(shù)據(jù)通常非常占用資源,因此需要一種可以將所有視頻數(shù)據(jù)傳輸?shù)皆频母邏嚎s技術(shù)。而不會(huì)影響質(zhì)量,從而不會(huì)使網(wǎng)絡(luò)帶寬過載。
關(guān)于最新技術(shù)
壓縮視頻會(huì)根據(jù)壓縮率降低圖像質(zhì)量,并且如果AI聚焦的區(qū)域過度壓縮,識(shí)別精度會(huì)降低。富士通開發(fā)了一種視頻壓縮技術(shù),該技術(shù)可以自動(dòng)分析一幀視頻數(shù)據(jù)圖像中被AI識(shí)別為判斷材料的對(duì)象的區(qū)域, 以每個(gè)區(qū)域識(shí)別所需的最低圖像質(zhì)量對(duì)圖像進(jìn)行壓縮(2)(圖1)。與傳統(tǒng)的壓縮技術(shù)相比,通過應(yīng)用此技術(shù),可以顯著減小視頻數(shù)據(jù)的大小,同時(shí)保持識(shí)別精度。
自動(dòng)估算壓縮比而不影響AI識(shí)別精度的技術(shù)
針對(duì)每個(gè)區(qū)域分析了特定于壓縮的圖像質(zhì)量下降對(duì)識(shí)別精度的影響。根據(jù)AI識(shí)別結(jié)果自動(dòng)估計(jì)不影響識(shí)別精度的壓縮率(圖2)。
當(dāng)改變整個(gè)圖像的壓縮比并改變圖像質(zhì)量時(shí),通過匯總對(duì)識(shí)別結(jié)果的影響,可以確定所有區(qū)域中AI在識(shí)別過程中特征的重要程度。將緊接在每個(gè)區(qū)域中的識(shí)別精度迅速惡化之前的壓縮率估計(jì)為不影響識(shí)別精度的壓縮率。
它還會(huì)反饋連續(xù)圖像的AI結(jié)果,以將壓縮率提高到AI可以識(shí)別的最大范圍。這樣,該技術(shù)在保持AI識(shí)別精度的同時(shí)實(shí)現(xiàn)了高圖像壓縮。
影響
新開發(fā)的技術(shù)已應(yīng)用于由多名工人打包在工廠中的4K攝像機(jī)拍攝的視頻鏡頭??梢源_定的是,數(shù)據(jù)大小可以減小到傳統(tǒng)壓縮技術(shù)的數(shù)據(jù)大小的1/10,而不會(huì)降低識(shí)別精度。預(yù)計(jì)該技術(shù)將用于不需要嚴(yán)格實(shí)時(shí)性能的應(yīng)用程序,以及用于分析高級(jí)視頻數(shù)據(jù)的分析,該高級(jí)視頻數(shù)據(jù)將存儲(chǔ)在云中的多個(gè)視頻數(shù)據(jù),傳感器數(shù)據(jù)以及性能數(shù)據(jù)(例如銷售數(shù)據(jù))結(jié)合在一起。
未來的計(jì)劃
富士通實(shí)驗(yàn)室正在各種情況下對(duì)該技術(shù)進(jìn)行評(píng)估,并正在進(jìn)行進(jìn)一步的研究和開發(fā),以進(jìn)一步改善壓縮性能。富士通有望在2020財(cái)年末將該技術(shù)商業(yè)化,并將其引入不同行業(yè)的各種應(yīng)用中,包括其富士通制造業(yè)解決方案COLMINA服務(wù)平臺(tái)。
[1]第五代移動(dòng)通信系統(tǒng)-3GPP(第三代合作伙伴計(jì)劃)第五代系統(tǒng)的縮寫。一種具有高速,大容量,超低延遲和多個(gè)同時(shí)連接的移動(dòng)通信系統(tǒng)。
[2]壓縮- 此技術(shù)采用國際標(biāo)準(zhǔn)H.265 / HEVC和現(xiàn)有的視頻壓縮方法。