中文字幕欧美乱伦|手机AV永久免费|澳门堵场日韩精品|日本性爱欧美激情|蜜桃狠狠狠狠狠狠狠狠狠|成人免费视频 国|欧美国产麻豆婷婷|99久久久国产精品福利姬喷水|婷婷内射精品视频|日本欧洲一区二区

澎湃Logo
下載客戶端

登錄

  • +1

細(xì)粒度視覺質(zhì)量評價:回顧和思考

2023-01-05 11:18
來源:澎湃新聞·澎湃號·湃客
字號

編者按:面向人眼感知的質(zhì)量評價在許多視頻圖像處理算法和系統(tǒng)中發(fā)揮十分重要的作用。近年來學(xué)術(shù)界已經(jīng)提出了許多質(zhì)量評價方法,在已有數(shù)據(jù)集上取得了很高的性能,但是他們在實際應(yīng)用中的表現(xiàn)仍然無法讓用戶滿意,以至于無法得到廣泛應(yīng)用。LiveVideoStackCon 2022 上海站大會我們邀請到了中國科學(xué)院大學(xué)副教授 張新峰老師,為我們詳細(xì)分享了視覺質(zhì)量評價的背景與問題以及細(xì)粒度視覺質(zhì)量評價方法的發(fā)展與挑戰(zhàn)。

文 / 張新峰

整理 / LiveVideoStack

大家好,很高興有機會跟各位同行一起分享我們在質(zhì)量評價領(lǐng)域的一些想法。我接觸視頻質(zhì)量評價領(lǐng)域已經(jīng)有幾年時間,在博士和博士后期間,我主要是做視頻編解碼,做視頻編解碼的朋友可能知道我們有一個方向叫 Perceptual Coding,也就是面向人眼視覺的編碼,希望在相同的碼率下得到更高的主觀視覺質(zhì)量。我們想要得到更好的主觀質(zhì)量,就需要有一個很好的質(zhì)量評價方法。也是基于這個目的,我開始學(xué)習(xí)和研究一些更好的面向人眼視覺的質(zhì)量評價方法,進入到視覺質(zhì)量評價這個領(lǐng)域。

01 回顧:視覺質(zhì)量評價的背景

本次分享內(nèi)容主要從以下三個方面展開:首先是回顧,介紹下目前面向視覺信號的質(zhì)量評價的背景、意義以及目的;然后介紹下視覺質(zhì)量評價目前存在的一些問題以及我們對該領(lǐng)域問題的一些思考;最后介紹下目前我們的一些工作,對我們提出的細(xì)粒度視覺質(zhì)量評價問題的研究進行些展望。

首先,我們看一下視覺質(zhì)量評價的目標(biāo)。視覺質(zhì)量評價就是希望我們給出圖像、視頻或者更廣義的視覺信息,如光場圖像、全息圖像等的質(zhì)量高低的評價。傳統(tǒng)使用比較多的是基于信號的評價方法,對于圖像來說它的信號就是像素,這種基于像素的質(zhì)量表示例如 PSNR,或者其對應(yīng)的失真度量就是 MSE(均方誤差)。它和人眼的感知質(zhì)量之間是有明顯差異的。

這里我放了一個對比的圖像,大家也可以很清楚的看到,左上是原始圖像,沒有任何失真,所以它的 MSE 是 0。我們可以用各種方式對圖像進行處理,讓它的失真達(dá)到相同的均方誤差,也就對應(yīng)相同的 PSNR。比如說第一個,可以調(diào)節(jié)一下對比度,第二個做均衡化。第三個(第 2 行第 1 個)進行 JPEG 壓縮,后邊兩幅可以通過模糊和加噪聲,使他們的均方誤差可以都接近 225。但是人眼看起來,它們的主觀質(zhì)量差異是非常明顯的,這個例子充分證明這種基于像素的 PSNR 的度量是不能準(zhǔn)確反映人眼的感知質(zhì)量的,甚至與人眼的感知差異是非常大的。因此,我們希望在這個領(lǐng)域研究一種比較好的方法,能夠跟人眼感知的主觀質(zhì)量更一致,這就是圖像視覺質(zhì)量評價的目標(biāo)。

視覺質(zhì)量評價無論是在流媒體,還是涉及到圖像視頻的各種算法中都非常重要。眾所周知,目前互聯(lián)網(wǎng)上大量的圖像視頻要送到用戶端必須經(jīng)過壓縮的過程,有損壓縮不可避免的要引入失真。我們需要質(zhì)量評價方法監(jiān)測圖像或者視頻,用戶端感受的質(zhì)量是多少,如果質(zhì)量特別差的話,我們就需要適當(dāng)提高碼率保證良好的用戶體驗。

除此之外,我們設(shè)計的各種圖像或視頻處理算法,比如增強,圖像復(fù)原、去噪,需要有一個質(zhì)量評價的標(biāo)準(zhǔn)衡量。以圖像去噪為例,我們每提出一個新的去噪方法都要展示其性能,需要呈現(xiàn)去噪之后圖像的質(zhì)量,經(jīng)典的衡量指標(biāo)就是 PSNR,也會借鑒部分質(zhì)量評價領(lǐng)域的新指標(biāo),比如 SSIM。但實際上,其它很多質(zhì)量評價方法很少被用到。由于缺少令人信服的質(zhì)量評價方法,往往就只能貼出圖片來比較。由此可見,無論是在流媒體的傳輸應(yīng)用還是圖像、視頻的算法設(shè)計上,我們都急需比較好的、與人眼感知質(zhì)量更接近的質(zhì)量評價算法,所以視覺質(zhì)量評價具有非常重要的價值。

視覺質(zhì)量評價方法可以分成兩類,主觀質(zhì)量評價和客觀質(zhì)量評價,我們通常認(rèn)為第一類是最準(zhǔn)確的一種。國際標(biāo)準(zhǔn)化組織對于主觀質(zhì)量測試方法也給出了很多詳細(xì)的規(guī)定,比如測試過程,觀測距離等。這種方式對于評測環(huán)境的要求相對苛刻,而且需要很多人給圖像打分,人力成本和時間成本都很高。還有最重要的一點是主觀質(zhì)量評價方法不能用于算法優(yōu)化。所以主觀質(zhì)量評價方法在實際中很難應(yīng)用。因此,視覺質(zhì)量評價主要是研究客觀質(zhì)量評價的方法,希望能用數(shù)學(xué)的方式來建模人眼視覺對圖像 / 視頻信號的感知質(zhì)量。

從是否有參考圖像 / 視頻的角度,我們可以將客觀質(zhì)量評價方法分為有參考質(zhì)量評價方法和無參考質(zhì)量評價方法。有參考質(zhì)量評價方法是指在評價質(zhì)量的時候,有無失真的圖像作為參考;無參考質(zhì)量評價方法是指沒有任何參考圖像,只有失真的圖像 / 視頻,直接預(yù)測它質(zhì)量的高低。

視覺質(zhì)量評價研究的范式基本上可分為兩步:(1) 建立一個標(biāo)注了主觀質(zhì)量的圖像數(shù)據(jù)集。一般數(shù)據(jù)集的構(gòu)建需要首先收集高質(zhì)量無損圖像,目前已有的數(shù)據(jù)集大約選擇 20~30 左右的圖像。對每個圖像人工設(shè)置不同的失真和失真等級。比如對于壓縮失真而言,通常使用 JPEG 編碼器將每張圖像從最好質(zhì)量到最差質(zhì)量壓縮為 5 個等級。然后邀請測試人員對失真圖像進行主觀打分,通常邀請 20~30 人左右,將這些失真圖像隨機地呈現(xiàn)給每位測試人員,要求其給出對應(yīng)的質(zhì)量分?jǐn)?shù),比如采用 1-5 分的 5 分制打分法。將每張圖像的分?jǐn)?shù)平均得到所謂的主觀分?jǐn)?shù)(MOS),將其認(rèn)為是人眼對該圖像的主觀感知質(zhì)量。

(2)設(shè)計圖像客觀質(zhì)量評價方法。對于有參考的質(zhì)量評價方法,我們可以分別提取失真圖像和參考圖像的特征,建立不同的質(zhì)量函數(shù)模型來計算特征的失真,局部特征的失真可以通過聚合或者回歸得到客觀質(zhì)量分?jǐn)?shù)。質(zhì)量評價方法的性能需要用得到的客觀質(zhì)量分?jǐn)?shù)和主觀 MOS 分?jǐn)?shù)計算相關(guān)系數(shù),如果相關(guān)系數(shù)越接近 1,那證明客觀質(zhì)量模型與人眼感知質(zhì)量越接近,性能越好。

無參考的質(zhì)量評價方法也和上述方法類似,唯一的區(qū)別就是它沒有參考圖像,需要通過對大量圖像進行統(tǒng)計分析得到高質(zhì)量圖像的先驗分布特性,利用失真圖像的特征與高質(zhì)量圖像特征的先驗分布進行比較,得到客觀質(zhì)量分?jǐn)?shù)。大家沿用這種范式做了二、三十年,提出了眾多質(zhì)量評價方法,其性能也越來越好。但是我們在做視頻編碼的時候,這么多的高效的質(zhì)量評價方法在實際中依然難以得到滿意的結(jié)果,這就是我們今天要討論的一個問題。

02 思考:視覺質(zhì)量評價的問題

但是在實際應(yīng)用時效果卻不盡如人意,到底問題出在了哪里呢?

在視頻編碼中,國際標(biāo)準(zhǔn)從 MPEG-2 到 VVC 依然還是采用 PSNR 作為質(zhì)量指標(biāo)。在圖像 / 視頻處理算法中,實際上用的最多的還是基于像素或特征的 L2 范數(shù)。SSIM、MS-SSIM 等很少被加入到算法中進去優(yōu)化,即使加入算法中,其帶來主觀質(zhì)量的提升也很小。這些質(zhì)量評價方法在實際應(yīng)用中沒有發(fā)揮出它在質(zhì)量評價問題上那么顯著的性能提升。

到底哪里出了問題?我們把 TID2013 壓縮圖像數(shù)據(jù)集展開看一下。圖中最右側(cè)代表第五個失真等級對應(yīng)的主觀分?jǐn)?shù)的分布,其左邊相鄰的是第四個失真等級對應(yīng)的 25 個主觀分?jǐn)?shù)的分布,依次類推。我們可以發(fā)現(xiàn)兩個問題:

(1)不同失真等級間質(zhì)量分?jǐn)?shù)差異非常明顯,這樣大的質(zhì)量差距應(yīng)該很簡單的質(zhì)量評價模型就可以判斷正確,甚至通過壓縮圖像中的質(zhì)量因子,比如 JPEG 中的 QF,可以較為準(zhǔn)確地判斷出壓縮圖像的質(zhì)量。(2)我們又計算了這相鄰等級之間壓縮圖像的碼率,大約平均增長 30%。在實際中,我們很少需要判斷碼率在相差 30% 時兩個壓縮圖像質(zhì)量的高低。這種情況,PSNR 應(yīng)該也可以比較準(zhǔn)確地反映質(zhì)量排序,一般是碼率高的圖像質(zhì)量好,也就是說上述方式設(shè)計的這種質(zhì)量評價數(shù)據(jù)集與實際需求并不一致。對于壓縮問題,實際需要的質(zhì)量評價數(shù)據(jù)集是:采用不同的壓縮方法,將圖像壓縮到相同的碼率時,判斷哪個壓縮圖像的質(zhì)量好,這樣可以比較符合相同標(biāo)準(zhǔn)的不同編碼器的性能;另外的應(yīng)用是,采用同一個編碼器將圖像壓縮到接近的碼率,判斷其是否有人眼能感知的質(zhì)量差異,從而支持流媒體傳輸應(yīng)用。實際中,不需要對碼率相差 30% 甚至更大的圖像進行質(zhì)量比較,它們之間的質(zhì)量差異通常是非常明顯的。我們可以先把不同等級間的圖像質(zhì)量的評價看作是粗粒度的質(zhì)量評價問題,而相同等級內(nèi)的質(zhì)量評價問題看作是細(xì)粒度的質(zhì)量評價問題。

我們發(fā)現(xiàn)在已有的質(zhì)量評價數(shù)據(jù)集中,粗粒度質(zhì)量評價的比例是很高的。如果采用現(xiàn)有質(zhì)量評價的范式,S 和 O 包含了較多的粗粒度質(zhì)量評價也包含了較少的細(xì)粒度的質(zhì)量評價。如果混合計算會存在第一個問題:粗粒度統(tǒng)計的一致性掩蓋細(xì)粒度質(zhì)量評價的性能。也就是說我們評測的時候統(tǒng)計結(jié)果,PSNR 或 SSIM 和主觀質(zhì)量的相關(guān)系數(shù)達(dá)到 0.91、0.98 這么高,其實只是把粗粒度質(zhì)量排序,即不同等級之間的質(zhì)量排序評價正確了,掩蓋了相同等級內(nèi)質(zhì)量評價的錯誤。為驗證上述論斷,我們采用了一種隨機數(shù)產(chǎn)生客觀分?jǐn)?shù)的方法,記作 FG-Random。該方法得到的客觀質(zhì)量分?jǐn)?shù)在 TID2013 壓縮圖像上跟主觀分?jǐn)?shù)的相關(guān)系數(shù)一樣可以達(dá)到 0.96。當(dāng)然,這個分?jǐn)?shù)并不是純隨機的,這個隨機函數(shù)是這么寫的:生成 25 個 0 到 1 之間的隨機數(shù)加了一個 k,就是質(zhì)量等級是 1 時,客觀分?jǐn)?shù)就是 1-2 之間;質(zhì)量等級是 2 時,分?jǐn)?shù)就在 2-3 之間,也就是說不同等級之間分?jǐn)?shù)相差為 1。這個結(jié)果證明只要把粗粒度的質(zhì)量 level 判斷對了,質(zhì)量相關(guān)系數(shù)就會很高,會超過很多方法,從側(cè)面說明了傳統(tǒng)方法可能只是判斷出了不同 level 之間粗粒度質(zhì)量的排序。

TID2013 數(shù)據(jù)集里,同一個等級內(nèi)有多少個圖像對呢?同一個等級內(nèi)有 25 個失真圖像,那組合一下,每個等級內(nèi)有 n*(n-1)/2 個圖像對,有 5 個失真等級,共計 1500 對。不同等級之間有多少圖像對呢?那就很多了, 大家有興趣可以算一下,共計有 6250 對。我們看到,如果用 KRCC 計算時,相同等級內(nèi)組成的圖像對數(shù)要遠(yuǎn)遠(yuǎn)小于不同等級之間的圖像對數(shù)。

我寫了個簡單的程序計算不同數(shù)量的參考圖像、不同失真等級和相同等級內(nèi)判斷正確的圖像對的概率為 p 時,KRCC 的值的分布。從上表可以看出,當(dāng)只有 4 個失真等級時,相同等級內(nèi)只有 10% 的圖像對質(zhì)量順序判斷正確,相關(guān)系數(shù)就可以達(dá)到 0.77 以上。當(dāng)然,隨著等級內(nèi)判斷正確的數(shù)量越多,相關(guān)系數(shù)越高。我們通常用的數(shù)據(jù)集是 20-30 幅參考圖像,一般用 4-6 個失真等級。可以看到,理論上分析,我們只需要把不同等級之間判斷正確,KRCC 系數(shù)就可以達(dá)到 0.8 甚至 0.9。然而,那些經(jīng)典質(zhì)量評價方法的 KRCC 系數(shù)也只有 0.7、0.8 左右,所以進一步驗證了這些方法只是把不同等級之間的質(zhì)量排序正確了,內(nèi)部排序正確的概率可能只有 10% 左右。

更進一步,我設(shè)計了一個等級間判斷正確,等級內(nèi)隨機判斷的程序,其中 O1,…,O5 是隨機數(shù)生成的客觀分?jǐn)?shù),代表不同等級的客觀分?jǐn)?shù),然后把它組成一個向量,S1,…,S2 也是隨機數(shù)生成的主觀分?jǐn)?shù)組成一個向量。分別計算兩個相關(guān)系數(shù),(1)相同等級內(nèi)部,O1 和 S1 計算相關(guān)系數(shù),(2)不同等級組合的向量計算相關(guān)系數(shù)。我們會發(fā)現(xiàn)相同等級內(nèi)相關(guān)系數(shù)幾乎為 0,因為都是隨機數(shù)。不同等級組合的向量的相關(guān)系數(shù)超過 0.96。也就是說,不同等級之間判斷對了,就可以到這么高的相關(guān)系數(shù)。

我們在實際的數(shù)據(jù)集上進一步驗證,這個驗證是在 VCL 數(shù)據(jù)集的 JPEG 失真圖像上進行的。上圖橫坐標(biāo)是失真等級的數(shù)量,該數(shù)據(jù)集的 JPEG 失真圖像共有 6 個失真等級,我們依次增加失真等級數(shù)量,可以看出,在最低質(zhì)量等級上 IW-SSIM 或 PWMSE 這些方法得到的相關(guān)系數(shù)其實都是在 0 附近。也就是說,只有一個失真等級時,這些圖像的質(zhì)量差異是很接近的,我們把這種質(zhì)量差異稱為細(xì)粒度的質(zhì)量差異,已有的質(zhì)量評價方法幾乎完全失敗。隨著我們增加一個失真等級,兩個失真等級時 KRCC 系數(shù)迅速提高。隨著失真等級數(shù)量的增加,相關(guān)系數(shù)不斷提高。該實驗更進一步驗證了已有的質(zhì)量評價方法只是能夠區(qū)分不同粗粒度之間質(zhì)量的高低,細(xì)粒度質(zhì)量評價上確實沒有效果。

圖像 / 視頻質(zhì)量評價的研究已經(jīng)持續(xù)了二、三十年,大量的方法被提出來,難道真的就沒有效果嗎?我們又做了一組實驗,來探究這個問題。像剛才那樣,我在已有數(shù)據(jù)集 TID2013 相同等級圖像上,計算 PLCC,KRCC 或 SRCC 相關(guān)系數(shù),然后把不同等級計算得到的相關(guān)系數(shù)取平均,以此作為細(xì)粒度質(zhì)量評價度量,在上表的 FG-IQA 部分。我們發(fā)現(xiàn)在 FG-IQA 的測量中 PSNR 的相關(guān)系數(shù)反而是最高的,其他方法的相關(guān)系數(shù)甚至都沒有超過 0.5。我們用傳統(tǒng)的質(zhì)量評價范式,就是把所有的不同失真等級的客觀分?jǐn)?shù)和主觀分?jǐn)?shù)一起計算相關(guān)系數(shù),在上表的 MG-IQA 部分,它就可以到 0.9、0.8 以上。

所以我們想這種細(xì)粒度質(zhì)量評價上性能不高可能的原因有兩個:第一個是大家之前設(shè)計的時候沒有考慮到細(xì)粒度差異的特性,可能算法上未來需要去探索;另外一個原因可能是傳統(tǒng)的質(zhì)量評價數(shù)據(jù)庫的設(shè)計可能不是很合理。因為傳統(tǒng)的質(zhì)量評價數(shù)據(jù)庫通常是把很多圖像隨機打亂進行主觀打分,這種方式被試人員難以發(fā)現(xiàn)細(xì)粒度質(zhì)量的差異。兩個失真特別接近圖像只有擺在一起,反復(fù)對比才可能看出質(zhì)量差異,傳統(tǒng)的質(zhì)量評價數(shù)據(jù)庫采用隨機呈現(xiàn)的方式,使得數(shù)據(jù)庫的主觀分?jǐn)?shù)可能不夠準(zhǔn)確,所以這些方法去做相關(guān)系數(shù)計算的時候也不可靠。

從這個數(shù)據(jù)集上可以進一步過去二、三十年大家提出的質(zhì)量評價方法還是有效果的,只是跟傳統(tǒng)數(shù)據(jù)集上的表現(xiàn)可能不太一致。我們發(fā)現(xiàn) PSNR 確實跟人眼的感覺差異比較大,MS-SSIM、SSIM 或 IWSSIM 比 PSNR 提升很多,KRCC 達(dá)到 0.8 以上,但是這些算法的表現(xiàn)和傳統(tǒng)數(shù)據(jù)集上的就不一致了,比如有的方法在傳統(tǒng)數(shù)據(jù)集上可能會比 MS-SSIM 好,但是在細(xì)粒度的數(shù)據(jù)集上,我們發(fā)現(xiàn) MS-SSIM 還是很好的。我們還看到一個現(xiàn)象:在低碼率 b1 下,不同算法的相關(guān)系數(shù)都很高,碼率增加后相關(guān)系數(shù)會降低,這說明高碼率圖像的質(zhì)量評價更難。

我們想知道是為什么,所以進一步對數(shù)據(jù)集進行分析。因為同一幅圖像在相同碼率下對應(yīng) 4 幅失真圖像,可以組合成 6 個圖像對,因此該數(shù)據(jù)庫中,每個碼率點下共計有 600 個圖像對。只要有超過 50% 的人認(rèn)為圖像 A 比圖像 B 質(zhì)量好,就標(biāo)記為圖像 A 質(zhì)量好于圖像 B。那么我們進一步將被試人員判斷的比例進行分類,記作 preference probability,其中 > 90% 的部分表示,有超過 90% 的被試人員認(rèn)為圖像 A 比圖像 B 質(zhì)量好;80%-90% 表示有 80% 到 90% 的被試人員認(rèn)為圖像 A 比圖像 B 質(zhì)量好;從上述表格中可以看出,在低碼率時,人眼也可以比較容易地判斷出細(xì)粒度圖像質(zhì)量高低,而在高碼率時,圖像質(zhì)量差異進一步縮小,人眼也難以判斷;所以我們認(rèn)為質(zhì)量評價方法不僅僅要能夠體現(xiàn)圖像細(xì)粒度質(zhì)量高低的準(zhǔn)確性,還應(yīng)該體現(xiàn)圖像質(zhì)量差異判斷的難易程度。因為我們不該苛責(zé)算法在人眼無法判斷的質(zhì)量差異的情況下,依然做出精準(zhǔn)判斷。

03 展望 :細(xì)粒度視覺質(zhì)量評價

考慮到上述這些問題,我們更多的是思考未來圖像 / 視頻質(zhì)量評價問題該如何進行?我們認(rèn)為未來的圖像 / 視頻質(zhì)量評價應(yīng)該更細(xì)致,重點研究細(xì)粒度質(zhì)量評價問題。

在細(xì)粒度質(zhì)量評價方向上,有一類問題一直在被大家所研究,就是恰可察覺失真(Just-Noticeable Difference, JND),就是人眼有 50% 的機會可以察覺到的失真的最小閾值。一個無損圖像用 QP=8 或者 10 來壓縮,雖然信號上有失真,但是人眼是感知不到這么小的失真的。甚至對于一些圖像用 QP=30 來壓縮,如圖所示,很多人也看不出質(zhì)量差異。我們認(rèn)為 JND 反應(yīng)的就是細(xì)粒度的質(zhì)量差異。

美國南加大多媒體通訊實驗室構(gòu)建了一個視頻細(xì)粒度質(zhì)量評價數(shù)據(jù)集,他們是用相同的壓縮方法 H.264, 對不同分辨率的視頻用 QP 從 0 到 51 依次壓縮,然后用二分法查找壓縮視頻的 JND 點。

因為不同人眼的感知敏感程度不同,JND 點就形成一個分布。如果用戶沒有看出質(zhì)量差異,我們認(rèn)為用戶對當(dāng)前視頻是滿意的,如果用戶恰好看出了質(zhì)量差異,我們認(rèn)為用戶對該視頻質(zhì)量表現(xiàn)出不滿意。因此,將用戶 JND 點的累計分布作為用戶對視頻質(zhì)量的滿意度的曲線,來表征視頻質(zhì)量,不僅包含了質(zhì)量表示,也反映了用戶的感知分布。

我們在數(shù)據(jù)集中發(fā)現(xiàn),不同的視頻用戶滿意度的分布差異還是很大的,例如視頻會議的視頻有比較明顯的顯著區(qū)域 —— 人或者人臉,這時較小的失真用戶就會感知到,所以這類視頻的 JND 點的位置都比較靠近小 QP 位置。對于運動比較復(fù)雜的,比如水波紋或者小孩快速運動等,即使有較多失真,人眼也很難看出來,它們的 JND 點就比較靠后。

基于此我們做了一個預(yù)測模型:引入空域的掩蔽效應(yīng)和人眼視覺顯著性,以及時域運動的掩蔽效應(yīng)。同時,我們引入 VMAF 的度量,把它作為一個參考,因為它可以和失真、碼率建立起聯(lián)系,然后將上述特征進行用戶滿意度的回歸。

這個是我們算法準(zhǔn)確度的一個結(jié)果,分別以原始視頻、第一個 JND 點視頻、第二個 JND 點視頻為參考時,用戶 JND 點碼率的相對誤差。

因為算法是基于 H.264 視頻構(gòu)建的,我們希望把它往 H.265 視頻上遷移,因此,我們利用 VMAF 和碼率之間的關(guān)系計算了一個遷移系數(shù)。通過實驗發(fā)現(xiàn),算法還是在 264 上得到的碼率節(jié)省更多一些,H.265 上會弱一些,但整體還是可以得到比較多的碼率節(jié)省。

前面這些就是我們在細(xì)粒度質(zhì)量評價上的一些初步探索。在這里,我們簡單展望一下后續(xù)的一些研究方向。(1)涉及到不同內(nèi)容、不同分辨率視頻時,用戶滿意度模型效果還存在明顯不足,不同圖像或者視頻處理任務(wù)上的細(xì)粒度質(zhì)量評價研究,比如去噪問題,retargeting 問題等。(2)人眼在細(xì)粒度質(zhì)量差異感知上的特性,目前研究還不充分;(3)細(xì)粒度質(zhì)量評價數(shù)據(jù)集的構(gòu)建需要更多的人力和時間,難度要比傳統(tǒng)的數(shù)據(jù)集構(gòu)建更大;

此外,還有一個問題就是我們要在實際場景中應(yīng)用質(zhì)量評價方法,需要這種方法簡單可導(dǎo),可導(dǎo)才可以優(yōu)化,所以在這個方向上,一些簡單有效的質(zhì)量評價方法可能是更為重要的。

最后,計算機視覺這幾年研究進展很快,使得機器也成為了視頻和圖像重要的接收者,分析視頻圖像失真到什么程度,機器感知會發(fā)生變化,這種細(xì)粒度的分析可能也是未來的一個方向。

前面介紹到的相關(guān)工作有一些參考論文,大家有興趣可以參考。

以上就是我本次分享的全部內(nèi)容,謝謝大家!

    本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機構(gòu)觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網(wǎng)安備31010602000299號

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116

            ? 2014-2025 上海東方報業(yè)有限公司

            反饋