中文字幕欧美乱伦|手机AV永久免费|澳门堵场日韩精品|日本性爱欧美激情|蜜桃狠狠狠狠狠狠狠狠狠|成人免费视频 国|欧美国产麻豆婷婷|99久久久国产精品福利姬喷水|婷婷内射精品视频|日本欧洲一区二区

澎湃Logo
下載客戶端

登錄

  • +1

華人團(tuán)隊(duì)用Transformer做風(fēng)格遷移,速度快、可試玩,網(wǎng)友卻不買賬

2021-09-22 10:51
來源:澎湃新聞·澎湃號·湃客
字號

機(jī)器之心報(bào)道

編輯:杜偉

利用神經(jīng)網(wǎng)絡(luò)進(jìn)行風(fēng)格遷移是一項(xiàng)非常常見的任務(wù),方法也很多,比如基于優(yōu)化和基于 RL 的方法。最近,來自百度 VIS 團(tuán)隊(duì)的研究者提出了一種基于 Transformer 的風(fēng)格遷移框架,速度快于基線方法,實(shí)現(xiàn)效果也不錯(cuò)。然而,研究遭到了網(wǎng)友的質(zhì)疑,這是為什么呢?

在圖像渲染領(lǐng)域,神經(jīng)繪畫(Neural painting)指的是為一張給定圖像生成一系列筆畫(stroke),并借助神經(jīng)網(wǎng)絡(luò)對其進(jìn)行非真實(shí)性重建。如下圖第一行每張圖像的左下角為真實(shí)圖像,以及重建后的非真實(shí)圖像;第二行為漸進(jìn)的繪畫過程。

對于神經(jīng)繪畫任務(wù),雖然基于強(qiáng)化學(xué)習(xí)(RL)的智能體可以一步步地生成筆畫序列,但訓(xùn)練一個(gè)穩(wěn)健的 RL 智能體并不容易。另一方面,筆畫優(yōu)化方法在一個(gè)大的搜索空間中迭代地搜索一系列筆畫參數(shù)。因此,這種低效率的搜索方法極大地限制了基于 RL 方法的泛化性和實(shí)用性。

上個(gè)月,在一篇 ICCV 2021 Oral 論文中,來自百度 VIS 團(tuán)隊(duì)和羅格斯大學(xué)等機(jī)構(gòu)的研究者將神經(jīng)繪畫視作一個(gè)集合預(yù)測問題,提出了全新的、基于 Transformer 的框架——Paint Transformer,從而利用前饋網(wǎng)絡(luò)來預(yù)測筆畫集合的參數(shù)。就其效果而言,研究者提出的模型可以并行地生成一系列筆畫,并幾乎能夠?qū)崟r(shí)地得到尺寸為 512×512 的重建繪畫。

更重要的是,由于訓(xùn)練 Paint Transformer 沒有可用的數(shù)據(jù)集,研究者設(shè)計(jì)了一個(gè)自訓(xùn)練的 pipeline,這樣既可以在不使用任何現(xiàn)成數(shù)據(jù)集的情況下訓(xùn)練,又依然能夠?qū)崿F(xiàn)極好的泛化能力。實(shí)驗(yàn)結(jié)果表明,Paint Transformer 在訓(xùn)練和推理成本更低的情況下,實(shí)現(xiàn)了較以往方法更好的性能。

論文地址:https://arxiv.org/pdf/2108.03798.pdf

項(xiàng)目地址:https://github.com/wzmsltw/PaintTransformer

研究者在 Hugging Face 上提供了一個(gè)試玩界面,用戶只需上傳圖像即可生成動態(tài)重建過程和重建后的繪畫。小編也嘗試上傳了一張圖像,生成效果如下所示:

原圖與重建后的繪畫。

動態(tài)重建過程如下:

試玩地址:https://huggingface.co/spaces/akhaliq/PaintTransformer

不過,雖然 Paint Transformer 的效果不錯(cuò),但一些 reddit 網(wǎng)友似乎并不買賬。有人認(rèn)為,「這么簡單的任務(wù)根本不需要使用機(jī)器學(xué)習(xí)或神經(jīng)網(wǎng)絡(luò)來解決?!?/p>

更有網(wǎng)友表示,「我曾使用 Processing,僅用 50 行 Scala 代碼就實(shí)現(xiàn)了類似的結(jié)果?!?/p>

方法

研究者將神經(jīng)繪畫視作一個(gè)漸進(jìn)的筆畫預(yù)測過程。在每一步并行地預(yù)測多個(gè)筆畫,以前饋的方式最小化當(dāng)前畫布和目標(biāo)圖像之間的差異。就其結(jié)構(gòu)而言,Paint Transformer 由兩個(gè)模塊組成,分別是筆畫預(yù)測器(Stroke Predictor)和筆畫渲染器(Stroke Renderer)。

圖 2Paint Transformer 的自訓(xùn)練 pipeline。

如上圖 2 所示,給定一張目標(biāo)圖像 I_t 和中間畫布圖像 I_c,筆畫預(yù)測器生成一系列參數(shù)以確定當(dāng)前筆畫集合 S_r。接著,筆畫渲染器在 S_r 中為每個(gè)筆畫生成筆畫圖像,并將它們畫在畫布 I_c 上,從而生成結(jié)果圖像 I_r。這一過程可以用以下公式(1)來描述:

在 Paint Transformer 中,只有筆畫預(yù)測器包含可訓(xùn)練的參數(shù),而筆畫渲染器是無參數(shù)和可微的模塊。為了訓(xùn)練筆畫預(yù)測器,研究者提出了一個(gè)利用隨機(jī)合成筆畫的自訓(xùn)練 pipeline。

筆畫定義與渲染器

該研究主要考慮了直線筆畫,這種筆畫可以通過形狀參數(shù)和顏色參數(shù)來表征。如下圖 3 所示,一個(gè)筆畫的形狀參數(shù)包括:中心點(diǎn)坐標(biāo) X 和 Y,高度 h,寬度 w 和渲染角θ。

筆畫渲染器和參數(shù)定義。

對于神經(jīng)繪畫任務(wù)而言,可微渲染是基于筆畫參數(shù)合成筆畫圖像并由此實(shí)現(xiàn)筆畫預(yù)測器端到端訓(xùn)練的一個(gè)重要問題。但是,對于該研究中的特定筆畫定義,研究者沒有采用神經(jīng)網(wǎng)絡(luò),而是使用了基于筆畫渲染器的幾何變換,從而如預(yù)期一樣不需要訓(xùn)練并且是可微的。筆畫渲染器可以用以下公式(3)來描述:

筆畫預(yù)測器

筆畫預(yù)測器的目標(biāo)是為了預(yù)測一系列「cover 中間畫布圖像和目標(biāo)圖像之間差異」的筆畫。此外,為了達(dá)到可以模擬真實(shí)繪畫過程的抽象程度,研究者希望筆畫預(yù)測器在預(yù)測很少筆畫的同時(shí),依然可以 cover 大部分的差異區(qū)域。

為了實(shí)現(xiàn)這一目標(biāo),他們在 DETR 的啟發(fā)下,提出了一個(gè)基于 Transformer 的預(yù)測器。該預(yù)測器輸入 I_c 和 I_t,生成一個(gè)筆畫集合,可以用以下公式(5)來描述:

如下圖 4 所示,筆畫預(yù)測器以 I_c 和 I_t ∈ R^3×P ×P 作為輸入,首先采用兩個(gè)獨(dú)立的卷積神經(jīng)網(wǎng)絡(luò)來提取它們的特征映射 F_c 和 F_t ∈ R^C×P/4×P/4。

損失函數(shù)

研究者介紹了像素?fù)p失、筆畫之間差異的測量以及筆畫損失。

首先是像素?fù)p失。神經(jīng)繪畫的一個(gè)直觀目標(biāo)是重新創(chuàng)建目標(biāo)圖像。因此,I_r 和 I_t 之間的像素?fù)p失 L_pixel 在圖像級別受到懲罰:

然后是筆畫損失。訓(xùn)練期間,有效真值筆畫的數(shù)量是變化的。因此,按照 DETR,在預(yù)定義最大筆畫數(shù) N 的情況下,研究者首先需要在 N 筆畫的預(yù)測集 ˉS_r 和真值集 S_g 之間生成匹配機(jī)制以計(jì)算損失。

推理

為了模仿人類畫家,研究者設(shè)計(jì)了一種從粗到精(coarse-to-fine)的算法,在推理過程中生成繪畫結(jié)果。Paint Transformer 的推理算法如下所示:

實(shí)驗(yàn)

定性比較。如下圖 5 所示,研究者將 Paint Transformer 分別與基于優(yōu)化和基于強(qiáng)化學(xué)習(xí)的 SOTA 筆畫繪畫生成方法進(jìn)行了比較。其中,相較于基于優(yōu)化的方法,Paint Transformer 可以生成渲染力更強(qiáng)、更清晰的結(jié)果。不過,Paint Transformer 的生成效果明顯不如基于強(qiáng)化學(xué)習(xí)的方法。

定量比較。如下表 1 所示,定量比較的結(jié)果與定性比較保持一致。借助生動的畫筆紋理,Paint Transformer 能夠較基于優(yōu)化的方法更好地表征原始內(nèi)容。Zhewei Huang 等人論文《 Learning to paint with model-based deep reinforcement learning 》中提出的方法實(shí)現(xiàn)了最佳內(nèi)容保真度,但在抽象處理上較弱。

數(shù)值結(jié)果表明,Paint Transformer 可以成功地預(yù)測筆畫,并優(yōu)于其他方法。

效率比較。如下表 2 所示,研究者在一個(gè)英偉達(dá) 2080Ti 上評估了訓(xùn)練與推理時(shí)間。在推理期間,Paint Transformer 以前饋的方式并行地生成一系列筆畫,因而運(yùn)行速度明顯快于優(yōu)化基線方法,也略快于強(qiáng)化學(xué)習(xí)基線方法;對于訓(xùn)練而言,研究者僅需要幾個(gè)小時(shí)就可以訓(xùn)練一個(gè)筆畫預(yù)測器,從總訓(xùn)練時(shí)長方面比基于優(yōu)化和強(qiáng)化學(xué)習(xí)的方法更方便。并且,無模型筆畫渲染器和無數(shù)據(jù)筆畫預(yù)測器可以高效和方便地使用。

消融實(shí)驗(yàn)結(jié)果如下圖 6 所示:

風(fēng)格化繪畫。Paint Transformer 可以方便地與藝術(shù)風(fēng)格遷移方法融合,從而生成更吸引人和風(fēng)格化的繪畫。研究者使用 LapStyle 和 AdaAttN 等現(xiàn)有風(fēng)格遷移方法,在風(fēng)格化內(nèi)容圖像上生成自然的繪畫。如下圖 8 所示,借助這種富有想象力的方式,研究者生成了具有豐富顏色和紋理的風(fēng)格化繪畫。

? THE END

轉(zhuǎn)載請聯(lián)系本公眾號獲得授權(quán)

投稿或?qū)で髨?bào)道:content@jiqizhixin.com

原標(biāo)題:《華人團(tuán)隊(duì)用Transformer做風(fēng)格遷移,速度快、可試玩,網(wǎng)友卻不買賬》

閱讀原文

    本文為澎湃號作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網(wǎng)安備31010602000299號

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116

            ? 2014-2025 上海東方報(bào)業(yè)有限公司

            反饋