- +1
RobustART評測模型魯棒性:用Transformer做風(fēng)格遷移遭質(zhì)疑
機器之心 & ArXiv Weekly Radiostation
參與:杜偉、楚航、羅若天
本周論文包括南洋理工大學(xué)、香港中文大學(xué)提出的一個交互式人臉編輯框架 Talk-to-Edit,可以通過用戶和系統(tǒng)之間的對話進行細(xì)粒度的屬性操作等研究。
目錄:
Paint Transformer: Feed Forward Neural Painting with Stroke Prediction
RobustART : Benchmarking Robustness on Architecture Design and Training Techniques
Learning to Resize Images for Computer Vision Tasks
TransCenter: Transformers with Dense Queries for Multiple-Object Tracking
Talk-to-Edit: Fine-Grained Facial Editing via Dialog
Certifiable Outlier-Robust Geometric Perception: Exact Semidefinite Relaxations and Scalable Global Optimization
LEARNING TO PROMPT FOR VISION-LANGUAGE MODELS
ArXiv Weekly Radiostation:NLP、CV、ML 更多精選論文(附音頻)
論文 1: Paint Transformer: Feed Forward Neural Painting with Stroke Prediction
作者: Songhua Liu 、 Tianwei Lin 、 Dongliang He 等
論文鏈接:https://arxiv.org/pdf/2108.03798.pdf
摘要:在一篇 ICCV 2021 Oral 論文中,來自百度 VIS 團隊和羅格斯大學(xué)等機構(gòu)的研究者將神經(jīng)繪畫視作一個集合預(yù)測問題,提出了全新的、基于 Transformer 的框架——Paint Transformer,從而利用前饋網(wǎng)絡(luò)來預(yù)測筆畫集合的參數(shù)。就其效果而言,研究者提出的模型可以并行地生成一系列筆畫,并幾乎能夠?qū)崟r地得到尺寸為 512×512 的重建繪畫。
更重要的是,由于訓(xùn)練 Paint Transformer 沒有可用的數(shù)據(jù)集,研究者設(shè)計了一個自訓(xùn)練的 pipeline,這樣既可以在不使用任何現(xiàn)成數(shù)據(jù)集的情況下訓(xùn)練,又依然能夠?qū)崿F(xiàn)極好的泛化能力。實驗結(jié)果表明,Paint Transformer 在訓(xùn)練和推理成本更低的情況下,實現(xiàn)了較以往方法更好的性能。
研究者將神經(jīng)繪畫視作一個漸進的筆畫預(yù)測過程。在每一步并行地預(yù)測多個筆畫,以前饋的方式最小化當(dāng)前畫布和目標(biāo)圖像之間的差異。就其結(jié)構(gòu)而言,Paint Transformer 由兩個模塊組成,分別是筆畫預(yù)測器(Stroke Predictor)和筆畫渲染器(Stroke Renderer)。

Paint Transformer 的自訓(xùn)練 pipeline
該研究主要考慮了直線筆畫,這種筆畫可以通過形狀參數(shù)和顏色參數(shù)來表征。如下圖 3 所示,一個筆畫的形狀參數(shù)包括:中心點坐標(biāo) X 和 Y,高度 h,寬度 w 和渲染角θ。

推薦:ICCV 2021 Oral 論文。
論文 2: RobustART : Benchmarking Robustness on Architecture Design and Training Techniques
作者: Shiyu Tang 、 Ruihao Gong 、 Yan Wang 等
論文鏈接:https://arxiv.org/pdf/2109.05211.pdf
摘要:來自北京航空航天大學(xué)、商湯科技和京東探索研究院的研究人員聯(lián)合加州大學(xué)伯克利分校、牛津大學(xué)以及約翰斯 · 霍普金斯大學(xué)提出了第一個在大規(guī)模數(shù)據(jù)集 ImageNet 上面向模型結(jié)構(gòu)(ARchitecture Design)和訓(xùn)練技巧(Training Technique)且針對多種噪音類型的模型魯棒性評測基準(zhǔn)——RobustART。
該 benchmark 全面評測了 44 種經(jīng)典的手工設(shè)計和 1200 種 NAS 采樣得到的模型架構(gòu)以及 10 余種模型訓(xùn)練技巧對于魯棒性(對抗噪音、自然噪音、系統(tǒng)噪音等)的影響 。并通過海量且深入的實驗探究,得出了大量的有價值實驗結(jié)果和眾多啟發(fā)性的結(jié)論:
(1)對于 Transformer 和 MLP-Mixer,對抗訓(xùn)練可以全面提升其全部噪音魯棒性和任務(wù)本身的效果;(2)在模型大小一致的前提下,對于自然噪音和系統(tǒng)噪音魯棒性:CNN>Transformer>MLP-Mixer,對于對抗噪音魯棒性,Transformer>MLP-Mixer>CNN;(3)對于一些輕量化的模型族,增加其模型大小或者增加訓(xùn)練數(shù)據(jù)并不能提升其魯棒性等。這些分析和結(jié)論將對人們認(rèn)識模型魯棒性機理并設(shè)計安全穩(wěn)固的模型架構(gòu)產(chǎn)生重要的意義。
RobustART benchmark(1)提供了一個包含 leaderboard、數(shù)據(jù)集、源碼等詳實信息在內(nèi)的開源平臺;(2)開放了 80 余種使用不同模型結(jié)構(gòu)和訓(xùn)練技巧的預(yù)訓(xùn)練模型,以便于研究人員進行魯棒性評估;(3)貢獻(xiàn)了嶄新的視角和大量的分析結(jié)論,讓研究人員更好地理解魯棒模型背后的內(nèi)在機制。

推薦:CNN、Transformer、MLP-Mixer 誰最魯棒?
論文 3: Learning to Resize Images for Computer Vision Tasks
作者: Hossein Talebi 、Peyman Milanfar
論文鏈接:https://arxiv.org/pdf/2103.09950.pdf
摘要:近年來,卷積神經(jīng)網(wǎng)絡(luò)以各種方式徹底改變了計算機視覺,其中一個重要方面卻很少受到關(guān)注:圖像大小對訓(xùn)練任務(wù)準(zhǔn)確性的影響。通常,為了提高效率,輸入圖像被調(diào)整為相對較小的空間分辨率(例如 224 × 224),并且訓(xùn)練和推理都在這個分辨率下進行。這種調(diào)整大小的機制通常是固定的圖像 resizer(如:雙行線插值),但是這些 resizer 是否限制了訓(xùn)練網(wǎng)絡(luò)的任務(wù)性能呢?答案是肯定的。事實上,該研究展示了典型的線性 resizer 可以替換為能夠顯著提高性能的可學(xué)習(xí) resizer。雖然經(jīng)典的 resizer 通常會具備更好的小圖像感知質(zhì)量(即對人類識別圖片更加友好),本文提出的可學(xué)習(xí) resizer 不一定會具備更好的視覺質(zhì)量,但能夠提高 CV 任務(wù)的性能。
該研究中可學(xué)習(xí)圖像 resizer 與基線視覺模型聯(lián)合訓(xùn)練。這個可學(xué)習(xí)的基于 CNN 的 resizer 創(chuàng)建了機器友好的視覺操作,導(dǎo)致最終任務(wù)指標(biāo)相對于基線模型的持續(xù)改進。具體來說,這里研究者專注于 ImageNet 數(shù)據(jù)集的分類任務(wù),并嘗試使用四種不同的模型來學(xué)習(xí)適應(yīng)每個模型的 resizer。此外,該研究表明所提出的 resizer 也可用于微調(diào)其他視覺任務(wù)的分類基線。

新型圖像 resizer
推薦:谷歌在 ICCV2021 研究。
論文 4: TransCenter: Transformers with Dense Queries for Multiple-Object Tracking
作者: Yihong Xu 、 Yutong Ban 等
論文鏈接:https://arxiv.org/pdf/2103.15145.pdf
摘要:受近期基于錨點(point-based)MOT 方法的啟發(fā),來自 MIT 等機構(gòu)的研究提出 TransCenter,這是首個用于預(yù)測密集目標(biāo)點熱力圖 (dense center heatmap)Transformer MOT 架構(gòu) 。
具體而言,該研究提出利用像素級密集多尺度查詢(dense pixel-level multi-scale queries)配合 Transfromer 強大的全局表示能力,全局且充足地檢測和跟蹤目標(biāo)中心(center tracking)。相同訓(xùn)練策略和同等數(shù)據(jù)下,TransCenter 在兩個標(biāo)準(zhǔn) MOT 數(shù)據(jù)集上 (MOT17 以及稠密的 MOT20)均超越了 SOTA 方法。特別地,在 MOT20 上,用更少的訓(xùn)練數(shù)據(jù),該研究甚至超越了基于錨點的 MOT 以前 SOTA 方法。另外,與從 DETR 到 MOT 的簡單推廣相比,實驗研究也證明了所提出的架構(gòu)表現(xiàn)出明顯的性能和架構(gòu)優(yōu)勢。
TransCenter 的整體架構(gòu)如圖所示,該研究采用經(jīng)典的 encoder-decoder 結(jié)構(gòu)。由于密集查詢(Dense Queries)的引入,研究者在編碼器(Transformer Decoder)和解碼器 (Transformer Decoder)上均采用更高效的 Deformable Transformer (zhu et al.) 以解決密集查詢帶來的訓(xùn)練內(nèi)存和運行效率的限制。

推薦:MIT&INRIA 開源多目標(biāo)物體跟蹤算法。
論文 5: Talk-to-Edit: Fine-Grained Facial Editing via Dialog
作者: Yuming Jiang 、 Ziqi Huang 等
論文鏈接:https://arxiv.org/abs/2109.04425
摘要:來自南洋理工大學(xué)、香港中文大學(xué)提出的一個交互式人臉編輯框架 Talk-to-Edit,可以通過用戶和系統(tǒng)之間的對話進行細(xì)粒度的屬性操作。此外,該研究還創(chuàng)建了一個視覺語言人臉編輯數(shù)據(jù)集 CelebA-Dialog,用來促進大規(guī)模研究。
該研究提出的 Talk-to-Edit 的 pipeline 如下圖所示:

該研究用 Semantic Field 來實現(xiàn)對人臉特征連續(xù)且高細(xì)粒度可控的編輯。對話功能則由 Language Encoder 和 Talk 模塊來實現(xiàn)。

推薦:對話實現(xiàn)高細(xì)粒度人臉編輯。
論文 6: Certifiable Outlier-Robust Geometric Perception: Exact Semidefinite Relaxations and Scalable Global Optimization
作者: Heng Yang 、 Luca Carlone 等
論文鏈接:https://arxiv.org/pdf/2109.03349.pdf
摘要:清華大學(xué)校友、MIT 在讀博士生楊珩與其他研究者合作開發(fā)了第一套針對自動駕駛汽車的「可認(rèn)證的感知」算法,這一算法有助于提高下一代自動駕駛汽車的行駛安全。
該研究的第一個貢獻(xiàn)表明使用常見魯棒成本估計,如 TLS、最大共識、Geman-McClure、Tukey 雙權(quán)重等,可以重新表述為多項式優(yōu)化問題(POP)。通過關(guān)注 TLS 成本,他們的第二個貢獻(xiàn)是利用 POP 中的稀疏性,提出了一種比標(biāo)準(zhǔn) Lasserre 層次結(jié)構(gòu)小得多的稀疏半定規(guī)劃 (SDP) 松弛,同時保留了準(zhǔn)確性。第三個貢獻(xiàn)是通過提出 STRIDE,以前所未有的規(guī)模和精度解決 SDP 松弛問題,這是一種將凸 SDP 中的全局下降與非凸 POP 的快速局部搜索相結(jié)合的求解器。第四個貢獻(xiàn)是評估了所提出的針對六個幾何感知問題的框架,包括單次與多次旋轉(zhuǎn)平均、點云和網(wǎng)格配準(zhǔn)、絕對姿態(tài)估計以及類別級對象姿態(tài)和形狀估計。
實驗表明 (i) 該研究提出的稀疏 SDP 松弛是準(zhǔn)確的,應(yīng)用程序中高達(dá) 60%–90% 的異常值;(ii) 雖然離實時還很遠(yuǎn),但 STRIDE 在中等規(guī)模問題上比現(xiàn)有 SDP 求解器快 100 倍,并且是唯一可以高精度求解具有數(shù)十萬個約束的大規(guī)模 SDP 的求解器 ; (iii) STRIDE 為現(xiàn)有的快速啟發(fā)式算法(如 RANSAC 或階段非凸)提供了一種保護措施,即如果啟發(fā)式估計是最優(yōu)的,則證明全局最優(yōu)。

推薦:第一套保護自動駕駛車輛的感知算法。
論文 7: LEARNING TO PROMPT FOR VISION-LANGUAGE MODELS
作者: Kaiyang Zhou、Jingkang Yang、Chen Change Loy、 Ziwei Liu
論文鏈接:https://arxiv.org/abs/2109.01134
摘要:來自新加坡南洋理工大學(xué)的研究者提出了一種名為上下文優(yōu)化 (Context Optimization,英文名:CoOp,中文名:琥珀) 的新方法。
琥珀的主要思想是對提詞器(prompt)中的上下文(context)用連續(xù)向量進行建模,而整個訓(xùn)練過程將僅對這幾個上下文詞向量進行端到端優(yōu)化,而保持預(yù)訓(xùn)練參數(shù)不變。該方法完全自動化了提詞器的設(shè)計過程,下圖展示了琥珀的模型結(jié)構(gòu)。

該研究在實驗中使用了 11 個視覺數(shù)據(jù)集來驗證琥珀的有效性:結(jié)果表明琥珀是一個十分高效的小樣本學(xué)習(xí)方法,平均每個類別只需一到兩張圖片就可以擊敗基于手工提詞器的零樣本識別模型。當(dāng)每個類別的圖片有 16 張時,琥珀比手工提詞器平均高出了大約 17 個百分點(最高可達(dá) 50 個百分點)。不僅如此,琥珀還對領(lǐng)域泛化表現(xiàn)出了極強的魯棒性(見下圖,其中 M 指代琥珀的提詞器長度)。

推薦:提詞優(yōu)化器「琥珀」帶你用好 CLIP。
ArXiv Weekly Radiostation
機器之心聯(lián)合由楚航、羅若天發(fā)起的ArXiv Weekly Radiostation,在 7 Papers 的基礎(chǔ)上,精選本周更多重要論文,包括NLP、CV、ML領(lǐng)域各10篇精選,并提供音頻形式的論文摘要簡介,詳情如下:
本周 10 篇 NLP 精選論文是:
1. Distantly-Supervised Named Entity Recognition with Noise-Robust Learning and Language Model Augmented Self-Training. (from Jiawei Han)
2. Gradient Imitation Reinforcement Learning for Low Resource Relation Extraction. (from Philip S. Yu)
3. Improved Latent Tree Induction with Distant Supervision via Span Constraints. (from Andrew McCallum)
4. Box Embeddings: An open-source library for representation learning using geometric structures. (from Andrew McCallum)
5. LM-Critic: Language Models for Unsupervised Grammatical Error Correction. (from Jure Leskovec)
6. Improving Neural Machine Translation by Bidirectional Training. (from Dacheng Tao)
7. Post-OCR Document Correction with large Ensembles of Character Sequence Models. (from Evangelos Milios)
8. STraTA: Self-Training with Task Augmentation for Better Few-shot Learning. (from Quoc V. Le)
9. The Emergence of the Shape Bias Results from Communicative Efficiency. (from Dan Jurafsky)
10. Compression, Transduction, and Creation: A Unified Framework for Evaluating Natural Language Generation. (from Eric P. Xing)
本周 10 篇 CV 精選論文是:
1. Anchor DETR: Query Design for Transformer-Based Detector. (from Xiangyu Zhang, Jian Sun)
2. MHFC: Multi-Head Feature Collaboration for Few-Shot Learning. (from Yan-Jiang Wang)
3. Image Synthesis via Semantic Composition. (from Xiangyu Zhang, Jiaya Jia)
4. PnP-DETR: Towards Efficient Visual Analysis with Transformers. (from Shuicheng Yan)
5. Partner-Assisted Learning for Few-Shot Image Classification. (from Shih-Fu Chang)
6. Semi-Supervised Visual Representation Learning for Fashion Compatibility. (from Vijay Kumar)
7. Harnessing Perceptual Adversarial Patches for Crowd Counting. (from Dacheng Tao)
8. MotionHint: Self-Supervised Monocular Visual Odometrywith Motion Constraints. (from Dinesh Manocha)
9. A Self-Supervised Deep Framework for Reference Bony Shape Estimation in Orthognathic Surgical Planning. (from Dinggang Shen)
10. Unsupervised Domain Adaptive Learning via Synthetic Data for Person Re-identification. (from Xuelong Li)
本周 10 篇 ML 精選論文是:
1. Knowledge-guided Self-supervised Learning for estimating River-Basin Characteristics. (from Vipin Kumar)
2. An Empirical Comparison of Off-policy Prediction Learning Algorithms in the Four Rooms Environment. (from Richard S. Sutton)
3. Inverse design of 3d molecular structures with conditional generative neural networks. (from Klaus-Robert Müller)
4. DCUR: Data Curriculum for Teaching via Samples with Reinforcement Learning. (from John Canny)
5. Convergence of a Human-in-the-Loop Policy-Gradient Algorithm With Eligibility Trace Under Reward, Policy, and Advantage Feedback. (from Michael L. Littman)
6. Multi-Task Learning with Sequence-Conditioned Transporter Networks. (from Claire Tomlin, Stefan Schaal)
7. Global and Local Interpretation of black-box Machine Learning models to determine prognostic factors from early COVID-19 data. (from Dimitris Metaxas)
8. Mixing between the Cross Entropy and the Expectation Loss Terms. (from Lior Wolf)
9. ROMAX: Certifiably Robust Deep Multiagent Reinforcement Learning via Convex Relaxation. (from Jonathan P. How)
10. Improved Algorithms for Misspecified Linear Markov Decision Processes. (from R. Srikant)
? THE END
轉(zhuǎn)載請聯(lián)系本公眾號獲得授權(quán)
投稿或?qū)で髨蟮溃篶ontent@jiqizhixin.com
原標(biāo)題:《7 Papers & Radios | RobustART評測模型魯棒性;用Transformer做風(fēng)格遷移遭質(zhì)疑》
本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機構(gòu)觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2025 上海東方報業(yè)有限公司




