中文字幕欧美乱伦|手机AV永久免费|澳门堵场日韩精品|日本性爱欧美激情|蜜桃狠狠狠狠狠狠狠狠狠|成人免费视频 国|欧美国产麻豆婷婷|99久久久国产精品福利姬喷水|婷婷内射精品视频|日本欧洲一区二区

澎湃Logo
下載客戶端

登錄

  • +1

電廠丨社交網(wǎng)絡(luò)刷屏的AI作畫,它來自達(dá)利和WALL · E

2022-09-14 11:39
來源:澎湃新聞·澎湃號·湃客
字號

記者 湯一濤

編輯 高宇雷

但凡你每天要花半小時在社交網(wǎng)絡(luò)上,那在過去的幾個月里,一定已經(jīng)被DALL·E 2刷屏了?;蛟S對這個名字有點陌生,但你一定知道AI作畫——輸入任何文字,AI模型就能為你生成一幅畫作。

DALL·E 2是人工智能公司OpenAI推出的第二代圖像生成模型。它的名字來自于藝術(shù)家薩爾瓦多 · 達(dá)利(Salvador Dali)和皮克斯同名電影中的機(jī)器人瓦力(WALL · E)。根據(jù)Open AI的說法,DALL·E 2有35億個參數(shù),雖然比上一代模型120億參數(shù)的模型要小,但它的分辨率是上一代的4倍。

更為關(guān)鍵的是,從藝術(shù)史上最有名的畫作,到超寫實的圖片和3D作品,DALL·E 2都呈現(xiàn)出了驚人的效果,以及遠(yuǎn)超人類藝術(shù)家的效率。通常,DALL·E 2可以在30秒內(nèi)就生成一幅畫作,而人類畫師花費(fèi)的時間,則是以小時計算。

“蒙娜麗莎的天啟”|圖片來源:DALL·E 2

披頭士的經(jīng)典專輯封面“Abbey Road”中,“四人組”變成了“六人組”|圖片來源:Twitter@spetznatz

1980年代的泰迪熊在月球上從事AI研究|圖片來源:Twitter@sama

“任何足夠先進(jìn)的科技,都與魔法無異?!边@是科幻作家亞瑟·克拉克(Arthur Clark)廣為流傳的一句名言。每當(dāng)科技界有什么新動向,這句話都會反復(fù)被人提及,迪士尼樂園和初代iPhone都屬此列。

但理智告訴我們,這個世界不存在魔法。這句話隱含的另一層意思是,任何足夠先進(jìn)的科技,背后都下了無數(shù)笨拙的苦工,DALL·E 2也是如此。

DALL·E 2是如何工作的?

本質(zhì)上,DALL·E 2就是一個將文本處理成可視化信息的工具。它不理解達(dá)芬奇是誰,夢娜麗莎是怎樣一幅偉大的畫作,或者畫面的透視關(guān)系是怎樣的,但它學(xué)習(xí)了6.5億張圖片,由此形成了一定程度的“預(yù)測”,“假裝”自己完成了一幅畫作。

其中的關(guān)鍵是,如何將文本和圖像聯(lián)系起來。OpenAI使用了他們的另一個模型CLIP(語言-圖像對比預(yù)訓(xùn)練)。

通過數(shù)以億計的圖像和相關(guān)標(biāo)題的訓(xùn)練,CLIP學(xué)習(xí)了給定的文本與圖像的關(guān)聯(lián)程度。在過往計算機(jī)視覺的神經(jīng)網(wǎng)絡(luò)中,常見的方法是將大量圖像數(shù)據(jù)集合在一起,然后手動標(biāo)記類別。CLIP的聰明之處在于,它關(guān)注的是文本與圖像的關(guān)聯(lián)程度,這種對比性而非預(yù)測性的方法,使得模型能夠更精確地理解語言之間的區(qū)別,而不需要依賴人類的決策。

訓(xùn)練結(jié)束后,CLIP模型被凍結(jié),DALL·E 2進(jìn)入下一個任務(wù)——學(xué)習(xí)反轉(zhuǎn)CLIP剛剛生成的圖像編碼映射。因為我們的目的在于生成圖像,這就需要DALL·E 2有一定的“創(chuàng)造性”,而不是機(jī)械的給出已經(jīng)學(xué)習(xí)過的圖片中的一張。

OpenAI使用了另一個模型GLIDE來實現(xiàn)這個目的。GLIDE的是擴(kuò)散模型的一種。擴(kuò)散模型會隨機(jī)將一張圖片的像素打亂,直至形成一張純噪聲的圖片。然后再逐步改變其像素來降低噪聲,從而回到原始圖像。

GLIDE生成過程|圖片來源:Aditya Singh

由于反向擴(kuò)散過程是隨機(jī)的,因此我們很容易得到一張和原圖相似卻又有所區(qū)別的圖片。GLIDE擴(kuò)展了擴(kuò)散模型的概念,通過增加額外的文本信息,最終產(chǎn)出定向條件的圖像。

這也為DALL·E 2增加了一個重要的特性,就是生成的圖像是可編輯的,包括元素的位置;增加或刪除元素;調(diào)整陰影、反射、顏色、紋理等。例如,如果你想在左圖中增加一只柯基,只需要向DALL·E 2描述這只柯基的位置——“在那個男人的右邊增加一只柯基”,就可以得到右圖。

圖片來源:dpreview

當(dāng)然,實際的技術(shù)過程要比上述的介紹復(fù)雜得多,但簡單總結(jié)來說,DALL·E 2從文字生成圖像的過程可以分為以下幾個步驟:

1、CLIP文本編碼器將文本映射到表示空間

2、擴(kuò)散模型將文本編碼映射到圖像編碼

3、GLIDE模型通過反向擴(kuò)散,從編碼從表示空間映射到圖像空間,傳達(dá)文本的語義信息,生成圖像

DALL·E 2圖像生成過程|圖片來源:Aditya Singh

畫作水平取決于你的使用方式

長期以來,人工智能的“不智能”之處一直為人詬病。DALL·E 2已經(jīng)非常出色,但它仍然有一些局限。

上圖的10張小狗同樣是由DALL·E 2生成的。乍看之下他們與真實的照片幾乎沒有什么差別,但當(dāng)你仔細(xì)觀察時,就會發(fā)現(xiàn)這些小狗的比例并不完全正確。例如這張圖片中,小狗的前腿太長了,嘴巴很模糊,左耳也有些奇怪。

對于人工智能來說,文本描述地越精確,圖像生成的效果就越好。倫敦藝術(shù)策展人兼程序員蓋伊?帕森斯(Guy Parsons)就寫道: “ DALL-E 什么都知道。因此,你知道的術(shù)語越多,結(jié)果就越詳細(xì)?!薄耙恢怀氐睦瞎房雌饋砗芨吲d,因為他的兩位狗朋友為它慶祝了生日”顯然就比“三只狗”要好得多。

圖片來源:OpenAI

帕森斯甚至整理了一本81頁的DALL·E 2使用指南,給出了一些實用建議,例如:

1、借用一些攝影術(shù)語,例如“特寫”

2、形容詞很容易影響許多要素,“裝飾藝術(shù)”就會影響畫面風(fēng)格。年代也會產(chǎn)生相同的效果,像“90年代后期”

3、在任何情況下,輸入的文本都不能超過400個字符

小狗的例子可能還只是DALL·E 2犯的一些小錯誤,但是當(dāng)涉及到超寫實的人類面孔時,DALL·E 2就可能產(chǎn)生一些恐怖的結(jié)果。

圖片來源:OpenAI

這一定程度上是因為,OpenAI引入了保護(hù)機(jī)制,以防止DALL·E 2記住真實的人類面孔。DALL-E的產(chǎn)品經(jīng)理喬安娜·姜( Joanne Jang)表示,公司仍在完善內(nèi)容規(guī)則。OpenAI禁止制作暴力、色情和仇恨內(nèi)容,以及描繪投票箱和抗議活動的圖像,或任何“可能被用于影響政治進(jìn)程或競選活動”的圖像。

實際上,OpenAI把相當(dāng)多的精力都放在了AI倫理上。在DALL·E 2發(fā)布之前,OpenAI就邀請外部研究人員,檢查DALL·E 2的風(fēng)險和局限。他們發(fā)現(xiàn),DALL·E 2在性別和種族上都存在一定的偏見。

DALL·E 2生成的圖片具有職業(yè)性別偏見,以及西方特色|圖片來源:Aditya Singh

OpenAI的研究員馬克·陳(Mark Chen)告訴科技媒體IEEE,OpenAI的一個團(tuán)隊已經(jīng)開始實驗糾正這種偏見。例如,OpenAI在訓(xùn)練過程中,刪除了一個男性多于女性的數(shù)據(jù)集,以增加更多女性形象。

盡管如此,仍然有很多批評者質(zhì)疑在大量未經(jīng)管理的數(shù)據(jù)集上訓(xùn)練模型的做法。獨立研究人員維奈?普拉布(Vinay Prabhu)認(rèn)為,人工智能研究界高估了擴(kuò)大模型規(guī)模的價值。

而隨著DALL·E 2新增了100萬用戶,加州大學(xué)伯克利分校的研究人員法里德(Farid)表示,DALL·E 2的濫用其實只是時間問題:“就像類固醇造成的假消息那樣,人們總會想辦法繞過規(guī)定。”

*文章頭圖來自 AI 作畫程序 Midjourney,本文作者輸入“Do Androids Dream of Electric Sheep?”(仿生人會夢見電子羊嗎?)后自動生成。

    本文為澎湃號作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網(wǎng)安備31010602000299號

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116

            ? 2014-2025 上海東方報業(yè)有限公司

            反饋