- +1
AI極簡史:文字如何生出萬物?
哈羅德·科恩花了 42 年把 AARON 鑄成“另一半自己”。它是一段被畫家造出來的計算機程序,或許也可以叫做 AI 系統(tǒng)。先是花了 20 年學(xué)會黑白簡筆畫,1995 年,它第一次表演上色,以一個龐大的機器模樣(長 2.4 米,寬 1.8 米)。它先用機械臂上的鋼筆勾勒線條,然后在調(diào)色板上混合顏料,創(chuàng)造出自定義的顏色,再使用筆刷進行涂抹,就好像在機床上織布。2016 年,科恩去世,AARON 也停止了呼吸。
他們都沒見到《太空歌劇院》的誕生,這幅 AI 作的畫在藝術(shù)比賽上拿了一等獎。2022 年,使喚 AI 畫畫變得格外簡單——只要會打字就行。AI 畫畫也不再是一筆一筆地勾勒線條、涂抹顏色,而是像一臺反應(yīng)有點遲緩的彩色電視機,從一片灰白雪花噪聲中慢慢地騰出畫面。

AARON創(chuàng)作的首幅上色作品,1995

《太空歌劇院》,使用AI工具Midjourney創(chuàng)作,2022
不過,恰好是在科恩去世的 2016 年,AI 畫畫所依托的“文本生成圖像”(text to image)技術(shù)在深度學(xué)習領(lǐng)域邁出了第一步,小小的一步——生成比豆腐塊還小的極模糊的圖像,仔細一看,還很拙劣。比方說讓它畫一只站在草地上的羊,它就在綠色背景中放置一個灰色的不明形狀的物體,就像一塊污漬。

Generative Adversarial text to image synthesis, 2016
這些小豆腐塊兒的光芒還是太微弱了。
但 AI 的步速很快。2017年,基于 GAN 的偽造人臉已經(jīng)可以以假亂真。2020年,擴散模型(Diffusion Model) 降低了圖像生成模型的訓(xùn)練難度,還能生成比 GAN 更多元的圖像。2021年,OpenAI 推出了 CLIP,它學(xué)到了文本和圖像之間的對應(yīng)關(guān)系。2022 年,AI 畫家誕生,不過沒想到,這不是 2022 年最重要的 AI 新聞。
還是先讓我們回到 2016 年吧。這一年最大的新聞是,谷歌旗下的人工智能公司 DeepMind 創(chuàng)造的 AlphaGO 以 4:1 擊敗了韓國傳奇棋手李世石,人們仿佛看到原本只存在于科幻小說的強大的人工智能,在棋盤上空活了過來。
同一年,或許普通人沒有太過在意,一家成立僅有半年的新公司 OpenAI(盡管它出身煊赫,是由特斯拉的創(chuàng)始人馬斯克聯(lián)合其他硅谷明星投資人注入 10 億美金創(chuàng)立的非營利機構(gòu))宣布,他們的長遠目標之一,是開發(fā)對人類友好的通用人工智能系統(tǒng),簡單來說,這個系統(tǒng)能像人一樣推理和反應(yīng)從而讓人以為它是人。作為一個非營利組織,該公司的第一份聲明稱,公司要“為所有人而非股東創(chuàng)造價值”。
技術(shù)在往前發(fā)展。2017 年誕生了 Transformer,如今看來,那是個極其重要的時刻。
這個和變形金剛同名的小玩意兒是由谷歌團隊創(chuàng)造的一種全新的模型結(jié)構(gòu),同樣威力巨大。它能更好的理解上下文,更重要的是,此前 NLP (自然語言處理)的主流模型 RNN 天生是個時序結(jié)構(gòu),處理起句子來就好像在只開了一個窗口的銀行排長隊,處理完上一個詞才能處理下一個,而 Transformer 對句子里的每個詞可以同時進行處理,也就是所謂的并行化。它為后來的暴力出奇跡的大模型時代提供了可能性。
此前深度學(xué)習的主流仍是使用有標簽的數(shù)據(jù)進行訓(xùn)練,效果好,但代價高昂。比如說一句話的情緒是積極還是消極?為了打上準確的標簽,研究者必須付錢請人來做。于是數(shù)據(jù)集的規(guī)模一直沒法大幅度提升。既然 Transformer 能很好地消化上下文的內(nèi)容,2018年,GPT、BERT 開始利用大規(guī)模的無標簽的數(shù)據(jù)對模型進行預(yù)訓(xùn)練,在這個階段,它們或是給定一串詞讓模型預(yù)測下一個詞是什么,或是干脆在句子中間挖掉一個詞,讓模型重新給填上,如此這般,把價格更為低廉的無標簽的文字引入了模型的訓(xùn)練。
OpenAI 的創(chuàng)始人之一 Sam Altman 接受《紐約客》采訪時曾說:“成為一臺機器有一定的優(yōu)勢。人類被輸入-輸出率所限制,每秒只學(xué)習 2 比特,丟失大量數(shù)據(jù)。而對機器而言,我們看起來肯定像是被減速的鯨歌?!?BERT 用了 3300M 的文字來做預(yù)訓(xùn)練,這些文字來自書本和維基百科,質(zhì)量較高,即使對人來說可能要看上幾年時間,對機器來講,仍算克制。
和 Open AI 推出的初代 GPT 相比,谷歌研發(fā)的 BERT 是更風光的那個,因為經(jīng)過有標簽的數(shù)據(jù)微調(diào)之后,它的表現(xiàn)更佳。BERT 很快被用來改進谷歌的搜索引擎,被谷歌描述為“搜索歷史上最大的飛躍”。
模型更大,效果就會更好,用于取得突破性成果的計算資源每 3、4 個月翻一番。OpenAI 需要足夠的資本來匹配或超過這種指數(shù)級增長,“在經(jīng)濟上維持一個非營利組織是站不住腳的”。2019 年 3 月,OpenAI 通過設(shè)立一個利潤上限(投資者的回報率不得超過 100 倍)掀掉了 “非營利組織”的帽子。不久之后,它宣布了微軟的 10 億美金投資。從此也背上了一定的商業(yè)化壓力。

OpenAI 在 2019 年推出了 GPT-2,一個更大版本的 GPT-1,反響平平,在 2020 年推出了 GPT-3,一個更大版本的 GPT-2,終于大力出奇跡,激起千層浪。據(jù)專業(yè)測算,訓(xùn)練一個 GPT-3 模型的第一階段需要“355 個 GPU 年”,僅這一階段的訓(xùn)練費用高達 450 萬美元。
微軟為 OpenAI 提供著資金和算力支持。2021 年 OpenAI 發(fā)表的 CLIP 模型學(xué)會了圖片和其文字描述的對應(yīng)關(guān)系,啟發(fā)了很多后續(xù)應(yīng)用,包括 AI 畫畫。
2022年中,OpenAI 放出了它神乎其技的 AI 畫家,DALL-E 2,但只進行了小規(guī)模內(nèi)測。于是它的低配版——DALL-E mini 變成了網(wǎng)友們趁手的新玩具,它聽得懂人話,生成的圖片雖然粗糙但是有趣,一時間成了互聯(lián)網(wǎng)上的“梗圖之王”。當時少有大眾覺得 AI 能做出真的藝術(shù)創(chuàng)造,頂多拿來解悶罷了。僅過了一個多月,Midjourney、Stable Diffusion 和 DALL-E 2等 AI 畫畫工具接連向公眾開放,人們終于意識到,AI 能畫畫,而且畫得超乎想象的好。設(shè)計師會失業(yè)么?畫家又如何看待這件事?到處都是這樣的討論。
但站在 2022 年的末尾談 AI 畫畫,已經(jīng)感到有些過時了。ChatGPT 搶走了這些 AI 畫家的風頭。
這個聊天機器人是鬼精靈,玩游戲、寫代碼、講心靈雞湯,無所不能,甚至還能寫點小詩(盡管很平庸)。它能記住對話,進入情景,遵從指令,還展現(xiàn)了初級的推理能力,讓人感嘆“圖靈測試已經(jīng)被畫上了句點”。有研究者評論“ChatGPT / GPT-3.5 是一種劃時代的產(chǎn)物,它與之前常見的語言模型的區(qū)別,幾乎是導(dǎo)彈與弓箭的區(qū)別”。
ChatGPT 當然還不完美,也談不上能馬上取代搜索引擎,因為它生成的答案還時有錯誤。也有消息稱,此前谷歌內(nèi)部已經(jīng)開發(fā)出了強大的聊天機器人,但出于安全考慮,尚未對公眾開放。大公司的謹慎給了小公司機會,Stability AI,這家公司 8 月份推出“文本轉(zhuǎn)為圖片”的生成器(Stable Diffusion),已經(jīng)融資 1.01 億美元。
無論如何,OpenAI 離他們 2016 年立下的那個長遠目標更近了。人們因為看見了 ChatGPT 所以相信。2016 年 Sam Altman 接受《紐約客》采訪時把一個人工智能算法比作一個人類嬰兒,“嬰兒學(xué)習任何有意義的事情都要好幾年”,而他認為 OpenAI 的使命是“照顧好自己的「神童」,一直等到他可以由世界來「撫養(yǎng)」”。按照這個約定,他們已經(jīng)照顧了 GPT 系列 4 年。
人工智能的奇點臨近了,很多人這樣講。就好像站在一塊不斷隆起的土地上,不知道明天它會把你帶向何方?;蛟S我們每個人都要經(jīng)歷那個在自己最引以為傲的事情上被 AI 打敗的時刻,正如 6 年前李世石和 AlphaGO 交鋒的第一局,他撫摸棋盒邊緣,終于落白子投降的那一刻。那一場的裁判,同樣被 AlphaGO 打敗的歐洲圍棋冠軍杯的冠軍樊麾說,AlphaGo 是面鏡子,在它面前棋手不得不直面赤身裸體的自己。
或許通用人工智能到來的時候,所有人都不得不直面那個最簡單的問題,我是誰?
文本還可以生出這些……
文本生文本、文本生圖像,已然不稀奇。讓我們來談點更時髦的吧,那些快要破土而出的新技術(shù),文本可以生出萬物。
首先,逃離平面,文本能生成 3D 模型了。

OpenAI, Point·E
不僅如此,谷歌聲稱,他們能用極少的圖片(甚至單張圖片)生成 3D 模型,拳打腳踢攝影測量法。
毫無疑問,未來,AI 的文本煉金術(shù)能讓創(chuàng)作的成本變得更低,人們可以不太費力地得到符合工業(yè)水準的產(chǎn)品。Joe Penna,一個電影導(dǎo)演,為了生成電影需要用到的特定的演員、地點、道具,他和朋友們一起開發(fā)了 DreamBooth 的民間版本,它能夠做到輸入文字,生成關(guān)于特定事物(比如你家沙發(fā)上的一只玩具小熊)的一組圖像。漫畫家,或者畫工拙劣的編劇,也完全可以將 AI 當做自己的草稿本,由此掀開他的“宏偉巨著”。
我們還做了這些……
這一年,我們做了一系列關(guān)于 AI 的報道。其中一些,可能已經(jīng)過時了。
天下苦標題黨久矣。以 AI 為鏡子,我們能從標題中看出人們怎樣的無意識偏見?
AI 生成的照片已經(jīng)能以假亂真,你能分辨得出來嗎?(連事實核查記者都錯了一道?。?/p>
AI 飛入尋常百姓家,首先飛進促銷電話里。
AI 還是我們通往人工客服路上的惡狠狠的絆腳石。
AI 幫學(xué)生寫論文拿了 A ,于是我們便去試了試它。AI 生成觀點型文章大差不差,但是對于事實卻時常有錯漏。已經(jīng)有新技術(shù)在幫助解決這個問題,比如 RETRO Transformer 和 WebGPT。






- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2025 上海東方報業(yè)有限公司