中文字幕欧美乱伦|手机AV永久免费|澳门堵场日韩精品|日本性爱欧美激情|蜜桃狠狠狠狠狠狠狠狠狠|成人免费视频 国|欧美国产麻豆婷婷|99久久久国产精品福利姬喷水|婷婷内射精品视频|日本欧洲一区二区

澎湃Logo
下載客戶端

登錄

  • +1

AI社會(huì)學(xué)|算法標(biāo)注:我是“女仆”,你是什么?

沈虹
2020-07-23 18:20
來源:澎湃新聞
? 澎湃研究所 >
字號(hào)

1966年夏天,麻省理工學(xué)院計(jì)算機(jī)系教授、日后無數(shù)“AI之父”之一的馬文·明斯基(Marvin Minsky)在波士頓開啟了一個(gè)名為“夏日遠(yuǎn)景”(“Summer Vision Project”)的暑期項(xiàng)目。彼時(shí),明斯基未滿四十,雄心勃勃,剛和同事一起創(chuàng)立了日后聲名遠(yuǎn)播的麻省理工AI實(shí)驗(yàn)室。明斯基雇了個(gè)本科生,問他能否用暑假時(shí)間將一臺(tái)照相機(jī)和計(jì)算機(jī)連接起來,然后看看能否讓計(jì)算機(jī)“描述”出照相機(jī)里的照片。

多年以后,這個(gè)無心插柳的暑期項(xiàng)目被認(rèn)為是現(xiàn)代計(jì)算機(jī)視覺 (Computer Vision) 的某個(gè)起點(diǎn)。作為當(dāng)今AI領(lǐng)域里炙手可熱的一個(gè)分支,計(jì)算機(jī)視覺經(jīng)歷了狂飆突進(jìn)的一個(gè)時(shí)代,現(xiàn)在它幾乎無處不在——小區(qū)里的攝像頭、麥當(dāng)勞里的刷臉機(jī)、無人車的監(jiān)控系統(tǒng)、醫(yī)院里X光片的讀片設(shè)備……在這背后是汗牛充棟的CV項(xiàng)目、算法、圖片及其標(biāo)注的數(shù)據(jù)集。

標(biāo)注過的數(shù)據(jù)集對(duì)算法的發(fā)展至關(guān)重要?,F(xiàn)代AI技術(shù)的一個(gè)重要分支就建立在對(duì)標(biāo)注過的數(shù)據(jù)的學(xué)習(xí)之上,亦即所謂的“監(jiān)督式學(xué)習(xí)”(supervised learning)——你必須持之以恒地告訴算法“這個(gè)是饅頭,那個(gè)是包子”,這樣算法才會(huì)對(duì)下一個(gè)出現(xiàn)的圖像進(jìn)行定義:這個(gè)是包子沒跑了!

計(jì)算機(jī)視覺里最有名的數(shù)據(jù)集叫做ImageNet,是華人女科學(xué)家李飛飛 (Fei-fei Li) 在普林斯頓大學(xué)擔(dān)任助理教授時(shí)發(fā)起的一個(gè)研究項(xiàng)目。ImageNet的想法很簡(jiǎn)單:從網(wǎng)絡(luò)上大量抓取公開圖片,以一個(gè)同為普林斯頓研究項(xiàng)目的詞匯分類數(shù)據(jù)庫(kù)(WordNet)為基礎(chǔ),雇傭亞馬遜眾包平臺(tái) (Amazon Mechanic Turk) 上的工人,讓他們以詞庫(kù)為依據(jù),人工分類和標(biāo)注圖片。

起始于1996年,ImageNet以驚人的速度成長(zhǎng)為AI界的龐然巨獸:在兩萬多個(gè)類別之下,是將近1500萬張各式各樣被標(biāo)注過的圖片。依據(jù)WordNet里的詞匯分類,來自167 個(gè)國(guó)家、將近五萬名工人在眾包平臺(tái)上參與了數(shù)據(jù)的標(biāo)注。現(xiàn)在,在ImageNet上打開“蘋果”這個(gè)類別,你可以找到蘋果樹,蘋果泥,蘋果蛆,蘋果銹,蘋果酒……和更多的與蘋果有關(guān)的圖片。

過去十年,這個(gè)巨大的圖像詞典一直是計(jì)算機(jī)視覺領(lǐng)域的“葵花寶典”,被認(rèn)為是基準(zhǔn)測(cè)試的黃金數(shù)據(jù)集。因?yàn)槔锩娌粌H有海量的“自然”圖片,并且每張圖片都已經(jīng)被“客觀”且“科學(xué)”地歸類和標(biāo)注過了。從2010到2017這七年,每一年,全世界最有名的計(jì)算機(jī)視覺實(shí)驗(yàn)室都會(huì)以這個(gè)數(shù)據(jù)集的某一個(gè)子集為基礎(chǔ)舉辦大賽,參賽的科學(xué)家們用某個(gè)標(biāo)注過的數(shù)據(jù)集訓(xùn)練算法,找出最佳設(shè)計(jì),看看誰能以最高的準(zhǔn)確率對(duì)新的數(shù)據(jù)集進(jìn)行分類和檢測(cè)。

近十年來,這一切都只是計(jì)算機(jī)視覺領(lǐng)域里的一個(gè)再正常不過的科學(xué)競(jìng)賽。直到2019年的某一天,社會(huì)學(xué)家凱特·克勞福德(Kate Crawford)和藝術(shù)家特雷弗·格倫(Trevor Paglen)一次偶然“僭越”,打開了ImageNet里一個(gè)名為“人類” 的數(shù)據(jù)集。他們驚訝地發(fā)現(xiàn)在這個(gè)從未用來公開比賽的子數(shù)據(jù)集里,隱藏著各種各樣稀奇古怪的標(biāo)簽和匪夷所思的分類。比如,一個(gè)喝啤酒的男人被標(biāo)注為“酗酒”;一個(gè)穿著比基尼的女人被標(biāo)注為“蕩婦”;一個(gè)吃三明治的男人被標(biāo)注為“自私”;一個(gè)躺在飛機(jī)座椅上的孕婦被標(biāo)注為“勢(shì)利者”,一個(gè)男孩則被標(biāo)注為“失敗者”。

克勞福德和格倫決定公開“人類”數(shù)據(jù)集。他們做了一個(gè)簡(jiǎn)單的互動(dòng)網(wǎng)頁(yè),叫做ImageNet Roulette ,允許網(wǎng)民們上傳自己的照片,使用ImageNet的數(shù)據(jù)訓(xùn)練算法,再用算法去標(biāo)注這些新上傳的照片。網(wǎng)民們很快發(fā)現(xiàn),他們上傳的自拍被打上了各種標(biāo)簽,不僅缺乏情境和無厘頭,還充滿偏見和歧視。比如克勞福德和格倫的合影,女人克勞福德被打上了“新聞廣播員”的標(biāo)簽,男人格倫則被標(biāo)注為“微觀經(jīng)濟(jì)學(xué)專家”。這種被ImageNet標(biāo)注過的自拍上傳到Twitter,很快掀起了一場(chǎng)網(wǎng)絡(luò)風(fēng)暴,其中赤裸裸的偏見和歧視迫使ImageNet不得不關(guān)閉了這個(gè)叫做“人類”的數(shù)據(jù)集。

克勞福德和格倫認(rèn)為,他們?cè)凇叭祟悺睌?shù)據(jù)集里看到的不僅僅是標(biāo)注和歸類過的“自然”圖片,而是一系列的“假設(shè)、政治和世界觀”。為什么同性戀者的身體并不與男性身體和女性身體并列,而是被標(biāo)注為Hermaphrodite (陰陽人) ,與switch hitter (左右開工的擊球手) 歸為同類?為什么在ImageNet的數(shù)據(jù)集里會(huì)有一個(gè)類別,包含了很多乍看并無聯(lián)系的女性圖片,然后都被標(biāo)注為 “ball-busters,” 其定義是“摧毀男人自信的苛刻女性”?

“分類是人類行為”,在科技社會(huì)學(xué)經(jīng)典《分類》(Sorting Things Out)的開篇,杰弗里·鮑克(Geoffrey C. Bowker)和蘇珊·李·斯塔爾(Susan Leigh Star)這樣寫道。我們可以在更早的法國(guó)哲學(xué)家???(Michel Foucault) 的《知識(shí)考古學(xué)》那里找到相似的分析脈絡(luò)。在這本書里,鮑克和斯塔爾以世衛(wèi)組織的“國(guó)際疾病分類”為例,通過細(xì)致的人類學(xué)梳理,向人們展示了這一國(guó)際通用的疾病分類手冊(cè)是怎樣在龐雜的機(jī)構(gòu)運(yùn)作中幾乎每隔十年就修訂一番的,又是如何將一系列“疾病”和“健康”之間模糊不清、相互交纏的界限客觀化和正?;摹_@種修訂并不會(huì)“趨向共識(shí)”,而是處于不斷的變動(dòng)中。在鮑克和斯塔爾看來,“分類”涉及政治、經(jīng)濟(jì)、文化的方方面面,是各方權(quán)力明爭(zhēng)暗斗的產(chǎn)物;分類的潛規(guī)則永遠(yuǎn)在變,分類的政治沒有終點(diǎn)。

在AI世代,分類的重要性愈發(fā)凸顯,甚至有學(xué)者認(rèn)為現(xiàn)代的AI系統(tǒng)歸根結(jié)底都是“分類”系統(tǒng)。算法從數(shù)據(jù)訓(xùn)練集 (training data) 里學(xué)習(xí)和總結(jié)特色,再運(yùn)用學(xué)到的東西給新的數(shù)據(jù)分類,進(jìn)行預(yù)測(cè)。ImageNet的冰山一角下,是更為龐大和復(fù)雜的算法分類行為。比如,亞馬遜的招聘算法,從公司過往員工的簡(jiǎn)歷里學(xué)習(xí)并歸納其員工的特色,然后根據(jù)其歸納出的特色對(duì)新的應(yīng)聘者進(jìn)行分類:誰更像我們過往的成功員工?誰更值得被雇傭?很快,人們就發(fā)現(xiàn),因?yàn)閬嗰R遜過往的員工絕大多數(shù)是男性,所以用這些簡(jiǎn)歷訓(xùn)練出來的算法系統(tǒng)性地將簡(jiǎn)歷有帶有“女性”字樣的應(yīng)聘者排除在外了。

在書的最后,鮑克和斯塔爾寫道:“Classifications should be recognized as the significant site of political and ethical work that they are. They should be reclassified”。對(duì)AI社會(huì)學(xué)家們來說,認(rèn)識(shí)到算法分類是政治和社會(huì)行為——而非單純的科技行為——只是茫茫征程的第一步。再進(jìn)一步,我們要問,如何重新分類?如何重新分類才能使被排斥在外的“女性”程序員們重新回到“可被雇傭”的行列?如何重新分類才能使被剝奪的社會(huì)階層重新獲得權(quán)利?

在“人類”數(shù)據(jù)集曝光后的某一天,我在課堂上打開了ImageNet Roulette,想給學(xué)生們展示所謂的“黃金數(shù)據(jù)集”是怎樣標(biāo)注人類世界的。我上傳了自己的大頭照,然后悲欣交加地發(fā)現(xiàn)自己——一個(gè)中年亞裔女性, 被算法標(biāo)注成了“女仆” (maid)。

 【參考文獻(xiàn)】

[1] Seymour A. Papert, “The Summer Vision Project,” July 1, 1966.

[2] Dave Gershgorn, "The data that transformed AI research—and possibly the world." Quartz. July 26, 2017.

[3] http://www.image-net.org/challenges/LSVRC/

[4] Kate Crawford and Trevor Paglen, "Excavating AI: The politics of images in machine learning training sets." Excavating AI, 2019.

[5] Geoffrey C Bowker and Susan Leigh Star. Sorting things out: Classification and its consequences. MIT press, 2000.

[6] Michel Foucault. The archaeology of knowledge: Translated from the French by AM Sheridan Smith. Pantheon Books, 1972.

[7] Jeffrey Dastin, "Amazon scraps secret AI recruiting tool that showed bias against women." Reuters. October 9, 2018.

-----

作者沈虹,畢業(yè)于美國(guó)伊利諾伊大學(xué)香檳分校傳播學(xué)系,現(xiàn)任職于美國(guó)卡內(nèi)基梅隆大學(xué)。她用社會(huì)學(xué)的方法研究新興科技。

    責(zé)任編輯:單雪菱
    澎湃新聞報(bào)料:021-962866
    澎湃新聞,未經(jīng)授權(quán)不得轉(zhuǎn)載
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號(hào)

            滬公網(wǎng)安備31010602000299號(hào)

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116

            ? 2014-2025 上海東方報(bào)業(yè)有限公司

            反饋