- +1
統(tǒng)計(jì)好的數(shù)據(jù)也有陷阱?你是否被數(shù)據(jù)欺騙過?| 科學(xué)世界·探索
我們經(jīng)常在廣告、雜志、電視等上看到各種信息。這些信息很多都是基于統(tǒng)計(jì)學(xué)的分析得出的結(jié)果。然而,統(tǒng)計(jì)數(shù)據(jù)有時(shí)會(huì)被曲解,從而使我們被誤導(dǎo)。接下來,讓我們通過幾個(gè)具體的例子來了解在日常生活中常見的數(shù)據(jù)“陷阱”吧。
操縱數(shù)據(jù)的手段
我們身邊有很多經(jīng)過客觀數(shù)據(jù)包裝的信息,它們總是試圖將人們引導(dǎo)至錯(cuò)誤的結(jié)論。這些操縱數(shù)據(jù)的手段通常具有幾個(gè)典型的模式。
比如,某一天你看到一則廣告聲稱:
X醫(yī)生:這款牙刷得到92%的牙醫(yī)推薦!
你會(huì)對(duì)此產(chǎn)生怎樣的印象呢?也許你會(huì)認(rèn)為,既然這款牙刷能夠“得到92%的牙醫(yī)推薦”,那么肯定絕大部分牙醫(yī)都認(rèn)為這是一款非常好的牙刷。
但如果現(xiàn)在告訴你,參與試用這個(gè)牙刷的牙醫(yī)其實(shí)只有13個(gè)人,其中的12個(gè)人認(rèn)為好用
此時(shí)你又會(huì)怎樣看待這件事呢?你是否會(huì)認(rèn)為,也許只是恰好在參加試用的牙醫(yī)中,認(rèn)為這款牙刷好用的人數(shù)比較多而已。
這樣的例子在我們的身邊比比皆是。例如,“喝了這種飲料,我的體重比喝之前減輕了15%”“吃了這個(gè)保健品的學(xué)生,模擬考試的成績提高了15分”。盡管廣告中展示了看起來很真實(shí)的數(shù)據(jù),但也許參與產(chǎn)品效果試驗(yàn)的人數(shù)非常有限。當(dāng)我們看到這種試圖通過數(shù)據(jù)展示效果的情況時(shí),應(yīng)該先質(zhì)疑其數(shù)據(jù)是否充分。
數(shù)據(jù)陷阱一:僅呈現(xiàn)少量數(shù)據(jù)
為什么數(shù)據(jù)量太少就無法得出正確的結(jié)論呢?讓我們用拋硬幣的例子來思考一下吧。
首先,我們準(zhǔn)備一枚硬幣。通常來說,只要是普通的硬幣,正面朝上和反面朝上的概率應(yīng)該都是二分之一。

圖源:pixabay
接下來,請(qǐng)?jiān)囍鴮⒂矌磐戏綊仈S10次。
正面朝上的次數(shù)真的剛好是10次的一半嗎?
可能拋擲10次,其中有8次是正面朝上,2次是反面朝上;又或者是4次正面朝上,6次反面朝上。然而,如果拋擲的次數(shù)達(dá)到100次,甚至是1000次,那么正面朝上的概率就會(huì)更加接近二分之一。通過這個(gè)拋硬幣的例子,我們可以得知,數(shù)據(jù)的量越多,才越可能導(dǎo)向正確的結(jié)果。
數(shù)據(jù)陷阱二:有選擇性地使用數(shù)據(jù)
有目的性地選取一部分?jǐn)?shù)據(jù)使用,同樣會(huì)導(dǎo)出錯(cuò)誤的結(jié)論。
讓我們回到開頭提到的牙醫(yī)的例子
xx牌牙刷廣告推廣的群里,發(fā)生著這樣的對(duì)話:
老板:大家的調(diào)研數(shù)據(jù)怎么樣
小甲:報(bào)告老板,我們組有1位醫(yī)生覺得好用
小乙:老板,我們組有倆
小丙:老板,我們組有12個(gè)
老板:?這么強(qiáng),那我們就只用小丙的數(shù)據(jù)吧!就說“得到92%的牙醫(yī)推薦”
于是,該公司做出了這樣的廣告:

我們還應(yīng)該警惕以圖表形式呈現(xiàn)的數(shù)據(jù)。

假設(shè)有上圖這樣的圖表,看上去它傳遞的信息是“銷量在不斷減少,需要采取相應(yīng)的對(duì)策”。
然而,仔細(xì)觀察的話,就會(huì)發(fā)現(xiàn)這個(gè)圖表的縱軸只是從整體截取出來的一部分。如果將這部分?jǐn)?shù)據(jù)放回完整的圖表中,就能看到銷量的變化其實(shí)并不大。像這樣用圖表呈現(xiàn)的數(shù)據(jù),別有用心的人只需要改變其橫軸或縱軸的寬度,或者截取局部進(jìn)行呈現(xiàn),就會(huì)引導(dǎo)我們得出錯(cuò)誤的結(jié)論,需要格外注意。
不過,數(shù)據(jù)范圍是否越廣泛越好呢?
讓我們介紹一個(gè)著名的例子

這是一張?bào)w現(xiàn)鳶尾花花萼長度與寬度關(guān)系的圖表。從圖表上看,花萼長度越長,寬度就越窄,也就是說兩者之間呈“負(fù)相關(guān)”關(guān)系。
但實(shí)際上,這張圖表使用了兩種不同種類的鳶尾花的數(shù)據(jù)。當(dāng)我們用不同的顏色將這兩種鳶尾花的數(shù)據(jù)分別標(biāo)記出來,就能看到在每個(gè)品種內(nèi),花萼越長,花萼寬度就越寬,即兩者之間呈“正相關(guān)”關(guān)系。但如果用相同的顏色標(biāo)記數(shù)據(jù),花萼的長度和寬度就會(huì)呈“負(fù)相關(guān)”關(guān)系。
像這樣,將跨度較大的數(shù)據(jù)合并在一起處理,可能會(huì)使原本應(yīng)該顯現(xiàn)的特征變得難以辨別。也就是說,數(shù)據(jù)的范圍并非越廣泛越好。上面提到的鳶尾花數(shù)據(jù)是由英國的統(tǒng)計(jì)學(xué)家兼遺傳學(xué)家羅納德·費(fèi)希爾(Ronald Fisher)用來說明他自創(chuàng)的統(tǒng)計(jì)方法時(shí)運(yùn)用的例子。
在很多情況下,要分辨選用的調(diào)查對(duì)象的數(shù)據(jù)是否在合適范圍內(nèi)都是一個(gè)復(fù)雜的問題。此前曾多次發(fā)生因人們使用的數(shù)據(jù)范圍錯(cuò)誤而被引導(dǎo)至錯(cuò)誤結(jié)論的事情。其中一個(gè)例子,是1936年美國總統(tǒng)選舉的結(jié)果預(yù)測(cè)。當(dāng)時(shí),備受信任的輿論調(diào)查雜志《文粹》(The Literary Digest)曾在1924~1932年的3次總統(tǒng)選舉中準(zhǔn)確預(yù)測(cè)結(jié)果。然而,他們卻在1936年的選舉結(jié)果預(yù)測(cè)中栽了跟頭。

圖片源自網(wǎng)絡(luò)
《文粹》是根據(jù)其訂閱者的問卷調(diào)查結(jié)果進(jìn)行預(yù)測(cè)的。人們認(rèn)為,1936年預(yù)測(cè)錯(cuò)誤是因?yàn)閱柧碚{(diào)查的對(duì)象主要集中在富裕階層的訂閱者上。在他們預(yù)測(cè)的第4次選舉中,出現(xiàn)了一個(gè)新的情況,即富裕階層與非富裕階層在投票傾向性方面呈現(xiàn)顯著的差異,這直接導(dǎo)致了預(yù)測(cè)的失敗。因此,要準(zhǔn)確預(yù)測(cè)總體趨勢(shì),就需要慎重選擇調(diào)查對(duì)象。
數(shù)據(jù)陷阱三:因果推斷
假設(shè)存在這樣一組數(shù)據(jù),它向人們展示了一種相關(guān)性:飲酒量越大,罹患肺癌的概率就越大。當(dāng)看到這樣的數(shù)據(jù)時(shí),你會(huì)怎么想呢?

我們往往會(huì)認(rèn)為,飲酒量與肺癌之間存在因果關(guān)系,即飲酒量多是導(dǎo)致肺癌的原因。但事實(shí)未必如此,也許是因?yàn)轭净挤伟┲?,?huì)比以前喝更多的酒。又或者是雖然看起來“飲酒量”與“肺癌”的數(shù)據(jù)之間存在關(guān)聯(lián)性,但這可能只是一種巧合,實(shí)際上它們之間沒有關(guān)聯(lián)。還有可能存在第三種因素,它會(huì)導(dǎo)致“飲酒量”和“肺癌”都增加。這樣的第三因素又稱為“混雜因素”。例如,在本案例中,吸煙可能會(huì)被考慮為潛在的混雜因素之一。
當(dāng)看到看似存在因果關(guān)系的數(shù)據(jù)時(shí),應(yīng)該還要仔細(xì)思考一下是否存在混雜因素,這對(duì)避免掉入數(shù)據(jù)陷阱是非常重要的。
例如,在探討“冰淇淋銷量”和“溺水事故發(fā)生的次數(shù)”之間的關(guān)系時(shí),如果我們按照月份查看數(shù)據(jù),會(huì)發(fā)現(xiàn)冰淇淋銷量上升時(shí),溺水事故發(fā)生的次數(shù)也會(huì)增加,也就是說這兩者之間存在“正相關(guān)”關(guān)系。冰淇淋銷量和溺水事故發(fā)生的次數(shù)都是在夏季比較多,在冬季最少。那么,我們是否應(yīng)該停止銷售冰淇淋以減少溺水事故呢?
?

溺水事故發(fā)生的次數(shù)與冰淇淋銷量之間真的存在因果關(guān)系嗎?實(shí)際上,我們通過常識(shí)可以判斷,吃冰淇淋不會(huì)導(dǎo)致溺水事故增多,溺水事故發(fā)生的次數(shù)增多也不會(huì)導(dǎo)致冰淇淋銷量增加。在這種情況下,我們應(yīng)該想想是否存在同時(shí)影響溺水事故發(fā)生的次數(shù)與冰淇淋銷量的混雜因素。研究后發(fā)現(xiàn),一天中的最高氣溫越高,冰淇淋銷量就會(huì)越多。同樣,溺水事故發(fā)生的次數(shù)也與最高氣溫呈正相關(guān),因?yàn)樘鞖庋谉釙r(shí)進(jìn)行水上活動(dòng)的人就會(huì)增加,從而導(dǎo)致溺水事故增加。也就是說,在這個(gè)例子中,最高氣溫是混雜因素,而冰淇淋銷量與溺水事故發(fā)生的次數(shù)之間并沒有因果關(guān)系。
因此,如果有人對(duì)你說,基于數(shù)據(jù)可以得出“A是導(dǎo)致B的原因”這個(gè)結(jié)論時(shí),你應(yīng)該再考慮一下,除了A和B,是否存在第三個(gè)混雜因素,這將有助于幫助你識(shí)別“因果推斷的陷阱”。
你的工資可能跟企業(yè)平均工資有不小的差距、統(tǒng)計(jì)分析的標(biāo)準(zhǔn)究竟是什么......想知道更多日常生活中常見的“數(shù)據(jù)陷阱”?歡迎閱讀《科學(xué)世界》2025年第7期探索——統(tǒng)計(jì)數(shù)據(jù)的陷阱。
本文摘編自雜志2025年第7期,文章內(nèi)容略有刪改。
新媒體編輯 | 周濛
本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場(chǎng),澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問http://renzheng.thepaper.cn。





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2025 上海東方報(bào)業(yè)有限公司