第8章 錯誤的關聯
邏輯思維:擁有智慧思考的工具 作者:理查德·尼斯貝特 投票推薦 加入書簽 留言反饋
若想準確描述事物,統計學是十分有效的,有時甚至是必要的工具。在確定兩個事物是否存在一定關聯時,統計學同樣重要。正如你所猜想的那樣,確定一種關聯是否存在甚至比準確描述事物更困難。
你需要分別正確描述類型1和類型2,然後分析類型1伴隨類型2出現的概率是怎樣的,反之亦然。如果是連續變量,分析就會更複雜。我們需要辨別類型1中的較大樣本值是否與類型2中的較大樣本值存在關聯。當我們對關聯性進行抽象描述時,很有可能在評估變量的關聯程度高低時出現大問題。事實上,我們在探索共變(或相關性)時的確出現了嚴重的問題,我們估計的結果可能會大錯特錯。 相關性
請看下麵的圖表,病狀x與疾病a有關聯嗎?換句話說,是否能根據病狀x診斷病人患有疾病a?
疾病a與病狀x的關聯
如何解讀上表呢?在一群人中,有20人患有疾病a,同時具有病狀x;有80人患有疾病a,但沒有病狀x;10人未患疾病a,但有症狀x;40人既無疾病a,也無症狀x。乍看之下,這似乎是對於共變現象最簡單的觀察了。數據呈現出兩分的狀態(非此即彼)。你不必搜集信息,或者對不同數據進行編碼、對其分別賦值,甚至不必刻意記住任何數據。你不能有任何先入為主的成見,用以判斷不同的數據結構。數據的綜合分析已經做好了,呈現在你麵前。那麽,人們如何應對這個最基本的共變數據分析任務呢?
事實上,人們表現得相當差勁。
人們普遍會犯的一個錯誤是,隻依賴“是疾病a/存在病狀x”的那一格中的數據。“是的,這種病狀和這種疾病有關係。有些具有病狀x的人患了疾病a。”這種認知傾向是確認偏誤的一個例子,即人傾向於尋找可以證實自己的假想的證據,而不尋找會否定自己假想的證據。
另一些人看到這張表格時會關注兩個單元格。其中一部分人會認為病症x與疾病a有關聯,“因為在具有病狀x的人中,患有疾病a的人比未患有該病的人多”。另一部分人則認為兩者沒有關聯,“因為在患有疾病a的人中,沒有症狀x的人比有該症狀的人多”。
如果沒有學習過統計學知識,很少有人能意識到要回答哪怕是關於事物相關性的簡單問題也要對四個單元格進行綜合分析。
你需要計算出患疾病a且有症狀x的人數與患疾病a但沒有症狀x的人數的比值。而後,你還需要計算出沒有患疾病a但有症狀x的人數與既沒有疾病a也無症狀x的人數的比值。因為這兩個比值是相同的,你明白了症狀x與疾病a有無關係的概率大體相同。
你可能會對一個事實感到震驚,即大部分人,包括那些每日和疾病治療打交道的醫生、護士,常常也會在麵對上表的時候做出錯誤的分析。比如,你可以向他們展示一張表格,裏麵顯示了患疾病b、接受療法y而痊愈的人數,患疾病b、接受療法y卻沒有痊愈的人數,患疾病b、未接受療法y而痊愈的人數,以及患疾病b、未接受療法y而沒有痊愈的人數。醫生們有時可能會認為是某種特定療法治愈了病人,因為大部分接受了該療法的病人的病情好轉了。實際上,如果不知道未接受某種特定療法而好轉的人數與未接受某種特定療法且未好轉的人數之比,那麽得出的任何結論都是不準確的。順便提一句,類似上表的表格有時被稱作“2x2表格”,有時被稱作“四重表”。
有一種簡潔精巧的用以測量概率的統計方法叫作卡方檢驗,它隻通過兩個分類變量的差別就足以反映出其是否存在真正的相關性。如果兩個分類變量的差別在統計學意義上具有顯著性,那麽我們認為兩者的相關性為真。
通常我們用以判斷“相關的顯著性”的標準是,檢驗(卡方檢驗或其他統計學檢驗)是否能顯示出關聯程度發生的概率為在100次中發生5次。如果的確如此,我們稱其顯著性為0.05。顯著性檢驗不僅可應用於兩分的數據(非此即彼),也可用於連續的數據。
當變量呈連續分布之態時,我們想知道每個變量彼此之間的相關性有多高,此時我們會用到的統計學工具是“相關性”。兩個明顯有關聯的變量是高度和重量。當然,它們之間的關聯並不完美,因為我們會想到許多例子,像是一些矮卻更重或高卻更輕的人。
應用一係列不同的統計學工具可以讓我們明白,兩個變量之間的相關性究竟有多高。一個經常被用於檢驗連續變量相關性的統計工具是皮爾遜積矩相關係數。零相關性意味著兩個變量之間沒有一點兒關聯。相關係數為+1表示兩個變量呈完全正相關。當變量1的值上升,則變量2的值也會上升相應的程度。相關係數為–1表示兩個變量呈完全負相關。
利用散點圖,下圖從視覺上展示出一個特定的相關性有多強。圖中的每一張圖都被稱作散點圖,因為它們展示出各點偏離“直線,即完全相關”的程度。
散點圖和相關性
若相關性的值達到0.3,視覺上幾乎無法辨別,但是在實際中有著重大意義。若相關性為0.3,我們就能從一個人的智商情況預測其收入,能從學生大學的課業成績預測其在研究生院的表現。同樣程度的相關性也可以幫我們從一個人體重過輕、達到平均水平或超重來預測其患有早期心血管疾病的可能性。
相關性達到0.3真的很重要,這並非開玩笑:它意味著如果某人在變量a上的排位是前84%(高於均值一個標準差),那麽這個人在變量b上的表現會是前63%(高於均值0.3個標準差)。這是一個對變量b的相當有含金量的預估了,比你不知道任何關於變量a的信息的情況要好很多。如果你什麽都不知道,那就隻能猜測每個人的排位都是50%,即變量b分布的均值。這很容易幫你判斷你的生意究竟會做大,還是會破產。
相關性為0.5可以反映一個人在普通工作上體現出的智商與表現之間的相關程度。(對於難度更大的工作,相關性更高;對於難度較低的工作,則相關性更低。)
相關性為0.7可以反映出人身高和體重之間的聯係——雖然很有說服力但依然不甚完美。相關性為0.8可以反映出以下兩種變量的聯係程度:你在今年sat考試數學部分的得分與下一年在同樣部分的得分。這種聯係程度很高,但就平均情況而言,在兩個分數之間還是會有比較大的浮動空間。 相關性並不能建立起因果聯係
相關係數是進行因果關係分析過程中的一個步驟。如果變量a與變量b之間不存在相關性,那在兩者之間(可能)不存在因果關係。(一種例外的情況是,如果存在第三個變量c,它促使變量a和變量b之間產生了相關性,而變量a與變量b之間是存在因果關係的。)如果變量a與變量b之間存在相關性,這並不能說明變量a一定導致了變量b。可能是a導致了b,也可能是b導致了a,而聯係也可能是由a和b都與某個第三種變量c有聯係而產生的,其實在a與b之間沒有絲毫的因果關係。
幾乎每個達到高中畢業水平的人都能在思維上認可以上論斷。然而,某種特定相關性總是伴隨著我們假想中的因果關係出現,以至我們心照不宣地接受了相關性意味著因果聯係的觀點。我們是如此善於製造因果假設,以至於這種做法幾乎成了自發的習慣,我們總是控製不住自己去做因果推斷。如果我告訴你吃了更多巧克力的人臉上有更多的粉刺,那麽你很難不去揣測,可能是吃巧克力引起了粉刺。(實際上並不是這樣。)如果我告訴你,那些精心準備婚禮的夫婦經曆了更長久的婚姻,那麽你很自然便會推測,怎樣精心準備的婚禮可以造就更長久的婚姻。事實上,一份著名報紙最近刊登的一篇文章報道了兩者的相關性,並推測了嚴肅的婚禮準備工作帶來更長久婚姻關係的原因。然而,如果你深入思考這種相關性,你會意識到精心的婚禮準備並不是一種隨機出現的情況,能精心準備婚禮的人更可能有更多的朋友,夫婦兩人有更多的相處時間、有更多的錢,或者其他一些更優越的條件。擁有這些東西中的任何一種,或者擁有全部這些條件,那麽必然會讓婚姻更長久。從這張複雜的網中抽出一個事實,並將它當作一種原因,其實是沒有太大意義的。
請看一看工具箱1(見下方灰底方框),其中提到的所有聯係都是真實存在的。你會看到,有些因果鏈看起來似乎是高度可信的,而有些則高度可疑。無論你認為這些因果鏈可信與否,都請看看你是否能給出下麵幾種類型的解釋:a導致b;b導致a;有一個因素和a與b都相關,且是導致a和b的原因,但a和b之間不存在因果鏈。隨後,請在工具箱2裏尋找答案。
工具箱1 思考聯係:下述情況中存在什麽樣的因果關係?
1.《時代》雜誌報道,一些家長努力控製自己孩子的飯量,這一行為導致這些孩子超重。如果家裏有超重孩子的父母不再控製孩子的飯量,那麽這些孩子的體重能減輕嗎?
2.國民智商平均得分更高的國家有更多的財富(以國內生產總值為準)。國民更聰明會讓一個國家更富裕嗎?
3.去教堂參加宗教活動的人比不去教堂的人的道德素質低。這是否意味著信仰上帝可以讓人活得更久?
4.養狗的人感到抑鬱的情況比其他人少。如果你把一條狗送給一個情緒低落的人,那麽他會開心起來嗎?
5.禁止進行性教育的州的謀殺率較高。是因為這種“談性色變”的狀況引發了襲擊行為嗎?如果你為那些州的學生提供更多的性教育方麵的知識,那麽謀殺率會下降嗎?
6.聰明的男人的精子質量更高——更多的精子,更有活力的精子。這是否意味著男人可以通過念大學而變得更聰明,進而提高其精子的質量?
7.吸食了大麻的人更有可能吸食可卡因。那麽,是吸食大麻引起了吸食可卡因的行為嗎?
8.在20世紀50年代,小兒麻痹症仍是一種棘手難治的疾病。當時,食用冰激淩和患小兒麻痹症之間幾乎存在一種正相關關係。那麽為了民眾身體健康而禁止售賣冰激淩是一種明智的舉措嗎?
工具箱2 有關工具箱1中的各類聯係的參考答案
1.如果孩子超重,父母的確可能會試圖控製其飯量。如果是這樣,那麽因果走向就與《時代》雜誌的推測是相反的。父母控製孩子的飯量是不會讓孩子變得肥胖的。事實是如果孩子變得肥胖了,父母會去控製孩子的飯量。也有一種情況可能是,成員關係不和睦的家庭中有控製欲強的父母,而孩子更可能會超重,但是在父母控製孩子飯量的強勢行為和孩子的體重之間不存在因果聯係。
2.情況可能是更富裕的國家擁有更完備的教育體係,因此人們會有更高的智商測試分數。在這種情形下,其實是國家富裕帶來了人民綜合素質的提升,而不是反向的。也有可能存在第三種因素,比如國民的身體健康,它影響了那兩個變量。(這三者之間的因果聯係是真實的,但卻是偶然性的。)
3.情況可能是,更健康的人會參與更多的各種社會活動,包括去教堂。如果是這樣,那麽因果鏈條就與下述推斷相反:人們去教堂的一個原因是他們身體健康,但是去教堂並不能讓他們更健康。或者還有一種情況是,參與社會活動的興趣(比如說去教堂)會讓人們參與更多的社會活動,身體也更健康。
4.情況可能是,情緒低落的人更不可能去做一些有趣的事,比如買一隻寵物。如果是這樣,則因果鏈條就與下述推斷相反:鬱悶使得你不可能弄來一隻寵物。(實際上,把一隻寵物給一個傷心的人會幫他調整心情,因此寵物確實會對你的精神健康有幫助,隻是這兩者之間的關聯性不能證明這一點。)
5.情況可能是,更貧窮的州會有更高的謀殺率,更窮的州更不會允許對人們開展性教育。的確,兩者都是事實。因此,在性教育與謀殺率之間可能不存在任何因果聯係。事實上,是貧窮、較低的教育水平或是其他一些因素與這兩者建立了因果鏈。
6.情況可能是,身體更健康使得人們更聰明,精子質量更好。或是其他一些與聰明和精子質量相關的因素,比如吸毒或酗酒。因此,在聰明和精子之間可能不存在因果聯係。
7.情況可能是,吸食其他任何一種毒品的人有更強烈的意願,因此更容易出現一些違反法律的行為。吸食大麻不一定引發吸食可卡因,反之亦然。有可能是第三種因素引發了上述兩種行為。
8.吃冰激淩和患小兒麻痹症在20世紀50年代有高度關聯是因為該病症容易在泳池中傳播。而在天氣熱起來時,人們會更常吃冰激淩,更常去遊泳。 虛假相關
以一種係統性的方法搜集數據,隨後對其進行計算以得出兩個變量之間的相關性究竟有多強,這是十分重要的,無須贅言。隻要生活在這個世界上,感知周圍的事物,我們就很容易無可救藥地對兩件事進行錯誤聯係。虛假相關是我們麵對的一種實實在在的風險。
如果你認為兩個變量看上去存在正相關關係(有更多的a,便有更多的b),那麽你的這種因果式的視角就很可能讓你確信自己是正確的。這種情況不僅經常發生在兩個變量其實並沒有正相關關係的時候,甚至會發生在兩個變量實際上呈負相關關係的時候。注意並記住那些可以支持你的假設的例子,而忽視那些反駁你的假設的例子是確認偏誤的又一個例證。
相反,如果一種聯係看起來不太可信,你甚至都不會去想存在這種聯係,哪怕那種聯係實際上很強。心理學家曾經把鴿子放入一個帶有自動投食器的裝置中,在地板上則有一個能夠亮起來的圓盤。如果圓盤亮了,而鴿子並沒有啄食,則投食器就會投出一粒食物。如果鴿子去啄食了,投食器則不會投出食物。一隻鴿子會在它明白“不在亮起來的圓盤上啄食就會有食物”之前就餓死了。鴿子們沒有發現那種看似合理的聯係,即不去啄食可能會得到食物。
人其實也像鴿子一樣,很難在分析事情時克服自身的一些預設或成見。
臨床心理學家利用羅夏墨跡測驗來對病人進行測驗,觀察病人說出其看到墨跡後聯想到的東西,再將這些反應進行符號化的記錄。一張卡片上可能記錄了一個病人:第一,在墨跡中看到了生殖器的形狀;第二,有性適應方麵的問題。在分析了整個測試後,心理學家很可能會報告說,那些在墨跡中看到了生殖器形狀的病人會有性適應方麵的問題,即便是相應的數據很難表明這類病人其實較少會有性適應的問題。出現這種情況隻是因為性適應的問題看上去太有可能和看到生殖器的情形相互關聯了,那種正相關的論斷明顯地擺在了我們眼前。
你告訴心理學家們,他們錯了,那一係列實驗表明看到生殖器形狀和有性適應問題之間呈負相關關係,即看見生殖器形狀的病人實際上更少有性適應的問題;那些心理學家可能會嘲笑你,並告訴你,在他們的臨床實驗中,有性適應問題的病人就是那些更可能在羅夏墨跡測驗中看到生殖器形狀的人。不,不是這樣的。當你去搜集真正的病人數據時,你會發現兩者並無聯係。
實際上,沒有哪種對羅夏墨跡卡片的反應可以告訴你有關一個人的任何信息。在我們花費了成千上萬個小時和上百萬美元在這種測試上之前,甚至都沒有人認真思考人們的反應和其病狀之間是否真的存在聯係。在接下來的幾十年中,那種虛假的聯係被建立起來並不斷地被檢驗,其實浪費了我們大量的時間和金錢。
我無意批評這些心理學家和精神病學家。本科生也在犯和這些臨床醫生們同樣的錯誤,利用羅夏墨跡測驗進行虛假關聯,比如將看到生殖器形狀同性問題相聯係,看到外觀滑稽的眼睛便與偏執狂相聯係,看到武器便同敵意相聯係。
這些發現都表明,如果一個人(或是其他生物體)準備好看到一種特定聯係,那麽這種聯係就極有可能被看到,即便事後證明它根本不存在。如果你潛意識中不想看到這種聯係,那麽就可能看不到,即便它的確存在。貓會學著把一根線從一個盒子中拉出來,但它們不會學到舔拭自身會讓它們從盒子中出來。如果揚聲器的聲響從右邊發出,狗會向右走而非向左走去獲取食物。然而,當高聲代表食物在右邊而低聲代表食物在左邊時,狗就很難明白到底該去哪邊取食。這更可能是因為空間線索與空間事件有關,而非聲音線索與空間事件有關。
我們的老朋友“典型性啟發法”促生了無數的“有準備的聯係”。生殖器總是讓人聯想到性,眼睛總是代表著懷疑,武器與敵意相關。“可觸及性啟發法”同樣容易讓我們產生“有準備的聯係”。電影和卡通片總是在表示懷疑的場景中展現那些滑稽的眼睛(眯起來的或骨碌碌轉動的等)。
如果一個人既不期待也不抵觸看到一種關聯,那麽會發生什麽呢?
比如說,如果一個人聽到一群人先說了他們名字的首字母,再唱出了一個音符,接著他被問到,那個字母在字母表中的位置和音符的音長是否有關聯,此時這個人會怎樣作答呢?
在人們確切地察覺之前,這種武斷組合起來的事件之間的聯係性會有多高呢?
結果是,這兩者之間的相關性達到了0.6,比第140頁圖中的0.5的相關性高出了一點兒。這是當數據突然間出現在人們麵前,而人們盡其所能分析事件聯係的結果。在實際生活中,這意味著你不能輕信兩個變量之間有關聯,除非那種聯係非常強——比我們日常遇到的大多數真實存在的聯係都強。你需要進行係統地分析以得到正確的結果:觀察、記錄、計算,否則你就會陷入虛假的陷阱。 一個例外
對於上述規則有一個重要的例外,那便是共變現象是很難被準確認識的。當兩個事件——甚至是那些被武斷聯係起來的事件——在相隔很近的時間點發生時,共變是很容易被注意到的。假如你打開了一盞燈,就在這一瞬間之後一隻老鼠被電了一下,那麽老鼠就會很快明白燈和電擊之間的聯係。然而,即使是對於這種極富戲劇性的事件,人們也會因為間隔時間拉長而無法有效認識其中的關聯。如果超出了幾分鍾的時限,那麽動物,以及人類,都無法發現那種武斷配對的事件之間的聯係。 信度和效度
許多年前,我的一個朋友和他太太想生一個孩子。經過好幾年的努力都沒有成功,他們不得不去找生育專家尋求幫助。情況不容樂觀。我的朋友的精子數量“太低以至於無法通過正常方式讓妻子受孕”。我的朋友問醫生,檢查的可信度有多高。醫生說:“噢,結果十分可信。”醫生的意思是:這個檢查不會出錯——它提供給你了真分數。他使用了“可信”這個詞作為表示準確度的一個術語。
信度表示,采用同一個變量或同一類變量對同一對象重複測量時所得結果的一致程度。
以高度作為測量指標的信度(在不同情境下的關聯度)幾乎為1。在幾周時間內分別進行的針對智商的測驗的信度大約為0.9。通過兩種不同類型的測驗來檢測智商通常表現出的信度都會高於0.8。兩位牙醫在信度低於0.8的時候會在一顆牙齒的鈣化程度這件事上達成一致。這意味著有可能會偶爾出現史密斯醫生要為你補牙而瓊斯醫生會讓你放任自流的情況。這樣看來,任何一位牙醫做出的診斷不會與其在不同場合的判斷完全相關。瓊斯醫生還可能會在周五時為你補牙,而在周二時不采取任何措施。
精子數量的信度是怎樣的呢?任何一種針對精子數量的測試的信度都比較低,因此你在不同測試中得到相同結果的可能性也較低。同時采取不同方式檢測精子數量可能得出完全不同的結果。
效度通常也是通過相關性來測量的。效度表明測量結果在多大程度上是研究者希望得到的結果。智商測試在表明小學生的課業分數和智商得分之間的聯係程度時有重要的效度,大約是0.5。(實際上,正是希望能預測學生們在課業上的表現,在20世紀初法國心理學家阿爾弗雷德·比奈才創製出了第一份智商測驗量表。)
有一點極其重要的準則需要注意,即如果沒有信度,就不存在效度。如果一個人對某個變量的判斷是不一致的(比如,一個人對變量a在某個場合的判斷與其對變量a在另一個場合的判斷不存在任何相關性),那麽這個人的判斷就沒有效度,意思是,這個人的這些判斷不能有效預測出變量b的情況。
如果用於測量一個給定變量的測試x和測試y的結果沒有達成一致,而且並非意外情況,那麽這些測試中最多有一種具有效度。但是,在沒有效度的情況下也可能有很高的信度。兩個人可能對他們的每一個共同朋友的外向性格都有極其一致的評價,但是這兩個人都未能準確預測這些朋友在不同場合會在多大程度上表現出外向性格(可以通過一些客觀的外向性標準,比如健談程度或是心理學家設計的量表)。
筆跡分析據說能夠測量出誠實度、勤奮程度、進取心、樂觀精神和其他一些品性。的確,任何兩份筆跡分析報告都可能在相當程度上達成一致(高信度),但是它們都不能預測任何與個性有關的實際行為(沒有效度)。(當然,筆跡分析在一些情況下會十分有用,例如在對一些中樞神經係統疾病進行醫學診斷的時候。) 統計性思維的關鍵:編碼
下麵我要提一些問題,看看讀者對於一些成對的變量之間的相關性有什麽樣的想法。具體而言,我會問你,假定在一個情景中a比b更關鍵,那麽在另一個情景中a比b更關鍵的可能性有多大。通過數學公式,你以概率術語給出的答案可以被轉換成相關係數。
如果對於下述任何一個問題,你說“50%”,那意味著你認為一個場景中的行為與另一個場景中的行為之間沒有任何聯係。如果你說“90%”,那你是說兩個場景中的行為之間有著極強的聯係。下麵的第一個問題是有關拚寫能力的。如果你認為某人在一個場景中表現出的拚寫能力與在另一個場景中的表現無關,那麽你會說“50%”。如果你認為兩者之間有著極強的聯係,你可能會說“90%”。請做出保證:針對以下的每一個問題寫下你的答案,或者至少將你的答案大聲說出來。
1.如果卡洛斯在四年級第一個月末的拚寫測驗中的得分高於克萊格,那麽卡洛斯在第三個月末的測試中仍取得較高分數的概率有多大?
2.如果朱麗亞在籃球賽季中的前20場比賽裏都拿到了比詹妮弗多的分數,那麽朱麗亞在接下來的20場比賽中仍拿到較高分數的概率有多大?
3.如果比爾在你第一次遇到他的時候表現得要比鮑勃友好,那麽你第二次遇到他時他仍表現得更友好的概率有多大?
4.如果在你眼中,巴布在前20次情形下比貝斯表現得更誠實(是否公平付賬,在玩棋盤遊戲時是否作弊,是否誠實告知在班級中的分數等),那麽在之後的20次場景中巴布仍表現得更誠實的概率有多大?
下表的數據表現了你剛才針對每個問題做出的相關性係數和對應的估計百分比。
從估計百分比到相關係數的轉換
這裏的數據基於我之前做過的研究。我已經了解了人在兩種場合下表現出的拚寫能力之間的關係,20次拚寫考試平均分數與另20次測試的平均分數間的相關性,某個人在不同場合表現出友好的感覺之間的聯係,在20個場合中表現出友好的平均狀況與另外20個場合的平均狀況的相關性,等等。
我確定你給出的答案符合下列的套路。
1.你的答案表明,你認為在籃球賽中,球員在20場比賽中的表現與另外20場中的表現高度相關,這種相關度高於一場拚寫測驗分數與另一場拚寫測驗分數之間的聯係。
2.你的答案表明,你認為在兩個場合中表現出的友好程度高度相關,不過這種相關和20個場合中的誠實度與另外20個場合中的誠實度之間的相關性同樣高。
3.你的答案還表明,人的品性在不同場景中表現出的一致性要高於能力上的一致性。
以上描述是從我和齊瓦·孔達所做的實驗中的大學生參與者那裏得來的。
請看下圖中的數據,你可以發現人們對於反映了能力(從拚寫測試和籃球比賽中得到的平均數據)的行為的推測更接近事實。人在兩個不同場合中的行為(拚寫或是在籃球比賽中得分)有一定相關性,大致是0.5。人們推測出來的關於那種關聯的重要性在金錢問題上也成立。
人們基於能力測驗(拚寫和打籃球)和品性測試(友好和誠實)得出的少量數據和大量數據而做出的相關性推測。
人們同樣認識到了大數定律對相關性的重要影響。如果你看一下許多行為的綜合得分情況,並將分數與另一些行為的得分情況相聯係,則相關性會更高。人們意識不到一係列行為的相關性究竟有多高,但是能明白可以從前20次行為推斷隨後的20次行為,且這種推斷的可靠性比從一次行為推斷另一次行為要高。
對比一下推測與能力有關的行為的準確性和推測與品性有關的行為的不準確性。人們認為人在不同場合中表現出誠實的相關性與不同情境中表現出友好態度的相關性都達到了0.8的係數!這其實是極其錯誤的。不同場合中人表現出的某種品性間的相關係數通常是0.1或更低,幾乎不會超過0.3。這裏所犯的錯誤是很嚴重的,而整個推理過程都充滿了日常生活中的謬誤(前述章節都討論過)。我們以為自己通過觀察人們在某個單一情境中的行為就能洞察其品性。犯這種錯誤的部分原因是基本歸因謬誤,我們也沒能認識到大數定律同樣也適用於對人所具有的品性的分析。我們總以為能從很小的樣本中得到許多信息,一方麵是因為我們傾向於低估場景中的環境因素,另一方麵是因為我們以為憑借一種情況就能得到充分的證據以推斷另一種情況,即使兩者大相徑庭。此外,我們還忽視了不斷增加的樣本量對整體情況的影響。如果你基於相當數量的場景觀察某個人與品性相關的行為,並將其在20個場景中的總體表現與在另外20個場景中的總體表現對比,則的確會有很高的相關性。問題在於,人們誤以為這種針對品性行為的大數定律對於小樣本量的行為也成立。
為什麽在以單一場景測量能力和品性時所得到的結果的準確性有如此大的差異呢?為什麽人們認識到了大數定律在準確測量能力相關行為的重要性,卻一再無視其在準確測量品性相關行為的關鍵作用呢?
秘密在於編碼。對於許多種能力我們都知道可以用什麽單位來衡量,並且能為它們賦值:拚寫正確單詞的比例;罰球的命中率。然而,評判友好的合適單位是什麽呢?每分鍾微笑的次數嗎?每次社交過程中“友好氛圍”出現的次數嗎?我們如何比較人們在周六晚上的派對上表達友好的方式與其在周一下午的委員會會議上釋放善意的方式?人們在不同情境下的行為方式是如此不同,以至在a場合中表現友好的方式並不能作為b場合中表現友好的標誌。而找出場合a中所有表現友好的標誌同樣很困難,甚至是不可能的。即使能窮盡所有可能,那我們也無法將a場合中這數量眾多的標誌與同樣多如牛毛的b場合中的標誌做比較。
那麽,如何才能正確推測與品性相關的行為呢?我們不必找到所謂正確的測量品性行為的單位,也不必窮盡所有表現品性的方式。心理學家通過研究來解決,而如果我們要做這種測量,那麽不必對某一個人提及具體原因,否則他們會覺得我們瘋了。(“我要為喬希在開會時以微笑表示友好的行為打18分,這是通過他嘴角上揚的次數乘以每次上揚的弧度得出的。你到底是在做什麽?”)
最有效地避免對某個人的行為做出錯誤推斷的方式是提醒自己,隻有當兩個場合的情境完全一致時,才可以憑借這個人在其中一個場合的行為推斷他在另一個場合中的行為。即便這樣做,你在進行推測時還是要格外小心。
還有一點或許能幫助你,即你要記住,自己在各種情境下並非總能保持一致。我敢保證,在某些場合見到你的人會認為你特別好,而在另一些場合見到你的人則覺得你簡直糟透了。並且你也不能責備那些批評你的人,因為他們一定是有依據的。隻要記住批評你的人自身也會既受好評又遭抨擊。你不太可能在下一個遇見此人的情境(可能與現在這個情境迥異)中以同樣的方式再現自己的人格特質。
更通俗一點兒講,你要能夠知道什麽能編碼,而什麽不能。如果你發現遇到的問題中的事件或行為無法即刻進行編碼或賦值,那麽就試著找一種途徑來編碼。做這些事純粹是為了提醒你一個事實,即人容易高估事件或行為的一致性。
關於本章和下一章所講述的主題,我能告訴你的最好的消息是,盡管我隻教了你們在幾個很小的領域中運用統計性思維,但是以我多年的研究經驗,我可以保證這些少量的例子就足以幫你在相當多的情境(可能看上去和我舉的例子不太相似)下進行理性思考,以統計性思維分析問題。
當我教授人們大數定律以解決那些可以通過統計工具進行分析的問題(例如彩票問題、投硬幣)時,他們解決那些隻會偶爾想到用統計思維解決的問題(例如可以客觀數據衡量的能力)的能力提升了。他們解決那些幾乎不會用統計思維解決的問題(例如衡量品性)的能力也提升了。而我教授那些可以客觀計分的能力的例子和那些更主觀、更難計分的例子時也收到了同樣的效果。教授人們某類問題的推理方法可以幫助他們提升在另一類問題上的推理能力。 小結
準確評估事物間的關係是極難之事。即便我們已經搜集好了數據,並進行了全麵的總結,也很有可能對共變的程度做出錯誤估計。確認偏誤就極易出現:如果一些a導致b,那麽我們很可能會認為a與b有關聯。然而要判斷a與b之間是否真正存在關聯,需要利用四重表比較兩種比例。
當我們試圖評斷一些我們沒有先驗概念的事物的相關性時,我們會對那些本無聯係或被武斷地聯係在一起的事件的相關性做出錯誤估計,認為其關聯一定很強。我們對於共變的觀察能力在那些相隔較長時間發生的事件上表現得很糟糕。
我們很容易受虛假相關影響。當我們評判兩個看上去可能有聯係的事件的相關性,或說我們期待發現兩者間的正相關關係時,我們可能會相信一種實際上並不存在的聯係。當事件之間的聯係不那麽可信時,即使實際上存在強相關,我們也可能看不到那種關聯。更糟糕的是,我們會顛倒事實,將正相關認作負相關,反之亦然。
典型性啟發法潛藏在我們的許多關於相關性認識的先驗假設中。如果a在某種程度上與b相似,我們就可能看到兩者間的關聯。可觸及性啟發法也會發生作用。如果那些a與b有關聯的場景更容易被我們記住,那麽我們就會高估兩者之間聯係的緊密程度。
相關性並不能建立起因果聯係,但如果存在一種貌似可信的原因解釋了a導致b,那麽我們很容易推測那種相關性的確建立起了因果聯係。a與b之間存在相關性可能是由於a引發了b,或b引發了a,或是第三種因素引發了a和b。我們常常忽略這其中的多種可能性。這裏的一部分原因是,我們無法認識到用因果關係的術語“解釋”相關性是多麽容易。
信度是指一個樣本在不同情境中或是以不同方式測量時得分相同的程度。效度是指一個測量工具能夠準確測出所需測量的事物的程度。對於某一給定的測量工具,其可能具有完美的信度,卻沒有效度。兩位占星師在“雙魚座的人比雙子座的人更外向”這個問題上的認可度一致,然而這種說法顯然沒有效度。
一件事情越是能夠通過編碼來分析,我們對其的相關性分析就越準確。對於那些易於編碼的事情,比如一些以能力高低而決定之事,我們對於兩個場景的相關性分析就會十分準確。我們還認識到當分析一些與能力有關的事情時,綜合許多場景的平均狀況推測另一些場景的平均狀況是更好的選擇,這比從單一場景推斷另一單一場景要更可信。即便是對於與能力有關的行為,我們還是沒能充分意識到,從單一場景推斷升級成從多個場景的平均狀況推斷能提高預測的準確性。我們推斷一些難以編碼的事件(例如與人的品性相關)之間存在強相關性,而實際上那種關聯並不存在。我們也比較少或是沒有意識到,基於大量觀察的預測的準確性要高於單一觀察。
當我們從人們過去的(與品性相關的)行為預測其未來的此類行為時,我們需要格外當心和謹慎,除非我們搜集的樣本規模足夠大且我們得到了多種情境下的事實。意識到有一些特定類型的行為是難以編碼的,可以讓我們保持警惕,即我們對這類行為的推斷很可能有誤。時刻以基本歸因謬誤的概念警示我們自身,我們便能意識到可能會犯籠統概括的錯誤。
你需要分別正確描述類型1和類型2,然後分析類型1伴隨類型2出現的概率是怎樣的,反之亦然。如果是連續變量,分析就會更複雜。我們需要辨別類型1中的較大樣本值是否與類型2中的較大樣本值存在關聯。當我們對關聯性進行抽象描述時,很有可能在評估變量的關聯程度高低時出現大問題。事實上,我們在探索共變(或相關性)時的確出現了嚴重的問題,我們估計的結果可能會大錯特錯。 相關性
請看下麵的圖表,病狀x與疾病a有關聯嗎?換句話說,是否能根據病狀x診斷病人患有疾病a?
疾病a與病狀x的關聯
如何解讀上表呢?在一群人中,有20人患有疾病a,同時具有病狀x;有80人患有疾病a,但沒有病狀x;10人未患疾病a,但有症狀x;40人既無疾病a,也無症狀x。乍看之下,這似乎是對於共變現象最簡單的觀察了。數據呈現出兩分的狀態(非此即彼)。你不必搜集信息,或者對不同數據進行編碼、對其分別賦值,甚至不必刻意記住任何數據。你不能有任何先入為主的成見,用以判斷不同的數據結構。數據的綜合分析已經做好了,呈現在你麵前。那麽,人們如何應對這個最基本的共變數據分析任務呢?
事實上,人們表現得相當差勁。
人們普遍會犯的一個錯誤是,隻依賴“是疾病a/存在病狀x”的那一格中的數據。“是的,這種病狀和這種疾病有關係。有些具有病狀x的人患了疾病a。”這種認知傾向是確認偏誤的一個例子,即人傾向於尋找可以證實自己的假想的證據,而不尋找會否定自己假想的證據。
另一些人看到這張表格時會關注兩個單元格。其中一部分人會認為病症x與疾病a有關聯,“因為在具有病狀x的人中,患有疾病a的人比未患有該病的人多”。另一部分人則認為兩者沒有關聯,“因為在患有疾病a的人中,沒有症狀x的人比有該症狀的人多”。
如果沒有學習過統計學知識,很少有人能意識到要回答哪怕是關於事物相關性的簡單問題也要對四個單元格進行綜合分析。
你需要計算出患疾病a且有症狀x的人數與患疾病a但沒有症狀x的人數的比值。而後,你還需要計算出沒有患疾病a但有症狀x的人數與既沒有疾病a也無症狀x的人數的比值。因為這兩個比值是相同的,你明白了症狀x與疾病a有無關係的概率大體相同。
你可能會對一個事實感到震驚,即大部分人,包括那些每日和疾病治療打交道的醫生、護士,常常也會在麵對上表的時候做出錯誤的分析。比如,你可以向他們展示一張表格,裏麵顯示了患疾病b、接受療法y而痊愈的人數,患疾病b、接受療法y卻沒有痊愈的人數,患疾病b、未接受療法y而痊愈的人數,以及患疾病b、未接受療法y而沒有痊愈的人數。醫生們有時可能會認為是某種特定療法治愈了病人,因為大部分接受了該療法的病人的病情好轉了。實際上,如果不知道未接受某種特定療法而好轉的人數與未接受某種特定療法且未好轉的人數之比,那麽得出的任何結論都是不準確的。順便提一句,類似上表的表格有時被稱作“2x2表格”,有時被稱作“四重表”。
有一種簡潔精巧的用以測量概率的統計方法叫作卡方檢驗,它隻通過兩個分類變量的差別就足以反映出其是否存在真正的相關性。如果兩個分類變量的差別在統計學意義上具有顯著性,那麽我們認為兩者的相關性為真。
通常我們用以判斷“相關的顯著性”的標準是,檢驗(卡方檢驗或其他統計學檢驗)是否能顯示出關聯程度發生的概率為在100次中發生5次。如果的確如此,我們稱其顯著性為0.05。顯著性檢驗不僅可應用於兩分的數據(非此即彼),也可用於連續的數據。
當變量呈連續分布之態時,我們想知道每個變量彼此之間的相關性有多高,此時我們會用到的統計學工具是“相關性”。兩個明顯有關聯的變量是高度和重量。當然,它們之間的關聯並不完美,因為我們會想到許多例子,像是一些矮卻更重或高卻更輕的人。
應用一係列不同的統計學工具可以讓我們明白,兩個變量之間的相關性究竟有多高。一個經常被用於檢驗連續變量相關性的統計工具是皮爾遜積矩相關係數。零相關性意味著兩個變量之間沒有一點兒關聯。相關係數為+1表示兩個變量呈完全正相關。當變量1的值上升,則變量2的值也會上升相應的程度。相關係數為–1表示兩個變量呈完全負相關。
利用散點圖,下圖從視覺上展示出一個特定的相關性有多強。圖中的每一張圖都被稱作散點圖,因為它們展示出各點偏離“直線,即完全相關”的程度。
散點圖和相關性
若相關性的值達到0.3,視覺上幾乎無法辨別,但是在實際中有著重大意義。若相關性為0.3,我們就能從一個人的智商情況預測其收入,能從學生大學的課業成績預測其在研究生院的表現。同樣程度的相關性也可以幫我們從一個人體重過輕、達到平均水平或超重來預測其患有早期心血管疾病的可能性。
相關性達到0.3真的很重要,這並非開玩笑:它意味著如果某人在變量a上的排位是前84%(高於均值一個標準差),那麽這個人在變量b上的表現會是前63%(高於均值0.3個標準差)。這是一個對變量b的相當有含金量的預估了,比你不知道任何關於變量a的信息的情況要好很多。如果你什麽都不知道,那就隻能猜測每個人的排位都是50%,即變量b分布的均值。這很容易幫你判斷你的生意究竟會做大,還是會破產。
相關性為0.5可以反映一個人在普通工作上體現出的智商與表現之間的相關程度。(對於難度更大的工作,相關性更高;對於難度較低的工作,則相關性更低。)
相關性為0.7可以反映出人身高和體重之間的聯係——雖然很有說服力但依然不甚完美。相關性為0.8可以反映出以下兩種變量的聯係程度:你在今年sat考試數學部分的得分與下一年在同樣部分的得分。這種聯係程度很高,但就平均情況而言,在兩個分數之間還是會有比較大的浮動空間。 相關性並不能建立起因果聯係
相關係數是進行因果關係分析過程中的一個步驟。如果變量a與變量b之間不存在相關性,那在兩者之間(可能)不存在因果關係。(一種例外的情況是,如果存在第三個變量c,它促使變量a和變量b之間產生了相關性,而變量a與變量b之間是存在因果關係的。)如果變量a與變量b之間存在相關性,這並不能說明變量a一定導致了變量b。可能是a導致了b,也可能是b導致了a,而聯係也可能是由a和b都與某個第三種變量c有聯係而產生的,其實在a與b之間沒有絲毫的因果關係。
幾乎每個達到高中畢業水平的人都能在思維上認可以上論斷。然而,某種特定相關性總是伴隨著我們假想中的因果關係出現,以至我們心照不宣地接受了相關性意味著因果聯係的觀點。我們是如此善於製造因果假設,以至於這種做法幾乎成了自發的習慣,我們總是控製不住自己去做因果推斷。如果我告訴你吃了更多巧克力的人臉上有更多的粉刺,那麽你很難不去揣測,可能是吃巧克力引起了粉刺。(實際上並不是這樣。)如果我告訴你,那些精心準備婚禮的夫婦經曆了更長久的婚姻,那麽你很自然便會推測,怎樣精心準備的婚禮可以造就更長久的婚姻。事實上,一份著名報紙最近刊登的一篇文章報道了兩者的相關性,並推測了嚴肅的婚禮準備工作帶來更長久婚姻關係的原因。然而,如果你深入思考這種相關性,你會意識到精心的婚禮準備並不是一種隨機出現的情況,能精心準備婚禮的人更可能有更多的朋友,夫婦兩人有更多的相處時間、有更多的錢,或者其他一些更優越的條件。擁有這些東西中的任何一種,或者擁有全部這些條件,那麽必然會讓婚姻更長久。從這張複雜的網中抽出一個事實,並將它當作一種原因,其實是沒有太大意義的。
請看一看工具箱1(見下方灰底方框),其中提到的所有聯係都是真實存在的。你會看到,有些因果鏈看起來似乎是高度可信的,而有些則高度可疑。無論你認為這些因果鏈可信與否,都請看看你是否能給出下麵幾種類型的解釋:a導致b;b導致a;有一個因素和a與b都相關,且是導致a和b的原因,但a和b之間不存在因果鏈。隨後,請在工具箱2裏尋找答案。
工具箱1 思考聯係:下述情況中存在什麽樣的因果關係?
1.《時代》雜誌報道,一些家長努力控製自己孩子的飯量,這一行為導致這些孩子超重。如果家裏有超重孩子的父母不再控製孩子的飯量,那麽這些孩子的體重能減輕嗎?
2.國民智商平均得分更高的國家有更多的財富(以國內生產總值為準)。國民更聰明會讓一個國家更富裕嗎?
3.去教堂參加宗教活動的人比不去教堂的人的道德素質低。這是否意味著信仰上帝可以讓人活得更久?
4.養狗的人感到抑鬱的情況比其他人少。如果你把一條狗送給一個情緒低落的人,那麽他會開心起來嗎?
5.禁止進行性教育的州的謀殺率較高。是因為這種“談性色變”的狀況引發了襲擊行為嗎?如果你為那些州的學生提供更多的性教育方麵的知識,那麽謀殺率會下降嗎?
6.聰明的男人的精子質量更高——更多的精子,更有活力的精子。這是否意味著男人可以通過念大學而變得更聰明,進而提高其精子的質量?
7.吸食了大麻的人更有可能吸食可卡因。那麽,是吸食大麻引起了吸食可卡因的行為嗎?
8.在20世紀50年代,小兒麻痹症仍是一種棘手難治的疾病。當時,食用冰激淩和患小兒麻痹症之間幾乎存在一種正相關關係。那麽為了民眾身體健康而禁止售賣冰激淩是一種明智的舉措嗎?
工具箱2 有關工具箱1中的各類聯係的參考答案
1.如果孩子超重,父母的確可能會試圖控製其飯量。如果是這樣,那麽因果走向就與《時代》雜誌的推測是相反的。父母控製孩子的飯量是不會讓孩子變得肥胖的。事實是如果孩子變得肥胖了,父母會去控製孩子的飯量。也有一種情況可能是,成員關係不和睦的家庭中有控製欲強的父母,而孩子更可能會超重,但是在父母控製孩子飯量的強勢行為和孩子的體重之間不存在因果聯係。
2.情況可能是更富裕的國家擁有更完備的教育體係,因此人們會有更高的智商測試分數。在這種情形下,其實是國家富裕帶來了人民綜合素質的提升,而不是反向的。也有可能存在第三種因素,比如國民的身體健康,它影響了那兩個變量。(這三者之間的因果聯係是真實的,但卻是偶然性的。)
3.情況可能是,更健康的人會參與更多的各種社會活動,包括去教堂。如果是這樣,那麽因果鏈條就與下述推斷相反:人們去教堂的一個原因是他們身體健康,但是去教堂並不能讓他們更健康。或者還有一種情況是,參與社會活動的興趣(比如說去教堂)會讓人們參與更多的社會活動,身體也更健康。
4.情況可能是,情緒低落的人更不可能去做一些有趣的事,比如買一隻寵物。如果是這樣,則因果鏈條就與下述推斷相反:鬱悶使得你不可能弄來一隻寵物。(實際上,把一隻寵物給一個傷心的人會幫他調整心情,因此寵物確實會對你的精神健康有幫助,隻是這兩者之間的關聯性不能證明這一點。)
5.情況可能是,更貧窮的州會有更高的謀殺率,更窮的州更不會允許對人們開展性教育。的確,兩者都是事實。因此,在性教育與謀殺率之間可能不存在任何因果聯係。事實上,是貧窮、較低的教育水平或是其他一些因素與這兩者建立了因果鏈。
6.情況可能是,身體更健康使得人們更聰明,精子質量更好。或是其他一些與聰明和精子質量相關的因素,比如吸毒或酗酒。因此,在聰明和精子之間可能不存在因果聯係。
7.情況可能是,吸食其他任何一種毒品的人有更強烈的意願,因此更容易出現一些違反法律的行為。吸食大麻不一定引發吸食可卡因,反之亦然。有可能是第三種因素引發了上述兩種行為。
8.吃冰激淩和患小兒麻痹症在20世紀50年代有高度關聯是因為該病症容易在泳池中傳播。而在天氣熱起來時,人們會更常吃冰激淩,更常去遊泳。 虛假相關
以一種係統性的方法搜集數據,隨後對其進行計算以得出兩個變量之間的相關性究竟有多強,這是十分重要的,無須贅言。隻要生活在這個世界上,感知周圍的事物,我們就很容易無可救藥地對兩件事進行錯誤聯係。虛假相關是我們麵對的一種實實在在的風險。
如果你認為兩個變量看上去存在正相關關係(有更多的a,便有更多的b),那麽你的這種因果式的視角就很可能讓你確信自己是正確的。這種情況不僅經常發生在兩個變量其實並沒有正相關關係的時候,甚至會發生在兩個變量實際上呈負相關關係的時候。注意並記住那些可以支持你的假設的例子,而忽視那些反駁你的假設的例子是確認偏誤的又一個例證。
相反,如果一種聯係看起來不太可信,你甚至都不會去想存在這種聯係,哪怕那種聯係實際上很強。心理學家曾經把鴿子放入一個帶有自動投食器的裝置中,在地板上則有一個能夠亮起來的圓盤。如果圓盤亮了,而鴿子並沒有啄食,則投食器就會投出一粒食物。如果鴿子去啄食了,投食器則不會投出食物。一隻鴿子會在它明白“不在亮起來的圓盤上啄食就會有食物”之前就餓死了。鴿子們沒有發現那種看似合理的聯係,即不去啄食可能會得到食物。
人其實也像鴿子一樣,很難在分析事情時克服自身的一些預設或成見。
臨床心理學家利用羅夏墨跡測驗來對病人進行測驗,觀察病人說出其看到墨跡後聯想到的東西,再將這些反應進行符號化的記錄。一張卡片上可能記錄了一個病人:第一,在墨跡中看到了生殖器的形狀;第二,有性適應方麵的問題。在分析了整個測試後,心理學家很可能會報告說,那些在墨跡中看到了生殖器形狀的病人會有性適應方麵的問題,即便是相應的數據很難表明這類病人其實較少會有性適應的問題。出現這種情況隻是因為性適應的問題看上去太有可能和看到生殖器的情形相互關聯了,那種正相關的論斷明顯地擺在了我們眼前。
你告訴心理學家們,他們錯了,那一係列實驗表明看到生殖器形狀和有性適應問題之間呈負相關關係,即看見生殖器形狀的病人實際上更少有性適應的問題;那些心理學家可能會嘲笑你,並告訴你,在他們的臨床實驗中,有性適應問題的病人就是那些更可能在羅夏墨跡測驗中看到生殖器形狀的人。不,不是這樣的。當你去搜集真正的病人數據時,你會發現兩者並無聯係。
實際上,沒有哪種對羅夏墨跡卡片的反應可以告訴你有關一個人的任何信息。在我們花費了成千上萬個小時和上百萬美元在這種測試上之前,甚至都沒有人認真思考人們的反應和其病狀之間是否真的存在聯係。在接下來的幾十年中,那種虛假的聯係被建立起來並不斷地被檢驗,其實浪費了我們大量的時間和金錢。
我無意批評這些心理學家和精神病學家。本科生也在犯和這些臨床醫生們同樣的錯誤,利用羅夏墨跡測驗進行虛假關聯,比如將看到生殖器形狀同性問題相聯係,看到外觀滑稽的眼睛便與偏執狂相聯係,看到武器便同敵意相聯係。
這些發現都表明,如果一個人(或是其他生物體)準備好看到一種特定聯係,那麽這種聯係就極有可能被看到,即便事後證明它根本不存在。如果你潛意識中不想看到這種聯係,那麽就可能看不到,即便它的確存在。貓會學著把一根線從一個盒子中拉出來,但它們不會學到舔拭自身會讓它們從盒子中出來。如果揚聲器的聲響從右邊發出,狗會向右走而非向左走去獲取食物。然而,當高聲代表食物在右邊而低聲代表食物在左邊時,狗就很難明白到底該去哪邊取食。這更可能是因為空間線索與空間事件有關,而非聲音線索與空間事件有關。
我們的老朋友“典型性啟發法”促生了無數的“有準備的聯係”。生殖器總是讓人聯想到性,眼睛總是代表著懷疑,武器與敵意相關。“可觸及性啟發法”同樣容易讓我們產生“有準備的聯係”。電影和卡通片總是在表示懷疑的場景中展現那些滑稽的眼睛(眯起來的或骨碌碌轉動的等)。
如果一個人既不期待也不抵觸看到一種關聯,那麽會發生什麽呢?
比如說,如果一個人聽到一群人先說了他們名字的首字母,再唱出了一個音符,接著他被問到,那個字母在字母表中的位置和音符的音長是否有關聯,此時這個人會怎樣作答呢?
在人們確切地察覺之前,這種武斷組合起來的事件之間的聯係性會有多高呢?
結果是,這兩者之間的相關性達到了0.6,比第140頁圖中的0.5的相關性高出了一點兒。這是當數據突然間出現在人們麵前,而人們盡其所能分析事件聯係的結果。在實際生活中,這意味著你不能輕信兩個變量之間有關聯,除非那種聯係非常強——比我們日常遇到的大多數真實存在的聯係都強。你需要進行係統地分析以得到正確的結果:觀察、記錄、計算,否則你就會陷入虛假的陷阱。 一個例外
對於上述規則有一個重要的例外,那便是共變現象是很難被準確認識的。當兩個事件——甚至是那些被武斷聯係起來的事件——在相隔很近的時間點發生時,共變是很容易被注意到的。假如你打開了一盞燈,就在這一瞬間之後一隻老鼠被電了一下,那麽老鼠就會很快明白燈和電擊之間的聯係。然而,即使是對於這種極富戲劇性的事件,人們也會因為間隔時間拉長而無法有效認識其中的關聯。如果超出了幾分鍾的時限,那麽動物,以及人類,都無法發現那種武斷配對的事件之間的聯係。 信度和效度
許多年前,我的一個朋友和他太太想生一個孩子。經過好幾年的努力都沒有成功,他們不得不去找生育專家尋求幫助。情況不容樂觀。我的朋友的精子數量“太低以至於無法通過正常方式讓妻子受孕”。我的朋友問醫生,檢查的可信度有多高。醫生說:“噢,結果十分可信。”醫生的意思是:這個檢查不會出錯——它提供給你了真分數。他使用了“可信”這個詞作為表示準確度的一個術語。
信度表示,采用同一個變量或同一類變量對同一對象重複測量時所得結果的一致程度。
以高度作為測量指標的信度(在不同情境下的關聯度)幾乎為1。在幾周時間內分別進行的針對智商的測驗的信度大約為0.9。通過兩種不同類型的測驗來檢測智商通常表現出的信度都會高於0.8。兩位牙醫在信度低於0.8的時候會在一顆牙齒的鈣化程度這件事上達成一致。這意味著有可能會偶爾出現史密斯醫生要為你補牙而瓊斯醫生會讓你放任自流的情況。這樣看來,任何一位牙醫做出的診斷不會與其在不同場合的判斷完全相關。瓊斯醫生還可能會在周五時為你補牙,而在周二時不采取任何措施。
精子數量的信度是怎樣的呢?任何一種針對精子數量的測試的信度都比較低,因此你在不同測試中得到相同結果的可能性也較低。同時采取不同方式檢測精子數量可能得出完全不同的結果。
效度通常也是通過相關性來測量的。效度表明測量結果在多大程度上是研究者希望得到的結果。智商測試在表明小學生的課業分數和智商得分之間的聯係程度時有重要的效度,大約是0.5。(實際上,正是希望能預測學生們在課業上的表現,在20世紀初法國心理學家阿爾弗雷德·比奈才創製出了第一份智商測驗量表。)
有一點極其重要的準則需要注意,即如果沒有信度,就不存在效度。如果一個人對某個變量的判斷是不一致的(比如,一個人對變量a在某個場合的判斷與其對變量a在另一個場合的判斷不存在任何相關性),那麽這個人的判斷就沒有效度,意思是,這個人的這些判斷不能有效預測出變量b的情況。
如果用於測量一個給定變量的測試x和測試y的結果沒有達成一致,而且並非意外情況,那麽這些測試中最多有一種具有效度。但是,在沒有效度的情況下也可能有很高的信度。兩個人可能對他們的每一個共同朋友的外向性格都有極其一致的評價,但是這兩個人都未能準確預測這些朋友在不同場合會在多大程度上表現出外向性格(可以通過一些客觀的外向性標準,比如健談程度或是心理學家設計的量表)。
筆跡分析據說能夠測量出誠實度、勤奮程度、進取心、樂觀精神和其他一些品性。的確,任何兩份筆跡分析報告都可能在相當程度上達成一致(高信度),但是它們都不能預測任何與個性有關的實際行為(沒有效度)。(當然,筆跡分析在一些情況下會十分有用,例如在對一些中樞神經係統疾病進行醫學診斷的時候。) 統計性思維的關鍵:編碼
下麵我要提一些問題,看看讀者對於一些成對的變量之間的相關性有什麽樣的想法。具體而言,我會問你,假定在一個情景中a比b更關鍵,那麽在另一個情景中a比b更關鍵的可能性有多大。通過數學公式,你以概率術語給出的答案可以被轉換成相關係數。
如果對於下述任何一個問題,你說“50%”,那意味著你認為一個場景中的行為與另一個場景中的行為之間沒有任何聯係。如果你說“90%”,那你是說兩個場景中的行為之間有著極強的聯係。下麵的第一個問題是有關拚寫能力的。如果你認為某人在一個場景中表現出的拚寫能力與在另一個場景中的表現無關,那麽你會說“50%”。如果你認為兩者之間有著極強的聯係,你可能會說“90%”。請做出保證:針對以下的每一個問題寫下你的答案,或者至少將你的答案大聲說出來。
1.如果卡洛斯在四年級第一個月末的拚寫測驗中的得分高於克萊格,那麽卡洛斯在第三個月末的測試中仍取得較高分數的概率有多大?
2.如果朱麗亞在籃球賽季中的前20場比賽裏都拿到了比詹妮弗多的分數,那麽朱麗亞在接下來的20場比賽中仍拿到較高分數的概率有多大?
3.如果比爾在你第一次遇到他的時候表現得要比鮑勃友好,那麽你第二次遇到他時他仍表現得更友好的概率有多大?
4.如果在你眼中,巴布在前20次情形下比貝斯表現得更誠實(是否公平付賬,在玩棋盤遊戲時是否作弊,是否誠實告知在班級中的分數等),那麽在之後的20次場景中巴布仍表現得更誠實的概率有多大?
下表的數據表現了你剛才針對每個問題做出的相關性係數和對應的估計百分比。
從估計百分比到相關係數的轉換
這裏的數據基於我之前做過的研究。我已經了解了人在兩種場合下表現出的拚寫能力之間的關係,20次拚寫考試平均分數與另20次測試的平均分數間的相關性,某個人在不同場合表現出友好的感覺之間的聯係,在20個場合中表現出友好的平均狀況與另外20個場合的平均狀況的相關性,等等。
我確定你給出的答案符合下列的套路。
1.你的答案表明,你認為在籃球賽中,球員在20場比賽中的表現與另外20場中的表現高度相關,這種相關度高於一場拚寫測驗分數與另一場拚寫測驗分數之間的聯係。
2.你的答案表明,你認為在兩個場合中表現出的友好程度高度相關,不過這種相關和20個場合中的誠實度與另外20個場合中的誠實度之間的相關性同樣高。
3.你的答案還表明,人的品性在不同場景中表現出的一致性要高於能力上的一致性。
以上描述是從我和齊瓦·孔達所做的實驗中的大學生參與者那裏得來的。
請看下圖中的數據,你可以發現人們對於反映了能力(從拚寫測試和籃球比賽中得到的平均數據)的行為的推測更接近事實。人在兩個不同場合中的行為(拚寫或是在籃球比賽中得分)有一定相關性,大致是0.5。人們推測出來的關於那種關聯的重要性在金錢問題上也成立。
人們基於能力測驗(拚寫和打籃球)和品性測試(友好和誠實)得出的少量數據和大量數據而做出的相關性推測。
人們同樣認識到了大數定律對相關性的重要影響。如果你看一下許多行為的綜合得分情況,並將分數與另一些行為的得分情況相聯係,則相關性會更高。人們意識不到一係列行為的相關性究竟有多高,但是能明白可以從前20次行為推斷隨後的20次行為,且這種推斷的可靠性比從一次行為推斷另一次行為要高。
對比一下推測與能力有關的行為的準確性和推測與品性有關的行為的不準確性。人們認為人在不同場合中表現出誠實的相關性與不同情境中表現出友好態度的相關性都達到了0.8的係數!這其實是極其錯誤的。不同場合中人表現出的某種品性間的相關係數通常是0.1或更低,幾乎不會超過0.3。這裏所犯的錯誤是很嚴重的,而整個推理過程都充滿了日常生活中的謬誤(前述章節都討論過)。我們以為自己通過觀察人們在某個單一情境中的行為就能洞察其品性。犯這種錯誤的部分原因是基本歸因謬誤,我們也沒能認識到大數定律同樣也適用於對人所具有的品性的分析。我們總以為能從很小的樣本中得到許多信息,一方麵是因為我們傾向於低估場景中的環境因素,另一方麵是因為我們以為憑借一種情況就能得到充分的證據以推斷另一種情況,即使兩者大相徑庭。此外,我們還忽視了不斷增加的樣本量對整體情況的影響。如果你基於相當數量的場景觀察某個人與品性相關的行為,並將其在20個場景中的總體表現與在另外20個場景中的總體表現對比,則的確會有很高的相關性。問題在於,人們誤以為這種針對品性行為的大數定律對於小樣本量的行為也成立。
為什麽在以單一場景測量能力和品性時所得到的結果的準確性有如此大的差異呢?為什麽人們認識到了大數定律在準確測量能力相關行為的重要性,卻一再無視其在準確測量品性相關行為的關鍵作用呢?
秘密在於編碼。對於許多種能力我們都知道可以用什麽單位來衡量,並且能為它們賦值:拚寫正確單詞的比例;罰球的命中率。然而,評判友好的合適單位是什麽呢?每分鍾微笑的次數嗎?每次社交過程中“友好氛圍”出現的次數嗎?我們如何比較人們在周六晚上的派對上表達友好的方式與其在周一下午的委員會會議上釋放善意的方式?人們在不同情境下的行為方式是如此不同,以至在a場合中表現友好的方式並不能作為b場合中表現友好的標誌。而找出場合a中所有表現友好的標誌同樣很困難,甚至是不可能的。即使能窮盡所有可能,那我們也無法將a場合中這數量眾多的標誌與同樣多如牛毛的b場合中的標誌做比較。
那麽,如何才能正確推測與品性相關的行為呢?我們不必找到所謂正確的測量品性行為的單位,也不必窮盡所有表現品性的方式。心理學家通過研究來解決,而如果我們要做這種測量,那麽不必對某一個人提及具體原因,否則他們會覺得我們瘋了。(“我要為喬希在開會時以微笑表示友好的行為打18分,這是通過他嘴角上揚的次數乘以每次上揚的弧度得出的。你到底是在做什麽?”)
最有效地避免對某個人的行為做出錯誤推斷的方式是提醒自己,隻有當兩個場合的情境完全一致時,才可以憑借這個人在其中一個場合的行為推斷他在另一個場合中的行為。即便這樣做,你在進行推測時還是要格外小心。
還有一點或許能幫助你,即你要記住,自己在各種情境下並非總能保持一致。我敢保證,在某些場合見到你的人會認為你特別好,而在另一些場合見到你的人則覺得你簡直糟透了。並且你也不能責備那些批評你的人,因為他們一定是有依據的。隻要記住批評你的人自身也會既受好評又遭抨擊。你不太可能在下一個遇見此人的情境(可能與現在這個情境迥異)中以同樣的方式再現自己的人格特質。
更通俗一點兒講,你要能夠知道什麽能編碼,而什麽不能。如果你發現遇到的問題中的事件或行為無法即刻進行編碼或賦值,那麽就試著找一種途徑來編碼。做這些事純粹是為了提醒你一個事實,即人容易高估事件或行為的一致性。
關於本章和下一章所講述的主題,我能告訴你的最好的消息是,盡管我隻教了你們在幾個很小的領域中運用統計性思維,但是以我多年的研究經驗,我可以保證這些少量的例子就足以幫你在相當多的情境(可能看上去和我舉的例子不太相似)下進行理性思考,以統計性思維分析問題。
當我教授人們大數定律以解決那些可以通過統計工具進行分析的問題(例如彩票問題、投硬幣)時,他們解決那些隻會偶爾想到用統計思維解決的問題(例如可以客觀數據衡量的能力)的能力提升了。他們解決那些幾乎不會用統計思維解決的問題(例如衡量品性)的能力也提升了。而我教授那些可以客觀計分的能力的例子和那些更主觀、更難計分的例子時也收到了同樣的效果。教授人們某類問題的推理方法可以幫助他們提升在另一類問題上的推理能力。 小結
準確評估事物間的關係是極難之事。即便我們已經搜集好了數據,並進行了全麵的總結,也很有可能對共變的程度做出錯誤估計。確認偏誤就極易出現:如果一些a導致b,那麽我們很可能會認為a與b有關聯。然而要判斷a與b之間是否真正存在關聯,需要利用四重表比較兩種比例。
當我們試圖評斷一些我們沒有先驗概念的事物的相關性時,我們會對那些本無聯係或被武斷地聯係在一起的事件的相關性做出錯誤估計,認為其關聯一定很強。我們對於共變的觀察能力在那些相隔較長時間發生的事件上表現得很糟糕。
我們很容易受虛假相關影響。當我們評判兩個看上去可能有聯係的事件的相關性,或說我們期待發現兩者間的正相關關係時,我們可能會相信一種實際上並不存在的聯係。當事件之間的聯係不那麽可信時,即使實際上存在強相關,我們也可能看不到那種關聯。更糟糕的是,我們會顛倒事實,將正相關認作負相關,反之亦然。
典型性啟發法潛藏在我們的許多關於相關性認識的先驗假設中。如果a在某種程度上與b相似,我們就可能看到兩者間的關聯。可觸及性啟發法也會發生作用。如果那些a與b有關聯的場景更容易被我們記住,那麽我們就會高估兩者之間聯係的緊密程度。
相關性並不能建立起因果聯係,但如果存在一種貌似可信的原因解釋了a導致b,那麽我們很容易推測那種相關性的確建立起了因果聯係。a與b之間存在相關性可能是由於a引發了b,或b引發了a,或是第三種因素引發了a和b。我們常常忽略這其中的多種可能性。這裏的一部分原因是,我們無法認識到用因果關係的術語“解釋”相關性是多麽容易。
信度是指一個樣本在不同情境中或是以不同方式測量時得分相同的程度。效度是指一個測量工具能夠準確測出所需測量的事物的程度。對於某一給定的測量工具,其可能具有完美的信度,卻沒有效度。兩位占星師在“雙魚座的人比雙子座的人更外向”這個問題上的認可度一致,然而這種說法顯然沒有效度。
一件事情越是能夠通過編碼來分析,我們對其的相關性分析就越準確。對於那些易於編碼的事情,比如一些以能力高低而決定之事,我們對於兩個場景的相關性分析就會十分準確。我們還認識到當分析一些與能力有關的事情時,綜合許多場景的平均狀況推測另一些場景的平均狀況是更好的選擇,這比從單一場景推斷另一單一場景要更可信。即便是對於與能力有關的行為,我們還是沒能充分意識到,從單一場景推斷升級成從多個場景的平均狀況推斷能提高預測的準確性。我們推斷一些難以編碼的事件(例如與人的品性相關)之間存在強相關性,而實際上那種關聯並不存在。我們也比較少或是沒有意識到,基於大量觀察的預測的準確性要高於單一觀察。
當我們從人們過去的(與品性相關的)行為預測其未來的此類行為時,我們需要格外當心和謹慎,除非我們搜集的樣本規模足夠大且我們得到了多種情境下的事實。意識到有一些特定類型的行為是難以編碼的,可以讓我們保持警惕,即我們對這類行為的推斷很可能有誤。時刻以基本歸因謬誤的概念警示我們自身,我們便能意識到可能會犯籠統概括的錯誤。