2009年3月3日星期二

從 Monty Hall problem 看維基百科

上週與弟弟聊天,不知怎的扯到維基百科的準確性上面。弟弟敏銳地指出單單不準確還好,它不準確之餘而人們又當它為權威,還將它的文章抄來抄去,這種瘟疫式 (viral) 的以訛傳訛才是大問題。我近日因為寫天九,發現網上不少文章都「抄考」了中文維基百科那條非常有問題的天九條目,故深有同感。

維基百科一般的問題是有文化偏見。譬如執筆時,中、英文的麻雀條目竟然以「麻將」為遊戲名稱,而「麻雀」是 "alternative name"。須知「麻將」是後來才有的稱呼,主要為普通話地區所用,但「麻雀」卻是本名,也是香港、廣東及日本人至今仍一直使用的叫法。維基百科以大陸為師這種「煲冬瓜-ism」於牽涉中華文化的文章中可說無處不在。

至於其他關於政治或文化的文章,無論是中外的維基百科條目,讀者差不多永遠都要留疑三分,這也是常識。

不過我一直以為,凡是統計、數學或理工科條目,除了少數與政治尤關的(例如全球暖化)例外,維基百科的資料應該都非常可靠。這不是說維基百科一定沒錯,而是說有關錯誤應該很容易被發現。

直至我今早閱讀 Monty Hall problem 條目時,想法才有點改變。

Monty Hall problem 是一道以一位美國遊戲節目主持人 Monty Hall 為名,非常著名的概率謎題:
假設你參加一個遊戲節目,遊戲有三道門,其中兩道背後的獎品都是一隻山羊,而另一道背後是一架名貴房車。你選了其中一道門 ── 譬如說一號門。跟着,知曉房車所在的主持人打開了另一道門 ── 譬如說三號門 ── 露出了一隻山羊。主持人問,你願意轉揀二號門嗎?你應該轉換還是不轉換才有利?
謎題的答案是不轉換的話,贏得房車的機會有 1/3,而轉換的話有 2/3,因此應該轉換。大部份人都答錯這道題目,以為無論是否轉換,贏得房車的機會都是一半,不過若你答錯了的話也不必自卑,因為連超級多產的已故天才數學家 Paul Erdős (歷史上,除了十八世紀的大數學家 Euler 之外,恐怕沒有人及得上 Erdős 那麼多產;現在所謂六度分離 six degrees of separation,其中一個淵源就是講某些人與 Erdős 之間連繫着幾多個合作者)也一樣答錯。

英文維基提供的解答,大致上無錯,不過還是有幾項問題,反映出維基百科的弱點:

1) 該文章依然有錯,而且還是在貢獻者明說沒有錯的情況下犯錯。這道謎題有一個通俗的解答:
Often the next explanation is given: Players initially have a 1/3 chance of choosing the car and a 2/3 chance of choosing the goat. Players who stick to their original choice therefore have only a 1/3 chance of winning the car (and a 2/3 chance of getting a goat). Players who switch always get the opposite of their original choice so they have a 2/3 chance of getting a car (and 1/3 chance of getting a goat).
而維基百科就這樣評價這個通俗解答:
This reasoning applies to all players at the start of the game without regard to which door the host opens, specifically before the host opens a particular door and gives the player the option to switch doors ...

... Although the reasoning above is correct it doesn't answer the precise question posed by the problem, which is whether a player should switch after being shown a particular open door.
Well, 我應該怎樣評價維基百科這個評價呢?或者這樣說:
Although Wikipedia correctly points out that the commonplace reasoning is misplaced, it hasn't noticed that such reasoning is in fact wrong. Consider an alternative scenario in which the host opens Door 3 whenever possible. Then the same reasoning applies and it still gives the same probability of winning by switching as 2/3. However, as mentioned in the section "Sources of confusion", when the player chooses Door 1 and the host opens Door 3 in this case, the probability of winning by switching is only 1/2.

The commonplace reasoning is wrong because it doesn't take into account how the host behaves, so it cannot explain why the answer is 2/3 in one case but 1/2 in another.
本來有錯就改便好了,但是要修正以上的段落,你可能要和無數的貢獻者辯論,作了的修改亦可能被其他人還原。這突顯了一般由同儕互審 (peer-reviewed) 的學術刊物與維基百科的分別:前者的結果較可預測 ── 文章的審稿員數目總有上限,而文章刊出後一般亦不會再作修改;而後者的結果是不肯定的。嚴格來說,我們不可以說「根據維基百科 ……」,而只可以講「執筆時,根據維基百科 ……」。

2) 即使是數理科目,也牽涉文化歷史,而有關的討論就像其他文化或政治討論一樣,難以說服所有人。結果最常見的情形,就是不管當中有多少問題,大部份人認同的想法都會被當成正統。前述的「煲冬瓜-ism」是一個例子,而這裏有問題的是 Bayesian probability。文章用 Bayes Theorem 來計算謎題的答案時這樣說:
In Bayesian terms, a probability P(A|I) is a number in [0,1] associated to a proposition A. The number expresses a degree of belief in the truth of A, subject to whatever background information I happens to be known.
學過統計學的人都知道一般人都把 Bayes Theorem 與 subjective probability 扯在一起,與 frequentist approach 對立。這其實是誤解。Bayes Theorem 的精粹在於某事件的概率可以用另一些事件的概率間接計算出來。換句話說,用 Bayes Theorem 針對的不是概率的本質 (subjective 或 objective/frequentist),而是獲得概率的手法究竟是直接還是間接。用它計算出來的概率到底是 subjective probability 還是 objective probability,要視乎計算所用的另一些概率本身是 subjective 還是 objective。即使是 frequenist interpretation,也可以使用 Bayes Theorem。

不幸地,許多人習慣將一些 subjective probability 稱為 Bayesian probability,令其他人混淆了 Bayesian probability 與用 Bayes Theorem 計算出來的 posterior probability。雖然維基百科的 Bayes' theorem 條目嘗試澄清這點,但是由於這種誤解太過根深柢固,我們幾乎無法防止它進入「自由的百科全書」之中。要是嚴謹的學報,審稿員應會提醒作者小心遣詞用字;要是自家寫的文章,作者亦可一以貫之。

3) 由於人人都可以修改,維基百科文章除了很難保持通順之外,亦很難對內容分輕重。以 Monty Hall problem 的解答為例,最簡明的其實是用了決策樹 (decision tree) 的那個解答,而文章展示的那個圖解,其實相當難明。然而一般人都有以圖為先的傾向,因此明明是較差的解,卻放在較重要的位置。

另一個例子,是文章太強調問題的答案和解答方法,可是 Monty Hall problem 最困難的地方,其實不是解題方法,而是解題者能否正確地定下用作計算的一些初始數值。舉例說,如果主持人根本不知道房車在那道門的話,房車在一號門或二號門背後的機會都是 1/2 而不是 2/3。這情形可以用 Bayes Theorem 以同樣的步驟分析,唯一差別只是 Pr(the host will open door i | the car is behind door j) 這些用作輸入的條件概率數值不同。不幸地,整篇文章都沒有強調這點。

講咗咁耐,忽然間覺得噏咁多嘢好鬼廢。維基百科其實好似民主制度,它廣納百川,但不能產生最佳的結果,亦不能防止佔多數者的偏頗。一句講晒,盡信(百科全)書不如無書。

1 則留言:

Unknown 說...

同意 因此百科全書只能作參考 不能作根據