郭錦龍醫師的分享部落格 (Dr. Kuo’s Blog): P-hacking (P值駭客)

2020年9月10日星期四

P-hacking (P值駭客)

耳鼻喉科郭錦龍醫師

陽明大學腦科醫學博士
台北榮總耳鼻喉部住院醫師、總醫師、主治醫師
教育部審定助理教授
考選部特聘國家高考命題委員
英國期刊主編及美國期刊副主編

國軍桃園總醫院耳鼻喉科主任

有些學者對於P值的濫用給予苛刻的批評，並嗤之以鼻，甚至給予一個稱號P-hacking (P值駭客)，意思就是透過不斷的嘗試計算直到P值有顯著意義。批判者認為這是一種篡改或操縱P值的行為。這個批評觀點在某個角度而言是對的，立意也是良善的。然而，統計方法就像一把兩面刃，永遠可能有極端的人，利用它來做偏激、錯誤的行為，為賦新詞強說愁，製造假陽生的結果。為了避免這樣的行為，有信譽的期刊對於論文發表，就會以相當高的標準，要求作者在論文中詳細交代研究過程(可參考上一篇文章中的投影片第71到74張)，以提高研究結果的可重複性與減少P-hacking的可能性。但即便如此，國際上依舊時有所聞不肖學者假造研究數據的新聞。

然而，我認為不能因此否定P值的內涵與價值，探求P值的統計顯著差異更不必然是一種原罪。只要在科研誠信的基礎上，遵循科學方法作研究，在數據的不同面向，利用統計方法作深度與廣度的分析，反而會有意外的收穫。科學上很多重大發現不也是誤打誤撞的意外嗎?

傳統的研究設計思維，就是預設某個假設成立，為了驗證這個假設，著手開始收案、蒐集資料。經過少則數月、多則數年的資料蒐集後，終於可以進一步統計分析，卻可能發現統計結果與當初的假設截然不同。當然，沒有統計顯著差異的結果，也是一種發現，依舊能發表論文，只是這樣的研究結果，不見得容易吸引審稿者的目光，刊登在高分期刊的機會或許會低一點。

或許有些批判者會說，只要能刊登，為何要在意期刊是不是SCI，影響因子(impact factor)高不高呢?的確，對於期刊影響因子是否能客觀衡量科學研究品質，學界有不同的論戰，主要是因為期刊本身可以透過操作而衝高影響因子，例如多刊登不納入分母計算的文章類別，或者增加自我引用次數以提高分子計算。加上2016年湯森路透(Thomson Reuters)把旗下的期刊影響因子業務轉讓出售後，進一步引發學術界對影響因子公信力的質疑。美國微生物學會(American Society for Microbiology)期刊還因此宣布不再於官網上公布影響因子，而包括Nature期刊在內的出版界甚至於同年聯文呼籲出版商應重造期刊評分系統，另外Google更於同年公布基於谷歌學術指標的新期刊排名。遺憾的是，這些抗議與反撲並沒有讓SCI走下神壇。因此，在更客觀、更具公信力的評分系統被學界接受之前，SCI仍是被學界採用的潛規則。

雖然不是每個研究者都能一年磨十劍(年發10篇論文)，但我相信沒有人願意十年磨一劍。為了兼顧科學精神與研發效率，我的心得是，在既定的研究議題框架下，可以有多個假設，並盡可能羅列相關的變項，再開始收案或蒐集資料，並建立一個完整的資料庫(在我蒐集的資料庫中，變項少則數十個，多則上百個)。未來從這個資料庫中，可以衍伸出非常多個子主題。在統計分析時，同樣的問題可以嘗試不同的統計方法，若結果不同，則要分析可能的原因。例如，有時候在做多變量分析時，納入不同變項時，有時候P值有統計差異，有時候卻又沒有，可能的原因包括樣本數不夠大，卻導入過多的變項；也可能是變相之間有重疊性或相似性，必須汰除這種重疊變項。

在數據的不同面向，利用統計方法作深度與廣度的分析，反而更符合科學研究的精神。應受批判的不是經反覆驗證的統計結果，而是少數不肖學者的資料造假。統計分析是一個客觀的工具，不客觀的往往是主觀的批判。

郭錦龍醫師的分享部落格 (Dr. Kuo’s Blog)

2020年9月10日星期四

P-hacking (P值駭客)

沒有留言:

張貼留言

2020年9月10日 星期四

P-hacking (P值駭客)

沒有留言:

張貼留言

2020年9月10日星期四