陽明大學腦科醫學博士
台北榮總耳鼻喉部住院醫師、總醫師、主治醫師
教育部審定助理教授
考選部特聘國家高考命題委員
英國期刊主編及美國期刊副主編
國軍桃園總醫院耳鼻喉科主任
有些學者對於P值的濫用給予苛刻的批評,並嗤之以鼻,甚至給予一個稱號P-hacking (P值駭客),意思就是透過不斷的嘗試計算直到P值有顯著意義。批判者認為這是一種篡改或操縱P值的行為。這個批評觀點在某個角度而言是對的,立意也是良善的。然而,統計方法就像一把兩面刃,永遠可能有極端的人,利用它來做偏激、錯誤的行為,為賦新詞強說愁,製造假陽生的結果。為了避免這樣的行為,有信譽的期刊對於論文發表,就會以相當高的標準,要求作者在論文中詳細交代研究過程(可參考上一篇文章中的投影片第71到74張),以提高研究結果的可重複性與減少P-hacking的可能性。但即便如此,國際上依舊時有所聞不肖學者假造研究數據的新聞。
然而,我認為不能因此否定P值的內涵與價值,探求P值的統計顯著差異更不必然是一種原罪。只要在科研誠信的基礎上,遵循科學方法作研究,在數據的不同面向,利用統計方法作深度與廣度的分析,反而會有意外的收穫。科學上很多重大發現不也是誤打誤撞的意外嗎?
傳統的研究設計思維,就是預設某個假設成立,為了驗證這個假設,著手開始收案、蒐集資料。經過少則數月、多則數年的資料蒐集後,終於可以進一步統計分析,卻可能發現統計結果與當初的假設截然不同。當然,沒有統計顯著差異的結果,也是一種發現,依舊能發表論文,只是這樣的研究結果,不見得容易吸引審稿者的目光,刊登在高分期刊的機會或許會低一點。
或許有些批判者會說,只要能刊登,為何要在意期刊是不是SCI,影響因子(impact factor)高不高呢?的確,對於期刊影響因子是否能客觀衡量科學研究品質,學界有不同的論戰,主要是因為期刊本身可以透過操作而衝高影響因子,例如多刊登不納入分母計算的文章類別,或者增加自我引用次數以提高分子計算。加上2016年湯森路透(Thomson Reuters)把旗下的期刊影響因子業務轉讓出售後,進一步引發學術界對影響因子公信力的質疑。美國微生物學會(American Society for Microbiology)期刊還因此宣布不再於官網上公布影響因子,而包括Nature期刊在內的出版界甚至於同年聯文呼籲出版商應重造期刊評分系統,另外Google更於同年公布基於谷歌學術指標的新期刊排名。遺憾的是,這些抗議與反撲並沒有讓SCI走下神壇。因此,在更客觀、更具公信力的評分系統被學界接受之前,SCI仍是被學界採用的潛規則。
雖然不是每個研究者都能一年磨十劍(年發10篇論文),但我相信沒有人願意十年磨一劍。為了兼顧科學精神與研發效率,我的心得是,在既定的研究議題框架下,可以有多個假設,並盡可能羅列相關的變項,再開始收案或蒐集資料,並建立一個完整的資料庫(在我蒐集的資料庫中,變項少則數十個,多則上百個)。未來從這個資料庫中,可以衍伸出非常多個子主題。在統計分析時,同樣的問題可以嘗試不同的統計方法,若結果不同,則要分析可能的原因。例如,有時候在做多變量分析時,納入不同變項時,有時候P值有統計差異,有時候卻又沒有,可能的原因包括樣本數不夠大,卻導入過多的變項;也可能是變相之間有重疊性或相似性,必須汰除這種重疊變項。
在數據的不同面向,利用統計方法作深度與廣度的分析,反而更符合科學研究的精神。應受批判的不是經反覆驗證的統計結果,而是少數不肖學者的資料造假。統計分析是一個客觀的工具,不客觀的往往是主觀的批判。
然而,我認為不能因此否定P值的內涵與價值,探求P值的統計顯著差異更不必然是一種原罪。只要在科研誠信的基礎上,遵循科學方法作研究,在數據的不同面向,利用統計方法作深度與廣度的分析,反而會有意外的收穫。科學上很多重大發現不也是誤打誤撞的意外嗎?
傳統的研究設計思維,就是預設某個假設成立,為了驗證這個假設,著手開始收案、蒐集資料。經過少則數月、多則數年的資料蒐集後,終於可以進一步統計分析,卻可能發現統計結果與當初的假設截然不同。當然,沒有統計顯著差異的結果,也是一種發現,依舊能發表論文,只是這樣的研究結果,不見得容易吸引審稿者的目光,刊登在高分期刊的機會或許會低一點。
或許有些批判者會說,只要能刊登,為何要在意期刊是不是SCI,影響因子(impact factor)高不高呢?的確,對於期刊影響因子是否能客觀衡量科學研究品質,學界有不同的論戰,主要是因為期刊本身可以透過操作而衝高影響因子,例如多刊登不納入分母計算的文章類別,或者增加自我引用次數以提高分子計算。加上2016年湯森路透(Thomson Reuters)把旗下的期刊影響因子業務轉讓出售後,進一步引發學術界對影響因子公信力的質疑。美國微生物學會(American Society for Microbiology)期刊還因此宣布不再於官網上公布影響因子,而包括Nature期刊在內的出版界甚至於同年聯文呼籲出版商應重造期刊評分系統,另外Google更於同年公布基於谷歌學術指標的新期刊排名。遺憾的是,這些抗議與反撲並沒有讓SCI走下神壇。因此,在更客觀、更具公信力的評分系統被學界接受之前,SCI仍是被學界採用的潛規則。
雖然不是每個研究者都能一年磨十劍(年發10篇論文),但我相信沒有人願意十年磨一劍。為了兼顧科學精神與研發效率,我的心得是,在既定的研究議題框架下,可以有多個假設,並盡可能羅列相關的變項,再開始收案或蒐集資料,並建立一個完整的資料庫(在我蒐集的資料庫中,變項少則數十個,多則上百個)。未來從這個資料庫中,可以衍伸出非常多個子主題。在統計分析時,同樣的問題可以嘗試不同的統計方法,若結果不同,則要分析可能的原因。例如,有時候在做多變量分析時,納入不同變項時,有時候P值有統計差異,有時候卻又沒有,可能的原因包括樣本數不夠大,卻導入過多的變項;也可能是變相之間有重疊性或相似性,必須汰除這種重疊變項。
在數據的不同面向,利用統計方法作深度與廣度的分析,反而更符合科學研究的精神。應受批判的不是經反覆驗證的統計結果,而是少數不肖學者的資料造假。統計分析是一個客觀的工具,不客觀的往往是主觀的批判。
沒有留言:
張貼留言