预测土耳其大地震之后三年中国发生强震的为什么稳赚不亏

2023-02-13 星期一

一早几次看到这一篇,没有地质学和地震研究学术背景的我来带大家看看这篇对论文的“解读”有什么问题。

1,诉诸权威,树立权威  

原作者在介绍这篇论文的时候,强调了它是“国家地震局专家团队”发表在“国家地震研究核心权威期刊”上。

那我们看看发表这篇论文的《地震》杂志是不是能被称为“权威期刊”。学术权不权威,不是大众评审出来的,而是同行评出来的,也就是所谓“同行评议(peer review)”,毕竟现代学术研究已经高度专业化了,隔行如隔山,只有同一研究领域的学术同行才最有能力评价一个科学家。虽然对同行评议的有效性争议也很大,但是目前没有更好的替代评价方法。同行评议是怎么实现的呢?并不是在饭局上互相吹捧。一个指标就是论文的“引用数”,什么叫引用呢?就是我研究某个领域,一查论文数据库,原来已经有人对它做过研究发表过论文了,我一看人家论文,大大点了个赞,在我的研究里就引用了人家的研究方法或者研究结论,加上我对这个问题的新想法新研究新结论,发表了一篇新的论文。这就是一个引用。被引用数越高,说明这篇论文被同行认可的程度越高,在这个领域越重要,一些开山立派的论文,引用数往往会上万甚至几十万上百万。

比如我们生物学界,1977年桑格那篇DNA测序方法的论文被引用数快十万了,他也因为这个研究拿到1980年的诺奖,开启了生物信息学的时代。


如果一本学术杂志里发表的论文,被引用数都很高,那说明这本杂志就越“权威”,经过一番统计学处理,这种权威性体现在“影响因子”上。虽然唯影响因子马首是瞻被学术界痛恨,但就像同行评议一样,现在也拿不出更好的评价论文和期刊的办法。

我到翟天临博士不知道的“知网CNKI”搜了一下这篇论文发表的中国地震局地震预报研究所(注意,并不是中国地震局)主办的《地震》杂志,它的综合影响因子为0.8,这意味着在上面发表的论文,有很多,或者大多数一个被引用都没有。

与之相比,中国地震台网中心主办的《中国地震》杂志还要比它高一点。

在中文学术期刊领域,相关方向更权威的是中科院地质所主办的《地球物理学报》。


不太好的学术期刊上未必就不能出高质量论文,比如前面我提到桑格那篇论文,就发表在《美国国家科学院院刊》PNAS上,PNAS的影响因子是十几,很厉害了但还远不是顶级期刊,像《细胞》、《自然》、《科学》这几本所谓顶刊,影响因子都在六七十的水平。

我查了一下这篇论文的引用情况,在全球学术数据库Google scholar里,它被引用2次。在国内学术数据库CNKI里,它被引用6次
所以,“卓越,有重大意义”,至少地震研究的学术同行可能并不这么认为


2、曲解统计、断章结论

这篇论文里说的很清楚,作者也并不明晰欧亚地震带活动与我国地震活动之间关系存在的物理机制,所以只是一个统计分析。通过分析从1900-2011这111年的地震数据,研究者发现“如果某一年欧亚地震带中七级以上地震释放能量占全球七级以上地震释放能量50%以上时,未来三年中国发生七级或以上地震的可能性大”。


多大呢?“在10%显著水平下通过显著性检验”。这里有一个没有经受过科学训练的朋友最容易犯的错误,那就是论文里的“显著”和日常语言中的“显著”,俩字一模一样,意思并不一致。有两件事,前后脚发生了,后一件事是不是因为前一件事而产生?也就是俩事有没有因果关系,这是现代科学要解决的最主要的问题


解决不了,就是迷信。今天穿了条红内裤,早上出门捡了五毛钱,那我明天也要穿红内裤。今天上场踢球的时候左脚先踩进了球场,赢了,下次我还要左脚先进。感冒了,背了两遍满江红,感冒好了。下次感冒我还要背。冰激凌最近销量很好,入室盗窃案子也跟着多了,那我就不让卖冰激凌了。


如何检验两件事的发生是真有因果关系,而不是随机发生的相关性事件?首先,单凭一次很难说清楚,事情发生的次数越多,越能确定它是不是随机的。扔两次硬币,都是菊花朝上,说明不了啥。要是扔了一万次,九千九百九十九次都是菊花朝上,你就可以比较拍胸脯说这个硬币可能有问题。也就是说,数据的数量是个基础,在这个基础上,数学家还发明了很多统计学工具,这些东西是所有有志于做学术的朋友都绕不过去的必修内容。比如论文里提到的“显著性检测”,为了防止读者读不懂,作者很贴心的对这个检测做了一点科普,这在学术论文里倒是也不太常见。那个科普大抵是可以的,10%的显著性水平也就是说按你这个模型去推而广之,出错的概率是10%。大家写论文的时候往往会默认读者明白,大多数时候甚至用一个符号来取代那几个字,“10%的显著性水平下通过测试”被写成α<0.1。这个可靠性怎么样呢?至少在我们生物学领域,这样的可靠性结论是没法发表论文的,即便是水刊,如果做不到α<0.05,也是没什么可能被接收。而且,现在大家更多用更严苛复杂的另一个参数p值,来衡量数据的可靠性。p<0.05,是每个学术民工的噩梦,p不小于0.05,根本不配叫显著。跟同行评议、影响因子一样,p值是不是真的可靠,也是这些年在学术界吵得沸反盈天的话题。同样,不完美,但是暂时没有更好的方案。


其实这也是地震研究的一个天然缺陷,地震虽然并不罕见,但是数量依然很难满足统计学的可靠性检验需求。其他学科比较容易做实验,通过对照来获得大量数据,而地震研究就很难。这也是我们迄今为止不能很准确预测地震的主要原因。

你看上图里的那一组数据。从1900到2011,111个数据点,中国大陆没发生过7级以上地震的年份是65个,发生过的是56个,这已经接近猜硬币正反面了。为了能让数据“更可靠”,作者还把这些年份三个一组绑在一起,这下好了,37个“三年里没发生7级以上地震”的数据点只有7个。你咋不“五年里”、“十年里”呢。


其实,论文作者应该很清楚数据的质量问题,所以在论文结尾最后一句话里,特别加了“免责声明”---“另一方面”,“慎重而为”。

而那位投行朋友截图就给“不小心”丢了这一句。这种“统计学游戏”,倒是很符合某些投ji者的喜好。


诶?我怎么还讲起粤普了呢。


原文地址:点击