南方网讯(记者 朱麒麟)日前,九州出版社出版了一本科普书《数字一点也不诚实:看穿复杂信息中的数据奥秘》。
日常生活中大量的统计数据,如比例、患病率、风险值等,大量或显性或隐性的数字可能会因误读或误用而歪曲事实真相,而“统计意识”对于理解它们并做出合理判断是必不可少的。 本书帮助读者了解数字中常见的22个错误和伎俩,这些错误和伎俩出现在很多情况下,例如评估的速度和重要性、准确性和排名,在收集和表达各种数字的过程中可能出现哪些偏差,以及“睡前看屏幕会杀人”等误导性信念, 以及应遵循哪些准则来负责值得信赖的统计工作。
关于作者。 汤姆·奇弗斯 (Tom Chivers) 是一位科学作家,自 2018 年以来一直在《每日电讯报》、《Buzzfeed》等**工作,然后成为自由职业者。 2024年,他获得了英国皇家统计学会颁发的“新闻'统计'优异奖”。 2024年,他获得了美国心理学会(APA)**奖,并入围了英国科学作家奖和英国科学写作新闻奖。
D**id Chivers是杜伦大学商学院经济学副教授,曾任牛津大学讲师。 在许多优秀的学术期刊上发表过文章。 研究领域包括不平等、增长和发展等。
精彩的书籍摘录。 数字也可能具有误导性。
虽然用统计数据撒谎很容易,但当你不撒谎时,撒谎就更容易了。 ——或来自统计学家弗雷德里克·莫斯特勒(Frederick Mosteller)
冠状病毒病给世界上了一门昂贵的统计概念速成课。 人们突然发现自己必须了解什么是指数曲线、感染致死率与病死率、假阳性与假阴性、不确定性区间。 其中一些概念显然很复杂,但即使是那些感觉应该简单的概念——例如死于病毒的人数——实际上也很难掌握。 在本章中,我们将看看一个看似简单的数字如何出乎意料地产生误导。
一开始,我们所有人都必须弄清楚的一个数字是“r值”。 2019 年 12 月,50 个人中可能没有两个人知道 r 值是多少,但到 2020 年 3 月底,主流新闻报道几乎没有解释 r 值。 然而,由于这些数字可能会以微妙的方式出错,因此读者会被告知 r 值的变化,这最终会导致误解。
这里有一个提示:r 是某物的“再生数”。 它可以应用于任何传播或复制的东西:模因、人类、打哈欠、新技术等。 在传染病流行病学中,r 值表示平均有多少人被某种疾病患者感染。 如果一种疾病的 R 值为 5,那么平均每个感染患者会感染另外五个人。
当然,这并不那么简单,因为它是平均值。 如果有 100 人,则 R 值为 5 表示每个人可能感染了 5 人也可能是其中 99 人根本没有感染任何人,但剩下的 1 人感染了 500 人;或介于两者之间的任何东西。
它也不会保持不变。 在新疾病暴发的早期阶段,当人群中没有人对病原体免疫并且可能没有任何应对措施(例如保持社交距离或戴口罩)时,当时的 R 值可能与随后的 R 值大不相同。 在疾病暴发期间,公共卫生政策的目标之一是通过接种疫苗或行为改变来降低r值,因为如果r值大于1,疾病将呈指数级传播,如果小于1,疾病将逐渐消失。
但也许你会认为,在谈论病毒时,当考虑到所有这些复杂因素时,有一个简单的规则:r值越高,越差。 因此,当英国**在 2020 年 5 月警告说,由于“疗养院感染激增”,“病毒的 r 值可能已经回升”时,您可能不会感到惊讶。
但正如您可能已经预料到的那样,事情有点复杂。
从 2000 年到 2013 年,美国的实际工资中位数(“实际”,即经通胀调整后)下降了约 1%**。 工资中位数**听起来像是一件好事。 然而,如果你把人口看成更小的子组,你会发现一些惊喜。 对于那些没有完成高中学业的人来说,工资中位数下降了79%;高中毕业生的工资中位数下降了47%;上过大学但没有获得学位的人的工资中位数下降了76%;对于那些获得大学学位的人来说,工资中位数下降了12%。
无论教育亚组如何,完成高中学业的人和未完成高中学业的人的工资中位数都在下降。整个人口的工资中位数也有所上升。
这是怎么回事?
事实证明,虽然拥有大学学位的人的工资中位数有所下降,但这个亚组的人数却显着增加。 结果,中位数采取了一个奇怪的方向。 这种现象被称为“辛普森悖论”,以英国密码破译者和统计学家爱德华·爱德华·辛普森辛普森),他在 1951 年描述了这种现象。这种现象不仅发生在中位数中,还发生在算术平均值中,但在我们的例子中,我们现在看中位数。
假设总数是 11。 其中三人高中辍学,年收入5英镑;3 人完成高中学业,年收入 10 英镑;3 名大学辍学生,年收入 15 英镑;2 人获得了学士学位,年收入为 20 英镑。 整个人口的工资中位数(即序列中间人的工资)为 10 英镑。
然后,有一年,人们大力推动更多人完成高中和大学学业。 但与此同时,每个亚组的平均工资下降了1英镑。 突然间,高中辍学者变成了年收入4英镑的2个人;高中毕业2人,收入9英镑;2 名大学辍学生,收入 14 英镑;本科毕业生5人,收入19英镑。 每个亚组的中位数都有所下降,但整个人口的中位数从10英镑上升到14英镑。 从2024年到2024年,美国经济也出现了类似的情况,只是数量更多。
这种现象出人意料地普遍。 例如,美国黑人比白人更容易吸烟;但是,当您控制教育水平的变量时,您会发现在教育水平的每个亚组中,黑人吸烟的可能性低于白人。 这是因为受过高等教育的亚组通常吸烟较少,而黑人在该亚组中的代表性不足。
还有一个著名的例子。 1973 年 9 月,8,000 名男性和 4,000 名女性申请加州大学伯克利分校的研究生院。 其中,44%的男性申请者被录取,而只有35%的女性申请者被录取。
但如果你仔细观察数据,你会发现,在这所大学的几乎每个系,女性申请者被录取的概率更高。 申请最受欢迎的院系的女性中有82%被录取,而男性申请者中只有62%。 第二受欢迎的部门录取了 68% 的女性申请者和 65% 的男性申请者。
现实情况是,女性申请的院系往往更具竞争力。 例如,一个部门收到了933份申请,其中108份是女性。 该部门录取了 82% 的女性申请者和 62% 的男性申请者。 与此同时,排名第六的部门收到了714份申请,其中341份是女性。 该部门只录取 7% 的女性申请者和 6% 的男性申请者。
但是,如果将这两个部门的数据结合起来,总共有449名女性申请者和1,199名男性申请者。 录取女生111人,录取率为25%;男性入院人数为 533 人,录取率为 44%。
这一次,分别看这两个部门,女性被录取的概率更大;但当这两个部门合并时,女性被录取的概率就更小了。
我们应该如何看待这个结果?这要视情况而定。 在美国工资的例子中,你可能会说总体中位数的信息量更大,因为美国的个人工资中位数已经上升(因为更多的美国人完成了大学和高中);你也可以说,无论她们申请哪个部门,女性通常比男性更有可能被录取。 但你也可以指出,对于那些没有高中文学历的人来说,情况更糟;您还可以指出,女性想要申请的院系显然资源不足,因为它们只能录取很少的申请者。 问题是,当辛普森一家悖论出现时,你可以用同样的数据来讲述截然相反的故事,这取决于你想表达哪个政治观点。 诚实的方法是表明这里存在辛普森悖论。
让我们回到冠状病毒的r值。 如果r值升高,则意味着病毒正在传播给更多的人,这不是一件好事。 然而,毫无疑问,现实要复杂得多。 有两种几乎不相关的“流行病”同时传播:疾病在疗养院和医院的传播与在更广泛的社区中传播不同。
由于没有公布确切的数字,我们不知道更详细的信息。 但是我们可以做另一个类似于先例的思想实验。 假设疗养院和一般社区各有 100 人患有这种疾病。 平均而言,社区中的每个病例都会将疾病传播给 2 人,而疗养院的每个病例都会将疾病传播给 3 人。 r 值(每个疾病携带者将被感染的平均人数)为 25。
然后我们进入了封锁状态。 随着感染人数的下降,R值也会下降。 但是,至关重要的是,社区的R值下降幅度大于养老院。 现在养老院里有90名感染者,每人平均会将疾病传播给2人9人,而社区有10名感染者,每个感染者平均感染1人。
现在,r 值为 271(((90×2.9)+(10×1))/100 = 2.71)。r 值上升了!但事实上,两个亚组的r值都下降了。
您如何看待这种现象?同样,我们发现答案不一定是显而易见的。 也许你更关心整体的r值,因为这两种流行病并不是完全相关的。 但答案肯定不是“如果r值上升,那就不好了”那么简单。
当你试图通过观察一群人的人均情况来理解一个人或亚群体时,就会出现“生态谬误”,这是一个更广泛的问题,辛普森悖论就是群体谬误的一个例子。 集群谬误可能比您想象的更普遍。 对于读者和记者来说,重要的是要明白,标题中的数字可能会掩盖更复杂的真相要了解这些数字的意义,您可能需要更仔细地分析它们。