续集通常令人失望。杰森在《13号星期五》中所引起的恐惧是无法与之相比的。的sequeL到"降落伞,这篇讽刺文章仔细研究了PubMed将降落伞与安慰剂进行比较的随机对照试验(rct),与它的才华相当——甚至超过了它,尽管差距无法用统计意义来证实。在英国医学杂志的圣诞版上发表的这首“降落伞”将和乔纳森·斯威夫特的降落伞一起载入史册温和的建议和弗雷德里克·巴斯夏的制蜡人的请愿书正如教育学在上面打出的永恒的讽刺,实际上取决于它们的荒谬。
在《降落伞》一书中,研究人员面无表情地总结道,由于没有随机对照试验测试过跳伞时使用降落伞的效果,因此没有足够的证据推荐使用降落伞。乍一看,这个笑话是关于随机对照试验和那些对随机对照试验有无限热情的人。但这是一个讽刺的结论。当然,有些人希望对一切都进行随机对照试验,对他们来说,缺乏证据就意味着没有证据。但那是因为一个更大的问题,那就是我们拒绝承认因果关系是有程度的——灰色的阴影——然而因果关系有时是黑白分明的。小明是不言而喻的。
在医学上,因果关系,即使不是相关性,也常常是概率性的。即使是可怕的脑疟疾也不会杀死所有人。如果你不带降落伞从1万英尺的高空跳下死亡不是概率,而是肯定的。我们知道这一点,尽管缺乏严格的经验主义。这是常识。我们需要可靠的科学来梳理可能性,而因果关系越灰色,经验主义就必须越可靠,才能赋予治疗以正确的量化效益,这种可靠科学的典范就是随机对照试验。当经验主义冒险进入确定性,它就不再是可靠的科学。它是模仿。
如果股动脉被划破血喷涌到天花板比百乐宫的喷泉更猛烈你不需要随机对照试验来证明止血的必要性,即使最终所有的出血都停止了。但如果你要测试你使用的细缝合线中哪一种更适合缝合股动脉你就需要一个随机对照试验。关键是治疗效果——仅仅是止血的行为就是一个降落伞,一个巨大的治疗效果,在随机对照试验中进行测试是愚蠢的。在高治疗效果的基础上进行改善,即使是小幅改善,也需要进行随机对照试验。医学史就是降落伞和更精致的降落伞的历史。当新的降落伞据说比以前的更好时,rct就变得很重要了。
讽刺降落伞的重点是,显而易见的东西不需要经验证据。这是一个关于非判断主义,或判断的平均主义的笑话,关于客观真诚但故意naïve零假设,在我们有数据之前,所有事情都是同样可能的。
目前还没有随机对照试验(RCT)表明,排出碎屑后清洗臀部比安慰剂效果更好。这是我们每天的降落伞。然而,东方的一些人可能有理由抗议西方的清洁方法优于他们没有精心设计的RCT的手洗和用水的方法。好吧,信息太多了。另外,我不确定这样的随机对照试验是否可行,因为交叉率如此之高,没有任何倾向匹配会调整擦拭的意图,但你明白我的意思。
最初的讽刺作品《降落伞》(Parachute)如今已成为民间传说,而且h指数令人印象深刻。它被引用超过1000次也是具有讽刺意味的——笑话是关于h指数的,这是一个有严重缺陷的指标,但被严肃的学者非常严肃地对待。但这也意味着,要让一个笑话进入同行评审刊物,你的笑话需要有引用!这个笑话也开在了毫无幽默感可言的评论者2身上。
降落伞比喻的问题是,许多医生希望他们的宠物治疗,相信它是一个降落伞,免除RCT。这也是非判断主义的结果,这是一种科学的相对主义,每一个灰色的阴影都认为自己是黑与白。一个医生的降落伞就是另一个医生的伞。这部分是rct试图解决的问题的结果——治疗效果是概率性的。当附加的边际如此之小时,降落伞就很难被确凿地反驳。你不能排除降落伞的可能。
病人:我应该感谢上帝把我从心源性休克中拯救出来吗?
心脏病专家:事后看来,我认为那是一个降落伞。
病人:这个降落伞有名字吗?
心脏病专家:我们称之为Impella。
病人:要赞美这刺。
心脏病专家:等等,可能是Swan Ganz导管的问题。也许是两个降落伞救了你。或者三个,如果算上安定。
随机对照试验的问题在于就均衡达成一致——一种真正不确定的状态,即干预是否有净收益。平衡是一个棘手的问题,暴露了降落伞的问题。如果两个教条的心脏显像师都确定心脏CT和SPECT分别是疑似缺血的最佳一线检查,那么就有了平衡。他们对各自的模式都很确定,但这并不会减少平衡。他们彼此之间的分歧如此激烈,只是证实了双方的平衡。关键是当一个医生认为干预是降落伞而另一个认为是伞时,这是一种平衡。
平衡,一个最大的不确定性区域,是一个战区。我们对最小效应大小的看法极不一致。没有人争论降落伞的功效。要做随机对照试验,你需要对平衡达成共识。但平衡的第一条规则是,有些人认为不存在平衡——这就是紧张的症结所在。如果他们认为SPECT是一个降落伞,你就不能招募心脏成像仪来进行多中心随机对照CT,比较心脏CT和SPECT。
共识不可避免地转向最小的公约数。举个例子,当我的家人计划出去吃饭时,我的妻子——她喜欢法国菜更好的味道,我的孩子们——他们美国化的口味喜欢披萨,而我——我的尼安德特人口味渴望山羊咖喱之间发生了激烈的分歧。我们争吵,然后我们在家里吃米饭和扁豆。共识是一个机会均等的扫兴者。
平衡已经变得平淡无奇,随机对照试验,而不是大胆的,往往招募最低风险的患者进行干预。rct已经变成了具有波将金村(Potemkin village)普遍性的精心设计的展厅。《Parachute》的续作是一个多中心的随机对照实验(RCT),参与者被随机分配到降落伞和背包中。没有跨界。没有违反协议,但有个厚脸皮的圈套。飞机在地面上。因此,第一个降落伞的随机试验,动力让我们发笑,是一个无效的试验。
点。但他们的观点是什么?简单地说,如果不需要的话,降落伞是无用的。他所传授的教学方法之所以引起轩然大波,正是因为审判的荒谬。如果你想推广一项随机对照试验,你必须选择正确的病人,有病的病人,你会在他们身上使用你正在测试的治疗方法。你必须保持平衡。这就是他们的观点,说得很好。这个笑话不在随机对照试验上,而是在平衡试验上。平衡现在是最安全的空间;大学年龄、害怕笑话的千禧一代会嫉妒的。 Equipoise is bollocks.
有些人对《降落伞归来》的讽刺褒贬不一,有些人则听得出惊愕。虽然可能只有我一个人,而且不可否认,我发现逗德国人笑起来比逗美国人容易,但我对这些研究人员的来源感到惊讶。他们来自波士顿,以严肃的量化社会工程师而闻名,而不是以单口喜剧演员而闻名。2022卡塔尔世界杯预选赛排名嘲讽你的偏见是最好的讽刺作品。
定量科学甚至变成了戏仿,或者特别是当它们不打算戏仿的时候。一个无休止地引用研究医疗事故是导致死亡的第三大原因研究人员从仅仅35名患者中估计了全国医疗事故的负担。这是经验版的给众人——新约里的故事,五个面包和两条鱼,喂了5000人。人们怎么能认真对待研究人员呢?我不能。我没有反驳,除了讽刺.
在前所未有的数据驱动的理性主义时代,讽刺作品使判断得以延续。公平地说,作为定量科学的把关人,统计学家对讽刺的处理能力比医生更强。高斯分布具有内在的荒谬性。例如,因为身高服从正态分布,而且钟形曲线的尾部不断延伸,一个定量纯粹主义者可能会得出结论,一个成年人比路灯高的可能性非零。我们的判断表明,这不仅不可能,而且是不可能的。高斯可能会说,不要从字面上理解我,我是说统计上,我只是一个近似。
一位统计学家曾经证明鹳接生的不能从经验上证伪。的确,在欧洲,活产儿和鹳之间存在相关性。相关系数为0.62,p值为0.008。放射科医生在阅读胸部x光片时希望彼此之间有这种程度的相关性。开玩笑的不是鹳鸟,而是简单的线性回归。在所有“相关性不是因果关系”的智慧中,“鹳接生婴儿”的教学价值是无价的。
如果说信仰始于科学理解的终点,那么讽刺则标志着统计学确定性的边界。讽刺作品标志着评判仍占统治地位的禁区——这一领域比许多人想象的要大。不确定性的讽刺之处在于,当差异最小的时候,我们对治疗差异的真正本质是最不确定的。很容易看出珠穆朗玛峰比马特洪峰高。但需要更复杂的测量才能确认洛子比马卡鲁高。定量科学所要求的复杂程度与它试图证明的效应大小成反比。这就好像数学在让我们吃一颗冷静的药丸。
不确定的半影是永恒的火焰。尽管传统观点认为足够大的样本量可以消除不确定性,但即使大的n也会产生问题。著名心理学家和超级研究员保罗·米尔推测当样本量接近无穷大时,有50%的几率我们会拒绝零假设。在大样本量的情况下,一切都变得具有统计学意义。n小则增加不确定性,n大则增加不相关性。多么有诗意的交易啊!如果心理学研究存在重现性问题,那么流行病学就是一个巨大的忽视。
当我们的努力变得力不量力时,讽刺就会抬起它荒谬的头。讽刺是我们的制衡。我们试图从定量科学中得到太多东西。讽刺作品标志着经验主义应该远离的领域。如果经验主义成为讽刺的朋友,它会更伟大,因为讽刺使我们谦逊。
荒诞与严肃共存,就像《动物庄园》(Animal Farm)结尾的一幕中猪和农民彼此相似,已经不可能再把真正的严肃与废话区分开。这就是为什么我们比以往任何时候都更需要讽刺。
恭喜《英国医学杂志》让讽刺作品活了下来。
Saurabh Jha是放射科医生,可以在推特上联系到他吗@RogueRad.本文的一个版本最初发表于卫生保健的博客.
图片来源:Shutterstock.com