最近,我和一个“少即是多”的倡导者交谈。他用他卓越的统计学知识——他有公共卫生硕士学位——揭穿了随机对照试验。我们讨论了过度诊断、过度治疗和医学科学的不稳定性。
我们谈到了衡量医生的质量。我说质量指标和Garcinia Cambogia一样多的证据——我们刚刚还在嘲笑奥兹医生,我以为会有人窃笑。相反,他变得明显不舒服,用一种严肃的语气,给我讲了医学研究所(IOM)的报告《人孰能无过》(To Err is Human)。
这位医生是循证医学(EBM)的权威,他有一个盲点。他斥责心脏病医生过度使用心脏起搏器。他相信医师质量报告系统的有效性。他鄙视大型制药公司推广他汀类药物。他是维护认证的热衷者。他既是一个狂热的怀疑论者,又是一个忠实的信徒。
与他相比,我对统计的理解是谦虚的。但我生性怀疑。我对很多事情都持怀疑态度,包括(不一定是这个顺序):65岁时服用的他汀类药物、空心舞、地狱火、英格兰足球队、质量指标、筛查(这让我放射科的同事很懊恼)、大祭司、中祭司、硬盘自燃,以及未来学家。我愿意相信这是因为我是一个寻找真相的黑暗骑士。现实是,我只是个愤世嫉俗的蠢货,在一个雨下得毫无悔意的岛上长大。我的怀疑每天都在冒犯一个独特的人。
然而,药物和器械的世界与质量和价值的世界之间存在着分裂。对于前者,仔细检查是著名的——这是一个科学家的标志。对于后者,仔细检查是不被认可的——这是一个不懂仔细检查的医生的标志。卫生保健科学的一个角落是如何成为当代医学许多理性怀疑论者的克星的?
我认为这是道德目的的冲突。关于ProPublica的外科医生记分卡(SS)的持续争议暴露了这种紧张。哈佛医学院的内科医生兼研究员阿希什·杰哈(Ashish Jha)精彩地阐述了这一点。阿希什在公开场合勇敢地为ProPublica的努力辩护。勇气是我最欣赏的品质。当然,我对“Jha”的期望不会降低。
以下是关于党卫军争论的一些紧张点。
1.有错误的数据总比没有数据好。ProPublica用来给外科医生打分的数据不完美的几乎没有争议。完美是善的敌人,这是一个值得铭记的真理。从长远来看,给外科医生打分将带来透明度,产生更好的数据,并对文化产生积极的改变。
那么ProPublica是透明领域的保罗?诚实的仲裁者肯定必须承认这种可能性,尽管他必须警告说,事实可能并非如此。时间会证明一切,时间也需要时间来证明一切。然而,武断地断言这种可能性就是断言一种信念——这种信念不是建立在证据上,而是建立在希望上。
2.外科医生有统计学意义。Ashish让我们注意到一个误导很多人的梗:p必须小于0.05。这是基于我们历史上对两种错误的容忍——错误地认为药物无效和错误地认为药物有效。循证医学是在医学中过度的治疗乐观主义之后出现的。因此,我们选择了错误的治疗悲观主义:将十种有用的药物制成罐头,总比将一种无用的药物推向市场要好。
党卫军会给一个好的外科医生和一个坏的外科医生贴上错误的标签。有人似乎认为,适用于药物的显著性水平并不适用于外科医生。我们宁可给一个好的外科医生贴上错误的标签,也不要给一个坏的外科医生贴上错误的标签,因为一个坏的外科医生会伤害她的病人。如果要我在挽救一个好外科医生的声誉和挽救病人的生命之间做出选择,我会选择病人。难道你?
唉,事情没那么简单。没有外科医生是一座孤岛。让我们忽略那些被错误地贴上好标签的外科医生和她的家人所遭受的损失——我们正在剥夺现在和未来的病人接受她的服务的权利。在有限系统中,我们面临取舍。这不是最严格意义上的权衡,因为它两边都有相同的单位。也就是说,我们伤害的是那些永远看不到被错误贴上“好”标签的外科医生的病人,而不是那些被正确贴上“坏”标签的外科医生。这仍然可能产生净正平衡——也就是说,我们挽救的病人可能比伤害的病人多。但这充其量是近似代数。
3.乔戈里峰可能比珠穆朗玛峰还高。你要确定喜马拉雅山脉和喀喇昆仑山脉的平均海拔更高。你随机测量20座山的高度。取样的山脉是否能真实地反映山脉的情况还不确定。
但是你知道测量的单位——英尺——是用来测量高度的。你知道30英尺高的建筑比15英尺高。如果测量单位并不总是身高的一个属性呢?如果30英尺的建筑比15英尺的建筑小呢?现在又引入了另一个不确定性。你将不再知道珠穆朗玛峰是世界上最高的山,而不是K2。想象一下珠穆朗玛峰上的不公。
这正是SS的问题所在。测量单位通常不是它所测量的属性。外科医生的记分卡之于外科医生的表现,还不如一英尺之于一座山的高度。
许多人误解了这带来的错误。这并不是说一个真正糟糕的外科医生就能随机地成为一个真正好的外科医生。那就是,一个糟糕的分数并不意味着一个糟糕的外科医生,一个好的分数也不意味着一个好的外科医生。在概率方面,may not = 1-may。
4.你的选择是什么?科学。对于质量指标的批评,一个常见的回应是:“你有什么替代方案?”因为“不要浪费时间使用无用的参数”并不是一个可行的选择,所以那些持怀疑态度的人就会因为缺少一个不那么糟糕的参数而感到羞愧而沉默。该回应认为,衡量质量是如此必要,有总比没有好。这种假设,无论是否合理,都损害了衡量质量的科学。
考虑一种无效的疟疾疫苗。如果没有其他选择,它的无用性是否会减弱?它本身是无用的还是有用的?如果疫苗的开发者说:“你有什么替代这种不起作用的疫苗?要么开导我,要么闭嘴。”但研究人员并没有这么说。这就是为什么药物改进了,疫苗出现了,但质量指标却没有改善的原因。
没有替代方案的批评可以被合理地驳回。在泰坦尼克号沉没的时候,讨论救生艇的最佳尺寸是愚蠢的。质量运动是在引导我们为沉船寻找救生艇,还是在设计一艘更好的船?如果是后者(这是我的理解),质量指标需要更多的科学,而不是说教。
科学要求质量指标必须像药品或医疗设备一样接受严格的审查。这意味着其开发者必须承担举证责任。正如我的责任不是证明一种药物不起作用,而是制药公司证明它起作用一样,证明这些指标无用的责任也不是怀疑论者的责任。这些指标的支持者有责任证明它们的有效性,而不是条件反射地让持怀疑态度的人参考IOM关于医疗事故的报告。
我们因为主观性的不确定性而回避主观性。为了客观,我们需要科学。科学通过拥抱不确定性而进步。但不确定性是我们希望通过质量指标表现出来的确定性的诅咒。这是衡量质量的第22条军规。
衡量质量的支持者必须决定质量是一项群众运动还是一门科学。如果是一场运动,它需要倡导。它必须散发出不言而喻的高贵。它必须吸引真正的信徒。它必须立刻打消怀疑者的疑虑。这不是一个孤立的策略。然而,运动不能同时要求尊重科学和享受艺术评论家的外壳。
ProPublica呢?它的遗产是质量科学的进步还是运动的鼓舞?不管怎样,它有自己的道德问题需要解决,具有讽刺意味的是,这是一个透明度问题。
据我所知,保罗·里维尔以身作则。ProPublica也会。它可以在记分卡上添加免责声明。“这项工作正在进行中。这些数字可能会产生误导,尤其是对于那些我们没有完全跟踪其并发症的外科医生。”还有什么比清楚地说明一个人的方法的局限性更透明的呢?
当然,透明始于家庭。
Saurabh Jha是一位放射科医生,可以在Twitter上联系到他@RogueRad.本文最初发表于医疗博客。