坏数据与没有数据:捍卫ProPublica

274年股票

推特

ProPublica的调查记者7月发布了分析17000年的外科医生和他们的并发症发生率。被称为外科医生计分卡,它引发了一场风暴。在之后的几个月里,主要的反对记分卡变得清晰,是最好的蒸馏很棒一块丽莎·罗森鲍姆。谁是我推特知道,我是一个喜欢丽莎,她确实需要在卫生政策趋同思维和敏锐地发现,通常是由简单的复杂问题的答案。

当丽莎写一块去内脏ProPublica的努力,我在想,我缺少什么呢?为什么我如此喜欢的努力当那么多人我钦佩——从Rosenbaum彼得·普罗诺沃斯特,最近,其他的作者吗兰德报告——非常重要?意见时外科医生记分卡,理性的人却不这么认为,因为他们从不同的视角。这是我努力提炼我的。

透明的价值是什么?

每个人都支持透明度。即使是最神秘的组织要求。但透明度的价值经常被误解。有强烈的证据那大多数消费者还没有,至少到目前为止,使用质量数据在选择供应商。但这并不是什么使透明度很重要。它是有价值的,因为它促进问责制医生更好的照顾。我们医生已经做了一个可怕的工作政策。我们都知道医生是“007年代”——授权给杀了。我们什么都不做。如果明天我需要一个医生,我将找到一种方法来避免他们,但这是小安慰大多数美国人,不能简单地把他们的医生朋友真正的独家新闻。即使病人不会看质量数据,医生通常应该做。

数据对性能改变我们工作的文化。透明度传达给患者,性能数据不是特权信息,我们医生要保持自己。告诉医生,他们有责任。从长期来看,这对性能有深远的影响。在我们的研究纽约的心脏手术,透明度开许多最糟糕的外科医生的系统——他们移动,停止练习,或者变得更好。不是因为消费者使用它,而是因为文化和环境改变时,糟糕的表现成为难以证明。

不是坏数据比没有数据?

一个重要的批判ProPublica的努力是它代表“糟糕的数据,”外科医生的错误分类是如此糟糕,比没有数据。ProPublica的数据所以有缺陷,他们表示“坏数据”?我不这么认为。索赔数据可靠地确定去世或重新。ProPublica使用这两个指标-大大减少由于某些原因死亡和作为代理人的并发症。这些指标是完美的并发症的措施?不。正如卡尔Bilimoria和其他人若有所思地指出——如果医生排放患者早期,她的并发症大大减少而可能导致医生B,谁让他的病人在医院内部不再会看到并发症。外科医生会比外科医生B同时拥有相同的并发症率。虽然这可能是一个更大的问题对于一些手术相比,选择性的底线是,ProPublica考察的过程中,大多数并发症诊断后放。

同样,彼得·普罗诺沃斯特指出,如果我有人倾向很高的承认,我更愿意重新接纳一个人比我的同事用温和的术后蜂窝织炎,虽然这可能很适合我的病人,我可能会升到ProPublica指标同样的并发症。但这是一个问题所有再入院的措施。这些问题限制在ProPublica方法吗?是的。有一个简单的方法,他们可以适用于解决其中任何一个?我能想到的。

但真正的问题是:这两个限制,或任何其他上市的兰德报告有问题,整个的努力是无效的?不。如果你需要一个医生为你妈妈的胆囊手术,她住在塔希提岛(你可能不知道任何人),外科医生ProPublica“并发症率”为20%,和外科医生B并发症率2%,没有任何其他信息,你真的认为这是一文不值?我不会。

现实测试来自心脏外科医生研究我提到从纽约的状态。作为这项研究的一部分,我大约30外科医生有不同的性能。没有一个说报告卡贴错了标签,一个伟大的外科医生是坏的。我听说过外科医生一直在压力下,或透明度不公平或死亡并不是一个好的指标。我听到的噪音数据,但是没有信号的否认。在今天的争论ProPublica,我看到一个类似的主题:很多抱怨的方法,但没有证据表明不是有价值的结果。

但是让我们考虑的选择。如果ProPublica报告是如此糟糕,他们有负值吗?虽然我认为这是不正确的,我们的反应是什么?它应该为正确的数据创建一个强大的动力。当风险调整未能占疾病的严重程度,正确答案是提高风险调整,而不是放弃整个工作量。坏数据应该引导我们更好的数据。

误解假定值的价值和置信区间

置信区间的一个例子显示在外科医生计分卡。

另一种流行的批评ProPublica的记分卡是其置信区间宽,一条线的推理,我相信误解了假定值和置信区间。让我们回到你的妈妈,住在塔希提岛和仍然需要胆囊手术。如果我告诉你,我是确保外科医生比平均水平80%,我80%地肯定,外科医生B是低于平均水平。你认为这是无用的信息?因为批判,ProPublica报告的95%置信区间宽,要求我们95%确定断言拒绝零假设。这个门槛有悠久的历史背景和重要目标是不使1型错误(不要某人是一个糟糕的外科医生,除非你真的确定他或她是坏的)。但如果你想避免2型错误(这就是病人想要的,不要让一个坏医生,即使你可能会错过一个好的),假定值为0.2,80%置信区间看起来不错。当然,置信区间的批判主要来自医生能得到很高的确定性通过调用他们的医生朋友和发现是好的。这是一个观点问题。外科医生担心被贴错标签,95%置信区间都合适。 But for the rest of the world, a p-value of 0.05 and 95 percent confidence intervals is way too conservative.

最后一点的记分卡——也许最重要的是:这根本上是烈性酒,ProPublica开始值得肯定的过程。兰德报告概述了一系列潜在的缺陷,每一个都是值得考虑的,在某种程度上,这是合理的,ProPublica应该在下一次迭代解决它们。说,一个关键的价值ProPublica努力是它推出了一个重要的讨论我们如何评估和报告手术质量。老方法——是特权的所有信息,只知道医生——消失了。这不是回来了。这是批评的问题:我们如何向前推进建设性地与病人建立信任的方式,促进供应商改善,重病患者,不要妨碍访问吗?我没有魔法公式。但我们需要讨论。

披露:外科医生的发展早期阶段的记分卡,有人问我(以及其他一些专家)ProPublica的方法提供指导。我做了,没有收到赔偿我的输入。

阿施施Jha卫生政策和管理副教授,哈佛大学公共卫生学院,波士顿,MA。他的博客一盎司的证据并可以在Twitter上找到@ashishkjha。

图片来源:Shutterstock.com