在任何教育环境中,都有一组流行语创建一个通用词汇表。医学专业的学生经常听到“从实验到临床的研究”、“循证医学”和“富有同情心的护理”。与此同时,商学院的学生们不停地谈论“调整目标”、“颠覆性创新”,当然还有“协同效应”。
这两所学校最常使用的词汇之一就是“大数据”。其理念是,有了更大、更快的计算机和新的分析技术,我们现在可以筛选大量信息,从而产生新的见解。
有无数的应用。例如,电子健康记录导致了健康数据的数字化,临床研究人员正试图使用这些信息来确定预测疾病的特征、对治疗的反应和许多其他变量。同样的技术可以用于企业数据集,将业务决策(如定价)与消费者行为联系起来。
因此,数据分析被认为是解决医疗和商业领域复杂问题的灵丹妙药。
这种共同的兴奋让我对大数据有了一些思考。首先,它强调了商业和医学领域的许多决策目前都是基于直觉而不是证据。虽然领导者尽最大努力用数据来支持推理,但有时数据是不可得的。
最近的一次报告普华永道(PricewaterhouseCoopers)的调查发现,高级管理人员主要依靠直觉和经验做决定。类似地,公司通常根据焦点小组中少数人的反馈来推出产品,因为他们无法测试更大规模的反应。
医学在使用数据和基于随机对照试验(rct)创建循证指南方面做得更好。但在治疗病人时,医生也必须经常依靠从轶事经验中得出的临床判断。事实上,一个研究发表在《公共科学图书馆·医学》杂志上的研究发现,只有31%的心血管风险管理建议得到了高质量随机对照试验的支持。
大数据之所以令人兴奋,是因为它可以使决策更加严格。有了足够的历史信息,就有可能建立预测未来结果的模型。
说到这里,我的第二个认识是,我们需要谨慎对待来自大型数据集的见解。在任何统计课上,第一课都会包含“相关性不等于因果关系”这一说法的一些变体。这一说法不会因为数据“大”而变得不正确。
预测模型是有用的工具,但它们并不总是有效。谷歌流感趋势提供了一个有益的例子。2009年,谷歌发布了一个信发表在《自然》杂志上,宣布他们已经开发出一种算法,可以根据大量谷歌搜索样本跟踪流感爆发。他们的方法非常准确,比CDC快得多,后者根据医生的报告跟踪流感爆发。
评论人士称赞该工具是大数据领域的突破,是未来到来的标志。但在几年之内,它不再工作.与流感爆发相关的搜索词不再相关了。到2015年,谷歌流感趋势关闭.这很快导致了关于大数据的缺陷.
像这样的例子并不能证明大数据是失败的。相反,它们展示了发展解释数据的技能的重要性。人们倾向于相信新的统计工具可以在黑盒中实现(由像谷歌这样的公司),我们可以简单地使用从中得到的任何东西。
我希望这种心态能够改变。无论是医生还是CEO,决策者都需要适应数据日益增长的作用。分析技术只有在正确应用时才有用,这意味着我们需要理解它们基本假设仔细考虑如何处理这些结果。
幸运的是,我的经验表明,商学院和医学院都在让学生们做好应对这一现实的准备。虽然我们还在早期大数据革命毫无疑问,它将塑造医学、商业等领域的未来。
这项Pathipati是写博客的医科学生吗范围,这篇文章最初出现在那里。
图片来源:Shutterstock.com