两年前,前美国总统巴拉克•奥巴马(Barack Obama)宣布精密医学项目在他的国情咨文。主动追求一个医学的“新时代”在疾病治疗可能是专门针对每个病人的遗传密码。
这共鸣良好在癌症药物。患者已经可以管理他们的癌症疗法这一目标的具体特定肿瘤的基因改变。例如,女性乳腺癌的一种放大造成的HER2基因通常是处理一个叫做赫赛汀治疗。因为这些有针对性的疗法是针对癌症细胞,他们往往有更少的副作用比传统癌症治疗与化疗或放疗。
然而,这种治疗方法不适用于大多数癌症患者。在许多癌症中,特定的基因改变负责癌症仍然未知。创建个性化的癌症治疗,我们必须知道更多关于功能性基因改变。
与癌症遗传学数据快速增长,数学和统计可以帮助解开隐藏在这些数据的模式发现的基因负责个人的癌症。有了这些知识,医生可以选择适当的治疗,阻断这些基因的作用对个别患者个性化治疗。我的研究目标是提高精密医学在癌症——通过建立在相同的方法被用来发现模式在Netflix电影评级。
筛选数据
今天,有前所未有的公众对癌症遗传学数据的访问。这些数据来自慷慨的捐出肿瘤的患者样本进行研究。科学家们然后测序技术应用于测量20000个基因的突变和活动在每个人类基因组。
所有这些数据的直接结果人类基因组计划在2003年。这个项目确定序列的基因构成健康的人类DNA。完成这个项目以来,已经对人类基因组测序的成本每年减少了一半以上,超过了描述的计算能力的增长摩尔定律。这种成本降低使研究从癌症患者收集前所未有的遗传学数据。
大多数科学研究癌症基因进行全球发布他们的数据集中,公共数据库提供的美国国立卫生研究院(NIH)国家医学图书馆。美国国立卫生研究院国家癌症研究所和国家人类基因组研究所也自由释放基因数据来自11000多个肿瘤33通过一个项目叫做癌症类型癌症基因组图谱。
每一个生物功能——从从食物中提取能量愈合伤口,结果从不同的基因组合的活动。癌症劫持的基因使人们能够长到成年,保护身体的免疫系统。研究人员称这些为“癌症的标志”。这个所谓的基因失调使肿瘤生长失控,形成转移在遥远的器官从原始肿瘤部位。
研究人员正在积极利用这些公共数据发现的基因改变集负责每个肿瘤类型。但这个问题不是那么简单识别单个每个肿瘤特异表达基因。成百上千个,20000个基因在人类基因组中特异表达于癌症。群特异表达的基因变化在每一个病人的肿瘤,一般以小套重用基因使每个癌症标志。
精密医学依靠发现特异表达基因的较小的团体,负责在每个病人的肿瘤生物功能。但是,在不同的上下文中可能有多个基因的生物功能。因此,研究人员必须发现一组“重叠”基因,在一组的癌症患者常见功能。
基因状态与功能需要复杂的数学和巨大的计算能力。这些知识是至关重要的预测结果疗法将阻止这些基因的功能。那么,我们怎样才能发现那些重叠特性预测病人个体的结果吗?
Netflix可以教会我们什么
幸运的是,这个问题已经解决了在计算机科学。答案是一种叫“矩阵分解”的技术,你可能已经与这些技术在你的日常生活。
在2009年,Netflix举行了一场挑战为每个Netflix用户个性化电影评级。Netflix,每个用户都有一组不同的等级不同的电影。虽然两个用户可能有相似的品味在电影,他们在特定的流派可能大相径庭。因此,您不能依赖比较评级从类似的用户。
相反,和类似的评级矩阵分解算法发现电影中一个较小的用户组。每部电影的用户组会有所不同。计算机将每个用户与一群电影在不同的程度上,根据个人的口味。用户之间的关系被称为“模式。“这些模式从数据,可能会发现仅靠电影流派共同排名不可预见的——例如,用户可以共享一个偏爱某个导演或演员。
相同的过程可以在癌症。在这种情况下,测量基因失调类似于电影评级,电影类型生物功能和用户病人的肿瘤。电脑搜索来找到模式在病人肿瘤基因失调导致每个肿瘤的恶性生物学功能。
从电影到肿瘤
电影评级之间的类比和癌症遗传学分解的细节。除非他们是未成年人,Netflix用户没有限制在他们看电影。但是,我们的身体而不是倾向于减少基因的数量用于任何单一的功能。也有大量的基因之间的冗余。保护细胞,一个基因可能轻易替代另一个常见的函数。在癌症基因功能更加复杂。肿瘤也高度复杂和快速变化,根据随机癌细胞之间的相互作用和邻近的健康的器官。
考虑到这些问题的复杂性,我们已经开发出一种矩阵分解方法协调基因集,简称CoGAPS活动模式。我们的算法占生物学的极简主义将尽可能少的基因整合到每个肿瘤的模式。
不同的基因也可以代替,每个服务类似的函数在不同的上下文。考虑到这一点,同时CoGAPS估计统计基因功能的所谓的“模式”。这使我们能够计算每个基因的概率被用于每个肿瘤的生物功能。
例如,许多病人服用一种叫西妥昔单抗的靶向治疗延长生存在结直肠,胰腺癌、肺癌,口腔癌。我们最近的研究发现,这些模式可以区分基因功能癌细胞应对代理从那些不西妥昔单抗靶向治疗。
未来
不幸的是,癌症治疗靶基因通常不能治愈病人的疾病。他们只能延缓了几年。大多数患者复发,肿瘤治疗不再回应。
我们自己最近的工作发现模式,区分基因功能的细胞对西妥昔单抗包括产生抗药性的基因。新兴免疫疗法是有前途和治疗某些癌症。然而,往往,这些疗法的患者复发。新数据,跟踪治疗后癌症遗传学基本确定为什么病人不再回应。
随着这些数据,癌症生物学也需要新一代的科学家可以弥合数学和统计数据来确定基因变化发生耐药。在其他领域的数学、计算机程序能够预测长期的结果。这些模型通常用于天气预报和投资策略。
在这些领域,我自己的先前的研究,我们发现从大型数据集更新模型,如卫星数据在天气的情况下,提高长期预测。我们都见过这些更新的影响,与天气预测提高风暴越接近我们。
就像计算机科学使用工具既可以适应电影推荐和癌症,未来一代的计算机科学家将采用预测工具从数组的精密医学领域。最终,这些计算工具,我们希望预测肿瘤的治疗反应通常我们预测天气,也许更可靠。
助理教授伊多数时候是肿瘤生物统计学和生物信息学,马里兰州巴尔的摩约翰霍普金斯大学。这篇文章最初发表在谈话。读了原文。
图片来源:Shutterstock.com