谢国彤:当AI遇到医疗

2017/08/31

       IBM做医疗,核心只想解决一个问题——怎样利用数据挖掘和人工智能技术,从海量的医疗数据中挖掘证据,并利用这些证据给患者提供循症的个性化医疗服务。事实上,数据分析技术从它诞生的第一天起就与医疗密不可分,现在很多人工智能技术的基础,如概率论的发明,最早就是为了解决欧洲疫苗接种问题。


医疗数据爆炸


       当前医疗AI热门的一个重要原因是医疗数据爆炸。医疗数据分析包括三大类数据——临床数据、基因数据和大健康数据。


       临床数据,就是医院产生的数据,病人去医院做检验、开药、拍片都会产生数据。有测算表明,临床数据对人体健康会产生10%的影响。基因数据,就是与生俱来的数据,对人体健康的影响占30%。其实有很多人都在做基于基因的诊断,包括肿瘤治疗。比如,当年安吉丽娜·朱莉做乳腺切除,就是因为经过基因测序发现了遗传变异。大健康的数据,是指在医院和基因之外的所有与健康相关的数据,包括饮食、运动、工作、在社交媒体上发泄的情绪等数据。医疗数据分析就是要从海量的医疗数据中,寻找医学证据,并利用这些证据为病人提供更加个性化的临床治疗。


       IBM目前主要做三件事:第一,做一个医疗数据云,将医疗数据存储起来;第二,对医疗数据进行深度计算和分析,并做成模型;第三,针对不同类型的医疗领域客户,打造具体软件和解决方案。


       在医疗领域,我们主要解决两方面问题。一是解决多模态医疗数据的存储问题。医疗数据是多模态数据,有结构化数据,如化验单、处方;也有半结构化的数据,比如住院小结、出院小结、病例中大量的文本等;还有完全无结构化的数据,如医疗影像;也包括像基因测序这样的组学数据;还包括时间序列数据,如在ICU里的患者插着各种各样的仪器,测量出的血压、心率、脉搏等各种流数据。这些数据是不同模态的,有些数据适合用关系型的数据存储,有些数据适用时间序列数据存储。目前,没有一种单一数据模型能够覆盖这种多模态的医疗数据。如何建立云平台去处理多模态医疗数据,这是需要解决的第一个问题。


       二是安全和隐私问题。医疗数据是非常隐私的个人数据,如何对这些数据进行保护,这是云平台一定要做好的。欧美一些国家都有针对医疗数据保护的法规,根据法规,医疗数据中约有二十几项关键的隐私数据,比如姓名、住址、电话、身份证号等,在进入数据管理库时必须要打马赛克,同时进行强加密,使数据即使被泄露也无法解密。此外,对所有的数据访问都要有一套严格的访问控制,以保证数据安全。


       在分析层,我们也主要做两件事情。第一,是对多模态医疗数据的分析。现在还没有一种单一的技术对所有数据都进行完美的分析。所以,目前针对不同类型的数据,有不同的分析方法,有些数据适合用深度学习的方法,有些采用时间序列的方法,有些适用回归分析的方法,或者分类的方法,聚类的方法等。


       第二,分析与医疗领域相关的一些特定问题。分析数据中疾病风险因素,如何做疾病预测与预防,如何对患者进行精准分群,对患者进行个性化治疗,何种方案对患者有效等。从解决方案的角度来看,医疗是一个非常复杂的行业,包括医院、医生、药厂、医疗设备制造商、健康管理机构、医疗保险公司等各个方面,他们的诉求是不一样的。因此,我们必须要针对不同类型的客户做出不同的解决方案,这就可以利用底层的云平台和分析技术。在解决方案里,我们有针对医院等医疗机构的解决方案,包括肿瘤的个性化治疗、医院影像分析等;有针对药企做新药发现和上市药物有效性、安全性的分析;还有帮助健康管理机构对常见的慢性病人群(高血压、糖尿病、慢性肾病)以及多种并发性慢病的患者进行管理的解决方案等。通过过去两年的收购,IBM目前的平台上已拥有超过2亿美国人的医疗保险数据,超过1亿美国人的电子病历数据,超过10亿张的医学影像,美国几十个州的慢性病管理数据。将这些数据关联起来做分析,就会发现它们具有非常高的价值,因为任何单一数据源是无法支撑全面的应用的。


认知决策


       认知决策并不是新话题,从人工智能诞生的第一天起就有专家系统了,专家系统无非就是把专家的知识变成计算机可以执行的规则。是不是这样就能看病了呢?现实并非如此,从书本中学到的知识往往是比较抽象的,而实际使用的时候就会面临各种各样具体的问题。以糖尿病治疗为例,学习指南告诉你,在使用了双胍类药物后病人血糖还是控制不住时,应该用双胍和磺脲类药物联合治疗。但具体该怎么联合呢?并不清楚。


       我们开始尝试另一条路径,就是运用数据驱动和各种各样的模型去做基于数据的推荐。简单地说,就是医生看到类似病人的治疗方法、治疗效果从而可以获得类似的治疗方案,这样的做法优势在于所有知识都是从数据中获得的,数据推荐最接地气。当然,它也有缺点,因为数据往往是有漏洞的。


       医生读书能将一些理论框架和一些非黑即白的知识挖掘出来,但真实世界很复杂,复杂在哪呢?就是数据这里。因为医疗不是非黑即白的事,面对患者往往会有多种选择,每种选择都有优缺点,各种选择应用到患者身上的效果也是不确定的,简单来说就是概率。优秀的医生往往在毕业后通过大量实践学习,在自己的大脑中构建了一个概率模型,从而在具体情况下准确判断出何种选择是最有效的,而这恰恰是计算机非常擅长的。


       因此,最后我们用指南和临床知识作为一个骨架,从数据中获取各种疾病筛查、诊断、治疗等相关的概率模型,把它作为血肉添加到指南的骨架中,从而搭建了一个非常完整的临床决策知识库。


颠覆治疗


       目前,中国慢性病患者超过3亿,其中包括2.6亿高血压患者,1亿糖尿病患者,1亿系统疾病患者,还有慢性的肿瘤患者。这些患者主要依靠约100万的社区医生来管理,这对社区医生来说是一个巨大挑战。因此,我们搭建了一个系统,并应用到慢性病管理领域中。


       我们选择了两方面的应用。一是疾病预防。我们帮助医生将有并发症风险的高危患者尽可能挑出来,让医生实施预防性的手段,从而降低病人的痛苦,同时也降低医疗成本。二是治疗。我们主要考虑如何将临床知识,和我们从上百万糖尿病患者既往的治疗数据中挖掘出的证据结合在一起,给医生一个最好的针对性治疗方案。我们将这个系统与医生使用的电子病例整合起来,目前已有6000名患者使用这个系统进行治疗,且还在持续增长。


       系统会自动按风险将患者排列出来,同时,病人为什么会有风险,风险模型是什么,哪些数据导致他产生风险等,系统都会显示出来,并通过数据挖掘和分析向医生做治疗推荐,显示类似的病人使用的治疗方案及效果。系统将这些从数据中挖掘出来的信息与指南知识结合在一起推送给医生,可以帮助他们更加有效地对慢性病患者进行管理。


       系统还模拟社区医生对患者进行随访。患者降压药是否按时吃,血糖是否有变化,医生需要对这些信息实时监控,并督促患者。这些工作以前是由人工进行的,所以需要培训大量护士,开展随访工作并提供健康管理服务。现在我们考虑能否利用两个关键技术来解决这个问题。第一,对话技术。我们并不是要做一个通用聊天机器人,而是做一个虚拟护士,自动随访高血压、高血脂、高血糖病人,采集病人相应的信息,同时一旦发现病人有情况立即生成预警。第二,问答技术。这与春雨、好大夫等很多医患沟通网站不同,春雨、好大夫等网站上的问题大多与饮食、运动、作息、药物副作用、药物之间不良反应有关,并不是核心的诊断和治疗问题。而我们希望用问答技术帮助患者及时找到最值得信赖的信息。患者的问题往往是五花八门的,因此我们在不同层级上使用深度学习技术,将问题进行分类并做相似性匹配,使之达到较好的效果。


       系统会生成随访报告,其中包括采集到的较为关键的体重或者血压血糖信息、患者的用药信息等,帮助管理师更好地对患者进行疾病管理。同时,系统会利用决策功能,在发现有风险的时候及时通知患者和医生,提醒患者去医院就诊或者对患者进行及时干预,避免酿成大祸。


       但是,一定要把专业的医学知识和靠谱的分析手段结合在一起,谨慎地选择数据,选择人群和所要分析的任务。要心存敬畏,才可能做出靠谱的医疗AI。

关闭