医疗大数据的整理和挖掘,是全世界都感兴趣的话题。居民人口数量和电子病历储存量数一数二的中国,在医疗大数据领域具有得天独厚的优势。
每年80亿人次的诊疗量,都在为医疗大数据这座宝库增加含金量,但是“掘金”并不是一件容易的事情。
运用以NLP为主的人工智能技术,大数医达在医疗大数据领域已耕耘三年有余。回顾公司发展历程,大数医达创始人邓侃博士表示,前三年都在研发中度过,为合作医院建立智能搜索引擎,一方面满足其科研、管理等需求,一方面打磨自己的医疗大数据平台。
大数医达业务流程图
如今,凭借处理4亿份三甲医院病历数据以及大量医学指南建立的医疗知识图谱,形成覆盖400多种科室常见疾病的临床路径和诊疗模型,已经成为大数医达的内核,并开始探索在不同场景实现落地。
不管是从HIMSS评级诉求、还是临床应用角度来看,临床辅助决策支持产品(CDSS)需求呈现持续上升之势,而且传统HIS厂商没有AI技术背景,也不会投入精力做高质量CDSS产品,大数医达已经做完底层数据库和逻辑的搭建,有机会进入这一市场。
CDSS是针对医生诊断场景的辅助诊疗工具,通常是HIS系统的模块之一,通过HIS厂商进院是大数医达正在尝试的一条比较顺畅的道路。
当前,互联网医疗作为解决医疗资源分布不均衡问题而兴起,患者对线上诊疗的接受度和需求在提升,但是优质医生资源匮乏的根本性矛盾没有解决。大数医达能够为线上诊疗提供基础的问诊和诊疗建议,完成最基础的症状梳理,再由医生提供最终的诊断,大大减轻互联网医疗平台医生的压力。
除此之外,大数医达打造的这套核心系统还能用于药店导购,地方卫健委建立居民健康档案并进行健康管理,以及为保险产品设计、核保等提供参考。
近期,爱分析对大数医达创始人兼CEO邓侃博士做了访谈,详细探讨了大数据在处理医疗大数据方面的思路和方法,以及在应用场景方面的布局和探索,现将部分精彩内容与大家共享。
邓侃,美国卡内基梅隆大学(CMU)计算机学院博士,专攻人工智能和数据挖掘,历任美国甲骨文公司(Oracle)主任系统架构师、百度高级总监。
医疗大数据处理
爱分析:搭建上层应用之前,大数医达需要对海量医疗数据做哪些处理?
邓侃:可以理解为医院内部的搜索引擎,完成两件事情。
第一是提取,收集所有数据库上的所有数据文件,不需要信息化厂商的配合,将所有数据文件提取到私有云上,医疗数据不出院,安全才有保证。
第二是解析,因为没有跟信息化厂商合作,所以不知道底层数据库是什么,是查房记录还是家族病史。
例如,患者于十年前无明显无明显诱因出现头昏乏力,食欲明显下降,曾有晕厥一次,昏厥前无意识障碍,当时无心慌、眼花、耳鸣、活动后气促、心悸、胸闷,无发热、畏寒、寒战、咳嗽、咯痰、腹痛、腹泻,未行治疗。
这是一段常见的病史描述,但是要让计算机能够识别和判断的话,就需要精确解析为有时间、症状、病史等相关的结构化表述方式。
爱分析:构建同义词词库,大概需要多大的数据量?
邓侃:我们第一期采集了大概两亿份病历,数据量越大越好,现在大概有四亿份病历数据了,目前还在不停的增加。
在采集过程中,我们也发现不同地区的医院,对于同一疾病的名称、症状等表述有明显的差异。像北京、广东、上海等不同区域的医学院偏向于用不同的词组。
爱分析:知识图谱中逻辑关系,主要是机器学习的结果,还是会参考医学逻辑?
邓侃:医学知识必不可少,首先是刚才说说过的纠偏作用,其次是作为辅助医生的工具,给出的建议,需要经过医生的确认,医生需要对自己的行为负责。机器给出的建议要有临床依据,而不是神经元权重。
所以数据库底层会有医学指南,我们收集了400种常见病的所有医学指南、教科书、专家建议等,最终根据患者的个人信息、既往病史,以及当前病情,包括症状、包括体征、化验单等,根据临床指南和机器学习到的诊疗路径,给出结果,是非常智能的搜索引擎。
爱分析:如何看待国内医疗数据的质量问题?
邓侃:有三个层面。首先,严格意义上来讲,国内的医疗数据存在过度治疗问题,比如说糖尿病,将一千份病历叠加在一起,排在前面的比如二甲双胍等肯定是有疗效的,至于其他一些补中益气之类辅助的都排在后面,说明可能不是那么必须,但是几乎大部分的病历,多少都会附带这种药物。
这种情况下,大数据自带过滤作用,可以鉴别部分无效病历内容。
第二,我们用来训练的数据基本全部来自高水平的等级医院。用高水平医院数据训练的模型,投放到其他基层医院使用,过程中能够采集到基层医院的常见病类型,用药情况等。
第三,做临床决策支持系统,规则不是主线,但一定要参考、纠偏。
新型CDSS覆盖常见疾病,医疗数据大有潜力
爱分析:目前的病种覆盖情况?
邓侃:我们做全科疾病,目前400个病种,覆盖了95%的治疗人群。选择疾病会从科室疾病统计结果入手,科室常见病大概能够覆盖95%的治疗人群。
各个科室常见病加起来大概是400多种,国家规定的常见病比这个要少,比如山东规定的常见病只有200种左右。
爱分析:基于知识图谱的辅助诊断,跟传统CDSS有区别吗?
邓侃:定位是一样的,但是具体的做法非常不一样。以前的CDSS是基于专家知识,翻译成if-then的规则。比如斯坦福做的专家系统,大概有630个规则,这种规则的数量不能太少,也并不能太多,要保持精准性和一致性。
所以专家系统到了2000年,学界已经认为这条路走不通。
爱分析:推出面向个人端的大数健康,主要是为了采集数据吗?
邓侃:作为产品形态是三位一体的,首先要从中国医疗行业的困境着手,中国医疗行业一个很大的问题是医疗资源分布极不均衡,大病小病全到三甲医院,原因是大家普遍基层医院和医生缺乏信任感,也缺乏正确的引导。
对于常见疾病,患者需要弥补知识和认知,患者对医疗专业领域知了解的越多,就越能减轻三甲医院的压力,不用接待那么多头疼感冒的患者。
但是总不可能让每个患者都去学习医疗基础知识,所以我们做了一个能够立刻提升患者医学常识的自诊工具,希望能够给患者赋能,让患者在自己家里,在去医疗机构前,大概了解自己的身体健康状况,能够自主选择合适的医疗机构,从而达到就医导诊的效果。
爱分析:除了大数医达目前在做的方向,整个医疗大数据行业还有哪些有价值的应用场景或者方向?
邓侃:第一种是销售器械,比如达芬奇机器人,核心是灵活操作的机械臂以及虚拟现实的一体化。对于精度的要求很高,中国在精密治疗仪器方面肯定会有大发展。
第二种是可穿戴式设备,应用场景多,非常便捷。但目前的核心问题是不准确,腕表经常采集不到信号,可穿戴式设备的准确度一旦提高,市场潜力是很大的。
第三是新药的研究,我知道业内一家AI企业正在做这件事情,但企业的投入产出比可能会成为一个很大的挑战。