我国医疗卫生信息化建设近30年,医疗机构汇集了海量的临床诊疗数据,为医院利用大数据开展科学研究奠定了基础。
然而,由于医疗大数据的多态性、冗余性和不完整性,医疗大数据科研平台发展参差不齐。医院的科研资源难以实现共享,科研效率低下。
因此,如何将医院积累的海量历史数据结构化、标准化,从而达到数据分析的标准,成为推动我国医疗科研发展的关键。
国家对于医疗大数据的关注度非常高,布局“1+7+X“医疗大数据中心,其中,山东省济南市作为国家健康医疗大数据中心建设的试点城市,由省卫健委牵头搭建政务云,汇总了各个医院的数据,进行医疗健康大数据的采集、存储、开发利用、开放共享、互联网+服务等。
医疗大数据平台在实际的落地过程中存在两个痛点。
第一,医院信息化过程中使用的系统不同,不同医院、不同科室之间数据的标准化程度存在巨大差异,如不同HIS数据单位值不同、药名存在映射差异等,无法互通共用。
第二,单一医院或单一科室的数据难以覆盖病患的完整诊疗周期,数据可能散落在不同的系统内,或缺失情况严重,需要通过随访的方式补全数据。
医疗数据是座金矿,但需要进行后续治理才能挖掘出巨大价值。
成立于2018年8月的华链医疗,从数据治理的角度切入医疗大数据赛道,以本地化的大数据服务为定位,并与山东大学、济南市市中区政府达成三方合作,成立华链医疗创新中心,链接政府、医院和高校,通过提供数据治理的技术和服务,获取有价值的医疗科研数据,完成科研课题。
华链医疗的主要业务是为医疗大数据平台提供数据治理服务。
具体的数据治理环节分为三步:首先对大数据平台进行初筛,筛选出相对标准化和便于清洗的数据;其次配合生物样本信息以及随访获取的信息,完善病患的全生命周期数据;最后,利用身份证ID作为索引开发搜索引擎,实现医疗大数据的标准化和结构化。
华链医疗选择以专病的角度切入,与政府和高校的合作为其提供信任背书,借此与专病领域的KOL合作,由专家牵头,以科研课题为出发点,收集不同医院相同科室的一手医疗数据,组成高质量的专列数据库,在成熟的研究建模思路或因果推断算法的基础上,用于科学研究,更易于产生科研结果。
例如,华链医疗参与的脑肿瘤科研项目已经成功发现了10个关键靶点,大幅提高脑肿瘤的愈后干预和愈前检测水平。
服务药企是华链医疗的第二个业务方向。
华链医疗以某种药物的临床数据作为研究基础,通过随访将数据补充完整,结合定价、疗效等数据为药企提供评估类报告,指导药企制定更佳的市场推广、药物定价等策略。
当前,医院仍有大量非标准化的数据亟待处理,现阶段的人工智能尚不能处理如此复杂的工作。在将数据整理和清洗的方法论沉淀后,华链医疗开拓了第三个业务方向,即医疗大数据人才的培训业务,旨在帮助医院培养大量的数据处理人才,推动医疗大数据的标准化进程。
现阶段的培训,主要是数据抽取和定义等基础性数据处理工作,为医院培养基础数据治理人才。
未来,华链医疗将立足山东的医疗大数据平台,不断探索和提高技术手段,持续整合与优化数据库,使其更加标准化。同时大力拓展数据治理人才的培养业务,培养数据结构化、数据分析等层面的中高级的数据治理人才,为医疗科研做出贡献。
近期,爱分析专访了华链医疗CTO杨程,探讨了医疗大数据平台的建设历程和华链医疗的发展心得。现将精彩内容摘录如下。
借助研究院切入医院大数据平台
爱分析:政府牵头的区域性数据平台质量如何?
杨程:由于是政府牵头,各个医院都会把数据汇总过去,平台数据很完整,但想要使用必须经过专业的清洗。
爱分析:政府有没有考虑基于数据做应用?
杨程:政府主要依托高校、医院或合作单位,如山东大学,一起开发应用。政府将数据汇总到一起后,各类专家以科研课题为名申请数据使用权,进行深入研究。相当于政府搭台,专家唱戏。
爱分析:华链与研究院的合作模式怎样?
杨程:每年我们给研究院赞助,我们开发大数据平台和相应工具供研究院使用,同时也会合作某些课题,一起与医院合作。
爱分析:华链医疗如何进入医院?
杨程:通过服务政府达到前期的研究成果,取得政府的信任和支持作为背书,进入医院就容易很多。我们已经签约山东省内的三甲医院,并服务专病的课题。
爱分析:如何与医院专家合作课题项目?
杨程:专家提出想法和思路,学校提供数据处理和分析方法,我们提供技术手段和数据处理服务。单独一方无法完成课题,只有合作才能出成绩。
爱分析:培训课程业务是什么样的?
杨程:华链正在筹备培训课程,会与政府、学校一起培养科研秘书和大数据分析师。
现阶段医院连最基础的数据治理工作都缺少人手,医生的数据会存在手机里、台式电脑里、铁皮柜子里等各种地方,将这些数据标准化、结构化、做整理的基础性工作都缺人做。
在这之上,才会是如何使用和分析结构化的数据,这类课程基本是中高级课程,我们会首先把初级课程做好。
因地制宜,选择合适的数据源和数据治理方式
爱分析:华链开发的大数据平台原理是怎样的?
杨程:我们开发了分布式的大数据平台,在每个医院都建设完全一样的数据库,利用分片的方式形成分布式的数据池,在前端可以认为是一个完整数据库。最后通过区块链数据路由层,将各个医院的数据联系起来。
医院在贡献数据之前会将相关数据做脱敏、加密处理。
爱分析:基于什么原则做数据初筛?
杨程:大多数时候病患的基因和样本数据较少,而诊断过程相关的结构化数据比较多,所以实际是倒过来的,通过基因和样本数据,回到结构化数据里筛出真正有用的,数据不全的想办法填补。
另一方面,如果我们在系统中发现某个病患的数据比较整齐,会优先整理出来。
爱分析:数据来源只有高等级医院吗?
杨程:覆盖三甲医院到基层卫生所。一般到县医院都有信息化的数据,可以作为来源。至于乡镇卫生所,往往只能通过田野调查的方式获取数据。
爱分析:病例的数据需要什么量级?
杨程:慢性病和罕见病所需数量不同。慢性病或常见病需要的数据量较大,而罕见病如脑肿瘤,几十例就足够了,重要的是这些样本里具备全基因序列测序数据都非常宝贵,如果占比很高,能够分析出非常多内容。
之前我们的客户通过这些宝贵数据分析出10个关键靶点,可以大幅提高脑肿瘤的愈后干预和愈前检测水平,他们获得了山东省的科技进步一等奖。
爱分析:华链需要团队自己懂得医学类的算法吗?
杨程:需要,做过和没做过有巨大差别。
我们的首席科学家是美国州立大学钟华教授,曾参与建立了美国纽约州临床医生联盟,过去十几年从事过大量的医学数据分析的科研服务,华链医疗的科研服务能力即来源于此。现在其实是对美国类似模式的模仿、学习和追赶,他们领先我们差不多7至10年。
爱分析:美国的模式先进在哪里?
杨程:过去既有的方法论实践了重要的统计思想,曾经做过就知道往什么方向尝试,也知道缺少哪些数据,只需补上数据需求很容易做出科研成果。国外探索多年,方法论很多,尝试过各种方向方法,知道如何治理数据和填补需求,懂数据更会用数据。其中的本质是方法驱动数据、数据驱动假设的过程。国内的数据科学领域是起步晚、做得少,其他并没有明显差距。
立足山东,稳扎稳打
爱分析:华链与较大些的医疗大数据公司是竞争关系吗?
杨程:市场上会遇到这些较大公司,但不会直接竞争。华链不追求大型的科研平台类业务或产品,而是更强调本地化服务和突出科研成果的影响力和发表率。包括整个科研体系设计中,与医院、科主任、学校、海内外学界的互通有无,提供科研设计,以及帮助完成数据治理和统计分析、成果发表等。
爱分析:有类似华链的专门服务药企的平台吗?
杨程:药企方面的药效一致性评价还要过几年才能成熟,数据不准和断点过多是很大的问题。比如有很多人来买药,但因为市场不规范,我们无法完全确定A人吃了A药,有可能是A人买药给B人吃但走的是A人社保,这样在数据分析中就会出现较大偏差。
当前类似的平台接的数据源是toB端。只有真正接入toC端,才可能获得真实有效的数据,给出一致性评价。
爱分析:华链医疗有多少客户?
杨程:华链主动拓客并不多,主要跟随研究院一起拓客,研究院可以提供比较大的助力。目前已经为三甲医院服务三个项目,为药厂服务两个,为政府服务一个。
爱分析:华链的主要收入来源是哪里?
杨程:当前主要收入来自医院。单个项目约50至100万。
爱分析:华链团队规模多大?
杨程:我们现在40人,医疗和技术的交叉背景。医疗数据分析师有10余人。由于不需要太多主动拓客,销售只有3人。
爱分析:华链整体战略布局?
杨程:第一步做好数据治理服务,以及平台迭代开发。
第二步对平台进行升级,一方面会将数据服务和分析算法服务封装到平台上供医生参考,另一方面可能直接做成数据、算法的交易平台,有人挂出服务的工单,有人接单完成。
第三步我们会做数据治理的培训,培养数据人才。地区仍以山东为主,其他省市有不同规则,不会冒进。山东有独特优势,经济强省里医疗资源最丰富,医疗资源丰富的省里人口最多。期望经过若干年积累,华链能成为医疗大数据和科研算法交易的龙头平台。