零氪科技创始人张天泽：医疗大数据难点重重，高质量数据就是壁垒-爱分析

医疗行业信息化程度高，但存在大量非结构化数据，如何以低成本方式获得高质量临床数据是关键壁垒；医疗数据自成体系，外部数据只能作为交叉验证的手段，很难产生决定性影响，因此，医疗大数据是个进入门槛极高的领域。

今年是大数据与行业应用深度融合的一年，金融、公安等领域已经出现相对成熟的行业大数据应用案例，竞争格局正趋于明朗。但在医疗、工业等领域，大数据对行业的改变才刚刚开始，这些领域的公司更加值得关注。

医疗大数据一直是大数据应用领域的重要细分赛道，大数据与医疗结合，不仅仅会提升临床诊疗效果，还会对保险、药品研发等多个医疗健康领域产生深远影响，因此医疗大数据想象空间巨大。。

根据国务院40号文件，到2020年，全国医疗及健康行业市场规模会达到8万亿人民币，整个医疗行业信息化投入占比在1%左右，当硬件、基础软件完成采购后，预算会向大数据倾斜，因此未来医疗大数据领域至少是个千亿级市场。

医疗领域主要分为三类数据，生活数据、健康数据和临床数据。这其中临床数据最为关键，数据维度最多、质量最高，其他两类数据存在两大问题：数据采集质量难以保障，数据维度单一，只能作为交叉验证的辅助。

因此，外部数据源很难对医疗大数据产生正向推动作用，获取临床数据成为关键，而临床数据基本都掌握在各大医院手中，这就使得医疗大数据成为一个进入门槛很高的领域，所有大数据公司必须通过服务医院来获取数据。

由于中国医疗资源极其不平衡，顶级三甲医院掌握着绝大多数优质患者数据，特别是在一些癌症病例，一个医院很可能掌握全国90%的某种肺癌患者数据。这就使得服务中小医院价值非常有限，只有服务顶级医院才能获取优质数据。

获取医院客户只是刚刚开始。医疗行业是信息化程度很高，但数据化程度很低的领域，绝大多数医院已经实现了HIS系统全覆盖，通过HIS系统可以采集到不少患者数据。但由于患者信息的底层逻辑不清晰，使得这类患者数据多数为非结构化的文档数据，没办法直接做数据分析与应用，因此数据清洗是医疗大数据的另一个难点。

传统做法是由CRO（临床研究机构）派人到现场采集临床数据，这类数据的获取成本极高，单个患者的病例数据成本超过1000美金。

在深度学习等AI技术兴起后，不少创业公司尝试利用自然语言理解、图像识别等技术降低临床数据清洗的成本。但临床数据非常不规范，对同一症状存在大量不同描述，仅仅依靠机器学习技术很难获得优质数据，目前常见的做法是人工标注加机器学习技术，降低数据清洗中人力成本是关键。

综上所述，爱分析认为，医疗大数据处于极为早期阶段，帮助行业客户打好数据基础是第一步，整个行业还处于数据化阶段，高质量数据目前还是非常重要的竞争壁垒。

因此，对医疗大数据公司而言，获取标杆客户和降低数据清洗成本是两个关键因素，能够拥有或接触大量优质临床数据是目前最重要壁垒。

目前，国外已经跑出不少医疗大数据公司。Inovalon于2015年登陆纳斯达克，市值20亿美金；电子病历Flatiron去年完成1.75亿美金C轮融资。

国内市场尽管处于早期阶段，但仍然出现了碳云智能、零氪科技、医渡云、推想科技等多家医疗大数据公司，其中2014年成立的零氪科技发展势头凶猛。

尽管成立不到三年，零氪科技的团队规模已经超过800人，服务于包括北京协和、四川华西、中南湘雅等全国顶尖医院在内的400家医院，建立结构化电子病历，辅助医生进行临床科研和诊疗，同时建立一支200人的患者随访团队，帮助医院了解患者离院状况。

零氪科技将大量人力投入到数据采集和清洗工作，100人研发团队主要利用机器学习技术实现医疗数据的结构化，300人的临床团队主要在客户现场进行数据标注和收集HIS系统外的数据。

再加上患者随访团队，零氪科技实现临床数据的闭环，建立起患者的多维度数据，为下一步应用奠定基础。

零氪科技为大医院和中小医院提供不同服务，大型医院的科研需求旺盛，零氪科技主要通过HUBBLE和EDC系统辅助医生做临床研究。同时，将部分研究成果沉淀在产品中，这些研究成果可以为中小医院提供辅助诊疗支持，这部分业务多数以SaaS形式实现。

就目前而言，零氪科技的主要业务仍然是帮助大型医院做数据采集、数据结构化等，辅助管理、辅助科研、辅助诊疗的HUBBLE系统刚刚上线，辅助诊疗的产品同样刚刚起步。不过，通过三年积累，零氪科技已经获取不少肿瘤医院客户，建立肿瘤患者数据库，数据基础已经打牢，业务即将进入爆发阶段。

近期，爱分析对零氪科技创始人张天泽进行调研访谈，他对零氪科技的业务模式、医疗大数据的行业现状与趋势进行阐述，现将精彩内容分享如下。

医疗是高信息化、低数据化的行业

爱分析：大数据、AI技术发展对医疗行业将起到哪些作用？

张天泽： 需求是牵引方，技术是驱动方。如果团队只有技术基因，往往不知道产业需求是什么，做产业转化很困难。因此，医疗行业是个强业务导向行业，业务占六七，技术占三四。

互联网经常讲“试错”，但医学底层逻辑是不能证明对，就不能做，不能拿患者来“试错”，非常强调需求牵引。

爱分析：医疗行业有大量数据，为什么这些数据没有被使用起来？

张天泽：医疗和金融有很相似的地方，每次决策都围绕数据开展。尤其是西医分科治学后，医学已经完全被数据驱动。

例如，CFDA审查药品完全靠数据评价药品有效性，人社部用HUR（药物经济效率）来评价药品该不该报销，卫计委用临床路径来评价这种治疗路径对患者受益是不是最多和普适性是否足够高。

不同在于，金融行业每个动作所产生的数据都是结构化的，而医疗行业产生的都是非结构化数据，只能算是电子化信息。患者产生的信息都是“黑盒”，底层逻辑不清楚，没办法用几个指标“刻画”一次治疗，医生只能用开放式方法记录这次治疗情况。

所以，医疗行业产生的都是大量文档，而且很多以图片形式存在，比如影像、病理资料。有些看似结构化而实际以非结构化存储的数据，如药品使用情况。

因此，HIS系统已经很普遍的情况下，产生的仍然是大量非结构化的业务数据。

数据质量、密度和获取成本是重要指标，其他领域数据价值有限

爱分析：既然数据这么重要，什么样才算有价值数据？

张天泽：有三个存在先后顺序的指标，依次满足才是高质量数据。

第一，数据质量。数据质量就是数据的真实性、准确性、颗粒度是否够细。真正能做临床研究、药品评价的才是最高级别的数据。

不同质量级别的数据能满足需求是不同的，并非只唯数据量论，100倍低质量等级的数据也无法满足高级别数据的需求。

数据质量决定了所能提供的业务范围，决定能否做咨询、解决方案。

数据质量如何评价呢？用GCP（药物临床实验质量管理规范）就能评价，一致率、准确率、颗粒度是否够细，有没有原件，这些都是GCP对好数据定的标准。

第二，数据的密度。比如说，十万例数据如果是包含有门诊、挂号，体检等多个类别的数据，这样意义不大，但如果这10万例数据全部是肺癌，更或是非小细胞肺癌，那这个体量的数据基本就可以回答人类对非小细胞肺癌的近乎全部问题了，价值巨大。

数据密度背后的逻辑是分科治学。单点突破能够提供巨大的医学、社会和商业价值。

第三，获取这类高质量数据的成本。过去主要是CRO用数据，受药企委托采集数据，获得患者的用药数据。

以前获取一例病历数据的成本在1000-10000美金，因此，需要考虑采集成本，能否提升效率。如果是百倍效率提升，那这个模式就有颠覆性。

爱分析：单个医院在某种病例上的数据密度高么？

张天泽：假设我们跟协和合作，因为协和是顶级医院，看起来如果帮助协和把数据都处理好，就能把人类医学问题解决了，因为相当于可以洗出来所有数据。但实际情况是，不同医院在筛选病人时都有自己的特点，在肺癌领域，协和面对的可能只是一类病人，所以单个医院的疾病谱是不全的。

所以，一直做医疗大数据有两类观点。第一类是做大医院，与单个大医院合作，帮助他们把所有数据都处理了；第二类是做单病，同一种病跟全国的医院合作，重点解决同一类问题。

第一种做法效率很低，因为不研究这类病的业务，就没办法把这类病需要的结果都找出来，所以，一个医院的数据很难清洗完全。同时，攒的数据不够多，密度不够大。一个大医院能拥有几千万病例，但真正到一个垂类时数据不多，而且这类数据即使汇聚十年数据，他的疾病谱也不完整。

爱分析：医疗这个行业是不是不需要外部数据，只需要依赖客户自身的数据？

张天泽：对，医疗数据就分三类，最浅的是生活数据，第二类是健康数据，第三类是医学数据。这里面数据颗粒度和可信度是完全不同的，医院数据是最可信的，每一个检查检验都通过了CFDA设备检测。

用腕表、血糖监护等移动设备收集的是院外健康数据，这些数据可信度存疑，往往是比较松散，交叉数据不够多，数据种类比较单一。医疗数据的特点是必须多个维度，只看到一个侧面的数据是远远不够的。

生活数据如饮食量、走路步数等，可以用于交叉匹配，单独使用价值很低。

因此，这个行业的特点是，带着场外资源进场很难会比现有公司做的更好。

机器学习+人工标注是主流数据清洗方式

爱分析：目前主要有哪几种采集数据的形式？

张天泽：其实就是清洗数据方式不同。第一类是用机器洗数据，搜索引擎方式做分词；第二类是用人工洗数据，派人到现场录，跟以前CRO类似。第三类是人工做标注，然后再用机器做机器学习，两项结合，才能产生有质量数据。

机器洗数据，最大挑战是病历书写太不规范，不能遍历所有医生的表达方式和习惯。就连在数据规范做的最好的美国，Google都承认算法是永远写不出医学数据背后的业务特征。所以Google投资了第三类公司Flatiron Health。做法是先做标注，标注后用机器学习继承人对病历的书写，始终保持人来标注数据，而不会全部交给机器。

第二类方式，一方面，采集数据的成本会随着团队规模越大而越来越高，主要是因为管理成本增加；另一方面，最初是与头部医院合作，数据密度大，当与腰部医院合作时，数据密度小，效率会降低。

我们现在用第三类方式，随着规模扩大，每份病历的成本在不断减低，而且数据质量最高。

爱分析：做数据清洗时，人工标注工作会不会考虑外包出去？

张天泽：不会，人工标注是强业务导向，这些人需要能看懂病理报告，市场上都找不到像这样的一百人团队做业务标注的。

辅助头部医院科研，辅助腰部医院诊疗

爱分析：零氪科技（LinkDoc）有哪些核心技术，能够解决什么问题？

张天泽：第一个问题是临床医生做科研的时候，有大量患者和病历，怎么把非结构化的HIS数据，变成充分结构化、质量高、成本低的数据。LinkDoc自主研发的结构化引擎DRESS，关于其核心算法，我们和北美最好的肿瘤医学院Fred Hutchinson已经共同发文——用AI技术驱动把非结构化数据变成结构化，配套一些做标注、质量控制的系统。主要解决临床科研问题，只有这个数据才能做后续业务。

如何分析、洞察、洞见以及科研假设，是下一个问题。以前医生通过感性认识得到假设，做医学研究。这样特别依赖医生的感性积累和专家假设，数据可以告诉我们更多假设相关性。因此，我们开发了HUBBLE系统，管理全样本数据，找出其中的规律。

形成假设后，需要用小样本数据来验证假设，做项目制数据管理。这时候，是我们的EDC系统专门做数据采集和数据分析，就是按项目分析小样本数据。围绕具体项目，用医学统计方式解决问题。

产生大量学术观点后，学术观点的博弈就变成了指南，指导医生治疗。所以，在临床阶段，我们的AI系统会变成辅助诊断的模块和插件。在患者治疗时，这种相应的提示和预警会弹出来。

临床AI一直有两种方式，一种是主动式的，主动去问，系统才会反馈，另一种是被动式，持续在后台工作，遇到问题自动弹出。

爱分析：头部医院和腰部医院的需求应该有差异，LinkDoc主要服务哪类医院？

张天泽：顶级医院是数据来源的核心供给，因为他们在科研上有需求，同时掌握大量数据。医疗领域有些疾病是“一九原则”，10%医生治疗了90%的重大疾病患者。因为医疗专业壁垒太强，越是知名医院，患者越多，医生成长就越快。

真正数据合作伙伴是头部效应非常显著的，但是被数据惠及的是整个行业，有些医疗机构会是数据应用场景，但不是数据来源。

爱分析：从头部医院获取的数据价值是如何提供给其他医院的？

张天泽：谁的数据归谁用，这是底层逻辑。每家医院加工自己的数据、管理数据、使用数据，整体数据背后的认知和解决方案是可以回归到临床，让其他医院的医生去使用，包括并发症预测、肺癌手术方案预测等。

爱分析：给其他医院提供的是SaaS产品还是本地软件？

张天泽：是SaaS产品，这里面的辅助决策和诊断，不是稳定模型。最大难度在于颗粒度不细，只有通过SaaS才能非常精细化解决个人问题。实时不断刷新、使颗粒度变细，还能个性化针对性解决问题，这是只有SaaS能做。

先发优势明显，数据采集和清洗需要大量人力

爱分析：如果医院选择LinkDoc产品后，很难会去选择第二家公司的产品么？

张天泽：很难，这个行业不是可以被补贴出来，不会被营销所打动。医生和患者不会被低补贴所打动，高补贴又很难持续，这个行业完全是价值驱动的。

爱分析：目前LinkDoc团队规模大体是什么样？

张天泽：我们总部有300人，客户现场临床有300人，还有200人做患者随访。

爱分析：临床那个团队现在主要工作是什么？

张天泽：HIS系统对接后仍然有很大挑战，大量工作是为了确保临床采集质量高、合规。首先是数据合规性，包含现场脱敏、患者知情告知的签署等；其次是数据完整性，HIS系统能采集到的数据是不完全的，我们还需要做一些采集工作，纸质文件的拍照上传等。

爱分析：组建200人团队做患者随访是处于哪些考虑？

张天泽：到患者出院时，只是完成了上半场，没有后面患者康复情况、有没有继续治疗等结果。临床的操作数据是只有输入没有输出的，这样无法指导后续决策的。

没有随访是整个行业问题，所以，我们建立了随访中心，帮助各个医院把随访结果收集上来，医生可以借此来写论文。

关注爱分析订阅号（ifenxicom），回复“ 零氪科技 ”即可获得完整版报告。