医疗

生物医学数据共享安全系列论坛第二期 大咖精彩分享全记录

本期论坛邀请专家围绕生物医学数据隐私保护与安全共享的学术研究、技术协同、产业融合等展开研讨。

2022年08月03日
  • 医疗

近日,由四川省生物信息学学会、四川省医学会医学信息学专委会、四川大学华西医院疾病系统遗传研究院、隐私计算联盟医疗应用工作组、锘崴科技联合主办的“生物医学数据共享安全”系列论坛第二期在线举行。本期论坛邀请专家围绕生物医学数据隐私保护与安全共享的学术研究、技术协同、产业融合等展开研讨。

首都医科大学附属北京友谊医院国家消化系统疾病临床医学研究中心胃肠外科主任姚宏伟、英特尔医疗健康与生命科学部高级架构师梁海奇受邀分别发表专题报告。四川大学华西医院疾病系统遗传研究院执行院长沈百荣教授,锘崴科技创始人、董事长王爽教授共同担任本期论坛的主持人。

姚宏伟发表了《隐私保护计算在跨境医疗科研中的意义、作用和应用》专题报告。在演讲中,姚宏伟表示,近些年来,结直肠癌的发病率、死亡率均较过去明显提升,结直肠癌带来的健康威胁日趋严重,我国结直肠癌总体发病率已跃升至第二位。因此,针对结直肠癌的研究具有很强的现实意义。本次专题报告以结直肠癌多中心研究为例,详细介绍了多机构间数据合作如何促进结直肠癌研究发展,如何通过隐私保护计算实现数据合规、数据共享和分析及其取得的成果,为建立医疗领域数据有序流动,进而推动我国医疗健康产业发展探索出一条可行的路径。

梁海奇发表了《英特尔助力生物医学大数据分析与隐私保护》专题报告。演讲中,梁海奇主要从如何加速生物信息数据分析、如何保护全程隐私数据安全两个角度介绍了英特尔技术在生物医学大数据分析与共享方面的实际应用,涉及基因数据分析、药物研究、单细胞RNA测序、AlphaFold 2蛋白质结构预测等多个应用场景和实践案例。英特尔相关技术在医疗健康与生命科学领域,尤其在平衡生物医学数据共享和隐私数据安全方面,起到了很好的推动作用。

本期论坛自由讨论环节非常精彩,现将问答实录整理如下。

Q:英特尔傲腾持久内存(Persistent Memory, PMEM)是否兼容现有运行在DRAM上的程序?是否能和SGX兼容?

梁海奇:PMEM有两种模式:内存模式和App Direct(AD)模式。对于内存模式,它等同于一个内存条,是和DRAM高度兼容的,但断电时数据会丢失;对于AD模式,可能会有一定的改动,但改动不会太大,同时提供了一套软件包(持久内存开发套件,PMDK)来帮助开发者进行转变。相比DRAM,PMEM的使用成本很低,计算效率也整体提升,同时解决了传统DRAM易失的缺陷,能够进行永久存储。对使用者、开发者来说,性价比比较高,尤其是需要大内存的应用场景。

Q:目前在医学影像等大规模数据处理场景中,可能会用到深度学习模型,当其运行在SGX上时,相比于运行在GPU上是否会对性能产生影响?

梁海奇:深度学习运行在CPU和相比于运行在GPU上,可能还是会有一定差异,比如在训练模型时。但是在进行需要用到大内存和大计算量的隐私推理这类场景时,运行在CPU上的优势更大,性价比更高,我们有很多深度学习推理的案例可以证明这一点。而且在一些比较极端的例子中,GPU可能根本无法满足运行条件,原因在于它对内存的限制,而CPU对内存几乎没有限制。

Q:跨境多中心研究中,如何统一数据标准,从而使得跨境研究更好地开展?

姚宏伟:这取决于前瞻性设计,前期所有变量必须统一。研究者会反复多次会议讨论如何设置变量,这些变量除了一般的字段,很多都要上传影像,比如CT、核磁共振。CT、核磁都是DICOM格式的,本身格式就是统一的,所以不需要做额外的规定或是处理。除此之外比较主要的类型就是手术录像。和CT这类影响学数据不同,手术录像格式虽然都是MPG或MP4格式,但是里面的各种场景不一样,后期需要人工或者人工智能分析,把一些重要的信息片段能够剪成标准化的录像片段,才能进行分析。也就是说,很多数据需要前瞻性搜集,限定大家都搜集一样的数据,这样的话,使用中文版数据库或者英文版数据库都没问题。未来,无论是基于中日韩,还是基于中美欧这类设计完善的实验,需要隐私计算技术,也需要锘崴科技这样的公司支持。

这样做的好处还有一点,能够大幅降低研究成本,例如,分享中介绍的COLOR IV项目,前期已经投入了很多经费,属于设计完善的Randomized Controlled Trials(RCT,随机对照实验)。假设,类似的研究都基于相同的前瞻性设计,所收集的数据格式是统一且标准化的,那么有很多研究就不需要反复浪费时间和精力在收集数据上,而是能直接用已经收集好的数据。

Q:目前数据搜集有两方面考虑,一个是尽量多搜集,一个是尽量搜集得少而精。COLOR IV目前搜集的数据是基于哪些考虑?在国际化合作中,数据跨境大体上是什么样的状况?

姚宏伟:这个问题非常尖锐,也非常符合当前法律背景。因为无论是美国的HIPPA,还是欧洲的GDPR,还是中国的《数据安全法》、《个人信息保护法》,都要求最小化地搜集数据。举例来讲,外科很多手术的技术应用及难题,跟患者的体质比如肥胖程度相关,在跨境研究中,我们不能直接搜集身高、体重数据,而是搜集BMI数据,这样就符合最小化、非必要不搜集的法律要求。

一方面,可以保证我们研究的需要,另一方面,尽可能少搜集患者的个人信息,即便这些信息不是患者的个人敏感信息,也尽可能不搜集,这样的话,就符合了网信部门,也符合了数据跨境的要求。

对于基因数据,我们不搜集带有地域特性或民族特性的基因数据,只搜集跟疾病相关的全球性基因数据。目前,关于医疗数据跨境,没有先例可供参考,我们需要一边探索一边实践。总体来讲,医学领域国际化合作的大趋势是比较明显的。

沈百荣教授表示,今天两位嘉宾分享的议题都非常好,医学发展的趋势是必须走合作共享之路,硬件、软件、数据三者融合也是生物医学的未来方向。“生物医学数据共享安全”系列论坛将持续聚焦隐私保护和数据共享的相关技术和模型、医疗数据的法律与合规问题、生物医学数据隐私保护与安全共享优秀成果及案例等话题,每月固定举办1-2期,年终将在线下举办年度论坛。我们希望通过这种方式,共同推动我国医疗健康行业数字化加快实现高质量发展。