薛万国:“点菜后立马炒出来”是临床科研数据库的发展趋势


“‘针对问题即席抽取’将是临床科研数据库的发展趋势 , 这就需要灵活、高效的数据抽取加工工具 , 能很容易地把科研数据从原始数据中提取出来 。 想要什么随时加工 , 点菜后能立马炒出来 。 ”
4月24日下午 , 在2021中华医院信息网络大会(CHINC)的“基于数据的临床医疗科研平台”论坛上 , 解放军总医院原大数据中心主任薛万国发表演讲 , 题为《临床科研数据库系统的发展》 。 现根据录音 , 将演讲内容摘编整理成文 。

薛万国:“点菜后立马炒出来”是临床科研数据库的发展趋势
本文插图


解放军总医院原大数据中心主任 薛万国
临床科研数据库概述
临床科研数据库 , 是指为开展临床研究 , 支持病例数据的收集、加工、管理和服务的信息系统总称 。 它是实现从原始医疗记录到科研特征数据转换的重要环节 。
只要搞临床研究 , 就离不开数据的收集和整理 。 临床科研数据库有多种形态 , 从功能定位上可分为:病例数据采集(EDC)系统、临床科研专病数据库系统、临床科研数据库平台等 , 从系统形式上又可分为:围绕病种定制的系统、通用化的可配置系统、简单的Excel表等 。
随着医院信息化的发展和真实世界研究的兴起 , 医生对临床科研数据库的需求也在发生着变化 。 按照研究目的、研究类型、数据收集范围的不同 , 临床科研数据库大致可以分为三大类:临床试验数据库、病例注册数据库和专科专病数据库
其中 , “专科专病数据库”主要用于支持临床科室按专科或病种收集病例数据和开展观察性研究 。 此类数据库一般有两种场景:一是有研究目的、但研究问题尚不明确 , 收集的病例数据项较广 , 病例表单构成较复杂;二是科研问题明确 , 收集的病例数据项相对较少 , 病例表单相对简单 。
大数据环境下的临床科研数据库平台
自动填写与手工录入相结合的病例数据采集 , 可大大减少病例整理工作量 。 在病例数据录入的过程中 , 大数据平台的一些典型辅助填写功能有:
(1)患者基本信息的导入 , 通过患者ID号即可实现患者信息的同步导入 , 可大大减少录入工作量;
(2)检验结果的辅助填写 , 为录入表单中的检验结果绑定电子病历数据库中的检验项目 , 可根据条件自动填写检验结果数据;
(3)文本报告的结构化及自动填写 , 病理报告的文本描述很难做自动关联 , 传统的做法需要人工摘录填写 , 变成结构化数据;如今通过大数据平台的智能化手段 , 可自定义一些结构化的规则 , 自动把病理报告中的文本数据(如肿瘤大小、细胞分型、肿瘤分期等)提取出来 。 当然也未见得100%自动填写 , 还需要一定的人工补录 。
此外 , 还有一部分数据需要人工摘录补充 , 如:随访记录、纸质材料等 。
临床科研数据库面临的技术问题
从技术上看 , 随着真实世界研究的增多 , 从电子病历系统中抽取并自动填写数据的需求越来越强烈 , 表单的自动填写功能得到加强 。 要与电子病历系统建立连接 , 把电子病历数据映射到科研系统中 , 在映射的真实世界基础上 , 再去定义表单、自动填补表单的数据项 。
此外 , 临床科研数据库当前还面临着如下几个技术问题:
一是病例数据模型 , 病例原始数据模型要有统一的标准化模型 , 可采用类似于电子病历的通用模型;科研特征数据模型随研究目的不同而不同 , 需动态建立 。
二是病例表单定义 , 界面定义包括:界面元素类型、属性、组合、布局等;校验规则定义包括:类型一致性、非空值、值域校验、数据项之间的校验等 。
三是原始数据的关联与提取 , 需要对时间点和医疗事件进行自动识别 , 对数据项进行计算处理和自动判断 , 要对自由文本自动提取结构化数据项 。
临床科研数据库的发展趋势
当前 , 专病数据库只有做到如下几方面 , 才能逐渐接近大家的理想状态:
1.与院后随访系统的整合
专病数据库不仅要与EMR系统集成 , 还要与随访系统集成 , 因为大量数据来源于随访 。 要建立与患者多渠道的互动机制 , 将院后服务与随访调查相结合 , 将主动调查与患者自报告相结合 。 患者的反馈可能是文本或图片 , 要能把关键信息提取出来 , 融合到科研数据库中 , 实现临床数据与随访数据的整合、在院数据与院外数据的整合 。
2.与医疗业务系统的协同
从既有数据库中以回顾方式提取数据有很大的局限性:一是医疗过程中的业务数据如果当时没记录下来 , 事后无法补充;二是文本数据结构化的难度很大 。 因此 , 只有尽量把回顾性的数据提取变成前瞻性采集 , 逐步把“结构化”融合到业务过程中 , 也就是所谓的“临床科研一体化” , 即要在医疗业务过程中采集科研数据 , 平衡医疗与科研的需要 。

推荐阅读