Literature
首页行业资讯临床快报中医临床快报

周雪忠:中医临床数据仓库的研究及构建

来源:〈国际中医中药杂志〉
摘要:辨证论治个体化诊疗是中医临床的特色和优势,如何评价其效果成为中医取得突破和发展的重要课题,中医只有解决自身的临床疗效评价问题,建立科学合理的体现其疗效的评价体系,才能进一步发展中医学。建立中医药学现代个体化诊疗研究和临床疗效评价体系是关系到中医药学发展的一个重要科学问题。数据仓库(DataWarehouse)是......

点击显示 收起

 辨证论治个体化诊疗是中医临床的特色和优势,如何评价其效果成为中医取得突破和发展的重要课题,中医只有解决自身的临床疗效评价问题,建立科学合理的体现其疗效的评价体系,才能进一步发展中医学。建立中医药学现代个体化诊疗研究和临床疗效评价体系是关系到中医药学发展的一个重要科学问题。
  数据仓库(Data Warehouse)是一个面向主题的(SubJect Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策”’。由于近年来生命科学基因工程相关技术的发展,生物医学领域的数据仓库研究和开发也日渐增多。如整合大量生物学数据库的Atlas ,基因表达数据仓库GeWare 和进行医院传染病控制的临床数据仓库等。对大规模的实验和临床数据进行整合,构建生物医学数据仓库平台,进行数据挖掘(Data Mining)和OLAP(Online Analytical Processing)处理,为发现基因/蛋白质,疾病和表型信息等之间关系网络提供了有效途径。
    中医临床数据仓库(TCDW)基于实际的临床诊疗,实现对中医诊疗数据进行多主题、多粒度、多需求、高效、快捷的展示、研究和查询检索,并支持基于Web的OLAP共性应用,为中医临床评价研究和临床科研提供实际的诊疗数据证据和知识来源,以支持临床科研决策分析,满足中医.临床评价研究需求。当前该系统的研究和实现以北京市10多家医院中医临床的三大疾病(糖尿病冠心病中风)的住院数据和20位名老中医门诊的数据为基础。为保证一定的数据质量,临床数据仓库仅抽取和装载经过临床专业人员清理和核查的病历数据。TCDW是对面向科研的临床主题数据的规范、高效和集中存储,是对临床诊疗数据的梳理和面向决策支持的数据处理分析环境的构建,支持简便的OLAPWeb应用和复杂知识发现系统的数据接口,为中医临床研究信息网络的建立提供数据、知识和决策应用服务平台支持。
1  中医临床数据仓库构建的关键环节
  临床数据仓库涉及诸多一般数据仓库所无法实现或不能优化实现的问题,如事实表和维表之间的多对多关系,EAV(Entity-Attribute-Value)模型查询优化Cs)、高级时间维度处理和对数据挖掘的需求等。并且,与现代医学临床数据相比,中医临床数据包含更多的复杂性和独特性问题,如结构化数据的采集、术语的标准化和更普遍的多对多关系等,这些问题都需要在丁CDW的构建中进行一定程度的解决。
1.1  结构化数据采集和存储:当前临床信息系统的主流还是基于文档的数据存储系统,无法对临床信息中涉及的大部分科研型数据进行有效的分析和利用。对有意义的数据元素进行结构化表示和存储是构建数据仓库,进行决策支持系统开发的前提。因此,TCDW的开发基于高度结构化的临床信息采集系统,该系统经过临床专家的参与和设计,符合中医临床数据采集要求,并具备诸多支持中医临床特色的模块和操作功能部件。该系统通过对中医临床的大病历和病程记录进行有效的结构化处理,实现了症状、体征和理化指标的结构化存储和关联。
1.2  中医临床信息和术语标准化:不同的医院科室采用不同的软件系统所采集的中医临床数据,由于各软件系统缺乏统一的信息标准,其数据编码和模式具有全局歧义性和异质性。本课题旨在通过单一的临床采集系统整合不同临床信息系统,从而提供统一的信息模型和数据接口。就TCDW的数据源而言,由于基于单一的采集系统,实现了信息模型的一致性,但由于多点分布采集,仍然存在数据编码的不一致性问题。
    中医临床数据的核心信息以自然语言表述,且由于中医临床描述性症状信息可能存在的同义、多义和歧义问题,因此,在应用结构化采集软件之后还存在术语标准化和术语知识库的建设问题。进行中医临床术语集的研究和建设是实现成熟的TCDW和决策分析应用系统开发的必要条件。为了实现数据编码和术语一致性,TCDW需要进行数据、模式和语义层次的数据整合和交换,实现各操作数据源到数据仓库的数据整合和导入。本文所述的数据仓库开发基于特定疾病标准化术语以及相关方药术语的分析和整理。
1.3  操作数据源数据分析及ETL(extraction,transform and loading)过程:对临床住院数据进行分析、清理和整合是数据仓库构建和开发不可缺少的步骤,主要包括对原业务系统一临床信息采集系统及其数据库结构、内容的分析,以及分析和挖掘所用临床数据的筛选、抽取、清理和整合。个体诊疗数据涉及三大疾病住院及指定老中医门诊数据,包括入院登记卡、患者人口统计学基本信息、住院病历(中医四诊、主诉、现病史、既往史、家族史和一般体格检查等)或门诊病历、病程记录、医嘱、中药处方、理化检查和量表等。为了实现临床信息录入的便捷性、准确性和高效性,信息采集系统的后台数据库通过近200个数据表来实现住院电子病历的信息采集,其中包括近50个术语词典表和近20个界面逻辑表。
    ETL是数据仓库开发的前期关键步骤,关系到数据仓库主题数据的质量、高效访问和主题分析应用的质量。需要解决数据类型的匹配,数据格式的转换,异地数据表数据整合时的主键重复、数据术语值的语义一致性和EAV数据的转换等问题。
1.4  应用主题需求分析和设计:临床数据仓库最终的目标是提供多种临床决策支持服务或进行新的知识发现研究,因此,确定决策主题和知识发现目标是临床数据仓库开发的首要环节。数据仓库应用的需求分析本身是一个不断探索的过程,最终用户在事前并没有多少经验可供参考。要构建一个成功的数据仓库系统,必须要整理出完善的主题需求。数据仓库应用系统是一个周而复始、生生不息的循环过程,若希望数据仓库系统能够逐步完善与成熟,原动力只有一个,这就是需求推动。可见,与临床决策或分析专家进行探讨,并最终确定数据仓库的主题数据结构、存储和应用平台框架需求十分重要。鉴于对数据和领域信息系统成熟度的考虑,我们目前对于CDW的定位是从现有的结构化临床数据出发,针对科研决策需要,由熟悉临床业务和临床数据内容的临床专业人员提出数据分析的主题内容,分析维度和度量目标,进行以Web OLAP为主的应用平台开发和示范性研究。
1.5  Web OLAP应用服务平台实现:OLAP的交互能力为实现浅层决策支持主题应用提供良好技术支撑,TCDW以示范性搭建具备数据和应用接口的数据仓库框架,并重点实现基于Web的OLAP主题应用为主要目标,在此基础上研究开发体现中医临床数据特点的创新数据挖掘算法.Web OLAP主题应用服务平台提供三大疾病相关的面向科研的主题决策分析服务,OLAP的交互和快速响应能力使得分析过程在线适时进行,在一定的权限管理控制下,实现不同角色用户的科研决策,满足分析需求。
2  系统构架及数据模式设计
    TCDW基于Opco Source环境和技术平台进行开发。采用Java,JSP编程语言,基于B/S或J2EE框架,选择Eclipse 3.X作为开发和调试环境。OLAP的支持采用BIRT和Mondrian/JPivot 进行前端开发。Web服务器采用Apache 2.0.X和JSP容器Tomcat 5.X,且可通过JBOSS支持J2EE分布式应用,实现应用和数据服务的独立性。由于临床数据的结构复杂性和临床信息以EAV方式存储的特点,现有软件厂商的ETL套件工具无法实现数据从业务源到数据仓库主题存储的转换过程,因此,需要基于Java开发特定的ErL程序。
    TCDW采用细节数据仓库、数据市场和物理视图的多层次数据应用模式进行设计和开发。该模式能够适应中医临床决策分析领域尚未成熟,主题变更可能性大,变化快,需要进行适时快速主题应用开发的需求。新的主题应用只需要对细节数据仓库数据存储进行多维数据抽取和转换,就能实现新的主题数据部署。
    数据仓库的数据模型设计包括逻辑模型、中间层数据模型和物理模型三个层次的设计任务。7CDW的物理模型设计包含两部分内容:①临床数据仓库的总体物理表结构设计;②各主题域的多维模型设计。当前多维模型的两种主要方法为MOLAP和ROLAP,MOLAP以数据立方体进行数据的建模和存储,而ROLAP则采用关系型的星型或雪花型模式实现,两者各具优缺点,鉴于数据动态连接、对大量数据的支持和有可能的数据更新处理要求,本系统采用关系多维模型和雪花型模式存储主题数据市场数据。
3  Web OLAP应用服务平台示例
    Web OLAP应用服务的目的是提供一个Web环境下的临床数据仓库前台数据分析平台,该平台提供授权用户访问,并支持多种图形输出格式的数据展现和适时交互能力.所有的应用分析分主题进行,按主题应用、维度、度量分析目标对确定的统计分析应用进行交互和展示。以下介绍目前开发的演示性临床方药主题治法分析内容。
    图1所示,根据不同的筛选条件(维度),分析治疗方法及其相关复方中药物的分布使用情况。从而分析一些特定指标组合的病例中中药复方运用的规律。目前我们只采用简单的维度如人口统计学(年龄、性别等)、疾病类型、证型和医院等进行简要的演示。后续工作将修改或增加维度分析治法与症状、体征和理化指标之间的联系。
4  结语
    毋庸质疑,数据仓库技术应用于中医临床并加以开发将推动中医临床科研和管理的知识流程化过程。但同时应考虑到中医临床数据仓库的研究和应用是一个逐步推进、长期积累的过程,需要基于中医临床信息系统的不断深入应用、高质量结构化临床数据的积累,临床术语本体知识库的建设以及中医临床科研和管理决策分析应用的逐步成熟等相关因素进行开发和实现。本文介绍了基于结构化临床数据,进行面向科研的中医临床数据仓库研究和开发的第一个探索性项目,其对中医临床数据的分析,数据模型的设计和技术方案的确定,以及WebOLAP主题应用分析和相关创新数据挖掘方法的研究都将实质性地推动中医临床信息向决策、知识发现转化的进程。本文的示例只是当前演示系统的介绍,后续的开发中将不断完善支持交互式OLAP的多个主题分析应用目标,丰富实现中医临床数据仓库的各模块功能。

作者: 周雪忠
医学百科App—中西医基础知识学习工具
  • 相关内容
  • 近期更新
  • 热文榜
  • 医学百科App—健康测试工具