Literature
Home药品天地专业药学实验技术色谱技术色谱论文

数据仓库的基本理论及中药色谱指纹谱数据仓库的构建

来源:中国论文下载中心
摘要:【摘要】目的探讨构建中药色谱指纹图谱数据仓库的理论与方法。方法以SQLServer2000作为数据库开发环境,以OLAP作为联机分析工具,用中药色谱指纹图谱37个特征参数构建多维数据集。结果采用星型模型构建中药指纹图谱数据仓库的整体框架及数据挖掘模型。结论该数据仓库的构建为中药色谱指纹图谱的进一步分析与挖掘建......

点击显示 收起

【摘要】  目的 探讨构建中药色谱指纹图谱数据仓库的理论与方法。方法 以SQL Server 2000作为数据库开发环境,以OLAP作为联机分析工具,用中药色谱指纹图谱37个特征参数构建多维数据集。结果 采用星型模型构建中药指纹图谱数据仓库的整体框架及数据挖掘模型。结论 该数据仓库的构建为中药色谱指纹图谱的进一步分析与挖掘建立了综合环境与平台。

【关键词】  数据仓库;ETL;中药色谱指纹图谱;特征参数

基金项目:国家自然科学基金重大研究计划项目(90612002);辽宁省教育厅高等学校科学研究项目(05L426)
    数据仓库是信息领域中近年来迅速发展起来的数据库新技术。数据仓库的建立能充分利用已有的数据资源,把历史数据转换成为统一的、利于分析的格式,从中挖掘出决策者需要的决策依据,最终创造出效益。数据仓库的出现为解决企业信息系统中存在的“数据丰富,但信息贫乏”的实际情况提供了一种有效的解决方案 [1]。由于中药指纹图谱本身是一个巨大的潜信息库,再加上中药材的基本信息、采用的不同色谱条件、图谱的原始数据等信息将会形成一个庞大的数据库[2]。为充分利用数据资源,解决辅助决策信息贫乏的现状,需要建立一个支持决策的数据仓库,以此为基础进行联机分析和数据挖掘,从而为不同种类药材或制剂的指纹图谱评价及其实验条件的优化提供依据。本文就数据仓库的理论及中药色谱指纹图谱数据仓库的构建作一简单描述。

  1  数据仓库概述
       
  数据仓库是面向主题的、集成的、随时间变化的、稳定的数据集合,用以支持管理决策的制定过程[3]。其特点是:
       
  (1)数据仓库是面向主题的
       
  主题是数据归类的标准,每一个主题基本对应一个宏观的分析领域。中药色谱指纹图谱的数据仓库的主题可以是色谱条件、特征参数、流动相等等。
       
  (2)数据仓库是集成的
       
  数据进入数据仓库之前,必须经过加工与集成。对不同的数据来源进行统一数据结构和编码。统一原始数据中的所有矛盾之处,如字段的同名异议、异名同义、单位不统一和字长不一致等。
       
  (3)数据仓库是稳定的
       
  数据仓库中包含了大量的历史数据。数据经集成进入数据仓库后一般是不更新的,数据仓库除了把从操作性数据库中转换来的数据按照时间顺序添加到前一个时期的数据中的这个过程之外,数据仓库中的信息一般保持固定不变。
      
  (4)数据仓库是随时间变化的
       
  数据仓库是随时间变化的,因为它们要同时维护着历史和当前的数据。数据仓库按照每日、每周或每月的频率从操作性数据库中导入数据,而且一般要保存一段时间。

  2  中药色谱指纹图谱数据仓库的构建
       
  数据挖掘是一种体系结构,而不是一种产品。我们无法购买现成的数据仓库,必须结合实际情况进行构建。所以,数据仓库更多的是一种工程上的概念。
    2.1  中药色谱指纹图谱数据仓库的整体架构设计
    
  中药指纹图谱数据仓库的整体架构设计如图1所示。

  2.2  逻辑模型设计
       
  维度建模是一种逻辑设计技术,维度模型又叫星型模型。维度建模分为4个步骤:(1)确定分析主题。本文主题为中药指纹图谱37个特征参数。(2)定义粒度。由于用户需求的不可预见性,设计时应提供不同色谱条件下特征参数的所有最细节性数据即原子性数据。(3)确定分析的角度和维度。主要有中药材基本信息维、中药制剂基本信息维、方法模式维、洗脱方式维、检测器维、流动相维、HPLC色谱柱维、工作站维、色谱柱维、特征参数维。(4)确定分析的主要指标及事实。在此基础上进行维表的具体设计,根据挖掘主题的需要共设计了10个维表,具体内容见表1。

  图1  中药色谱指纹图谱数据仓库整体架构(略)

  表1  维表设计(略)

  ID、柱类型、brand、生产厂商、型号、长度、内径、粒度、填充料8色谱仪维ID、类型、Brand、生产厂商、型号9特征参数维ID、检测波长、指纹峰总数、有效分离率、指纹信号均化系数、指纹峰几何平均面积、指纹峰算数平均面积、峰面积比率、色谱空间占用率、总积分面积和、八强峰归一化面积及位置、三强峰比例、平均峰高、共有峰平均峰宽、最强峰柱效、总分离度、平均分离度、分离度均化系数、表观进样量、色谱指纹图谱进样量校正信息量指数等。
   
  确定了主题和维之后,采用星形模型,设计数据模型,其结构如图2所示。
    
  图2  中药色谱指纹图谱数据仓库星型数据模型(略)

  3  基于OLAP联机分析的数据挖掘的实现 
       
  数据的抽取、转换和加载是数据进入仓库前对数据的处理过程,决定着数据的质量[4]。中药色谱指纹图谱数据仓库是在SQL Sever 2000操作环境中构建的,数据的抽取、转换和加载是通过Microsoft的数据转换服务DTS向导和 DTS设计器来实现的[5]。

  3.1  数据库的完整性
         
  由图2可知,与37个特征参数表相关的表只有“事实”表,而且关联键也只有“Parameters_ID”,这种过弱的关联并不足以深入地分析内在的知识。如果想对特征参数表进行挖掘,还需要为其建立与其他表的完整的数据关联,这种关联应该可以通过挖掘而体现。

  3.2  建立OLAP多维数据集
       
  以中药指纹图谱数据库中的事实表作为分析的事实数据表,将该表中的字段HLCo_Tem(柱温)设为度量值,选择色谱柱和TCM_table作为维度表,完成多维数据集的建立。

  3.3  建立挖掘模型
       
  以上述建立的OLAP多维数据集为基础,以聚集模式创建柱温的OLAP挖掘模型如图3所示。由于设定了划分组的数量为3,事件就出现在了3个“Cluster”中。
    
  图3  聚集模式创建柱温的OLAP挖掘模型(略)

  4  结语
       
  中药色谱指纹图谱数据仓库的建立,为中药色谱指纹图谱建立了综合的、面向分析的环境,并为下一步的数据分析和数据挖掘提供了有效的平台。

【参考文献】
[1] 高洪深.决策支持系统理论、方法、案例[M].北京:清华大学出版社.2000.
[2] 孙国祥,侯志飞,毕雨萌,等.中药色谱指纹图谱潜信息特征判据研究[J].药学学报,2006,41(9):858-859.
[3] INMON W H.Building the data warehouse[M].北京:北京机械工业出版社,2000.
[4] 陈文伟.数据仓库与数据挖掘教程[M].北京:清华大学出版社,2006.
[5] 武彦峰, 朱仲英.基于DTS组件的数据仓库的数据抽取工具的设计与实现[J].微型电脑应用,2004 ,20(3) :245.

作者: 未知 2009-2-24
医学百科App—中西医基础知识学习工具
  • 相关内容
  • 近期更新
  • 热文榜
  • 医学百科App—健康测试工具