Literature
首页合作平台医学论文中西医结合论文中医中药

范为宇 崔 蒙:中医药数据集分类研究

来源:《世界科学技术中医药现代化》
摘要:一、概述中医药科学数据共享与服务工程旨在将我国的中医药科学数据资源通过统一的平台向广大数据使用者提供共享服务。中医药科学数据共享与服务工程标准规范的总体内容包括数据标准、服务标准和管理标准.而中医药数据集分类与编码标准是其中数据类标准的组成部分。中医药数据分类研究的目的是为中医药科学数据共享与服务......

点击显示 收起

    一、概  述
    中医药科学数据共享与服务工程旨在将我国的中医药科学数据资源通过统一的平台向广大数据使用者提供共享服务。一个工程的实施。必须要有标准作为支撑。中医药科学数据共享与服务工程标准规范的总体内容包括数据标准、服务标准和管理标准.而中医药数据集分类与编码标准是其中数据类标准的组成部分。
    中医药数据分类研究的目的是为中医药科学数据共享与服务工程的资源调查与规划.以及数据集的组织、整合、汇交、发布和目录查询.提供系统、规范、实用的分类和编目办法,从而建立中国中医药科学数据共享与服务数据集分类编码标准体系。
    由于本研究是基于中医药科学数据共享与服务工程而进行的,因此其分类对象仅为中医药科学数据共享与服务工程中的数据集,而不等同于中医药学科分类、机构分类、文献分类等其他分类。中医药数据集是指有独立主题,格式规范,能够通过计算机采集、整合、存储和展现,可应用于中医药临床、科研、管理和公众服务等方面的相关数据的集合.它能为各种用户所共享,具有最小冗余度,数据间联系密切,而又有较高的数据独立性。
    二、研究方法
    以中医药数据集资源为分类对象,以满足资源拥有者区分、判别、抽取、归纳、制作其同类属性数据集为研究主导,以方便资源需求用户的信息查询、检索为目的,面向主题,参考国内外相关领域数据分类办法、中医药领域业务职能、中医药学科分类、机构分类和相关资料,应用文献分析法和专家咨询法进行研究。
  1.分类原则
  对中医药数据集的分类应遵循系统性原则、科学性原则、可扩充性原则及实用性原则。
  系统性原则:根据中医药信息资源的特征或特性,以学科分类为基础,结合数据类型,按其内在规律系统化地进行排列,旨在形成一个层次清晰。结构合理,类目明确的分类体系。
  科学性原则:尽量选择中医药信息资源相对最稳定的本质特征或特性作为分类的基础和依据,使由此产生的分类结果具有相对最佳的稳定性。
  可扩充性原则:在类目种类和层级的设置上留有扩充和延拓的余地,以保证在中医药信息资源分类对象增加时,仍可保持原有的分类体系。
  实用性原则:兼顾信息提供者和信息查询者两类用户,使分类法具有可操作性。
  2.分类方法
  采用面分类法和线分类法相结合的混合分类法进行分类研究。
  应用面分类法将中医药领域现有或可能产生的数据集的属性或特征视为若干个“面”,在每个“面”下,应用线分类法,分别依学科体系或分类对象的特有属性,将分类对象分成若干级层的类目,并排成一个有层次的、逐级展开的分类体系。在这个分类体系中,同位类的类目之间存在着并列关系,下位类与上位类的类目之间存在着隶属关系,同位类的类目不重复,不交叉。
  面分类法的分类原则是,根据需要选择分类对象的本质属性或特征作为分类对象的各个“面”,不同“面”内的条目间相互不交叉,对每个“面”都给出明确的定义。面分类法具有较大的弹性,一个面内类目的改变,不会影响其他的面,适应性强,可根据需要组成任何类目,同时也便于应用计算机处理信息,易于添加和修改类目。
  线分类法的分类原则是,由某一上位类划分出的下位类类目总的范围应与其上位类类目的范围相等,当某一上位类类目划分为若干下位类类目时,应选择一个划分基础,同位类类目之间只对应于一个上位类。分类要依次进行,不应有空层或加层。
    3.参考依据
    中医药数据集分类研究以相关国家标准、国内外相关分类方法作为参考依据,以期达到标准工作的一致性。研究主要参考了中华人民共和国国家标准GB/T 7027-2002《信息分类和编码的基本原则与方法》11I、GB/T 20001.3-2002《标准编写规则第3部分:信息分类编码》、GB/T 10113-2003《分类编码通用术语》L3I、GB/T 13745-1992《学科分类与代码》I<q、GB/T 14396-2001《疾病分类与代码》、GB/T 15657-1995《中医病证分类与代码》、GB/T 7635.1-2002《全国主要产品分类与代码第1部分:可运输产品》、《中国中医药学主题词表》、《中国图书馆资料分类法  [电子资源]》(第四版)、《中国图书资料分类法》(第四版)、《中国图书馆分类法》(第四版)、《医学主题词表》(Medical SubJect Headings,MeSH)、《疾病和有关健康问题的国际统计分类》第十次修订本(ICD-10)。
    三、阶段性研究结果
    1.主体分类框架
    参照中医药领域业务范畴,分析我国中医药业务机构工作职责,以中医药信息资源数据集的制作、管理、查找和共享为目的,将我国中医药资源分为5个一级类目(主题域)、40个二级类目(主类),143个三级类目(亚类)。5个一级类目为:
    中医药事业:包括中医药管理、中医药发展、中医药机构、中医药人员、中医药教育、中医药经济等类信息资源:
    中医:包括中医基础、中医临床、少数民族医学、中医预防保健等类信息资源:
    中药:包括中药材、剂型、方剂、中成药、中药药理、中药化学成分等类信息资源:
    针灸:包括经络穴位、针灸方法、针灸临床、针灸器械等类信息资源:
    古籍:包括医经、本草、方书、医案医话、针灸、遗失海外古籍等类信息资源。  
    2.分类编码
    遵循唯一性、匹配性、可扩充性、简洁性的编码基本原则,参考与之相关的国家标准。尽可能与国家标准一致或兼容。根据中医药信息资源的特征及所拟订的分类方案,采用固定格式的层次码编码方法。层级数目暂为4层,用字母和数字的混合编码,每层用2或3个字符标识,各级之间用下划线“一”分隔,所有类目代码长度固定为12位。前2位字母代表一级类目,3、4位数字代表二级类目,5、6位数字代表三级类目,最后3位数字代表数据集编码。同级类目不足规定位数的,以O补齐。编码位数留有余地.以便随系统发展增加或减少。编码体系的结构与分类体系相适应,代码的结构、类型及编写的格式统一。随着科技的发展。需要进一步细分时,每增加一下位类,则在其后增加相应位数的数字标识,便于计算机处理。
  3.层次内容说明
  一级类目:表示中医药信息的主题域范畴。将中医药科学数据分为中医药事业类、中医类、中药类、针灸类及古籍类,用“主题域”描述。分别用英文字母AA、AB,AC,AD,AE标识。
    二级类目:表示主类信息的内容属性.即以属性为基础,以所属学科内容为“面类目”,将信息进一步划分,用“主类”描述,用两位数字(01-99)编码。
    三级类目:表示信息的层级体系,用“亚类”描述,用两位数字(01-99)编码。即在主类基础上,按所选定的若干属性或特征依次逐级地分成相应层级的亚类,并排成一个有层次的、逐级展开的分类体系。如:中医信息(主题域)一中医诊断信息(主类)一四诊信息(亚类)。
数据集实体层:即分类的终点层.也是具体数据内容的描述层,用三位数字(001-999)编码。由元素和描述元素的记录组成,通常是由一个二维表的形式存在。数据集实体中的元素及其代码需进一步标化,内容包括:数据元素中英文名称、数据类型、数据长度、元素说明、代码依据、分类列表等。
    4.示例
    综合考虑信息的不同类别和层级以及数据集在总体信息资源分类体系中所处的位置进行编码,编码由主题域标识符+主类代码+亚类代码+最终的数据实体在系统中所处位置的代码组合而成。如:舌诊数据集,其亚类为四诊信息,主类为中医诊断信息。主题域为中医信息,即:AB一中医类信息,02一中医诊断信息,01一四诊信息;则中医舌诊数据集的代码
为:AB02—0l001。本编码的特点是类别与层次相结合,便于手工处理,也利于计算机识别。
    四、试用、验证与完善
    目前,中医药数据集分类研究已初步建立起分类编码体系,但这一分类编码体系尚需专家进一步论证,且需在实践中加以验证,不断完善。
    我们试用本分类方案对中医药信息资源进行了调查和规划,编制了以数据集为最小单位的《中医药数据共享资源手册(初稿)》。该手册共分5章(1级类目)、39节(2级类目)、124个3级类目及4个4级类目,涉及数据库325个。结果表明,中医药数据集分类编码体系基本上可以满足中医药数据资源分类的需要,但个别类目尚需进一步调整。
    分类编码研究的目的是应用,只有在实践中才能检验出研究结果成功与否。初步试用显示出本分类编码方案符合既定的分类原则,基本具有系统性、科学性、可扩充性及实用性。今后,尚需根据专家论证意见及验证实践中发现的问题。进一步修改完善这一方案,使之成为中医药数据资源规划、整合、网上共享发布的分类标准。
    五、结  语
中医药数据集分类方案的研制。为中医药数据资源的调查与规划,以及数据集的组织、整合、汇交、发布和目录查询,提供了系统、规范、实用的分类和编目办法,为进一步建立中国中医药科学数据共享与服务数据集分类编码标准体系奠定了基础。

作者: 范为宇 崔 蒙
医学百科App—中西医基础知识学习工具
  • 相关内容
  • 近期更新
  • 热文榜
  • 医学百科App—健康测试工具