中医古籍图像文献的自由标引方法研究
发布时间:2020-07-07 14:39
【摘要】: 随着古籍数字化工作的深入开展,中医古籍数字化工作也逐渐由简单的图像扫描向中医古籍文献的智能检索方向发展。而检索是目的,标引是手段。要实现对中医古籍文献地有效检索,就必须对中医古籍文献的标引进行深入研究。因此,本论文在借鉴以往研究的基础上,从图书馆为中医古籍文献研究者提供服务的角度出发,希望通过将现代文献的自由标引方法与中医古籍全文图像数据库相结合的研究来对中医古籍图像文献的标引利用做一些探讨,从而为中医研究者查阅和利用中医古籍文献提供更为可靠和更为便捷的服务。 1研究现状 目前中医古籍数字化工作主要还是通过扫描设备和校对设备完成文献载体的转换,基本属于“电子图书”类型。而中医古籍全文数据库的构建工作基本上都处于正在进行状态。虽然现有的中医古籍全文数据库,如中华医典、中医药古代文献知识库、龙语瀚堂典籍数据库之“中医药文献”数据库等各有特色,或以重新录入见长,或以解析标注见长,或以解决古籍生僻字的输入问题见长,均取得了一定的成果,但是也还普遍存在一些问题。如标引深度差异大、准确把握难度大;基于全文文本的检索、检准率低;后控检索应用少、检全率低等。 针对存在的问题,本论文结合全文数据库本身的特点,遵循面向用户对象的原则,对自由标引的研究现状进行了分析。本论文具体阐述了自由标引的概念、使用范围、优点、缺点及解决方法、应用前景等问题,并通过对主题词标引与自由标引在标引深度、标引一致性、标引专指度、扩检和缩检能力、标引人员、标引速度、标引成本、面向用户能力、词汇更新等方面的比较分析,得出自由标引方法对于全文数据库的创建和满足现代用户的检索需求更具优势。同时,针对自由标引一致性差的缺点,本论文还对解决这一问题的方法即建立后控词表进行了分析。本论文对后控词表的概念、控制原理、功能及其决定因素、编制方式、国内外研究现状等方面进行了具体的介绍。从而在理论上说明了在标引时采用自由标引加上后控词表的方法,可以最好的实现全文数据库的检索功能。 2研究对象、内容和目标 本论文的研究对象是中医古籍图像文献。其实质就是中医古籍文献的全文图像数据库。本研究具体应用的数据库称之为中医古籍阅览系统。 本论文的研究内容和目标主要有两项: 第一,应用自由标引的方法对中医古籍图像文献进行分析标引,总结出各类中医古籍图像文献的具体标引规则,为今后继续标引提供一个统一的示范。 第二,对提取的标引用词进一步予以分析归纳,总结出后控词表的具体设计方案和整个数据库的检索方案,进一步完善中医古籍图像文献数据库的检索功能。 3研究目的和意义 本论文的研究可以兼顾中医古籍文献的保护和利用;可以为标引人员提供标引依据,不仅有利于降低标引成本、提高标引速度和标引质量,而且有利于提高标引一致性,保障检索效率;可以为俭索用户提供便捷服务,节省大量查阅文献资料的时间,有利于促进中医学的知识发现与知识创新;可以为今后研究提供示范与参考。 4研究方法 本论文的研究方法主要有自由标引加后控词表的方法、文献分析法、比较法和统计学方法。 自由标引加后控词表的方法是本论文重点研究和应用的方法。其中,本论文将自由标引的方法与中医古籍文献的目录、标题和主题相结合来对中医古籍图像文献进行标引,称之为“目录的深加工”。它具体是指在对中医古籍图像文献进行自由标引时,先以全书目录中的各条内容作为标引内容,在此基础上,将正文中明确写到而目录中没有的各级标题和各段主题也作为标引内容进一步予以标引。这种标引方法不仅可以全面反应每本书的具体框架,使用户对整本书的内容一目了然,实现快速浏览和快速定位;而且这样提取的标引用词是十分客观的,不会存在标引人员由于主观原因而对用户造成的不便与误导,可以实现有效检索。 与此同时,本论文还运用文献分析法、比较法、统计学方法对各类中医古籍图像文献以及不同的标引方法和检索策略进行具体分析,以便更好的达到本论文的研究目的。 5本论文的主要研究工作 5.1各类中医古籍图像文献的具体标引方法研究 本论文采用《中国中医古籍总目》的分类方法将中医古籍分为医经、基础理论、伤寒金匮、诊法、针灸、本草、方书、临证各科、养生、医案、医史医论医话、综合性著作(主要是丛书)十二大类,并对每类书的具体标引方法进行了研究。以下以本草类中医古籍图像文献的自由标引方法为例进行简要说明。 在编写结构上,本草类的书除了与一般医书共有的序(叙)、跋、目录、凡例或附录等以外,正文结构也有自己的特点。完整的本草书一般是先分卷,再分大类,然后再列药名,其后再列药物的性味归经和主治等。在本草书中,药名、药物的性味归经和主治一般是必有的,其它的结构则或有或无。由此,其各种书的标引方法也就不同。大体分为以下三级情况: 1、一级标引 正文结构:正文不分卷,直接列出药名,其后再列药物的性味归经和主治等。 标引方法:只将药名作为标引用词标出即可。 2、二级标引 正文结构: (1)正文不分卷,先列大类,然后列药名,其后再列药物的性味归经和主治等。 (2)正文分卷,每卷下直接列出药名,然后列出药物的性味归经和主治等。 标引方法: (1)先标出大类,再标出药名,其余不标。 (2)先标出卷名,再标出药名,其余不标。 3、三级标引 正文结构:正文分卷,每卷下先列大类,然后再列药名,其后再列药物的性味归经和主治等。 标引方法:先标出卷名,再标出大类,然后标出药名。 5.2后控词表的设计方案 词表范围:包括各类中医古籍文献中的中医用词。如医经、基础理论、伤寒金匮、诊法、针灸、本草、方书、临证各科、养生、医案、医史医论医话、丛书十二类书中的用词。 词表控制程度:主要控制词汇的同义关系、近义关系、上位关系、下位关系和关联关系。对于词汇的古今对照关系,由于情况比较复杂、难度很大,本词表暂不涉及。 词汇来源:主要包括标引人员所标出的自由标引用词、现有词表和其它中医专业工具书中的词汇和用户检索策略用词。 词汇类型:主要是中医专业用词,如阴阳、人参等;也可以是单词,如头、疟等;或是短句,如治头痛等。 词表结构及构建步骤: 1、收集整理标引用词 利用标引软件古籍编辑器对中医古籍图像文献进行标引后,得到的是xml格式的标引文件。通过对xml格式文件的计算机处理,可以将全部的标引用词抽出,形成一个词表。 在这个词表中,共设三个字段,即标引用词、标识词和语义关系。 标引用词,是指自由标引提取的标引用词,数据类型设为文本型。 标识词,是指每个标引用词在数据库后控检索中的识别词,一般为常规或正式的用词,数据类型设为文本型。 语义关系,是指标引用词与标识词之间的语义关系,包括Y(用)、C(参)、S(属)、F(分)等项,数据类型设为文本型。其中,“Y(用)”指同义关系;“C(参)”指近义关系;“S(属)”指上位关系;“F(分)”指下位关系。 按标引用词的升序对这个词表进行排序,并对其中重复或无检索作用的标引用词进行剔除。其中无检索作用的标引用词主要是指仅用于表示文章整体框架,而不用于检索的词,如“序”、“目录”、“卷一”、“附方”、“附录”等。 借助现有的词表或相关工具书对词表中的标识词、语义关系进行修改和补充。 再按标识词、标引用词、语义关系的升序依次进行排序,形成一个初步的后控词表。 2、形成比较完善的后控词表 在上述后控词表的基础上,以标识词为分类依据,对标引用词进行聚类分析,创建可供不断完善的后控词表。 在这个后控词表中,共设七个字段,即类号、标识词、同义词、近义词、上位词、下位词和关联词。其中类号,是指标识词的顺序号,用整数表示,数据类型设为数值型; 标识词,同上述后控词表中的标识词; 同义词,是指与标识词有同义关系的标引用词,即上述后控词表中与标识词的语义关系为“Y(用)”的标引用词,数据类型设为文本型; 近义词,是指与标识词有近义关系的标引用词,即上述后控词表中与标识词的语义关系为“C(参)”的标引用词,数据类型设为文本型; 上位词,是指与标识词有上位关系的标引用词,即上述后控词表中与标识词的语义关系为“F(分)”的标引用词,数据类型设为文本型; 下位词,是指与标识词有下位关系的标引用词,即上述后控词表中与标识词的语义关系为“S(属)”的标引用词,数据类型设为文本型;。 另外,还增设了一个字段,即关联词。它是指与标识词关联密切的标引用词,语义关系用“L(联)”表示,数据类型设为文本型。 词表形式:①机读版;②印刷版(必要时)。前者便于动态维护和管理,因而以前者为主。 5.3中医古籍阅览系统的功能改善 2005年,根据科技部“再生性古籍保护”项目的要求,中国中医科学院图书馆依托自身的技术力量,开发了中医古籍阅览系统。 该系统就是试图利用自由标引的方法来实现对中医古籍图像文献的有效检索。本论文通过上述研究对该系统做了进一步的改善,并对系统采用的主要技术、系统对硬件软件的要求、系统检索界面、系统具体功能等方面进行了较为全面地介绍。尤其是系统功能方面,不仅详细介绍了该系统的类目浏览直接翻看全书、简单检索和组合检索、全文检索、后控检索、图文关联检索等功能,而且将通过本论文的研究而设计的比较完善的中医古籍阅览系统与中医药古代文献知识库和龙语瀚堂典籍数据库之“中医药文献”数据库在标引内容与深度、检索选项、类目浏览、直接翻看全书、书名检索、内容提要检索、作者检索、馆藏地检索、图片信息检索、书籍信息检索、模糊检索、精确检索、涵盖部分关键词、涵盖全部关键词、同义词检索、近义词检索、上位词检索、下位词检索、关联词检索、图文关联检索、图文对照浏览、超大字库等方面进行了比较研究,进一步说明了本论文所做研究的必要性和优越性。 6结论 本论文结合中医古籍图像文献特点,通过对中医古籍图像文献的自由标引方法研究得出以下结论: 第一,按照“目录深加工”的方法对各类中医古籍图像文献进行自由标引,不仅可以客观而全面的反映中医古籍文献的内容,而且可以为今后的标引工作提供示范。 第二,在自由标引的基础上创建后控词表,有利于大大提高检索效果。 第三,中医古籍阅览系统的创建与完善需要在借鉴其它数据库优点的基础上,综合利用多种先进的计算机技术才能实现。 本论文中采用的各种方法和技术都是现有的,本论文的创新之处在于将这些方法和技术有机的结合在一起,使建立一个文献资料可靠、检索性能优良、用户使用便捷的中医古籍图像文献数据库成为可能。
【学位授予单位】:中国中医科学院
【学位级别】:硕士
【学位授予年份】:2008
【分类号】:G254
【图文】:
中医古籍图像文献的自由标引方法{讲究数或附录等以外,正文结构也有自己的特点。根据正文内容,医经类的书分为以下两种情况:1、与《内经》有关的著作标引方法:(l)《内经》原文或注释,只要将各篇名称标出即可。(2)《内经》类编或发挥,只要按目录进行标引即可,有的目录之下还的也要标出。如果没有目录的,直接按正文中的标题进行标引即可。引示例:(l)《黄帝内经素问灵枢》
’Jl1页四时”2、一l万(图5),“卷之几”、“阴阳”(图6)标出即可。《难经》有关的著作如标引方法:只要将八十一难的名称标出即可,每难的具体条文不用标出。果有图片注释的,要将图片的名称也标出。36
’Jl1页四时”2、一l万(图5),“卷之几”、“阴阳”(图6)标出即可。《难经》有关的著作如标引方法:只要将八十一难的名称标出即可,每难的具体条文不用标出。果有图片注释的,要将图片的名称也标出。36
本文编号:2745244
【学位授予单位】:中国中医科学院
【学位级别】:硕士
【学位授予年份】:2008
【分类号】:G254
【图文】:
中医古籍图像文献的自由标引方法{讲究数或附录等以外,正文结构也有自己的特点。根据正文内容,医经类的书分为以下两种情况:1、与《内经》有关的著作标引方法:(l)《内经》原文或注释,只要将各篇名称标出即可。(2)《内经》类编或发挥,只要按目录进行标引即可,有的目录之下还的也要标出。如果没有目录的,直接按正文中的标题进行标引即可。引示例:(l)《黄帝内经素问灵枢》
’Jl1页四时”2、一l万(图5),“卷之几”、“阴阳”(图6)标出即可。《难经》有关的著作如标引方法:只要将八十一难的名称标出即可,每难的具体条文不用标出。果有图片注释的,要将图片的名称也标出。36
’Jl1页四时”2、一l万(图5),“卷之几”、“阴阳”(图6)标出即可。《难经》有关的著作如标引方法:只要将八十一难的名称标出即可,每难的具体条文不用标出。果有图片注释的,要将图片的名称也标出。36
【引证文献】
相关期刊论文 前1条
1 刘洪;徐燕;经岷;宋宇;张稚鲲;;健身气功歌诀、口诀整理及数字化[J];中华医学图书情报杂志;2013年12期
相关硕士学位论文 前3条
1 褚嘉欣;数字化古籍知识管理研究[D];郑州大学;2018年
2 成小荣;《审查征集验方》整理与数字化研究[D];山西中医药大学;2017年
3 李兵;中医古籍数字化整理方案研究[D];中国中医科学院;2009年
本文编号:2745244
本文链接:https://www.wllwen.com/tushudanganlunwen/2745244.html
教材专著