当前位置:主页 > 科技论文 > 软件论文 >

基于本体的健康知识库自动构建方法研究

发布时间:2019-05-20 00:13
【摘要】:随着在线问诊平台的普及,人们逐渐积累了大量的问诊数据。如何准确地从这些数据中提取出更多有用的医疗健康信息,进而形成一个结构化的知识库供后人使用,是人们面临的一个问题。信息抽取是解决数据提取问题的核心技术,它实现了从杂乱无章的文本中提取结构化数据。本课题致力于健康知识库自动构建方法的研究,目的是自动获取网络上的健康问诊数据,从这些非结构化的问诊内容中提取出疾病症状、治疗方案、所需检查等信息,形成一个结构化的健康知识库。采用基于本体的信息抽取算法实现了对问诊对话的信息抽取,并对结果进行结构化存储。本课题实现了一个面向问诊领域的定向爬虫系统,收集实验所用的数据,对获取的数据进行特征分析和标注,并采用三层本体框架构建了问诊领域本体,详细定义出问诊对话中的概念和关系,并用实例进行填充。本课题还提出了以关键词和关联规则为基础的规则生成算法,以及基于本体的抽取算法,首先从标注的样本中提取关键词,进而挖掘其关联关系生成模式匹配规则,接着通过解析不同概念的关系决定它们的抽取顺序和范围,并根据本体实例对句子进行分类和抽取。其中,采用基于特征的对数似然比算法提取概念关键词,相比原始的对数似然比算法进一步降低了高频非特征词的影响;提出了一种基于关键词位置属性搜索频繁项集的FP-growth算法,过滤掉了存在位置冲突的关键词形成的抽取规则,提高了训练出的规则的可靠性;以本体模型中不同概念的逻辑关系决定抽取的先后顺序,并通过本体实例对句子分类,提升了抽取算法的准确性。通过对比实验验证了本课题提出的改进算法均取得了较好的抽取效果,可以实现对问诊对话中健康知识的抽取。最后,基于以上研究理论设计和实现了一个问诊健康知识库的自动构建系统。
[Abstract]:With the popularity of online consultation platform, people gradually accumulate a large number of consultation data. How to extract more useful medical and health information from these data accurately, and then form a structured knowledge base for future generations to use, is a problem that people face. Information extraction is the core technology to solve the problem of data extraction, which realizes the extraction of structured data from disorganized text. This topic is devoted to the research of the automatic construction method of health knowledge base, the purpose of which is to automatically obtain the health consultation data on the network, and extract the information such as disease symptoms, treatment plan, needed examination and so on from these unstructured consultation contents. Form a structured health knowledge base. The information extraction algorithm based on ontology is used to extract the information from the consultation dialogue, and the results are stored structurally. In this paper, a directional crawler system oriented to the field of consultation is implemented, the data used in the experiment are collected, the obtained data are analyzed and marked, and the domain ontology of consultation is constructed by using the three-tier ontology framework. The concepts and relationships in the consultation dialogue are defined in detail and filled with examples. This paper also proposes a rule generation algorithm based on keywords and association rules, and an ontology-based extraction algorithm. Firstly, keywords are extracted from tagged samples, and then their association relationship generation pattern matching rules are excavated. Then the extraction order and scope of different concepts are determined by analyzing the relationship between different concepts, and the sentences are classified and extracted according to ontology examples. Among them, the logarithmic likelihood ratio algorithm based on feature is used to extract concept keywords, which further reduces the influence of high frequency non-feature words compared with the original logarithmic likelihood ratio algorithm. In this paper, a FP-growth algorithm based on keyword position attribute search frequent itemsets is proposed, which filters out the extraction rules formed by keyword conflicts and improves the reliability of the trained rules. The order of extraction is determined by the logical relationship of different concepts in ontology model, and the accuracy of extraction algorithm is improved by classifying sentences through ontology examples. Through comparative experiments, it is verified that the improved algorithms proposed in this paper have achieved good extraction results, and can realize the extraction of health knowledge in consultation dialogue. Finally, based on the above research theory, an automatic construction system of consultation health knowledge base is designed and implemented.
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1

【相似文献】

相关期刊论文 前10条

1 张志强,李天柱,张波,陈少飞,郝亚南;基于文档结构的信息抽取规则的描述语言比较研究[J];河北大学学报(自然科学版);2004年02期

2 彭祥礼;朱小军;查志勇;;Web信息抽取和展现系统的设计与实现[J];电力信息化;2012年02期

3 石倩;陈荣;鲁明羽;;基于规则归纳的信息抽取系统实现[J];计算机工程与应用;2008年21期

4 李洋;;基于Web的信息抽取研究[J];吉林工程技术师范学院学报;2007年12期

5 化柏林;刘一宁;郑彦宁;;针对学术定义的抽取规则构建方法研究[J];情报理论与实践;2011年12期

6 张志远;徐涛;冯霞;;航班信息抽取规则的自动生成技术[J];计算机工程;2011年06期

7 李向阳;戴江山;张亚非;;一种Web信息抽取规则的优化方法[J];兰州理工大学学报;2006年01期

8 曲著伟;李敏强;;基于数据区域发现的信息抽取规则生成方法[J];计算机工程;2009年22期

9 魏保子;王儒敬;;基于多Agent技术的分布式信息抽取系统研究[J];微电子学与计算机;2008年06期

10 方少卿;胡学钢;;基于Web挖掘的信息抽取系统的研究[J];铜陵学院学报;2010年04期

相关会议论文 前2条

1 叶娜;罗海涛;朱靖波;张斌;;基于归纳逻辑编程的多槽信息抽取规则自动学习方法[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年

2 杨文柱;徐林昊;郝亚南;陈少飞;李天柱;;个性化的智能Web查询助手的设计与实现[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年

相关硕士学位论文 前10条

1 魏武;复杂结构精确Web信息抽取规则语言与关键技术研究[D];南京大学;2014年

2 罗镭;基于用户交互的半监督式Web信息抽取规则生成技术研究[D];南京大学;2014年

3 咸珂;基于本体的健康知识库自动构建方法研究[D];哈尔滨工业大学;2016年

4 余淼;主题搜索引擎的信息抽取和索引的研究[D];重庆大学;2007年

5 庄重;WEB信息抽取的研究[D];湖北工业大学;2009年

6 於媛;Web信息抽取系统SEU-WIE设计与实现[D];东南大学;2006年

7 张晓欢;基于本体的产品信息抽取系统的研究[D];天津理工大学;2009年

8 狄慧;基于Agent的Web信息抽取研究[D];大连理工大学;2004年

9 陈建辉;基于模式发现的在线就业信息抽取[D];内蒙古工业大学;2006年

10 郭德先;一种模式发现算法及其Web信息抽取应用[D];景德镇陶瓷学院;2008年



本文编号:2481193

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2481193.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户8f5c8***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com