基于GATE的中文信息抽取系统的开发和实现
【图文】:
召开了第一届的 KDD 的 Workshop,1991、1993、1994 年又接着举行 KDD 专题讨会。从 1995 年开始,每年都举办一次 KDD 国际会议。从 1997 年开始,KDD 也有自己的专门杂志《Knowledge Discovery and Data Mining》。1995 年以来,外在知识发现和数据挖掘方面的论文非常多,,已形成了热门研究方向。基于 KDD 的知识发现是从大量结构化数据中提取出可信的、新颖的、有效并能被人最终理解的模式的高级处理过程,通过综合运用统计学、模糊数学、经网络、机器学习和专家系统等方法,从大量的数据中提炼抽象的知识,揭示蕴涵在数据背后的客观世界的内在联系和本质规律,实现知识的自动获取。基于 KDD 的知识发现过程是多个步骤相互连接、反复进行人机交互的过程它的基本流程有:1)问题定义。了解相关领域的有关情况,熟悉背景知识、弄清用户要求。2)数据提取。根据要求从数据库中提取相关的数据。3)数据预处理。主要对前一阶段产生的数据进行再加工,检查数据的完整及数据的一致性.对其中的噪音数据进行处理,对丢失的数据进行填补4)数据挖掘。运用选定的知识发现算法。从数据中提取用户所需的知识,些知识可以用一种待定的方式表示或使用一些常用的表示方式。5)知识评估。将发现的知识以用户能了解的方式呈现,根据需要对知识发过程中的某些处理阶段进行优化,直到满足要求。如下图所示
图 2 基于信息抽取的知识获取和知识建模(Hamish Cunningham etc. Metadata Extraction)实际上,信息抽取属于基于自然语言处理的知识发现的范畴,它具备了自然语言处理和知识技术的双重属性,接下来的内容会深入探讨信息抽取技术的概念、与知识技术的关系、发展情况以及对数字图书馆的意义。1.2 信息抽取技术的概念1.2.1 信息抽取的概念信息爆炸正发生在我们身边,为了应对信息爆炸带来的严峻挑战,迫切需要一些自动化的工具帮助人们在海量信息源中迅速找到真正需要的信息。信息抽取(Information Extraction)研究正是在这种背景下产生的。信息抽取系统的主要功能是从文本中抽取出特定的事实信息(factual information)[4]。比如,从新闻报道中抽取出恐怖事件的详细情况:时间、地点、作案者、受害者、袭击目标、使用的武器等,与信息检索不同(功能、技术、领域),信息抽取直接从自然语言文本中抽取事实信息。中文信息抽取方面的研究起步较晚,主要的研究工作集中在对中文命名实体的识别方面,在设计实现完整的中文信息抽取系统方面还处在探索阶段。信息抽取是一个把无结构的文本作为输入,生产出固定格式,无二意的数据的
【学位授予单位】:中国科学院研究生院(文献情报中心)
【学位级别】:硕士
【学位授予年份】:2006
【分类号】:G250.76
【引证文献】
相关期刊论文 前5条
1 刘金亮;吴芳;孟海江;;智能化垂直搜索系统的构建[J];电脑知识与技术;2010年02期
2 程晨;;使用GATE进行中文命名实体识别的研究[J];福建电脑;2010年08期
3 马续补;郭菊娥;;基于GATE的任务信息抽取研究[J];情报杂志;2010年01期
4 张雯雯;许鑫;;文本挖掘工具述评[J];图书情报工作;2012年08期
5 陈立娜;;面向制造业的主动搜索平台的研究与实现[J];现代计算机(专业版);2009年02期
相关博士学位论文 前1条
1 史树敏;基于领域本体的汉语共指消解及相关技术研究[D];南京理工大学;2008年
相关硕士学位论文 前10条
1 孙萍;面向事件的多文档自动文摘研究[D];江苏大学;2010年
2 朱姗;基于本体的电子产品实体关系抽取研究[D];西安电子科技大学;2011年
3 柴智;基于UIMA的数据库监控文档解析[D];吉林大学;2011年
4 朱媛媛;基于本体的电子商务信息抽取系统研究[D];河北大学;2011年
5 陆洋;基于语义分析的文本挖掘研究[D];浙江工业大学;2012年
6 周慧;基于应急案例本体的信息抽取的研究及应用[D];太原理工大学;2007年
7 杨茶;基于UIMA的内容搜索[D];电子科技大学;2008年
8 王浩然;海洋文献元数据的语义标注技术研究[D];中国海洋大学;2008年
9 袁璐;智能信息检索中基于本体的文本信息抽取的研究与实现[D];沈阳工业大学;2009年
10 翟晓玲;面向学科的基础教育资源垂直搜索引擎的研究与实现[D];东北师范大学;2009年
本文编号:2607068
本文链接:https://www.wllwen.com/tushudanganlunwen/2607068.html