特定领域知识库的构建与简报生成
本文选题:特定领域 切入点:网页去噪 出处:《北京工业大学》2014年硕士论文
【摘要】:特定领域知识库的构建与简报生成研究工作,是在人们由互联网获取知识相对比较困难的背景下提出来的,主要研究目标是从大量网页中提取知识,并组织成综合报告提供给用户。本文的研究工作是对由互联网获取到的信息进行加工,从这些信息中提取知识,以特定的知识表示方式构建成知识库,根据用户提问生成综合报告反馈给用户。通过本文的工作,可以节省用户由互联网上搜索知识的时间,并且帮助用户对知识进行了自动综合。 特定领域知识库的构建与简报生成研究工作主要包括三方面的研究内容:原始数据获取与处理工作,知识库构建工作,简报生成工作。本文在这三方面的工作中主要有以下三点贡献: 第一,在原始数据处理工作中,对于网页数据的去噪工作,,进行了启发式与统计相结合的网页去噪方法。该方法可以通过调节阈值来改变网页去噪的力度,使最终得到的网页正文内容完整,结构简单,不包含任何噪音。这种网页去噪方法在效率上也明显高于传统的基于启发式规则的去噪方法。 第二,在构建领域知识库的研究中,对适合本课题研究领域的知识表示方式进行了研究。根据不同的知识类型设计对应的知识表示形式,最终设计了实体元知识和事件元知识两种形式,构建了两类知识的知识库,分别为包含234条知识的实体元知识库和包含3158条知识的事件元知识库。两个知识库结构简单,有层次性,方便自动存储知识和读取知识。 第三,在设计自动生成简报的研究中,根据本课题研究的领域特点,设计实现了一个在用户受限提问方式下为用户自动生成云计算公司综合报告的系统。应用简报自动生成系统最终可以实现234个云计算公司的云计算活动综合简报,通过验证实现的综合简报,说明本文设计的从互联网获取知识到组织为综合报告反馈给用户的研究方案是可行的。
[Abstract]:The research work of knowledge base building and briefing generation in specific domain is put forward under the background that it is relatively difficult for people to obtain knowledge from the Internet. The main research goal is to extract knowledge from a large number of web pages.And organize into a comprehensive report to provide to the user.The research work of this paper is to process the information obtained from the Internet, extract the knowledge from the information, construct a knowledge base by a specific knowledge representation, and generate a comprehensive report feedback to the user according to the user's questions.Through the work of this paper, we can save the time for users to search knowledge on the Internet, and help users to synthesize knowledge automatically.The research work of knowledge base building and briefing generation in specific domain mainly includes three aspects: the acquisition and processing of raw data, the construction of knowledge base, and the production of briefing papers.In these three aspects of work, this paper mainly has the following three contributions:Firstly, in the process of raw data processing, a method combining heuristic and statistics to de-noising the web page data is proposed.This method can adjust the threshold value to change the intensity of web page denoising, so that the final text of the web page is complete, simple in structure and without any noise.The efficiency of this method is obviously higher than that of the traditional heuristic rule based method.Secondly, in the research of constructing domain knowledge base, the knowledge representation method suitable for this research field is studied.According to different knowledge types, the corresponding knowledge representation forms are designed. Finally, two forms of entity meta-knowledge and event meta-knowledge are designed, and the knowledge base of two kinds of knowledge is constructed.They are the entity meta-knowledge base containing 234 pieces of knowledge and the event meta-knowledge base containing 3158 pieces of knowledge.The two knowledge bases are simple in structure, hierarchical and convenient for automatically storing and reading knowledge.Thirdly, according to the characteristics of the research field, we design and implement a system to automatically generate the comprehensive report of cloud computing companies for users under the mode of user limited questions.The application briefing automatic generation system can finally realize 234 cloud computing companies' comprehensive briefing on cloud computing activities, through the verification of the implementation of the comprehensive briefing,It shows that the research scheme designed in this paper is feasible to obtain knowledge from the Internet to give feedback to users for comprehensive reports.
【学位授予单位】:北京工业大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP393.092
【相似文献】
相关期刊论文 前10条
1 许跃军;;政府资源领域知识库的构建方法[J];中国信息界;2008年06期
2 吴建绒;;论基于本体的领域知识库构建[J];科技创新导报;2010年30期
3 李爱国;;领域知识库的研究与设计[J];电子设计工程;2011年16期
4 姜婷婷;韩捷;;浅谈基于知识点建立领域知识库[J];黑龙江科技信息;2011年36期
5 徐天伟;;基于本体的领域知识库构建及推理研究[J];云南师范大学学报(自然科学版);2006年04期
6 袁新娣;邱桃荣;徐新爱;;基于本体的教学领域知识库建模研究[J];计算机工程与设计;2007年13期
7 王迎春;蔡东风;叶娜;;基于实体-属性框架的领域知识库构建[J];沈阳航空航天大学学报;2011年02期
8 王文璞;林木辉;;基于本体的领域知识库构建方法研究[J];福建电脑;2008年08期
9 李海刚;尹万岭;;基于本体的新产品开发领域知识库模型研究[J];科技管理研究;2009年08期
10 姜婷婷;吕汇新;王建华;;ITS中基于知识点关系的领域知识库的建立[J];哈尔滨师范大学自然科学学报;2009年01期
相关会议论文 前4条
1 于楠;朱靖波;陈文亮;;领域知识库的构建机制[A];第二届全国学生计算语言学研讨会论文集[C];2004年
2 李勇;李晓峰;;面向领域知识库的电信业务本体创建[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年
3 郑妍;肖桐;朱靖波;;基于Bootstrapping的领域多词串自动获取[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
4 蒋宏潮;王大亮;班晓娟;张德政;;基于Petri网的业务流程评估[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年
相关硕士学位论文 前10条
1 周茜;基于本体的教学领域知识库研究[D];广西师范大学;2011年
2 王迎春;基于实体—属性框架的航空领域知识库的构建及应用[D];沈阳航空航天大学;2011年
3 司圣涛;领域知识库的构建方法及其应用研究[D];昆明理工大学;2009年
4 程紫光;面向领域知识库构建的实体识别及关系抽取技术[D];哈尔滨工业大学;2014年
5 于楠;基于Ontology的领域知识库层次分类体系的构建[D];东北大学;2005年
6 刘静;基于MAS的远程教育系统领域知识库的研究[D];河南理工大学;2009年
7 张佳;基于ontology的领域知识库的构建与集成实现[D];贵州大学;2006年
8 倪海峰;基于领域知识库的程序代码挖掘系统研究[D];东华大学;2009年
9 吴坤;基于Ontology的外汇领域知识库的研究和实现[D];浙江大学;2010年
10 董超;领域科学数据语义映射研究与应用[D];河北科技大学;2014年
本文编号:1711888
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1711888.html