当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于搜索引擎的知识发现

发布时间:2018-11-03 18:00
【摘要】:数据挖掘一般用于高度结构化的大型数据库,以发现其中所蕴含的知识。随着在线文本的增多,其中所蕴含的知识也越来越丰富,但是,它们却难以被分析利用。因而,研究一套行之有效的方案发现文本中所蕴含的知识是非常重要的,也是当前重要的研究课题。该文利用搜索引擎Google获取相关Web页面,进行过滤和清洗后得到相关文本,然后,进行文本聚类,利用Episode进行事件识别和信息抽取,数据集成及数据挖掘,从而实现知识发现。最后给出了原型系统,对知识发现进行实践检验,收到了很好的效果。
[Abstract]:Data mining is generally used in highly structured large databases to discover the knowledge contained therein. With the increase of online texts, the knowledge contained in them is becoming more and more abundant, but they are difficult to be analyzed and utilized. Therefore, it is very important and important to study a set of effective schemes to discover the knowledge contained in the text. In this paper, the search engine Google is used to obtain the relevant Web pages, filter and clean the relevant text, then cluster the text, use Episode for event recognition and information extraction, data integration and data mining, so as to realize knowledge discovery. Finally, the prototype system is given, and the knowledge discovery is verified by practice, and the result is very good.
【作者单位】: 北京理工大学计算机系 北京理工大学计算机系
【分类号】:TP311

【相似文献】

相关期刊论文 前10条

1 李刚;史向东;;基于Google搜索结果的重名消解方法[J];信息与电脑(理论版);2011年02期

2 张 阳,李建良,胡正国;NewsGrouper:一个自动抽取重要新闻的软件工具[J];计算机工程;2002年04期

3 史旗凯;郭菊娥;;基于管理问题信息抽取的主题识别研究[J];情报科学;2008年10期

4 巩知乐;张德贤;;文本挖掘理论概述[J];福建电脑;2008年09期

5 史旗凯;郭菊娥;马续补;叶金凤;;基于SMA信息抽取的事实主题的识别研究[J];情报学报;2009年01期

6 张宏松;刘建辉;;面向Web的文本信息挖掘研究[J];计算机系统应用;2006年09期

7 陆科进,李新颖;基于Ontology的文本信息抽取[J];计算机应用研究;2003年07期

8 李向阳;苗壮;肖江;;无结构文本信息抽取综述[J];军事通信技术;2004年02期

9 贺令亚;柳佳刚;;基于Web的包装器技术的现状与发展[J];电脑开发与应用;2007年06期

10 张岩;;基于本体的信息抽取技术研究[J];科技信息(学术研究);2008年36期

相关会议论文 前10条

1 张猛;王大玲;于戈;;一种基于自动阈值发现的文本聚类方法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年

2 董婧灵;李芳;何婷婷;涂新辉;万剑;;基于LDA模型的文本聚类研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

3 王乐;田李;贾焰;韩伟红;;一个并行的文本聚类混合算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年

4 吴雪军;朱靖波;王会珍;叶娜;张宇新;;Co-Training的机器学习方法在中文机构名识别中的应用[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年

5 姜吉发;王树西;;一种自举的二元关系获取方法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年

6 徐林昊;杨文柱;陈少飞;郝亚南;李天柱;;基于XPath的Web信息抽取[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年

7 张刚;周昭涛;王斌;;基于主题的分布式信息检索研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年

8 乔春庚;肖诗斌;孙丽华;施水才;;规则与统计相结合的案件名称识别[A];第三届学生计算语言学研讨会论文集[C];2006年

9 周国栋;孔芳;朱巧明;;指代消解:国内外研究现状及趋势[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年

10 孟红;钟华;;基于htmlparser的搜索引擎信息抽取系统设计与实现[A];第六届全国信息检索学术会议论文集[C];2010年

相关重要报纸文章 前3条

1 上海交通大学APEX数据和知识管理实验室 王昊奋邋俞勇;语义Web推动下一代搜索[N];计算机世界;2007年

2 王培森;从Web挖到竞争情报[N];中国计算机报;2003年

3 希安;微软试水信息检索[N];经济日报;2004年

相关博士学位论文 前10条

1 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年

2 刘亚清;开放式环境中的本体演化及其在信息抽取的应用研究[D];大连海事大学;2011年

3 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年

4 刘娜;文本自动摘要和信息抽取方法及其应用研究[D];大连海事大学;2012年

5 刘向威;NLP技术在中文信息检索中的应用研究[D];天津大学;2005年

6 李传席;基于本体的自适应Web信息抽取方法研究[D];中国科学技术大学;2012年

7 张奇;信息抽取中实体关系识别研究[D];中国科学技术大学;2010年

8 胡国平;基于超大规模问答对库和语音界面的非受限领域自动问答系统研究[D];中国科学技术大学;2007年

9 郝立丽;汉语文本数据挖掘[D];吉林大学;2009年

10 钱伟中;基于判别式模型的蛋白质互作用文本挖掘技术研究[D];电子科技大学;2011年

相关硕士学位论文 前10条

1 何晏成;基于近邻传播和凝聚层次的文本聚类方法[D];哈尔滨工业大学;2010年

2 张金;个性化信息检索系统中文本聚类的研究[D];东北师范大学;2010年

3 金璐钰;基于框架的事件抽取关键技术研究[D];苏州大学;2010年

4 李梅;改进的K均值算法在中文文本聚类中的研究[D];安徽大学;2010年

5 陈兰;基于ontology的信息抽取系统的研究与实现[D];电子科技大学;2004年

6 孟令谦;基于ontology的中文信息抽取系统的研究与实现[D];电子科技大学;2004年

7 王飞;基于蚁群优化的模糊文本聚类算法研究[D];河南工业大学;2010年

8 廉成洋;基于树结构的Web信息抽取技术研究[D];南京航空航天大学;2010年

9 田宇;基于XML的WEB信息抽取系统研究与实现[D];内蒙古大学;2011年

10 杨选选;基于概念图和语义角色的多领域信息抽取系统研究[D];西北大学;2010年



本文编号:2308536

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2308536.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户10a53***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com