基于搜索引擎的知识发现
[Abstract]:Data mining is generally used in highly structured large databases to discover the knowledge contained therein. With the increase of online texts, the knowledge contained in them is becoming more and more abundant, but they are difficult to be analyzed and utilized. Therefore, it is very important and important to study a set of effective schemes to discover the knowledge contained in the text. In this paper, the search engine Google is used to obtain the relevant Web pages, filter and clean the relevant text, then cluster the text, use Episode for event recognition and information extraction, data integration and data mining, so as to realize knowledge discovery. Finally, the prototype system is given, and the knowledge discovery is verified by practice, and the result is very good.
【作者单位】: 北京理工大学计算机系 北京理工大学计算机系
【分类号】:TP311
【相似文献】
相关期刊论文 前10条
1 李刚;史向东;;基于Google搜索结果的重名消解方法[J];信息与电脑(理论版);2011年02期
2 张 阳,李建良,胡正国;NewsGrouper:一个自动抽取重要新闻的软件工具[J];计算机工程;2002年04期
3 史旗凯;郭菊娥;;基于管理问题信息抽取的主题识别研究[J];情报科学;2008年10期
4 巩知乐;张德贤;;文本挖掘理论概述[J];福建电脑;2008年09期
5 史旗凯;郭菊娥;马续补;叶金凤;;基于SMA信息抽取的事实主题的识别研究[J];情报学报;2009年01期
6 张宏松;刘建辉;;面向Web的文本信息挖掘研究[J];计算机系统应用;2006年09期
7 陆科进,李新颖;基于Ontology的文本信息抽取[J];计算机应用研究;2003年07期
8 李向阳;苗壮;肖江;;无结构文本信息抽取综述[J];军事通信技术;2004年02期
9 贺令亚;柳佳刚;;基于Web的包装器技术的现状与发展[J];电脑开发与应用;2007年06期
10 张岩;;基于本体的信息抽取技术研究[J];科技信息(学术研究);2008年36期
相关会议论文 前10条
1 张猛;王大玲;于戈;;一种基于自动阈值发现的文本聚类方法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
2 董婧灵;李芳;何婷婷;涂新辉;万剑;;基于LDA模型的文本聚类研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 王乐;田李;贾焰;韩伟红;;一个并行的文本聚类混合算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
4 吴雪军;朱靖波;王会珍;叶娜;张宇新;;Co-Training的机器学习方法在中文机构名识别中的应用[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
5 姜吉发;王树西;;一种自举的二元关系获取方法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
6 徐林昊;杨文柱;陈少飞;郝亚南;李天柱;;基于XPath的Web信息抽取[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
7 张刚;周昭涛;王斌;;基于主题的分布式信息检索研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
8 乔春庚;肖诗斌;孙丽华;施水才;;规则与统计相结合的案件名称识别[A];第三届学生计算语言学研讨会论文集[C];2006年
9 周国栋;孔芳;朱巧明;;指代消解:国内外研究现状及趋势[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
10 孟红;钟华;;基于htmlparser的搜索引擎信息抽取系统设计与实现[A];第六届全国信息检索学术会议论文集[C];2010年
相关重要报纸文章 前3条
1 上海交通大学APEX数据和知识管理实验室 王昊奋邋俞勇;语义Web推动下一代搜索[N];计算机世界;2007年
2 王培森;从Web挖到竞争情报[N];中国计算机报;2003年
3 希安;微软试水信息检索[N];经济日报;2004年
相关博士学位论文 前10条
1 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年
2 刘亚清;开放式环境中的本体演化及其在信息抽取的应用研究[D];大连海事大学;2011年
3 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
4 刘娜;文本自动摘要和信息抽取方法及其应用研究[D];大连海事大学;2012年
5 刘向威;NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
6 李传席;基于本体的自适应Web信息抽取方法研究[D];中国科学技术大学;2012年
7 张奇;信息抽取中实体关系识别研究[D];中国科学技术大学;2010年
8 胡国平;基于超大规模问答对库和语音界面的非受限领域自动问答系统研究[D];中国科学技术大学;2007年
9 郝立丽;汉语文本数据挖掘[D];吉林大学;2009年
10 钱伟中;基于判别式模型的蛋白质互作用文本挖掘技术研究[D];电子科技大学;2011年
相关硕士学位论文 前10条
1 何晏成;基于近邻传播和凝聚层次的文本聚类方法[D];哈尔滨工业大学;2010年
2 张金;个性化信息检索系统中文本聚类的研究[D];东北师范大学;2010年
3 金璐钰;基于框架的事件抽取关键技术研究[D];苏州大学;2010年
4 李梅;改进的K均值算法在中文文本聚类中的研究[D];安徽大学;2010年
5 陈兰;基于ontology的信息抽取系统的研究与实现[D];电子科技大学;2004年
6 孟令谦;基于ontology的中文信息抽取系统的研究与实现[D];电子科技大学;2004年
7 王飞;基于蚁群优化的模糊文本聚类算法研究[D];河南工业大学;2010年
8 廉成洋;基于树结构的Web信息抽取技术研究[D];南京航空航天大学;2010年
9 田宇;基于XML的WEB信息抽取系统研究与实现[D];内蒙古大学;2011年
10 杨选选;基于概念图和语义角色的多领域信息抽取系统研究[D];西北大学;2010年
,本文编号:2308536
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2308536.html