基于Web的DCI垂直搜索引擎的研究与设计
[Abstract]:In order to solve the problem that users can quickly and accurately search digital works information on the Internet, a vertical search engine for digital works is designed and analyzed. Firstly, based on the Heritrix crawler technology, the digital works on the Internet are collected and the text information is extracted, and the extracted data is saved to the local area. Then, based on the full-text retrieval toolkit of Lucene, the local data are processed such as word segmentation, inverted index, index retrieval and improved correlation ranking. Finally, a universal scalable DCI vertical search engine is designed and implemented. The experimental results show that the search engine improves the accuracy of web page information extraction and the efficiency of data retrieval to a great extent.
【作者单位】: 北方工业大学信息工程学院;
【基金】:国家科技部支撑计划课题基金项目(2012BAH04f03)
【分类号】:TP391.3
【参考文献】
相关期刊论文 前5条
1 赵珂;逯鹏;李永强;;基于Lucene的搜索引擎设计与实现[J];计算机工程;2011年16期
2 王欢;孙瑞志;;基于领域本体和Lucene的语义检索系统研究[J];计算机应用;2010年06期
3 孙承杰,关毅;基于统计的网页正文信息抽取方法的研究[J];中文信息学报;2004年05期
4 蒋一峰;王华;张玉红;黄少林;;基于Lucene的语义检索系统的设计和实现[J];计算机工程与设计;2008年20期
5 付强;;基于Lucene的高校图书垂直搜索引擎的研究与实现[J];太原师范学院学报(自然科学版);2011年04期
【共引文献】
相关期刊论文 前10条
1 高博;朱东华;韩士雄;;一种智能化的信息采集系统的研究与实现[J];兵工学报;2009年S1期
2 毛布;谢汶;;一种基于博弈论的死锁检测机制研究[J];成都电子机械高等专科学校学报;2010年04期
3 王楠;;一种实现Web数据到XML文档的转换算法[J];大连海事大学学报;2010年03期
4 宋明秋;张瑞雪;吴新涛;李文立;;网页正文信息抽取新方法[J];大连理工大学学报;2009年04期
5 赵文;唐建雄;高庆锋;;基于统计的中文网页正文抽取的研究[J];电脑知识与技术;2008年01期
6 王强;战忠丽;张凤君;;基于语义分组向量空间模型的Web新闻检索算法[J];电子科技;2011年04期
7 杨元峰;赵敏涯;廖黎莉;;基于Lucene的客服知识库系统结构设计[J];福建电脑;2012年01期
8 胡瑜;王立志;;基于HTML结构特征的网页信息提取[J];辽宁石油化工大学学报;2009年03期
9 任玉;樊勇;郑家恒;;基于分块的网页主题文本抽取[J];广西师范大学学报(自然科学版);2009年01期
10 谌超;强保华;石龙;;基于Hadoop MapReduce的大规模数据索引构建与集群性能分析[J];桂林电子科技大学学报;2012年04期
相关会议论文 前4条
1 胡飞;;一种Web页面的主题区域搜索方法[A];2008年计算机应用技术交流会论文集[C];2008年
2 王春元;张韬;;一种获取网页主要中文信息的方法[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年
3 时达明;林鸿飞;杨志豪;;基于网页框架和规则的网页噪音去除方法[A];第三届学生计算语言学研讨会论文集[C];2006年
4 蒲宇达;关毅;王强;;基于数据挖掘思想的网页正文抽取方法的研究[A];第三届学生计算语言学研讨会论文集[C];2006年
相关博士学位论文 前1条
1 王春元;公共网络信息系统安全管理的研究[D];合肥工业大学;2009年
相关硕士学位论文 前10条
1 王乐超;Web环境下文献信息的提取与匹配研究[D];大连理工大学;2010年
2 孟祥燕;问答对自动获取的研究[D];昆明理工大学;2008年
3 吕楠;话题追踪与演化分析技术研究[D];解放军信息工程大学;2009年
4 许世明;中文网页分类技术研究及预分类算法实现[D];西安电子科技大学;2009年
5 陈晶;基于网页的信息抽取的研究[D];西安工业大学;2011年
6 王伟;搜索引擎智能化技术中若干关键问题的研究与实现[D];河北科技大学;2011年
7 高永胜;基于树形结构的网页数据抽取模式研究及应用[D];大连理工大学;2011年
8 董锦霞;基于菱形思维的概念检索模型研究[D];大连理工大学;2011年
9 张瑞雪;基于DOM树的网页相似度研究与应用[D];大连理工大学;2011年
10 王伟;基于网络信息的热点事件发现与分析研究[D];华东师范大学;2011年
【二级参考文献】
相关期刊论文 前10条
1 马晖男;吴江宁;潘东华;;一种基于同义词词典的模糊查询扩展方法[J];大连理工大学学报;2007年03期
2 张绍华,徐林昊,杨文柱,薛文玲,李天柱;基于样本实例的Web信息抽取[J];河北大学学报(自然科学版);2001年04期
3 郭立力;赵春江;;高效FTP搜索引擎的设计与实现[J];华南理工大学学报(自然科学版);2009年01期
4 张承立;陈剑波;齐开悦;;基于语义网的语义相似度算法改进[J];计算机工程与应用;2006年17期
5 张宇;王映辉;张翔南;;基于Spring的MVC框架设计与实现[J];计算机工程;2010年04期
6 黄果;周竹荣;周亭;;基于领域本体的语义相似度计算研究[J];计算机工程与科学;2007年05期
7 王琦;张戈;何婧;;基于Lucene与Heritrix的图书垂直搜索引擎的研究与实现[J];计算机时代;2010年02期
8 高军 ,王腾蛟 ,杨冬青 ,唐世渭;基于Ontology的Web内容二阶段半自动提取方法[J];计算机学报;2004年03期
9 宋睿华,马少平,陈刚,李景阳;一种提高中文搜索引擎检索质量的HTML解析方法[J];中文信息学报;2003年04期
10 郑世明;任在安;宋自林;邵荣明;戴荣荣;潘明聪;;基于Ontology的语义查询分析研究[J];南京师范大学学报(工程技术版);2008年04期
相关硕士学位论文 前3条
1 杨永毅;基于Lucene的二手汽车交易信息垂直搜索引擎的研究与实现[D];重庆大学;2009年
2 王冬坡;基于Lucene的主题搜索引擎的研究与实现[D];河北科技大学;2010年
3 陈航哲;基于Lucene的垂直搜索引擎的研究与应用[D];暨南大学;2010年
【相似文献】
相关期刊论文 前10条
1 周纯;;垂直搜索引擎技术进展[J];知识经济;2011年09期
2 彭玉容;杨捧;高媛;;农业搜索引擎的发展现状及关键技术研究[J];安徽农业科学;2010年20期
3 郭兴;柯鹏;徐媛;李宗荣;;论垂直搜索引擎中的信息抽取技术的选用[J];医学信息;2006年12期
4 许鑫;黄仲清;;垂直搜索引擎应用中的若干策略探讨——以12580餐饮垂直搜索为例[J];现代图书情报技术;2009年02期
5 郝爱峰;;网页结构化信息抽取技术方法研究[J];山西电子技术;2008年04期
6 刘金亮;吴芳;孟海江;;智能化垂直搜索系统的构建[J];电脑知识与技术;2010年02期
7 任小燕;康小军;;面向教育资源的垂直搜索引擎应用研究[J];软件导刊;2007年13期
8 王宁;毛垣生;;水平和垂直搜索引擎的比较与应用实践[J];图书馆工作与研究;2009年12期
9 胡亮;袁芳;齐芸芸;;农业垂直搜索引擎信息抽取的研究[J];计算机工程与设计;2009年05期
10 胡洁;丁宁;关静;曹福年;张磊;;基于“PUBMED+PDF”的医学垂直搜索引擎的实践[J];信息系统工程;2009年05期
相关会议论文 前10条
1 杨存榜;苏春晓;郭素;陈红素;陈久森;于瑞珍;;用于ICF实验的大型数据库系统的开发[A];第六届全国激光科学技术青年学术交流会论文集[C];2001年
2 张云鹏;;Proficy Historian在邯钢集团全厂实时生产信息系统中的应用[A];全国炼钢连铸过程自动化技术交流会论文集[C];2006年
3 朱晔;;对电能量采集与计费系统的探讨[A];2007云南电力技术论坛论文集[C];2007年
4 张建新;蔡冬梅;;“数字城市”基础数据获取技术的探讨[A];2009全国测绘科技信息交流会暨首届测绘博客征文颁奖论文集[C];2009年
5 冯立;刘思齐;钱晓龙;;基于NetLinx架构的企业控制信息集成[A];中国仪器仪表学会第五届青年学术会议论文集[C];2003年
6 贾根莲;王开因;;企业数据中心建设过程中的关键问题[A];全国第十五届计算机科学与技术应用学术会议论文集[C];2003年
7 陈恩平;;基于VB的数据采集软件设计及关键问题研究[A];《制造业自动化与网络化制造》学术交流会论文集[C];2004年
8 廖之平;;土地利用数据库建设的方法探索[A];第十五届全国遥感技术学术交流会论文摘要集[C];2005年
9 路长城;李德明;;基于MapGIS的城市地形图数据库的建设[A];'2005数字江苏论坛——电子政务与地理信息技术论文专辑[C];2005年
10 路长城;李德明;;基于MapGIS的城市地形图数据库的建设[A];'2005数字江苏论坛电子政务与地理信息技术论文专辑[C];2005年
相关重要报纸文章 前10条
1 电子工业出版社 董娅 工业和信息化部电子科学技术情报研究所 周峻松;用开源软件建垂直搜索引擎[N];计算机世界;2010年
2 ;IBM IM独特的数据采集工具[N];中国计算机报;2002年
3 单群一;用友发布新税务查账软件[N];中国税务报;2007年
4 廖军邋傅作良 王继晔;陕西建立数据采集报送长效机制[N];中国交通报;2008年
5 北京合众思壮科技股份有限公司 彭玉群;移动GIS蓄势待发[N];计算机世界;2008年
6 张涛;应用推动软件技术创新[N];计算机世界;2007年
7 于翔;打造实用主义ITSM[N];网络世界;2007年
8 清华大学计算机系智能技术与系统国家重点实验室 张敏 金奕江;寻“宝”有术[N];计算机世界;2003年
9 王东华邋蒋捷;芬兰国家地图数据库建设与更新[N];中国测绘报;2007年
10 林丽雅邋王慧;营销系统和GIS系统实现数据共享[N];国家电网报;2007年
相关博士学位论文 前10条
1 王晔;垂直搜索引擎若干问题研究[D];复旦大学;2011年
2 胡宜敏;农业垂直搜索引擎语义化若干问题的研究与实现[D];中国科学技术大学;2012年
3 李传席;基于本体的自适应Web信息抽取方法研究[D];中国科学技术大学;2012年
4 马英杰;基于3GS的核勘查数据采集及处理系统研究[D];成都理工大学;2010年
5 刘亚清;开放式环境中的本体演化及其在信息抽取的应用研究[D];大连海事大学;2011年
6 刘娜;文本自动摘要和信息抽取方法及其应用研究[D];大连海事大学;2012年
7 张奇;信息抽取中实体关系识别研究[D];中国科学技术大学;2010年
8 李学锋;矿山企业数据仓库的应用研究[D];昆明理工大学;2005年
9 杨武;基于多源数据的土地利用变化研究[D];同济大学;2006年
10 滕伟;面向Web信息集成的Web信息抽取中若干关键问题的研究[D];上海交通大学;2007年
相关硕士学位论文 前10条
1 肖亮;垂直搜索引擎的研究与实现[D];北京交通大学;2008年
2 李文泽;个性化垂直搜索引擎研究[D];河南大学;2007年
3 任军;基于网页结构特征的垂直搜索引擎研究与实现[D];上海交通大学;2008年
4 江娟;垂直搜索引擎数据分析技术的研究与实现[D];华北电力大学(北京);2008年
5 金婵鸣;垂直搜索引擎系统的研究[D];武汉理工大学;2010年
6 张赢;个性化多媒体资源垂直搜索引擎技术研究[D];华东交通大学;2009年
7 周兵;基于分布式精准采集的垂直搜索引擎的研究与实现[D];北京邮电大学;2011年
8 王嘉杰;面向博客领域的垂直搜索引擎的研究与实现[D];北京邮电大学;2009年
9 金璐钰;基于框架的事件抽取关键技术研究[D];苏州大学;2010年
10 陈兰;基于ontology的信息抽取系统的研究与实现[D];电子科技大学;2004年
,本文编号:2395630
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2395630.html