当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于Lucene的垂直搜索引擎设计

发布时间:2016-11-03 17:33

  本文关键词:面向用户体验需求的垂直搜索引擎的研究,由笔耕文化传播整理发布。


《吉林大学》 2008年

基于Lucene的垂直搜索引擎设计

于海  

【摘要】: Internet是一个巨大的信息资源库,有大量的页面是由站点后台数据库动态产生的,不能直接通过静态链接获取,只能通过填写表单提交查询来获取,而传统的网络爬虫程序不具备填写表单的能力,抓取不到这些页面。因此,现有的搜索引擎搜索不出这部分页面信息,从而导致这部分信息对用户是隐藏、不可见的,被称之为Deep Web。Deep Web和浅层页面信息相比信息量更大,主题更专一,信息质量更高,信息结构化更好。然而要想比较全面而准确的把它们从Web中搜索出来是一件非常困难的事情。因为查询接口在网页上都是以HTML语言的FORM标签所形成的表单的形式展现,爬虫需要能够准确地填写Web数据库的查询接口。 Deep Web受到越来越多的研究人员的关注,并且越来越多的相关研究成果被发表。对Deep Web研究的根本目的是为了能够自动地获取利用自由分布在整个互联网上的Deep Web中丰富的信息。 本文将Deep Web发掘与“主题爬行”技术有机地结合起来,对Deep Web垂直搜索引擎系统的关键技术进行了深入研究,使用已有的主题爬行技术来指导Deep Web发掘,将Deep Web发掘技术融入主题爬行,研究了基于Deep Web垂直搜索引擎设计,实现了一个面向Deep Web的垂直搜索引擎原型系统HYSE。 随着Web数据库在Web中不断大量的涌现,人们在Deep Web领域已经作了大量的研究,然而大部分工作仍然处于探索性的阶段,有些方面的工作到目前可以说是刚刚开始甚至仍然是空白。因此要真正有效的利用Deep Web资源仍然有许多的问题有待更深入的研究。本文对Deep Web垂直搜索引擎的关键技术进行了研究,但文中提出的方法、算法还有待进一步改进;HYSE仍然是一个功能不强的原型系统,与大规模、多主题领域的信息检索系统相比仍然有一定的差距。

【关键词】:
【学位授予单位】:吉林大学
【学位级别】:硕士
【学位授予年份】:2008
【分类号】:TP391.3
【目录】:

  • 提要4-8
  • 第一章 引言8-13
  • 第二章 DEEP WEB 主题爬虫设计13-29
  • 2.1 分类器设计13-19
  • 2.1.1 文本的表示15-16
  • 2.1.2 特征选取16-18
  • 2.1.3 SVM 文本分类18-19
  • 2.2 在线爬行19-23
  • 2.2.1 爬行过程19-21
  • 2.2.2 网页解析21-23
  • 2.3 HTML 解析23-25
  • 2.4 中文分词25-26
  • 2.5 DEEP WEB 爬行算法框架26-29
  • 第三章 本文用到的开源组件介绍29-39
  • 3.1 LUCENE 介绍29-32
  • 3.2 HTTPCLIENT 介绍32-37
  • 3.3 HTMLPARSER 介绍37-39
  • 第四章 HYSE 垂直搜索系统设计与实现39-44
  • 4.1 体系结构39-40
  • 4.2 DEEP WEB 主题网络采集器40
  • 4.3 增量索引结构的建立40-42
  • 4.4 网络信息查询服务42-43
  • 4.5 LUCENE 中文语言分析器设计43
  • 4.6 系统部署43-44
  • 第五章 总结和展望44-45
  • 参考文献45-47
  • 摘要47-50
  • Abstract50-53
  • 致谢53-54
  • 导师及作者简介54
  • 下载全文 更多同类文献

    CAJ全文下载

    (如何获取全文? 欢迎:购买知网充值卡、在线充值、在线咨询)

    CAJViewer阅读器支持CAJ、PDF文件格式


    【引证文献】

    中国硕士学位论文全文数据库 前2条

    1 徐东丽;基于Crawler的Web服务搜索研究[D];大连海事大学;2011年

    2 崔金国;基于蚁群算法的主题爬虫技术研究与实现[D];成都理工大学;2010年

    【参考文献】

    中国期刊全文数据库 前2条

    1 林亚平,李彦,童调生,尹锋;汉语自动分词中的神经网络技术研究[J];湖南大学学报(自然科学版);1997年06期

    2 殷建平;汉语自动分词方法[J];计算机工程与科学;1998年03期

    【共引文献】

    中国期刊全文数据库 前10条

    1 赵晓凡;胡顺义;;基于正向最大匹配的汉语分词[J];安阳师范学院学报;2010年05期

    2 文庭孝;汉语自动分词研究进展[J];图书与情报;2005年05期

    3 韩翠峰;蔺振玲;许峰;;基于Agent的高校数字图书馆个性化服务系统功能模块设计与分析[J];图书与情报;2010年06期

    4 孙英娟;蒲东兵;孙英慧;李春宜;周春光;;邮件过滤Agent的设计[J];吉林大学学报(信息科学版);2008年06期

    5 葛宇;梁静;陈晓敏;;搜索引擎系统中热点问题的探讨[J];成都电子机械高等专科学校学报;2009年04期

    6 何嘉;陈琳;;基于神经网络汉语分词模型的优化[J];成都信息工程学院学报;2006年06期

    7 李明杰;;特征抽取方法在网页分类中的应用[J];常熟理工学院学报;2005年04期

    8 喻海飞;汪定伟;;食物链算法及其参数分析[J];东北大学学报(自然科学版);2007年07期

    9 吴雅娟,柳培林 ,丁子睿;基于统计分词的中文文本分类系统[J];电脑知识与技术;2005年11期

    10 梁晓弘;杨文安;;分词技术在信息处理中的研究综述[J];电脑知识与技术(学术交流);2007年22期

    中国重要会议论文全文数据库 前2条

    1 许欢庆;王永成;孙强;;基于遗传算法的定题信息搜索策略[A];第一届学生计算语言学研讨会论文集[C];2002年

    2 王玉婷;杜亚军;涂腾涛;;基于Web链接的主题爬行虫初始URL的研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年

    中国博士学位论文全文数据库 前10条

    1 杜曼玲;供应链过程管理的分析方法与技术实现[D];北京交通大学;2010年

    2 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年

    3 田俊华;基于本体知识库的教学资源自动采集技术研究[D];南京师范大学;2011年

    4 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年

    5 李常洪;多Agent合作机制与合作结构研究[D];天津大学;2003年

    6 陈治平;智能搜索引擎理论与应用研究[D];湖南大学;2003年

    7 苟先太;下一代网络中支持多媒体通信任务的多代理技术研究[D];西南交通大学;2005年

    8 吴应良;网络计算中的智能信息处理方法研究[D];华南理工大学;2000年

    9 王俊伟;粒子群优化算法的改进及应用[D];东北大学;2006年

    10 喻海飞;食物链算法及其在供应链管理中的应用[D];东北大学;2005年

    中国硕士学位论文全文数据库 前10条

    1 刘伟丽;基于粒子群算法和支持向量机的中文文本分类研究[D];河南工业大学;2010年

    2 惠国宝;基于统计和语义分析的分词及在产品设计中的应用[D];西安电子科技大学;2011年

    3 王芳芳;基于Agent的网络信息检索[D];沈阳工业大学;2011年

    4 杜佳伦;面向用户体验需求的垂直搜索引擎的研究[D];吉林大学;2011年

    5 韩保川;基于用户兴趣本体的初始URLs选择方法的研究[D];西华大学;2011年

    6 任晓霞;BBS舆情智能分析系统研究与实现[D];沈阳理工大学;2011年

    7 韩月阳;基于S-EK图最短路径中文分词的研究[D];云南大学;2011年

    8 韩开旭;基于查询扩展的油田网络舆情监控系统[D];东北石油大学;2011年

    9 王园园;以动词为逻辑驱动的中文信息处理系统的建设[D];成都理工大学;2011年

    10 樊峻;基于CORESEEK的中文信息搜索系统的研究与应用[D];安徽理工大学;2011年

    【同被引文献】

    中国期刊全文数据库 前6条

    1 魏应彬,王娟;用JDOM处理XML文档[J];福建电脑;2004年10期

    2 韩家炜,孟小峰,王静,李盛恩;Web挖掘研究[J];计算机研究与发展;2001年04期

    3 李蕾,王楠,张剑,钟义信,郭祥昊,贾自燕;中文搜索引擎概念检索初探[J];计算机工程与应用;2000年06期

    4 彭敦陆;周傲英;;基于方法聚类的Web服务检索技术[J];计算机应用;2007年10期

    5 关佶红;许红儒;周水庚;;Web服务搜索技术综述[J];计算机科学与探索;2010年05期

    6 丁文文;;基于WordNet的Web服务发现模型[J];微计算机信息;2007年24期

    中国硕士学位论文全文数据库 前10条

    1 张校乾;基于Lucene的全文检索系统的研究与应用[D];大连理工大学;2005年

    2 刘平冰;基于Lucene的Web站内信息搜索系统[D];电子科技大学;2005年

    3 刘强;WEB服务及XML安全[D];四川大学;2005年

    4 谢琴;蚁群算法在Web日志挖掘中的研究与应用[D];重庆大学;2006年

    5 耿瑞峰;Web服务在搜索引擎中的应用研究[D];江南大学;2006年

    6 沈屹挺;Web Services技术在企业应用集成中的应用研究[D];大连海事大学;2007年

    7 陈宁;Lucene全文检索在网络教学平台中的应用研究[D];大连海事大学;2007年

    8 薛建春;垂直搜索引擎中网络蜘蛛的设计与实现[D];中国地质大学(北京);2007年

    9 朱金涛;基于超链接搜索策略网络爬行器的设计与实现[D];吉林大学;2007年

    10 潘亭沥;基于Lucene的面向商业应用的搜索引擎研究与实现[D];电子科技大学;2007年

    【二级引证文献】

    中国硕士学位论文全文数据库 前6条

    1 陈永彬;基于聚焦爬虫技术的教学资源搜集与自动整理方法研究[D];东北师范大学;2011年

    2 董晨曦;基于网站内容框架的聚焦爬虫算法的优化和实现[D];北京交通大学;2012年

    3 刘丽杰;垂直搜索引擎中聚焦爬虫技术的研究[D];哈尔滨工程大学;2012年

    4 张晓雷;面向Web挖掘的主题网络爬虫的研究与实现[D];西安电子科技大学;2012年

    5 王建彬;基于相似性博客推荐技术的研究与应用[D];内蒙古科技大学;2012年

    6 李五一;房地产交易信息搜索和匹配技术的研究与实现[D];杭州电子科技大学;2013年

    【二级参考文献】

    中国期刊全文数据库 前5条

    1 李国臣,刘开瑛,张永奎;汉语自动分词及歧义组合结构的处理[J];中文信息学报;1988年03期

    2 何克抗,徐辉,孙波;书面汉语自动分词专家系统设计原理[J];中文信息学报;1991年02期

    3 韩世欣,王开铸;基于短语结构文法的分词研究[J];中文信息学报;1992年03期

    4 徐秉铮,詹剑,贺前华;基于神经网络的分词方法[J];中文信息学报;1993年02期

    5 尹锋,林亚平;汉语自动分词技术的现状及发展趋势[J];软件世界;1996年12期

    【相似文献】

    中国期刊全文数据库 前10条

    1 周作涛;;垂直搜索在电子商务中的应用分析[J];陕西理工学院学报(自然科学版);2008年03期

    2 赵宏中;李亚;;垂直搜索引擎应用研究[J];现代商贸工业;2010年04期

    3 刘苗苗;张永生;;文本分类技术在搜索引擎中的应用[J];中国新技术新产品;2010年04期

    4 秦茜;;期待搜狗抹平新账旧债马云张朝阳合谋垂直搜索[J];IT时代周刊;2010年17期

    5 ;有了百度、Google,还要别的搜索吗?[J];电脑爱好者;2007年23期

    6 刘金亮;苏琳;石云;;基于Nutch的垂直搜索技术研究[J];电脑知识与技术;2011年24期

    7 燕苗;;搜索引擎技术研究与发展[J];科技传播;2011年10期

    8 孔祥春;李义杰;郑凯明;;垂直搜索引擎应用研究[J];计算机系统应用;2009年07期

    9 郑凯明;;垂直搜索引擎应用研究[J];赤峰学院学报(自然科学版);2011年02期

    10 刘运强;;垂直搜索引擎的研究与设计[J];计算机应用与软件;2010年07期

    中国重要会议论文全文数据库 前10条

    1 陈克利;宗成庆;王霞;;基于大规模真实文本的平衡语料分析与文本分类方法[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年

    2 杜长海;吉根林;;模糊聚类的最大树法在文本分类中的应用研究[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年

    3 褚蓓蓓;刘丹;;垂直搜索引擎:搜索引擎发展方向[A];2007年河北省电子学会、河北省计算机学会、河北省自动化学会、河北省人工智能学会、河北省计算机辅助设计研究会、河北省软件行业协会联合学术年会论文集[C];2007年

    4 刘秉权;李博;孙林;王宝勋;刘远超;;标签特征和正文特征融合的SVM博客文本分类算法研究[A];第六届全国信息检索学术会议论文集[C];2010年

    5 海丽且木·艾沙;维尼拉·木沙江;;Web文本分类及其维、哈、柯多文种信息检索中的应用研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年

    6 商炳章;白清源;;基于特征项权重改进的关联文本分类[A];第二十五届中国数据库学术会议论文集(二)[C];2008年

    7 胡俊;黄厚宽;;一种基于SVM的可视化文本分类的方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年

    8 朱慕华;陈文亮;朱靖波;;词聚类在文本分类中的应用[A];第二届全国学生计算语言学研讨会论文集[C];2004年

    9 王小华;陆蓓;张国煊;;文本自动分类的模糊方法[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年

    10 庞剑锋;程学旗;;反馈方法在文本分类系统中的应用[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年

    中国重要报纸全文数据库 前10条

    1 魏蓓;[N];市场报;2006年

    2 元元;[N];证券日报;2006年

    3 商报记者  吴辰光;[N];北京现代商报;2006年

    4 赛迪顾问互联网产业研究中心咨询师 危贵川;[N];市场报;2008年

    5 洪黎明;[N];人民邮电;2007年

    6 记者 张勇;[N];民营经济报;2006年

    7 本报记者 杜华斌;[N];科技日报;2005年

    8 本报记者  秦海波;[N];经济日报;2006年

    9 赛迪顾问互联网产业研究中心;[N];中国计算机报;2007年

    10 李志;[N];中国计算机报;2006年

    中国博士学位论文全文数据库 前10条

    1 管虎;普适环境下轻量级垂直搜索中数据挖掘理论研究[D];上海交通大学;2013年

    2 罗娜;基于本体的主题爬行技术研究[D];吉林大学;2009年

    3 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年

    4 章舜仲;文本分类中词共现关系的研究及其应用[D];南京理工大学;2010年

    5 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年

    6 孟佳娜;迁移学习在文本分类中的应用研究[D];大连理工大学;2011年

    7 刘伍颖;面向垃圾信息过滤的主动多域学习文本分类方法研究[D];国防科学技术大学;2011年

    8 李智星;用于文本分类的简明语义分析技术研究[D];重庆大学;2011年

    9 王树梅;信息检索相关技术研究[D];南京理工大学;2007年

    10 陈德品;基于迁移学习的跨领域排序学习算法研究[D];中国科学技术大学;2010年

    中国硕士学位论文全文数据库 前10条

    1 于海;基于Lucene的垂直搜索引擎设计[D];吉林大学;2008年

    2 曾砺锋;基于数字有机体数据库的搜索引擎的理论研究与实现[D];电子科技大学;2008年

    3 谭龙远;基于领域的网络爬虫技术的研究与实现[D];武汉理工大学;2009年

    4 王伟;搜索引擎下Web分类技术研究[D];内蒙古科技大学;2011年

    5 丁志刚;基于类别意图的信息检索模型[D];北京邮电大学;2009年

    6 刘志强;基于文本经验模型的主题爬行系统[D];吉林大学;2006年

    7 李凯;Web挖掘在教学资源搜索引擎中的应用研究[D];东北师范大学;2007年

    8 尹江;基于文档分类及超链接优选策略主题蜘蛛的研究与实现[D];西南交通大学;2008年

    9 吕靖;互联网搜索词分类关键技术研究[D];浙江大学;2011年

    10 郭明;基于文本分类技术的文本情感倾向性研究[D];郑州大学;2010年


      本文关键词:面向用户体验需求的垂直搜索引擎的研究,,由笔耕文化传播整理发布。



    本文编号:163355

    资料下载
    论文发表

    本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/163355.html


    Copyright(c)文论论文网All Rights Reserved | 网站地图 |

    版权申明:资料由用户adf6b***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com