当前位置:主页 > 科技论文 > 搜索引擎论文 >

面向领域的垂直搜索引擎的研究与实现

发布时间:2016-08-04 17:05

  本文关键词:面向领域的垂直搜索引擎的研究与实现,,由笔耕文化传播整理发布。


《大连海事大学》 2011年

面向领域的垂直搜索引擎的研究与实现

邱伟林  

【摘要】:伴随着Web2.0的疯狂普及,网络信息资源的膨胀速度也呈指数增长,海量的数据资源已经远远超出搜索引擎所能覆盖的范围,要想使用传统的搜索引擎技术快速、准确地查找所需信息变得越来越困难。数据量惊人的递增速度使得通用搜索引擎难以及时地更新索引数据库;庞大的网页资源也使得通用搜索引擎深入地抓取信息变得更加困难。针对这些缺点,新一代搜索技术——垂直搜索引擎应运而生。 垂直搜索引擎是通用搜索引擎的细分和延伸,它只针对某一个行业或主题,为特定人群提供有价值的信息和相关服务。主题爬行和检索服务作为两个重要环节在很大程度上影响着垂直搜索引擎查询的准确率和检索效率。如何快速高效地判断并预测主题相关网页,以及如何带给用户清晰、准确的检索反馈成为制约垂直搜索引擎发展的两大难题。因此,如何改善这两个环节成为本文工作的出发点。 本文提出了基于分类法的目录式主题描述法,并以此实现了新的主题爬行策略。使得主题爬虫不再盲目的预测主题相关网页的方向,而是通过赋予在ODP中不同层次位置的主题结点不同的权重值,更加准确地指导主题爬虫的爬行。在搜索结果呈现方面,本文采用聚类搜索引擎的优点,通过基于主题短语的方法,对文档特征项进行更加准确的提取,并以此指导聚类工作,用聚类呈现的方式给予用户更加方便的查询体验。最后本文通过设计对比试验来验证二者的有效性。

【关键词】:
【学位授予单位】:大连海事大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP391.3
【目录】:

  • 摘要5-6
  • ABSTRACT6-9
  • 第1章 引言9-14
  • 1.1 课题研究背景与意义9-10
  • 1.2 国内外研究现状(相关研究)10-11
  • 1.3 本文研究的主要内容11-12
  • 1.4 论文的组织结构12-14
  • 第2章 垂直搜索引擎的核心技术14-28
  • 2.1 搜索引擎的组成及工作原理14-15
  • 2.2 垂直搜索引擎的特征15-16
  • 2.3 主题爬行技术16-23
  • 2.3.1 通用爬虫与主题爬虫16-17
  • 2.3.2 主题爬行的理论基础17
  • 2.3.3 主题爬行策略研究17-23
  • 2.4 文本聚类技术23-27
  • 2.4.1 文本聚类的过程24-25
  • 2.4.2 传统的聚类算法25-27
  • 2.5 本章小结27-28
  • 第3章 主题爬虫搜索算法的改进28-41
  • 3.1 主题描述方法及存在问题28-30
  • 3.1.1 主题描述方法28-30
  • 3.1.2 存在的问题30
  • 3.2 基于分类法的目录式主题描述法30-35
  • 3.2.1 目录式主题描述法30-33
  • 3.2.2 主题向量表示33-35
  • 3.3 待爬行链接优先级计算35-37
  • 3.3.1 主题链接优先级的规范化描述36
  • 3.3.2 基于锚文本的链接优先级计算36-37
  • 3.4 自适应主题爬行算法37-40
  • 3.4.1 不同粒度优先级计算策略顺序37-38
  • 3.4.2 路径探测深度38
  • 3.4.3 自适应主题爬行算法38-40
  • 3.5 本章小结40-41
  • 第4章 搜索结果聚类研究41-53
  • 4.1 网页文本预处理——中文分词41-45
  • 4.1.1 中文分词分类42-43
  • 4.1.2 基用于垂直搜索引擎中的不足43-44
  • 4.1.3 适用于垂直搜索引擎的分词方法44-45
  • 4.2 基于主题短语的搜索结果聚类45-52
  • 4.2.1 文档的特征项提取45-46
  • 4.2.2 主题短语的提取46-48
  • 4.2.3 改进的k-means聚类算法48-52
  • 4.3 本章小结52-53
  • 第5章 实验与结果分析53-65
  • 5.1 系统设计53-55
  • 5.1.1 基本功能需求分析53
  • 5.1.2 功能模块分析53-54
  • 5.1.3 开发环境设置54-55
  • 5.2 系统实现55-62
  • 5.2.1 爬虫模块实现55-58
  • 5.2.2 信息抽取模块实现58-60
  • 5.2.3 信息索引模块实现60-62
  • 5.2.4 用户接口模块实现62
  • 5.3 结果对比和评价62-65
  • 第6章 总结与展望65-67
  • 6.1 总结65
  • 6.2 展望65-67
  • 参考文献67-71
  • 致谢71
  • 下载全文 更多同类文献

    CAJ全文下载

    (如何获取全文? 欢迎:购买知网充值卡、在线充值、在线咨询)

    CAJViewer阅读器支持CAJ、PDF文件格式


    【相似文献】

    中国期刊全文数据库 前10条

    1 边凯;;你会搜索吗?[J];中国计算机用户;2007年23期

    2 庄芯;;风投押宝垂直搜索 各方巨头介入又添疑点[J];IT时代周刊;2008年01期

    3 顾鹏尧;;让搜索引擎更好地服务于教育教学[J];科学24小时;2003年Z1期

    4 陈新颜;垂直搜索引擎辨析[J];现代情报;2004年09期

    5 胡文胜;;垂直搜索助号码百事通与商务领航[J];每周电脑报;2006年32期

    6 胡洁;丁宁;关静;曹福年;张磊;;基于“PUBMED+PDF”的医学垂直搜索引擎的实践[J];信息系统工程;2009年05期

    7 一林;;垂直搜索:前进路上的喜与忧[J];互联网天地;2010年02期

    8 田野;垂直搜索火热为哪般[J];中国计算机用户;2005年37期

    9 陈利国;刘忠民;;搜索引擎的工作原理和发展趋势[J];电脑知识与技术(学术交流);2007年23期

    10 张敏;;基于本体的垂直搜索引擎的研究[J];软件导刊;2010年02期

    中国重要会议论文全文数据库 前10条

    1 王上;于海;王钲旋;;Deep Web垂直搜索引擎设计与实现[A];第26届中国数据库学术会议论文集(B辑)[C];2009年

    2 林欢欢;王文杰;史忠植;;移动环境下垂直搜索引擎[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

    3 王旭;杜军平;;质检总局互联网舆情监控系统中聚焦爬虫的研究[A];中国电子学会第十七届信息论学术年会论文集[C];2010年

    4 孙静;郭奇;张志强;冯建华;;一种基于面向领域检索系统的用户兴趣获取方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年

    5 华山;李红燕;;面向领域的工作流模型的设计[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年

    6 韩近强;赵静;杨冬青;唐世渭;姚小波;;基于领域知识的网页筛选系统[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年

    7 郭奇;周立柱;郭杭;;模式驱动的面向领域智能Web数据采集引擎[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年

    8 林道庄;郭奇;张志强;冯建华;周立柱;孙静;;基于Metasearch的面向领域的数据源发现和评价方案[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年

    9 王晓峰;刘惟一;;从用户需求到网页集团的模糊变换[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年

    10 吴倩;杨逍;张兆心;;基于视觉特征的网页信息提取[A];第六届全国信息检索学术会议论文集[C];2010年

    中国重要报纸全文数据库 前10条

    1 电子工业出版社 董娅 工业和信息化部电子科学技术情报研究所 周峻松;[N];计算机世界;2010年

    2 王艳;[N];中国旅游报;2000年

    3 赛迪网 方刚;[N];中国计算机报;2000年

    4 王靖;[N];人民日报海外版;2000年

    5 记者 王浒;[N];中国旅游报;2009年

    6 本报记者 王宏;[N];中国计算机报;2001年

    7 徐瑾 张玉;[N];人民邮电;2009年

    8 本报记者 王晓雁;[N];法制日报;2009年

    9 记者 吴德群;[N];深圳特区报;2009年

    10 本报记者 胡钰;[N];华夏时报;2009年

    中国博士学位论文全文数据库 前10条

    1 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年

    2 王晔;垂直搜索引擎若干问题研究[D];复旦大学;2011年

    3 胡宜敏;农业垂直搜索引擎语义化若干问题的研究与实现[D];中国科学技术大学;2012年

    4 李传席;基于本体的自适应Web信息抽取方法研究[D];中国科学技术大学;2012年

    5 焦斌星;用于搜索的网页可视化摘要技术研究[D];中国科学技术大学;2012年

    6 荆涛;面向领域网页的语义标注若干问题研究[D];吉林大学;2011年

    7 刘刚;面向领域的软件需求一致性验证方法研究[D];哈尔滨工程大学;2008年

    8 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年

    9 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年

    10 刘家茂;Web services动态合成及UDDI注册/查询技术的研究[D];复旦大学;2005年

    中国硕士学位论文全文数据库 前10条

    1 邱伟林;面向领域的垂直搜索引擎的研究与实现[D];大连海事大学;2011年

    2 王鹏;垂直搜索引擎的研究[D];武汉理工大学;2010年

    3 李春燕;企业信息垂直搜索引擎的研究与实现[D];中国地质大学(北京);2010年

    4 许厚金;垂直搜索引擎及其关键方法研究[D];燕山大学;2010年

    5 陈向东;宠物用品垂直搜索引擎研究与设计[D];西北农林科技大学;2010年

    6 薛萍;基于教育领域的垂直搜索引擎的研究与实现[D];天津师范大学;2011年

    7 刘大伸;垂直搜索引擎技术的研究及实现[D];东北大学;2008年

    8 关小敏;垂直搜索引擎的研究与实现[D];北京邮电大学;2012年

    9 张倩;教育信息垂直搜索引擎的研究[D];吉林大学;2012年

    10 东兴;垂直搜索引擎关键技术研究[D];浙江理工大学;2012年


      本文关键词:面向领域的垂直搜索引擎的研究与实现,由笔耕文化传播整理发布。



    本文编号:84859

    资料下载
    论文发表

    本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/84859.html


    Copyright(c)文论论文网All Rights Reserved | 网站地图 |

    版权申明:资料由用户73d4a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com