当前位置:主页 > 科技论文 > 搜索引擎论文 >

就业垂直搜索引擎的架构与实现

发布时间:2021-04-09 13:29
  互联网在近几十年内飞速发展,网络上的信息量爆炸式的增长,如何从这些海量信息中快速准确地提取有价值的信息已经成为人们关注的焦点。通用搜索引擎通过将互联网上大量的信息整理在一个平台上供用户使用,极大的提高了浏览和工作效率,但是存在网页失效以及知识过载的问题。而基于“专、精、深”设计的垂直搜索引擎,从一定程度上解决上上述问题。它实现了搜索引擎领域的行业化分工,为特定领域有特殊需求的人群提供了有价值的信息和服务。近几年来就业问题已经称为亟待解决的一个重要问题,通过便利的通道及时的获取招聘就业信息,必将从一定程度上加大毕业生就业的可能。本文针对这种就业形势并基于垂直搜索引擎的理念设计并实现了就业垂直搜索引擎。本论文对搜索引擎以及垂直搜索引擎进行了理论性的分析,介绍了其实现原理以及主要分类,阐述了当前搜索引擎存在的主要缺点以及垂直搜索引擎的特点,并具体介绍了垂直搜索引擎在设计实现过程中涉及的关键技术,Lucene架构以及实现机制以及垂直搜索引擎相关页面设计。在信息采集模块,设计了列表页爬虫和信息页爬虫两种聚焦网络爬虫。在信息抽取模块,采用了基于标签的网页去噪算法实现对正文的提取,并设计了基于模版及... 

【文章来源】:山东大学山东省 211工程院校 985工程院校 教育部直属院校

【文章页数】:65 页

【学位级别】:硕士

【文章目录】:
摘要
ABSTRACT
第1章 绪论
    1.1 课题研究背景及研究意义
        1.1.1 研究背景
        1.1.2 研究意义
    1.2 搜索引擎与垂直搜索引擎
        1.2.1 搜索引擎
        1.2.2 搜索引擎的分类
        1.2.3 垂直搜索引擎
    1.3 本文的研究内容
    1.4 论文章节安排
第2章 就业垂直搜索引擎的相关技术
    2.1 信息采集技术详解
        2.1.1 网络爬虫的基本概念
        2.1.2 通用网络爬虫
        2.1.3 聚焦网络爬虫
    2.2 信息抽取技术详解
        2.2.1 网页去噪技术详解
        2.2.2 网页结构化信息抽取
    2.3 索引检索模块详解
        2.3.1 Lucene全文检索框架
        2.3.2 中文分词
        2.3.3 Lucene中自带的分词器
        2.3.4 中文分词算法及工具包
第3章 信息采集模块的设计与实现
    3.1 列表页爬虫
        3.1.1 列表页爬虫的设计
        3.1.2 列表页爬虫的实现
    3.2 信息页爬虫
第4章 信息抽取模块的分析与详细设计
    4.1 网页去噪
        4.1.1 基本概念
        4.1.2 HTML Parser
        4.1.3 基于标签类别的网页去噪算法
    4.2 结构化信息抽取
第5章 索引检索模块的分析与详细设计
    5.1 职位信息索引
        5.1.1 索引的建立过程
        5.1.2 中文分词器的选择
    5.2 职位信息检索
        5.2.1 全文检索
        5.2.2 高级检索
    5.3 职位信息索引模块的实现
    5.4 职位信息检索模块的实现
第6章 就业垂直搜索引擎的原型系统
第7章 总结与展望
    7.1 论文工作总结
    7.2 本文主要工作和贡献
    7.3 论文的不足
    7.4 展望进一步的工作
参考文献
致谢
附件


【参考文献】:
期刊论文
[1]垂直搜索引擎的现状与发展探究[J]. 王文钧,李巍.  情报科学. 2010(03)
[2]基于最大匹配的中文分词概率算法研究[J]. 何国斌,赵晶璐.  计算机工程. 2010(05)
[3]中文分词和词性标注模型[J]. 刘遥峰,王志良,王传经.  计算机工程. 2010(04)
[4]Lucene的全文检索的研究与应用[J]. 李永春,丁华福.  计算机技术与发展. 2010(02)
[5]基于Lucene的面向主题搜索引擎的索引技术的研究[J]. 任惠静.  电脑知识与技术. 2010(04)
[6]基于自适应中文分词和近似SVM的文本分类算法[J]. 冯永,李华,钟将,叶春晓.  计算机科学. 2010(01)
[7]基于词边界分类的中文分词方法[J]. 李寿山,黄居仁.  中文信息学报. 2010(01)
[8]归一化的邻接变化数方法在中文分词中的应用[J]. 何赛克,王小捷,董远,张韬政,白雪.  中文信息学报. 2010(01)
[9]基于贝叶斯网络的二元语法中文分词模型[J]. 刘丹,方卫国,周泓.  计算机工程. 2010(01)
[10]基于Ontology的信息抽取研究综述[J]. 陈静,朱巧明,贡正仙.  计算机技术与发展. 2007(10)



本文编号:3127705

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3127705.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户06962***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com