当前位置:主页 > 管理论文 > 移动网络论文 >

新闻垂直搜索引擎中文分词与网页去重的应用与研究

发布时间:2023-06-03 09:03
  自互联网诞生以来,网络信息每年几乎都成指数量增长。搜索引擎是人们获得互联网信息的重要工具,但是传统的搜索引擎利用网络爬虫从互联网上大规模的搜集到的信息其中很多信息是完全重复或近似重复的,还有很多信息是用户不需要的,这样就加重了用户使用搜索引擎的负担。而垂直搜索引擎能够精确的获得用户关心的相关领域信息。垂直搜索引擎不像通用搜索引擎那样,它仅仅搜集某一特定领域相关的网页内容。 本文首先描述了垂直搜索引擎的工作原理,并讨论了垂直搜索引擎的几个关键技术,主要技术包括:网络爬虫技术、中文分词技术、网页预处理技术、网页去重技术、索引和检索技术等。对包含这几项关键技术的功能模块进行了详细描述并进行具体实现。 本文设计了一个多线程网络爬虫,使其高效的爬取互联网资源,并使用布隆过滤器,用来排除重复的url;网页主题内容提取部分实现了基于网页内容结构和正则表达式技术的算法,和其他网页主题内容提取技术相比,性能有所提高;网页索引部分,采用Lucene技术,高效的建立了倒排索引库;研究并分析了中文分词技术,实现了基于双向最大匹配法和基于数学统计分析的两种歧义消除规则的算法,试验结果表明,该算法在歧义消除和正确...

【文章页数】:73 页

【学位级别】:硕士

【文章目录】:
摘要
Abstract
第一章 绪论
    1.1 课题研究背景及意义
    1.2 国内外的研究现状
    1.3 目前存在的问题
    1.4 研究的目标和内容
        1.4.1 研究目标
        1.4.2 研究内容
第二章 垂直搜索引擎的关键技术
    2.1 垂直搜索引擎工作原理
    2.2 网络爬虫技术
        2.2.1 网络爬虫的特点
        2.2.2 网络爬虫的工作原理
        2.2.3 爬虫搜索策略和算法
    2.3 中文分词技术
    2.4 网页去重技术
    2.5 本章小结
第三章 新闻垂直搜索引擎的的总体方案设计
    3.1 系统的需求分析
    3.2 系统设计要求
    3.3 系统功能模块设计
        3.3.1 系统工作原理
        3.3.2 系统功能模块设计结构图
    3.4 本章小结
第四章 新闻垂直搜索引擎系统的设计与实现
    4.1 网络爬虫子系统的设计与实现
        4.1.1 网络爬虫的子系统的技术分析
        4.1.2 网络爬虫的实现
    4.2 网页提取模块设计
        4.2.1 网页提取模块技术分析
        4.2.2 网页提取算法设计
        4.2.3 网页提取模块的实现
    4.3 分词模块设计
        4.3.1 分词模块技术分析
        4.3.2 分词算法的设计
        4.3.3 分词算法的实现
    4.4 网页去重设计
        4.4.1 网页去重模块技术分析
        4.4.2 网页去重算法设计
        4.4.3 网页去重模块的实现
    4.5 索引模块设计
        4.5.1 索引模块技术分析
        4.5.2 索引模块系统实现
    4.6 本章小结
第五章 新闻垂直搜索引擎的试验结果
    5.1 系统开发平台
    5.2 网页提取模块试验结果及分析
    5.3 索引建立试验结果
    5.4 中文分词试验
    5.5 去重模块试验
    5.6 程序最终运行结果
    5.7 本章小结
第六章 结论与展望
    6.1 结论
    6.2 工作展望
参考文献
攻读硕士学位期间取得的研究成果
致谢



本文编号:3829040

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3829040.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户af8b0***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com