结合用户兴趣模型的垂直搜索引擎的设计和实现
本文选题:用户兴趣模型 + 垂直搜索引擎 ; 参考:《北京邮电大学》2017年硕士论文
【摘要】:近年来,互联网时代对于公众的影响在不断深化。用户在享受丰富多样的信息带来的生活便捷的同时,也体验到信息过量带来的困扰。在大量信息中,用户不能快速定位到有价值的信息资源,在一定程度上降低了信息的利用率,造成了“资源浪费”。通用搜索引擎已经不能满足固定用户更深入的需求,具体表现在信息覆盖率和准确率低,返回内容不够精确,无效信息偏多等方面。为了解决通用搜索引擎存在的问题,提升用户在搜索过程中的用户体验,本文设计和实现了结合用户兴趣模型的垂直搜索引擎,并构建API,加入到C++工程中,为用户提供通信领域内的专业知识检索服务。对用户搜索过程中的不同行为进行采集和分类,通过更新后的基于混合行为的用户兴趣模型计算兴趣度,为各个页面计算出更为可靠评分值,为用户提供个性化的检索结果。具体工作如下:首先,本文明确了期望该系统解决的关键问题,介绍了搜索引擎的工作流程,和在开发过程中涉及到的关键技术,重点分析了网页链接去重的解决思路。其次,本文详细介绍了用户兴趣模型的分析和建模过程,重点描述了在Python环境下的用户数据采集方式,和用户行为分类标准。在此基础上,作者提出基于混合行为的用户兴趣模型,突出了用户阅读时间的特殊性,在阅读时间出现异常的情况下,利用其它行为来表征用户兴趣度。再次,本文介绍了系统的总体架构设计,建立起以网页抓取模块,索引与检索模块,页面展示模块为核心内容的架构体系。利用基于Python语言的Scrapy开源爬虫框架、BeautifulSoup网页解析库、Whoosh索引检索库和Flask框架,对垂直搜索引擎系统进行开发。在开发过程中,指出了 Scrapy框架原有的URL去重方法内存耗费过大的问题,并借助布隆过滤器对原有方案进行了改进。根据实际经验,制定了两种防止爬虫被ban的策略。为解决Whoosh中文分词效果不理想的问题,使用jieba开源分词组件对原有分词功能进行了改进。最后对原型系统进行了长达32天的跟踪测试,从查全率、查准率、响应时间和死链比率4个方面对本系统进行了评估,通过收集用户评价和反馈意见,得出测试结论。
[Abstract]:In recent years, the impact of the Internet era on the public is deepening. Users not only enjoy the convenience of life brought by rich and diverse information, but also experience the troubles caused by excessive information. In a large amount of information, the user can not locate the valuable information resource quickly, which reduces the utilization rate of the information to a certain extent and causes "resource waste". The general search engine can no longer meet the deeper needs of fixed users, such as low information coverage and accuracy, inaccuracy of return content, more invalid information and so on. In order to solve the problems existing in the general search engine and enhance the user's experience in the search process, this paper designs and implements a vertical search engine based on user interest model, and constructs API, which is added to C project. To provide users with professional knowledge retrieval services in the field of communications. The different behaviors in the process of user search are collected and classified, and the interest degree is calculated by the updated model of user interest based on mixed behavior, so that the more reliable score is calculated for each page, and the personalized retrieval result is provided for the user. The specific work is as follows: firstly, this paper clarifies the key problems expected to be solved by the system, introduces the workflow of the search engine, and the key technologies involved in the development process. Secondly, this paper introduces the analysis and modeling process of user interest model in detail, especially describes the user data collection method and user behavior classification standard in Python environment. On this basis, the author proposes a user interest model based on mixed behavior, which highlights the particularity of the user's reading time. In the case of abnormal reading time, other behaviors are used to characterize the user's interest. Thirdly, this paper introduces the overall architecture design of the system, and establishes an architecture system with web capture module, index and retrieval module, page display module as the core content. The vertical search engine system is developed by using the Scrapy open source crawler framework based on Python, Beautiful Soup web page parsing library, whosh index retrieval library and Flask framework. In the process of development, the problem of excessive memory consumption in the original URL de-heavy method of Scrapy framework is pointed out, and the original scheme is improved with the help of Bloom filter. Based on practical experience, two strategies to prevent reptiles from being subjected to ban are proposed. In order to solve the problem that the effect of Chinese word segmentation in Whoosh is not satisfactory, the original function of word segmentation is improved by using jieba open source partitioning component. Finally, the prototype system is tested for 32 days. The system is evaluated from four aspects: recall rate, recall rate, response time and dead chain ratio. The test results are obtained by collecting user evaluation and feedback.
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.3
【相似文献】
相关期刊论文 前10条
1 肖冬梅;垂直搜索引擎研究[J];图书馆学研究;2003年02期
2 杨坚争;李朝平;;垂直搜索引擎及其应用[J];电子商务;2006年10期
3 罗丽姗;;垂直搜索引擎发展概述[J];图书馆学研究;2006年12期
4 严宏伟;何俊;;基于房源分析系统的垂直搜索引擎关键技术的探讨[J];中国科技信息;2007年05期
5 胡华梁;何进;钟元生;;图书垂直搜索引擎的设计[J];计算机与现代化;2007年08期
6 郑凯明;李义杰;;垂直搜索引擎及其应用价值[J];信息技术;2008年04期
7 毕建涛;霍云福;;垂直搜索引擎赢利模式探讨[J];大连大学学报;2008年03期
8 许鑫;黄仲清;;垂直搜索引擎应用中的若干策略探讨——以12580餐饮垂直搜索为例[J];现代图书情报技术;2009年02期
9 孔祥春;李义杰;郑凯明;;垂直搜索引擎应用研究[J];计算机系统应用;2009年07期
10 杨皖苏;闫冬;;垂直搜索引擎发展策略探讨[J];商业时代;2009年23期
相关会议论文 前10条
1 褚蓓蓓;刘丹;;垂直搜索引擎:搜索引擎发展方向[A];2007年河北省电子学会、河北省计算机学会、河北省自动化学会、河北省人工智能学会、河北省计算机辅助设计研究会、河北省软件行业协会联合学术年会论文集[C];2007年
2 林欢欢;王文杰;史忠植;;移动环境下垂直搜索引擎[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
3 王上;于海;王钲旋;;Deep Web垂直搜索引擎设计与实现[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
4 毛华扬;刘卫;;会计信息搜索方法研究[A];第十届全国会计信息化年会论文集[C];2011年
5 吴晓;李丹宁;林洁;冀肖榆;李丹;;个性化搜索引擎中用户兴趣模型的研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
6 徐志明;宋毅;冯子威;李生;;一种基于分类的用户兴趣模型[A];第六届全国信息检索学术会议论文集[C];2010年
7 柏桂荣;章勇;;基于RSS的用户兴趣模型研究[A];2009通信理论与技术新发展——第十四届全国青年通信学术会议论文集[C];2009年
8 周延泉;张传福;张瑞华;李蕾;何华灿;;移动个性化信息服务中的用户兴趣模型[A];2006年首届ICT大会信息、知识、智能及其转换理论第一次高峰论坛会议论文集[C];2006年
9 米晓红;;一种基于LSI的用户兴趣模型构建方法[A];计算机技术与应用进展——全国第17届计算机科学与技术应用(CACIS)学术会议论文集(上册)[C];2006年
10 张艳;章勇;;基于RSS信息服务的自适应用户兴趣模型研究[A];第七届中国通信学会学术年会论文集[C];2010年
相关重要报纸文章 前10条
1 北大纵横管理顾问公司高级顾问戴晓东;“商搜”变法 垂直搜索引擎的春天还远吗?[N];中国经营报;2006年
2 王艳;垂直搜索引擎市场看好[N];中国旅游报;2000年
3 王靖;赛迪网推出垂直搜索引擎[N];人民日报海外版;2000年
4 杨国民;国内生物医药行业 垂直搜索引擎诞生[N];经济日报;2007年
5 本报记者 王晓雁;垂直搜索引擎著作权之争未破题[N];法制日报;2009年
6 电子工业出版社 董娅 工业和信息化部电子科学技术情报研究所 周峻松;用开源软件建垂直搜索引擎[N];计算机世界;2010年
7 中新;生意宝推“生意搜”搅局电子商务搜索市场[N];经理日报;2008年
8 源讯 编译;搜索巨头的下一步[N];计算机世界;2006年
9 赛迪网 方刚;不只是网站才垂直[N];中国计算机报;2000年
10 ;沱沱网“亮剑”国际消费电子博览会 专业服务带来B2B差异化变革[N];中国贸易报;2007年
相关博士学位论文 前5条
1 王晔;垂直搜索引擎若干问题研究[D];复旦大学;2011年
2 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年
3 胡宜敏;农业垂直搜索引擎语义化若干问题的研究与实现[D];中国科学技术大学;2012年
4 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年
5 王桂红;农产品市场价格web信息分析方法研究[D];沈阳农业大学;2013年
相关硕士学位论文 前10条
1 杨孟祥;结合用户兴趣模型的垂直搜索引擎的设计和实现[D];北京邮电大学;2017年
2 韩冰;垂直搜索引擎个性化推荐研究与应用[D];大连理工大学;2009年
3 关小敏;垂直搜索引擎的研究与实现[D];北京邮电大学;2012年
4 吴燕玮;基于行业知识垂直搜索引擎的研究与实现[D];北京邮电大学;2012年
5 柳力丽;旅游垂直搜索引擎的品牌传播研究[D];西南大学;2015年
6 钱永杰;面向网络文学的垂直搜索引擎的研究与实现[D];曲阜师范大学;2015年
7 袁凤云;垂直搜索引擎关键技术研究与实现[D];电子科技大学;2014年
8 任睿丽;面向旅游业的垂直搜索引擎的设计与实现[D];电子科技大学;2014年
9 张高伟;基于ElasticSearch的分布式视频垂直搜索引擎的设计与实现[D];哈尔滨工业大学;2014年
10 朱鹏;英文语料库垂直搜索引擎的研究与实现[D];北京邮电大学;2015年
,本文编号:1860779
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1860779.html