当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于用户行为分析的核能领域垂直检索系统研究

发布时间:2018-07-02 14:40

  本文选题:用户行为分析 + 相似度评分算法 ; 参考:《合肥工业大学》2015年硕士论文


【摘要】:中国核网具有资讯及时、信息全面的特点。如何从杂乱无章的庞大数据和强干扰的信息中搜索出有价值的核能信息,这对人类的智能信息处理能力提出了挑战。由于网络资源的复杂性,通用搜索引擎已经不能满足用户信息检索的准确性需要。为了更及时、更精准地获取核能信息与核能数据,为中国核网高效及时提供精准的数据素材,保证这一核能领域门户网站的数据及时性、精确性、全面性。本文针对核能领域海量数据的高效获取、深度分类和信息检索开展研究。本文首先研究了针对核能领域专用数据的主题爬虫,实现了对核能主流数据的抓取、去噪。其次,基于支持向量机(Support Vector Machine)技术和IKAnalyzer分词技术对已爬取的海量数据按照中国核网的频道进行分类。最后,针对中国核网用户来源、搜索行为具有较为明显的聚类特性,对Lucene框架的检索排序算法进行改进,提出一种基于用户行为分析的检索排序算法,该算法很大程度上提高了搜索引擎的查询效率,为中国核网提供更有效、更精确的核能信息。相似度评分算法是全文信息检索的核心步骤,能够高效的对返回结果进行展示。本文对Lucene内部相似度评分算法进行研究之后,针对Lucene内部相似度排序算法仅考虑查询词出现频率而未考虑潜在用户心理这一问题,本文实现了面向核能领域的垂直检索系统,该系统基于改进的相似度评分算法,并且能够通过对用户最近一段时间内的检索与点击行为进行分析,获取一组用户偏好关键词,对查询词与偏好关键词进行组合评分。论文实验表明,该系统能够高效获取核能领域信息,并在保证正确率的情况下对信息进行分类,有效节约人力资源。通过对爬取的数据索引并验证其检索性能,可知改进相似度评分算法对检索时间延长30-40ms,却在在大众用户接受时间内,但该算法对搜索结果质量有一定提高。
[Abstract]:China's nuclear network has the characteristics of timely information and comprehensive information. How to search the valuable nuclear energy information from the huge data and the strong interference information is a challenge to the intelligent information processing ability of human beings. Because of the complexity of network resources, general search engine can not meet the accuracy of user information retrieval. In order to obtain nuclear energy information and nuclear energy data more timely and accurately, provide accurate data material for China nuclear network efficiently and timely, ensure the data timeliness, accuracy and comprehensiveness of this nuclear energy field portal. This paper focuses on the efficient acquisition, depth classification and information retrieval of massive data in nuclear power field. In this paper, firstly, we study the topic crawler of special data in nuclear energy field, and realize the acquisition and denoising of the mainstream data of nuclear energy. Secondly, based on support Vector Machine (SVM) and IKAnalyzer participle technology, the crawling mass data is classified according to the channel of China Nuclear Network. Finally, in view of the Chinese nuclear network user source, the search behavior has the obvious clustering characteristic, carries on the improvement to the Lucene frame retrieval sorting algorithm, proposes a retrieval sorting algorithm based on the user behavior analysis. The algorithm greatly improves the search efficiency of the search engine and provides more effective and accurate nuclear energy information for the Chinese nuclear network. Similarity scoring algorithm is the core step of full text information retrieval, which can efficiently display the returned results. After the study of Lucene internal similarity scoring algorithm, aiming at the problem that Lucene internal similarity ranking algorithm only considers the frequency of query words but not the psychology of potential users, this paper implements a vertical retrieval system for nuclear energy domain. Based on the improved similarity scoring algorithm, the system can obtain a group of user preference keywords and score the combination of query words and preference keywords by analyzing the retrieval and click behavior of users in the most recent period of time. The experimental results show that the system can obtain nuclear energy information efficiently and classify the information under the condition of ensuring correct rate, which can save human resource effectively. By indexing the crawled data and validating its retrieval performance, we can see that the improved similarity scoring algorithm can prolong the retrieval time by 30-40ms, but it is in the time of acceptance by the public users, but the quality of the search results is improved to some extent by the improved similarity scoring algorithm.
【学位授予单位】:合肥工业大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.3

【相似文献】

相关期刊论文 前10条

1 马维亮;;用户行为分析系统在宽带网络中的应用[J];科技信息(科学教研);2008年23期

2 乔志伟;;基于用户行为的3G业务分析与探讨[J];移动通信;2010年12期

3 龚尚福;姜晓旭;;基于用户行为分析的广告欺诈点击检测[J];计算机应用与软件;2011年04期

4 陶彩霞;谢晓军;陈康;郭利荣;刘春;;基于云计算的移动互联网大数据用户行为分析引擎设计[J];电信科学;2013年03期

5 毛承洁;张龙;庞川;陈洁敏;;社会网络服务及其用户行为分析[J];华南师范大学学报(自然科学版);2013年02期

6 雒江涛;胡燕清;徐孝娜;周进艳;;基于CDMA2000 1x EVDO网络的用户行为分析模型设计[J];电视技术;2013年07期

7 许春玲;范志刚;郑小盈;李明齐;;有线电视用户行为分析实践[J];网络新媒体技术;2014年01期

8 李朝阳;谢传中;;一种移动互联网用户行为分析系统的顶层设计[J];江西通信科技;2014年01期

9 刘英梅;;大数据时代的信息用户行为分析[J];科技情报开发与经济;2014年05期

10 陆群峰;;宽带上网用户行为分析[J];有线电视技术;2006年02期

相关会议论文 前7条

1 赵勇;;移动互联网用户行为分析系统技术架构浅析[A];2012全国无线及移动通信学术大会论文集(下)[C];2012年

2 冯铭;王保进;蔡建宇;;基于云计算的可重构移动互联网用户行为分析系统的设计[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年

3 岑荣伟;刘奕群;张敏;茹立云;马少平;;网络搜索引擎用户行为分析和研究[A];第五届全国信息检索学术会议论文集[C];2009年

4 赵艳梅;朱晓燕;;转变运维模式,迎接移动互联网新挑战[A];中国通信学会信息通信网络技术委员会2011年年会论文集(上册)[C];2011年

5 刘奕群;张敏;马少平;;用户行为分析在网络信息检索中的应用概述[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年

6 毛翔博;齐观德;李石坚;潘纲;;基于位置轨迹加权网络图的用户行为分析识别算法[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年

7 尔古打机;苏小龙;朱征;;基于用户行为分析的移动终端偏好模型研究[A];第八届(2013)中国管理学年会——商务智能分会场论文集[C];2013年

相关重要报纸文章 前3条

1 谭景华邋杨国良;IP网络用户行为分析方法的探讨[N];人民邮电;2007年

2 本报记者 逄丹;建设用户行为分析智慧模型[N];通信产业报;2010年

3 李中朝邋通讯员 黄伟;重庆电信建成宽带用户行为分析系统[N];人民邮电;2007年

相关博士学位论文 前6条

1 王琪;新媒体系统中用户行为分析与系统设计[D];复旦大学;2014年

2 罗海艳;移动用户网络行为分析与预测方法研究[D];沈阳农业大学;2015年

3 刘鹏;网络用户行为分析的若干问题研究[D];北京邮电大学;2010年

4 延皓;基于流量监测的网络用户行为分析[D];北京邮电大学;2011年

5 窦伊男;根据多维特征的网络用户分类研究[D];北京邮电大学;2010年

6 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年

相关硕士学位论文 前10条

1 江惠彬;基于Web日志的用户行为分析系统的研究与实现[D];华南理工大学;2015年

2 李亚飞;基于用户行为分析的冰箱设计研究[D];山东大学;2015年

3 石钊;基于网络用户行为分析的用户推荐反馈系统的设计[D];北京化工大学;2015年

4 李婷蔚;基于移动校园应用的用户行为分析及性能改进[D];电子科技大学;2014年

5 王颖颖;基于Hadoop的用户行为分析系统的设计与实现[D];北京工业大学;2015年

6 马仕玉;聚类算法及其在校园网用户行为分析中的应用[D];重庆交通大学;2015年

7 徐娟;基于用户行为分析的核能领域垂直检索系统研究[D];合肥工业大学;2015年

8 周岳;基于兴趣分类的用户行为分析系统的研究与设计[D];北京邮电大学;2010年

9 郑桂凤;移动互联网的用户行为分析系统的设计与实现[D];北京邮电大学;2010年

10 魏彦鹏;基于移动社会网络的用户行为分析[D];北京邮电大学;2011年



本文编号:2090446

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2090446.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户2fd7d***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com