基于内容的计算机科学论文推荐系统设计与实现
本文选题:推荐系统 + CHI特征选择 ; 参考:《吉林大学》2017年硕士论文
【摘要】:由于网络信息的巨大增长和复杂度的日益增加,用户很难从海量数据中准确地查找到他们想要的信息,尤其是对于研究者们来说,想要及时了解所研究领域的动态,有时并非易事。如今,世界上许多新知识主要以数字形式表现并存储在数字图书馆(Digital Libraries)系统中,所以数字图书馆正在进入一个黄金时代。这样的数据图书馆,在科技领域中,有如ACM Library、IEEE Library等。然而随着科技的发展和信息的不断增长,这些趋势的产生导致了一个不可避免的问题——信息过载。例如,研究者们想要选择合适的出版物发表论文时,发现大量的出版物与他们的搜索查询匹配,但是在很大程度上与它们的实际需求无关,这种情况让他们在选择上无所适从。故研究者们急需一个论文推荐系统,帮助他们选择合适的出版物。推荐系统是帮助用户从大量的数据中找到自己想要的信息的一个解决方案。它是一种信息过滤工具,主要根据用户的历史行为等信息来构建用户喜好模型,用于预测用户对物品的“评分”或“偏好”,并通过该喜好模型向用户推荐其他相关信息。推荐系统近年来非常流行,在各行各业得以应用。其对象主要包括:音乐、产品、新闻、搜索查询、学术论文等。为了帮助研究者选择合适的出版物并加快他们的投递进度,本文针对科技类出版物,设计并实现了一个基于内容的科技论文推荐系统。该系统基于CHI特征选择和Softmax回归的内容过滤推荐模型,用户只需要输入文章的摘要,系统即可向用户推荐该文章可发表的合适的出版物备选。该系统由三个部分组成:(1)数据爬取系统。(2)基于CHI的特征选择和Softmax回归的内容过滤推荐算法。(3)基于Web服务的科技论文推荐系统。由于目前国际上没有论文推荐系统相关数据集,且考虑到计算机科学领域的不断变化和扩展,以及论文集的每日更新,本文设计并研发了论文摘要自动爬取系统,该系统能够自动地持续更新训练数据。基于爬取到的数据,本文设计了基于CHI的特征空间生成方法,利用TF-IDF来计算每篇摘要的特征向量,然后使用Softmax回归对特征向量分类进而向用户推荐出版物。为了验证本文提出的基于内容的科技论文推荐算法的有效性,在本文数据爬虫爬取到的数据的基础上,分别对比了基于互信息(MI)的特征选择方法、基于信息增益(IG)的特征选择方法和基于卡方统计(CHI)的特征选择方法,并利用Softmax回归对特征向量分类,根据分类得分来判定推荐结果。从实验的比较结果得出,对于论文推荐系统来说,CHI模型和IG模型更适用于特征选择。最后,基于本文提出的推荐算法,本文设计并实现了基于Web服务的科技论文推荐系统,该推荐系统根据用户输入的摘要,分别向用户推荐三个期刊和三个会议,供用户投稿参考。
[Abstract]:Because of the huge increase of the network information and the increasing complexity of the network, it is difficult for users to find out exactly the information they want from the massive data, especially for the researchers, who want to keep abreast of the developments in the research field. Sometimes it is not easy. Nowadays, a lot of new knowledge in the world is mainly expressed in digital form and stored in digital library system, so digital library is entering a golden age. Such a data library, in the field of technology, such as the ACM Library IEEE Library, and so on. However, with the development of science and technology and the increasing of information, these trends lead to an inevitable problem-information overload. For example, when researchers want to choose the right publication to publish a paper, they find that a large number of publications match their search queries, but to a large extent have nothing to do with their actual needs, which leaves them at a loss in their choice. So researchers urgently need a paper recommendation system to help them select the right publications. Recommendation system is a solution to help users find the information they want from a large amount of data. It is a kind of information filtering tool, which mainly constructs the user preference model according to the information of the user's history and behavior, which is used to predict the user's "score" or "preference" on the items, and recommends other relevant information to the user through the preference model. Recommendation system is very popular in recent years, can be applied in various industries. Its main objects include: music, products, news, search queries, academic papers and so on. In order to help researchers select suitable publications and speed up their delivery, this paper designs and implements a content-based recommendation system for scientific and technological publications. The system is based on the CHI feature selection and Softmax regression content filtering recommendation model. Users only need to input the summary of the article, and the system can recommend the suitable publication options for the article. The system consists of three parts: 1) data crawling system. 2) feature selection based on CHI and content filtering recommendation algorithm based on Softmax regression. Because there are no related data sets of thesis recommendation system in the world at present, considering the constant change and expansion of computer science field and the daily update of the thesis collection, this paper designs and develops a paper abstract automatic crawling system. The system can automatically continuously update training data. Based on the crawling data, this paper designs a feature space generation method based on CHI, calculates the feature vector of each abstract by using TF-IDF, then classifies the feature vector by Softmax regression and recommends the publication to the user. In order to verify the validity of the proposed content-based recommendation algorithm for scientific and technological papers, based on the data crawled by the crawler in this paper, the feature selection methods based on mutual information (MIM) are compared, respectively. The feature selection method based on information gain (IGG) and the feature selection method based on chi-square statistics (Chi). The feature vector is classified by Softmax regression and the recommended result is judged according to the classification score. The experimental results show that the Chi model and the IG model are more suitable for feature selection in the thesis recommendation system. Finally, based on the recommendation algorithm proposed in this paper, this paper designs and implements a science and technology paper recommendation system based on Web service. The recommendation system recommends three journals and three conferences to users according to the abstracts of user input. For user contribution reference.
【学位授予单位】:吉林大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.3
【相似文献】
相关期刊论文 前10条
1 ;电商推荐系统进阶[J];IT经理世界;2013年11期
2 米可菲;张勇;邢春晓;蔚欣;;面向大数据的开源推荐系统分析[J];计算机与数字工程;2013年10期
3 脱建勇;王嵩;李秀;刘文煌;;精品课共享中的推荐系统框架与实现[J];计算机工程与设计;2006年17期
4 苏冠贤;张丽霞;林丕源;刘吉平;;生物信息学推荐系统的设计与实现[J];计算机应用研究;2007年05期
5 王改芬;;推荐系统研究综述[J];软件导刊;2007年23期
6 叶群来;;营销与网络推荐系统[J];电子商务;2007年10期
7 李媚;;个性化网络学习资源推荐系统研究[J];福建电脑;2008年12期
8 潘冉;姜丽红;;基于经济学模型的推荐系统的研究[J];计算机应用与软件;2008年03期
9 刘鲁;任晓丽;;推荐系统研究进展及展望[J];信息系统学报;2008年01期
10 刘小燕;陈艳丽;贾宗璞;沈记全;;基于增强学习的旅行计划推荐系统[J];计算机工程;2010年21期
相关会议论文 前8条
1 张燕;李燕萍;;基于内容分析和点击率记录的混合音乐推荐系统[A];2009年通信理论与信号处理学术年会论文集[C];2009年
2 赵欣;寇纲;邬文帅;卢艳群;;基于时间密集性的推荐系统攻击检测[A];第六届(2011)中国管理学年会论文摘要集[C];2011年
3 张玉连;张波;张敏;;改进的个性化信息推荐系统的设计与实现[A];2005年全国理论计算机科学学术年会论文集[C];2005年
4 王君;许洁萍;;层次音乐推荐系统的研究[A];第18届全国多媒体学术会议(NCMT2009)、第5届全国人机交互学术会议(CHCI2009)、第5届全国普适计算学术会议(PCC2009)论文集[C];2009年
5 潘宇;林鸿飞;杨志豪;;基于用户聚类的电子商务推荐系统[A];第三届学生计算语言学研讨会论文集[C];2006年
6 尤忠彬;陈越;张英;朱扬勇;;基于Web服务的技术转移平台推荐系统研究[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
7 王国霞;刘贺平;李擎;;二部图影射及其在推荐系统中的应用[A];第25届中国控制与决策会议论文集[C];2013年
8 王雪;董爱华;吴怡之;;基于RFID技术的智能服装推荐系统设计[A];2011年全国电子信息技术与应用学术会议论文集[C];2011年
相关重要报纸文章 前2条
1 ;大数据如何“落地”[N];中国新闻出版报;2014年
2 本报记者 邹大斌;大数据:电商新武器[N];计算机世界;2012年
相关博士学位论文 前10条
1 周魏;推荐系统中基于目标项目分析的托攻击检测研究[D];重庆大学;2015年
2 田刚;融合维基知识的情境感知Web服务发现方法研究[D];武汉大学;2015年
3 胡亮;集成多元信息的推荐系统建模方法的研究[D];上海交通大学;2015年
4 孙丽梅;Web-based推荐系统中若干关键问题研究[D];东北大学;2013年
5 郑麟;基于属性提升与偏好集成的上下文感知推荐[D];武汉大学;2017年
6 于鹏华;数据数量与质量敏感的推荐系统若干问题研究[D];浙江大学;2016年
7 王宏宇;商务推荐系统的设计研究[D];中国科学技术大学;2007年
8 杨东辉;基于情感相似度的社会化推荐系统研究[D];哈尔滨工业大学;2014年
9 曹渝昆;基于神经网络和模糊逻辑的智能推荐系统研究[D];重庆大学;2006年
10 王立才;上下文感知推荐系统若干关键技术研究[D];北京邮电大学;2012年
相关硕士学位论文 前10条
1 朱孔真;基于云计算的电子商务智能推荐系统研究[D];武汉理工大学;2014年
2 郭敬泽;基于赋权评分和Dpark的分布式推荐系统研究与实现[D];天津理工大学;2015年
3 周俊宇;信息推荐系统的研究与设计[D];江南大学;2015年
4 李炜;基于电子商务平台的保险推荐系统的设计与实现[D];复旦大学;2013年
5 车丰;基于排序主题模型的论文推荐系统[D];大连海事大学;2015年
6 秦大路;基于因式分解机模型的上下文感知推荐系统研究[D];郑州大学;2015年
7 徐霞婷;动态路网监控与导航推荐系统的设计与实现[D];苏州大学;2015年
8 黄学峰;基于Hadoop的电影推荐系统研究与实现[D];南京师范大学;2015年
9 路小瑞;基于Hadoop平台的职位推荐系统的设计与实现[D];上海交通大学;2015年
10 李爱宝;基于组合消费行为分析的团购推荐系统的设计与实现[D];哈尔滨工业大学;2015年
,本文编号:1924942
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1924942.html