基于在线评论的个性化推荐研究
本文选题:在线评论 切入点:LDA主题模型 出处:《南京财经大学》2016年硕士论文 论文类型:学位论文
【摘要】:伴随着互联网时代的飞速前进,我们的周围充斥着信息量巨大的网络信息,而这些信息也在生活中扮演着日趋重要的角色。尤其是在电子商务领域,人们每天都要进行购物消费,产生了大量的产品信息和评论信息。如果能够从海量的文字信息中获取有价值的内容,就可以极大地提升消费者的购物体验,促进商品成交率。这非但是在学术领域,而且也在商业应用方面掀起了一股研究的热潮。推荐系统通过探索用户在过去发生的行为数据,以及这些行为和产品自身属性之间的相关性,实现模型的建立,达到用已发生的行为来预测未来行为的目的。简单地说,在实际应用中,就是通过推荐用户可能出现兴趣点的各类产品,来实现业务量的增长。以往的推荐系统主要将重心放在基于内容的推荐方法上,将其他产品和用户曾经购买或选择过的产品进行属性特征的对比,若相似程度较高则予以推荐。本文在此基础上,不仅考虑了产品本身的描述属性,又综合考虑了评分和评论等信息,提高了推荐的准确率。本文首先需要利用网络爬虫对产品信息进行采集,并将采集到的评论文本进行分词等预处理工作,经过预处理后的词语就构成了一个词典集合。由于特征词数量庞大,本文运用了改进的LDA主题模型进行特征提取,结合TF-IDF计算,综合选取不同粒度下的特征,挖掘主题信息,计算出文本在各个主题上的概率分布和权重。最后,本文结合用户兴趣模型,使用sigmoid函数,改善冷启动环境下产品相似度计算时从属性特征到评论特征的过渡,采用欧几里得距离公式对各文本之间的相似度进行计算,将相似度较高的产品作为推荐列表输出并进行推荐。本文将亚马逊中文网站上的图书信息作为实验数据进行实验分析,本文在实验的过程中还讨论了当主题数量发生变化时,对于文本在主题上的概率分布的影响。另外,本文对选取不同特征项以及采用不同特征提取方法的推荐性能指标进行了评价,主要包括准确率、召回率以及F-Measure指标。在对实验结果分别观察后可以看出,与传统的推荐方法相比较而言,本文选用的方法在考虑了评论文本信息并改进后,推荐效果更为准确。
[Abstract]:With the rapid advance of the Internet era, we are surrounded by huge amount of information, which plays an increasingly important role in life, especially in the field of electronic commerce. People buy and consume every day, producing a lot of product information and comment information. If we can get valuable content from the huge amount of text information, we can greatly enhance the shopping experience of consumers. This is not only in the academic field, but also in the commercial application of a research boom. Recommendation system by exploring user behavior data in the past, And the correlation between these behaviors and the properties of the product itself, so that the model can be built to predict the future behavior with the behavior that has occurred. It is to achieve the growth of business volume by recommending various kinds of products where users may have a point of interest. In the past, recommendation systems mainly focused on content-based recommendation methods. Comparing the attribute characteristics of other products with the products that the user has purchased or selected, if the degree of similarity is high, we recommend them. On this basis, we not only consider the description attribute of the product itself, In this paper, we first need to use web crawler to collect product information, and preprocess the collected comment text, such as word segmentation, etc, in order to improve the accuracy of recommendation. Because of the large number of feature words, the improved LDA topic model is used to extract features, combined with TF-IDF calculation, the features of different granularity are selected synthetically, and the topic information is mined. Finally, combining with user interest model and using sigmoid function, we improve the transition from attribute feature to comment feature in product similarity calculation in cold start environment. The Euclidean distance formula is used to calculate the similarity between different texts, and the products with high similarity are output and recommended as the recommended list. In this paper, the book information on Amazon Chinese website is used as experimental data for experimental analysis. In the course of the experiment, we also discuss the influence of the number of topics on the probability distribution of the text on the topic. In this paper, we evaluate the performance index of selecting different feature items and adopting different feature extraction methods, including accuracy, recall rate and F-Measure index. Compared with the traditional recommendation method, the method proposed in this paper is more accurate after considering the text information and improving it.
【学位授予单位】:南京财经大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.3;F713.36;F274
【参考文献】
相关期刊论文 前10条
1 丁少衡;姬东鸿;王路路;;基于用户属性和评分的协同过滤推荐算法[J];计算机工程与设计;2015年02期
2 杨莉;万常选;雷刚;俞涛;孔保新;;基于特征词权重的文本分类[J];计算机与现代化;2012年10期
3 朱郁筱;吕琳媛;;推荐系统评价指标综述[J];电子科技大学学报;2012年02期
4 奉国和;郑伟;;国内中文自动分词技术研究综述[J];图书情报工作;2011年02期
5 姜伟;杨炳儒;;基于流形学习的维数约简算法[J];计算机工程;2010年12期
6 张启宇;朱玲;张雅萍;;中文分词算法研究综述[J];情报探索;2008年11期
7 李淑英;;中文分词技术[J];科技信息(科学教研);2007年36期
8 张光卫;李德毅;李鹏;康建初;陈桂生;;基于云模型的协同过滤推荐算法[J];软件学报;2007年10期
9 吴颜;沈洁;顾天竺;陈晓红;李慧;张舒;;协同过滤推荐系统中数据稀疏问题的解决[J];计算机应用研究;2007年06期
10 陈耀东,王挺;基于有向图的双向匹配分词算法及实现[J];计算机应用;2005年06期
相关硕士学位论文 前4条
1 马宁;基于Mahout的推荐系统的研究与实现[D];兰州大学;2013年
2 于文浩;个性化影片推荐系统的设计与实现[D];天津大学;2013年
3 裴英博;中文文本分类中特征选择方法的研究与实现[D];西北大学;2010年
4 陈慧芳;文本分类中特征向量空间降维方法研究[D];东南大学;2005年
,本文编号:1627329
本文链接:https://www.wllwen.com/jingjilunwen/dianzishangwulunwen/1627329.html