基于图书评论的数据挖掘技术研究

发布时间:2018-03-28 15:54

  本文选题:图书评论 切入点:数据挖掘 出处:《北方工业大学》2017年硕士论文


【摘要】:随着互联网的飞速发展,网络信息越来越庞杂,迫切需要使用数据挖掘技术对网络文本进行提取分析,以便得到有用信息。图书评论中包含用户对图书产品属性及购买过程的评价意见,如何从图书评论中高效地提取到有价值的信息成为本文的研究重点。本文以亚马逊和京东两大网站的图书评论为数据来源,研究图书特征提取及情感分析中使用的数据挖掘技术,得到图书评论挖掘结果,从而帮助消费者及生产商作出科学的决策。本文首先通过分析网页的标签规则,抽取网站上的图书评论信息,构建原始评论数据集;利用分词及词性标注技术对该数据集做处理,构建停用词表,对停用词进行过滤,从而形成原始语料库。然后,通过冗余词表处理评论语句。使用Apriori算法,FP-Growth算法以及TF-IDF算法从评论中提取图书特征进行性能比对。以此为基础,改进FP-Growth算法并挖掘图书特征。接着,构建情感词典,对评论进行观点句识别,研究优化SVM特征选择,进行图书评论粗粒度情感挖掘。基于"双向判定法"和情感词典进行评论细粒度情感挖掘,得到具体图书特征的情感极性。最后,使用可视化技术展示图书评论的挖掘结果,并计算用户需求与图书的匹配度,帮助消费者作出购买决策。本文的主要研究成果:第一,通过构建冗余词表进行冗余词的匹配替换,降低了提取频繁项集的冗余度。第二,通过改进FP-Growth算法,将评论长度权重加入算法的支持度计算中,并对提取到的特征进行置信度排序,提高了算法的查全率和准确率。第三,通过优化SVM特征选择,将评论星级作为向量特征加入模型构建过程,提高了情感分析准确度。第四,利用"双向判定法"构建情感关系,实现了图书评论的细粒度情感分析。
[Abstract]:With the rapid development of the Internet, the network information is becoming more and more complex, so it is urgent to use the data mining technology to extract and analyze the network text. In order to get useful information. Book reviews contain users' comments on the attributes of book products and the purchase process, How to efficiently extract valuable information from book reviews has become the focus of this paper. This paper studies the data mining techniques used in book feature extraction and emotional analysis, and obtains the results of book review mining, which can help consumers and manufacturers to make scientific decisions. Extract the book comment information from the website, construct the original comment data set, use participle and part of speech tagging technology to process the data set, construct the stop word table, filter the stop word, and then form the original corpus. The Apriori algorithm and TF-IDF algorithm are used to extract the book features from the comments for performance comparison. Based on this, the FP-Growth algorithm is improved and the book features are mined. Then, the emotion dictionary is constructed. Point sentence recognition of comment, optimization of SVM feature selection, coarse-grained emotion mining of book review, and fine-grained emotion mining of comment based on "bidirectional judgment" and emotion dictionary, Finally, the visual technology is used to show the mining results of book reviews, and to calculate the matching degree between users' needs and books to help consumers make purchase decisions. The main research results of this paper are as follows: first, By constructing redundant vocabulary to match and replace redundant words, the redundancy of extracting frequent itemsets is reduced. Secondly, by improving the FP-Growth algorithm, the weight of comment length is added to the calculation of support degree of the algorithm. Thirdly, by optimizing the SVM feature selection, the comment star is added to the model construction process, which improves the accuracy of emotion analysis. By using the bidirectional judgment method to construct the emotional relationship, the fine granularity emotional analysis of book review is realized.
【学位授予单位】:北方工业大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.1

【参考文献】

相关期刊论文 前10条

1 栾锦骥;;数据挖掘技术在图书选题策划中的应用研究[J];自动化技术与应用;2016年12期

2 何丽;郝文静;;基于中文图书评论的特征挖掘算法的研究[J];北方工业大学学报;2016年03期

3 徐开勇;龚雪容;成茂才;;基于改进Apriori算法的审计日志关联规则挖掘[J];计算机应用;2016年07期

4 梁亚伟;;基于情感词典的中文微博情感分析模型研究[J];现代计算机(专业版);2015年18期

5 王乐;闭应洲;;基于特征模板提取及SVM的观点句识别[J];广西师范学院学报(自然科学版);2014年03期

6 王永;张勤;杨晓洁;;中文网络评论中产品特征提取方法研究[J];现代图书情报技术;2013年12期

7 王刚;杨善林;;基于RS-SVM的网络商品评论情感分析研究[J];计算机科学;2013年S2期

8 吴丽华;冯建平;曹均阔;;中文网络评论的IT产品特征挖掘及情感倾向分析[J];计算机与数字工程;2012年11期

9 谢丽星;周明;孙茂松;;基于层次结构的多策略中文微博情感分析和特征抽取[J];中文信息学报;2012年01期

10 杨经;林世平;;基于SVM的文本词句情感分析[J];计算机应用与软件;2011年09期

相关会议论文 前2条

1 姚天f ;聂青阳;李建超;李林琳;娄德成;陈珂;付宇;;一个用于汉语汽车评论的意见挖掘系统[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年

2 郝博一;夏云庆;郑方;;OPINAX:一个有效的产品属性挖掘系统[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年

相关硕士学位论文 前6条

1 程斐斐;基于用户上网日志的数据挖掘技术研究[D];贵州大学;2016年

2 陈东河;基于图书市场分析的选题方案研究及应用[D];北方工业大学;2016年

3 许江峰;数据挖掘技术在P2P网络金融中的应用研究[D];北京交通大学;2016年

4 高会娟;产品属性挖掘及应用[D];北方工业大学;2015年

5 李杏杏;B2C网站商品评论挖掘技术的研究[D];北京交通大学;2014年

6 卢云玲;基于云服务模式的文本过滤关键技术研究与应用[D];电子科技大学;2014年



本文编号:1676998

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/1676998.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户93f4c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com