当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于多文档摘要的产品评论挖掘技术研究

发布时间:2018-04-19 19:52

  本文选题:情感分类 + 评论挖掘 ; 参考:《东南大学》2015年硕士论文


【摘要】:对产品评论进行挖掘,从中抽取利益方关切信息的技术和方法成为互联网环境下非结构化数据处理研究的重要方向之一。本文对评论挖掘技术进行研究,提出基于产品特征的抽取式摘要算法获得简洁的摘要,再以摘要为基础进行评论分析,从而从评论中抽取有价值的信息。主要贡献如下:1)根据词向量工具word2vec的运行原理,设计了一套同义词筛选规则,通过词向量对种子词典进行扩充,使用筛选规则筛选词向量的扩充结果,可以有效的提高特征词和情感词的同义词典的质量。2)基于依存句法分析技术实现自动化的情感词极性判断。首先利用开源的搜索引擎技术定位语料库中情感词的相关句子,找到与它具有并列关系(COO)的已知极性情感词,以此判定情感词的极性。相比于传统的基于语料库和连词的判断方法,通过COO关系可以捕捉到广泛意义的并列关系,该方法对于情感倾向性判断的准确率很高。3)针对评价句法结构特点,设计基于产品特征的摘要抽取算法,生成简短的具有代表性和可读性的简洁摘要,支持后续的评论句分类。针对评论的用语特点总结出评价搭配模板抽取评价搭配信息,根据评论句中特征词和情感词搭配关系将句子分到相应的类别中。相比于传统摘要算法,本文提出的摘要算法的结果可以更好的作为分类依据。4)为了实现自动化产品评论挖掘,在上述研究基础之上,从用户需求出发,设计并实现基于产品特征的摘要系统,系统可以辅助用户快速获取产品评论中有价值信息。
[Abstract]:The technology and method of mining product reviews and extracting information of interest from the stakeholders has become one of the important research directions of unstructured data processing in the Internet environment. In this paper, we study the technology of comment mining, propose a product feature-based abstract extraction algorithm to obtain concise summary, and then analyze comments based on summary, so as to extract valuable information from comments. The main contributions are as follows: (1) according to the principle of word vector tool word2vec, a set of synonym selection rules is designed. The seed dictionary is expanded by word vector, and the expansion result of word vector is filtered by screening rule. It can effectively improve the quality of synonyms of feature words and affective words. 2) automatic polarity judgment of affective words can be realized based on dependency syntactic analysis technology. Firstly, the open source search engine is used to locate the relevant sentences of affective words in the corpus, and to find the known polar affective words with its paratactic relationship, and then to judge the polarity of affective words. Compared with the traditional corpus-based and conjunction-based judgment methods, the paratactic relationships of a wide range of meanings can be captured by using COO relations, and the accuracy of this method in judging affective preference is high. 3) to evaluate the syntactic structure characteristics. A product feature-based abstract extraction algorithm is designed to generate a brief, representative and readable summary, which supports the subsequent classification of comment sentences. According to the lexical characteristics of comments, this paper summarizes the evaluation collocation template and extracts the evaluation collocation information, and classifies the sentences into the corresponding categories according to the collocation relationship between the feature words and the affective words in the comment sentences. Compared with the traditional summary algorithm, the result of this paper can be used as classification basis. 4) in order to realize automatic product comment mining, based on the above research, the paper starts from the user's demand. A summary system based on product features is designed and implemented. The system can help users to quickly obtain valuable information in product reviews.
【学位授予单位】:东南大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.1

【相似文献】

相关期刊论文 前10条

1 许璐蕾;;网络评论中情感词的获取及极性判断方法比较[J];电脑与电信;2011年01期

2 肖健;徐建;朱姝;万缨;许亮;;基于翻译和语义方法的情感词挖掘研究[J];计算机工程与应用;2011年32期

3 赵鹏;赵志伟;卓景文;;一种情感词语义加权的句子倾向性识别方法[J];计算机工程与应用;2011年35期

4 代大明;李寿山;李培峰;朱巧明;;基于情绪词与情感词协作学习的情感分类方法研究[J];计算机科学;2012年12期

5 李勇敢;周学广;孙艳;张焕国;;结合依存关联分析和规则统计分析的情感词库构建方法[J];武汉大学学报(理学版);2013年05期

6 彭庆喜;钱铁云;;基于量化情感的网店垃圾评论检测[J];山东大学学报(理学版);2013年11期

7 杜嘉忠;徐健;刘颖;;网络商品评论的特征 情感词本体构建与情感分析方法研究[J];现代图书情报技术;2014年05期

8 张清亮;徐健;;网络情感词自动识别方法研究[J];现代图书情报技术;2011年10期

9 黄俊;田生伟;禹龙;冯冠军;;基于维吾尔语情感词的句子情感分析[J];计算机工程;2012年09期

10 孙劲光;马志芳;孟祥福;;基于情感词属性和云模型的文本情感分类方法[J];计算机工程;2013年12期

相关会议论文 前5条

1 陈奇哲;刘全升;姚天f ;;汉语意见型语句主题与情感关系抽取的研究[A];第五届全国信息检索学术会议论文集[C];2009年

2 孙慧;关毅;董喜双;;中文情感词倾向消歧[A];第六届全国信息检索学术会议论文集[C];2010年

3 段秀婷;何婷婷;宋乐;;基于PMI-IR算法的Blog情感分类研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年

4 李先斌;袁平波;俞能海;;基于局部最优的情感标签图像自动标注算法[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年

5 王枞;涂序彦;刘嘉;;注意-情绪协调的个性化信息推荐模型[A];2006年首届ICT大会信息、知识、智能及其转换理论第一次高峰论坛会议论文集[C];2006年

相关博士学位论文 前8条

1 刘全超;面向中文微博的观点挖掘与倾向性分析研究[D];北京理工大学;2015年

2 董喜双;基于免疫多词主体自治学习的情感分析研究[D];哈尔滨工业大学;2013年

3 寇广增;基于意见挖掘通用框架的情感极性强度模糊性研究[D];武汉大学;2010年

4 杨玉珍;基于Web评论信息的倾向性分析关键技术研究[D];山东师范大学;2014年

5 黄胜;Web评论文本的细粒度意见挖掘技术研究[D];北京理工大学;2014年

6 施寒潇;细粒度情感分析研究[D];苏州大学;2013年

7 李荣军;中文商品评论倾向性分析研究[D];北京邮电大学;2011年

8 李芳;面向中文Web评论的观点挖掘关键技术研究[D];华中师范大学;2013年

相关硕士学位论文 前10条

1 孙博;关于情感词的意义用法[D];辽宁大学;2012年

2 王银;中文微博情感分析方法研究[D];广东技术师范学院;2015年

3 蔡启煌;细粒度中文网络消费评论情感极性分类方法研究[D];大连海事大学;2016年

4 李军伟;网站商品评论挖掘技术的研究[D];北京交通大学;2016年

5 刘妙;面向评论文本基于情感分析的可信推荐模型研究[D];浙江理工大学;2016年

6 高磊;产品特征自动提取及情感分类研究[D];南京大学;2013年

7 汪怡群;双语发展不平衡双语者情感词语义加工及情感加工[D];浙江大学;2016年

8 周景升;大学生在自步速句子阅读和RSVP任务中中英文情感词的识别加工研究[D];浙江大学;2016年

9 何新宇;基于改进情感词识别方法的舆情情感分析系统设计[D];北方工业大学;2016年

10 燕丽苹;基于用户评论的专科医院评价研究[D];北京理工大学;2015年



本文编号:1774482

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1774482.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户9bc7a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com