面向评论的文本倾向性分析中关键问题的研究
本文选题:文本倾向 + 特征聚类 ; 参考:《北京化工大学》2016年硕士论文
【摘要】:如今,我国电子商务已经极其普遍,淘宝、京东等大型购物网站已经占据了大部分市场。面对大量产品评论,企业为了获取商业收益以及消费者更好地做出购买决策,需要了解用户对产品的态度、观点。利用人力去标注文本情感,费力费时,因此需利用计算机实现自动分析文本的情感倾向,这种技术称为文本倾向性分析。如今,该技术取得了很多研究成果。本文的研究重点为对现有的文本倾向性分析方法中存在的关键问题进行探索。在基于机器学习的文本倾向性分析中,重点研究由于训练、测试文本不在同一个领域引起的准确率低的问题。针对文本分类中特征降维环节,提出一种基于通用领域框架的特征聚类算法。针对基于加权SimRank跨领域文本倾向性方法中,存在的两个领域特征对齐时,在共现加权时未能考虑近义词的问题,提出将基于通用领域框架的特征聚类应用于该方法。实验表明,在保证了准确率的前提下,节省了内存空间,缓解了数据稀疏问题。在基于语义的文本倾向性分析中,重点研究词语倾向性计算问题。针对常用的词语倾向计算方法中,存在过于依赖知识库以及不能准确挖掘语义关系问题,本文提出一种基于词向量的领域情感词倾向性计算方法。该方法面向对象为领域情感词,即在特定领域下经常出现且具有明显情感的词语。基于Google的word2vec工具,其通过神经网络进行学习得到词向量,将向量之间余弦距离作为词的相近程度度量方式,衡量词语与基准词相近程度,进而判断其倾向性。实验表明该方法有领域适应性,且准确率高。
[Abstract]:Nowadays, e-commerce in China has been extremely common, Taobao, JingDong and other large shopping sites have occupied most of the market. In the face of a large number of product reviews, enterprises need to understand the attitudes and viewpoints of customers in order to obtain business profits and make better purchase decisions. It is difficult and time-consuming to use manpower to label text emotion, so it is necessary to use computer to realize automatic analysis of text emotional tendency. This technique is called text orientation analysis. Today, the technology has made a lot of research results. The research focus of this paper is to explore the key problems in the existing text orientation analysis methods. In text orientation analysis based on machine learning, this paper focuses on the problem of low accuracy caused by the fact that the test text is not in the same domain because of training. A feature clustering algorithm based on general domain framework is proposed for feature dimensionality reduction in text classification. In the weighted SimRank cross-domain text orientation method, when the two domain features are aligned, the synonyms are not considered when they are weighted together, so the feature clustering based on the general domain framework is applied to this method. Experiments show that the memory space is saved and the problem of data sparsity is alleviated. In semantic-based text orientation analysis, the emphasis is placed on word orientation calculation. In order to solve the problem of relying too much on the knowledge base and not mining the semantic relation accurately in the common methods of word tendency calculation, this paper proposes a method for calculating the tendency of domain affective words based on word vector. This method is object oriented for domain affective words, that is, words that often appear in specific fields and have obvious emotions. Based on the word2vec tool, the word vector is obtained by using neural network. The cosine distance between the vectors is regarded as the measure of the degree of similarity between the words, and the similarity between the words and the reference words is measured, and then the tendency of the word is judged. Experiments show that the method is domain adaptive and has high accuracy.
【学位授予单位】:北京化工大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1
【相似文献】
相关期刊论文 前10条
1 刘建毅;王菁华;王枞;;文本网络表示研究与应用[J];中国科技论文在线;2007年10期
2 吴思竹;张智雄;钱庆;;基于语言网络的文本表示模型研究[J];情报科学;2013年12期
3 于屏方;杜家利;;文本排歧语义图式的自动获取与选择[J];计算机工程与应用;2007年31期
4 陈燕敏;楼喜中;;一种基于集聚确定文本意向结构的方法[J];微计算机信息;2010年18期
5 袁鼎荣;钟宁;张师超;;文本信息处理研究述评[J];计算机科学;2011年02期
6 林鸿飞,战学刚,姚天顺;文本层次分析与文本浏览[J];中文信息学报;1999年04期
7 姚天f ;“自然语言多语种文本生成系统”在上海交通大学研制成功[J];中文信息学报;1999年04期
8 石晶;;文本分割综述[J];计算机工程与应用;2006年35期
9 刘红红;安海忠;高湘昀;;基于文本复杂网络的内容结构特征分析[J];现代图书情报技术;2011年01期
10 张晓龙,,姚天顺;基于文本句法的文本生成模型[J];武汉钢铁学院学报;1995年01期
相关会议论文 前6条
1 杨艳;李巍;玄萍;;数字图书馆中基于Ontology的文本模型[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年
2 唐云廷;;基于TSBT(Text Structure Binary Tree)的文本结构的自动分析[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
3 海丽且木·艾沙;维尼拉·木沙江;;Web文本分类及其维、哈、柯多文种信息检索中的应用研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
4 刘玲;周经野;罗慧慧;;基于XML的文本规划方法[A];2005年全国理论计算机科学学术年会论文集[C];2005年
5 苏贵洋 ;李建华 ;马颖华;;XML统一文本自动处理描述接口[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
6 揭春雨;刘晓月;冼景炬;卫真道;;从网络获取香港法律双语语料库[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
相关博士学位论文 前10条
1 方莹;面向热点新闻话题的文本处理技术研究[D];北京理工大学;2015年
2 凤丽洲;文本分类关键技术及应用研究[D];吉林大学;2015年
3 李岩;基于深度学习的短文本分析与计算方法研究[D];北京科技大学;2016年
4 程齐凯;学术文本的词汇功能识别[D];武汉大学;2015年
5 刘赫;文本分类中若干问题研究[D];吉林大学;2009年
6 赖彦;新闻话语对话性的文本分析与阐释[D];南京师范大学;2011年
7 钟茂生;基于内容相关度计算的文本结构分析方法研究[D];上海交通大学;2010年
8 廖一星;文本分类及其特征降维研究[D];浙江大学;2012年
9 单建芳;面向事件的文本表示研究[D];上海大学;2012年
10 孙巧榆;复杂背景图像的文本信息提取研究[D];华东师范大学;2012年
相关硕士学位论文 前10条
1 江长柱;用户咨询文本的语义相似度计算方法研究[D];江苏科技大学;2015年
2 李欣;基于维度判别的文本情感聚类方法研究[D];山西大学;2015年
3 黄志锋;中职语文教学“反文本”倾向探究[D];宁波大学;2015年
4 李丽娜;基于BIM的建设项目文本信息集成管理研究[D];大连理工大学;2015年
5 葛文镇;面向微博的短文本多分类研究[D];宁波大学;2015年
6 郭苏颖;文本难度对高职高专生阅读理解的影响研究[D];闽南师范大学;2015年
7 袁媛;基于半监督学习的短文本分类研究[D];西北师范大学;2015年
8 刘茜茜;病理镜检文本的结构化处理系统设计与实现[D];东华大学;2016年
9 高士林;图像中的文本定位技术研究[D];解放军信息工程大学;2014年
10 肖诚求;自然场景图像中文本提取技术研究[D];解放军信息工程大学;2015年
本文编号:2017457
本文链接:https://www.wllwen.com/jingjilunwen/dianzishangwulunwen/2017457.html