面向网络舆情的文本语义倾向性分类算法研究
本文关键词: 网络舆情 倾向性分析 情感词典 特征词选取 隐马尔可夫模型 出处:《河北工程大学》2016年硕士论文 论文类型:学位论文
【摘要】:舆情指的是作为社会主体的民众,在一定范围的社会空间内,围绕各种类型社会事件或问题的发生、发展与变化对于社会管理者所产生和持有的情感及态度。近年来,网页已成为反映社会舆情的主要载体之一,又由于互联网网页呈指数级方式的增长,网络舆情在已逐渐成为政府与企业重点关注的强大舆论平台。抓住网络舆情的导向则可以及时地了解民众对于某条政策或某个事件的倾向性态度,及时需求做出改进。因此分析网络舆情倾向性是现今自然语言处理的热点问题。网络舆情的倾向性分析需要借助计算机自然语言处理技术高效、准确地甄别网页所涵盖的信息,并快速有效地对舆情进行分析与分类。传统的语义倾向性分析算法需要依靠网络用户选择赞同、反对等简单的投票形式来体现对事件或产品的态度与倾向性。然而,这对于如今的网络媒体已经远远不够,民众的评论等以微博等形式呈现,其语义间细微差别与上下文的信息内容分析成为一个判断倾向性的关键问题。本文试图面向网络舆情建立文本语义倾向性分析模型,以提高语义倾向性分类的准确性。主要研究成果如下:(1)构建了基于HowNet与中文情感词汇本体库的情感词词典。该词典采用了HowNet情感词典的正负情感词汇库,并借鉴了中文情感词汇本体的极性标注方式,再经过人工添加网络常用词汇,形成了小型的情感词典用于文本的预处理。(2)提出了一种面向网络舆情的特征词权重计算方法。该方法由传统的TF-IDF(Term Frequency-Inverse Document Frequency)权重算法添加位置权重、情感权重以及均衡性变量,使权重更适用于情感倾向性分析。在本文实验中,改进的计算方法取得了良好的分类效果。(3)应用了一种基于隐含马尔科夫(Hidden Markov Model,HMM)模型的舆情倾向性分析算法。通过将文本特征词序列作为HMM模型的观察序列,利用其解码算法得到该观察序列所对应的最优状态序列,从而计算出最终的情感倾向性。该方法相较于经典的Naive Byes和SVM分类算法在性能上有一定的提高。
[Abstract]:Public opinion refers to people as the main body of society, in a certain range of social space, around the occurrence of various types of social events or problems. In recent years, web pages have become one of the main carriers reflecting social public opinion, and because of the exponential growth of Internet pages. Network public opinion has gradually become a powerful platform for government and enterprises to focus on. Grasping the guidance of network public opinion can timely understand the public attitude towards a certain policy or an event. Therefore, analyzing the tendency of network public opinion is a hot issue in natural language processing nowadays. The tendency analysis of network public opinion needs to be highly efficient with the help of computer natural language processing technology. The traditional semantic orientation analysis algorithm needs to rely on the network users to choose and approve the information contained in the web pages accurately, and to analyze and classify the public opinion quickly and effectively. Opposition and other simple forms of voting to reflect the attitude to events or products and preferences. However, this for today's online media is far from enough, people's comments and other forms such as Weibo. The analysis of semantic nuance and context has become a key problem in judging tendency. This paper attempts to establish a text semantic orientation analysis model for network public opinion. In order to improve the accuracy of semantic preference classification, the main research results are as follows: 1). An affective lexicon based on HowNet and Chinese affective lexicon is constructed, which adopts the positive and negative affective lexicon of HowNet emotion dictionary. The polarity tagging method of Chinese affective vocabulary ontology is used for reference, and then the commonly used online vocabulary is added manually. In this paper, a small emotion dictionary is formed for text preprocessing. (2) A method for calculating the weight of feature words for network public opinion is proposed, which is based on the traditional TF-IDF (TF-IDF). The Term Frequency-Inverse Document Frequency algorithm adds position weights. Emotional weight and equilibrium variables make the weight more suitable for emotional orientation analysis. The improved method achieves a good classification effect. (3) A Hidden Markov Model based on hidden Markov is applied. By taking the text word sequence as the observation sequence of the HMM model and using its decoding algorithm to get the optimal state sequence of the observation sequence. Finally, the final affective tendency is calculated. Compared with the classical Naive Byes and SVM classification algorithms, the performance of this method is improved to a certain extent.
【学位授予单位】:河北工程大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1
【参考文献】
相关期刊论文 前10条
1 姜芳;李国和;岳翔;吴卫江;洪云峰;刘智渊;程远;;基于粗分和词性标注的中文分词方法[J];计算机工程与应用;2015年06期
2 周咏梅;杨佳能;阳爱民;;面向文本情感分析的中文情感词典构建方法[J];山东大学学报(工学版);2013年06期
3 冯时;付永陈;阳锋;王大玲;张一飞;;基于依存句法的博文情感倾向分析研究[J];计算机研究与发展;2012年11期
4 李开荣;孔照昆;陈桂香;朱俊武;;基于改进隐马尔可夫模型的文本分类研究[J];微电子学与计算机;2012年11期
5 李明涛;罗军勇;尹美娟;路林;;结合词义的文本特征词权重计算方法[J];计算机应用;2012年05期
6 章栋兵;姚寒冰;颜昕;;基于隐马尔科夫模型的语义倾向性研究[J];微型机与应用;2010年17期
7 张增银;元昌安;胡建军;蔡宏果;王文栋;杨立志;;基于GEP和Baum-Welch算法训练HMM模型的研究[J];计算机工程与设计;2010年09期
8 徐军;丁宇新;王晓龙;;使用机器学习方法进行新闻的情感自动分类[J];中文信息学报;2007年06期
9 唐慧丰;谭松波;程学旗;;基于监督学习的中文情感分类技术比较研究[J];中文信息学报;2007年06期
10 罗双虎;欧阳为民;;基于隐Markov模型的文本分类[J];计算机工程与应用;2007年30期
相关博士学位论文 前2条
1 万源;基于语义统计分析的网络舆情挖掘技术研究[D];武汉理工大学;2012年
2 杨卉;Web文本观点挖掘及隐含情感倾向的研究[D];吉林大学;2011年
相关硕士学位论文 前5条
1 杨东强;情感增强词向量构建方法及应用[D];华东师范大学;2015年
2 张宏东;EM算法及其应用[D];山东大学;2014年
3 张鹏星;基于文本倾向性分析的网络舆情分析及其趋势预测[D];云南财经大学;2014年
4 罗引;互联网舆情发现与观点挖掘技术研究[D];电子科技大学;2010年
5 范琳琳;网络舆情发现与角色分析研究[D];西南交通大学;2009年
,本文编号:1450632
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1450632.html