面向用户评论的细粒度情感分析系统设计与实现
发布时间:2022-02-05 06:12
随着互联网的快速发展,各种电子商务网站以及购物网站等也呈现了前所未有的增长速度,这就导致了大量网络评论短文本源源不断的产生。这些评论短文本中承载许多有用的用户评价信息,通过有效的分析这些评价短文本,不仅能够获得重要的信息,还能够促进电子商业的发展和繁荣。因此,当代网络舆情分析的关注点已经逐渐转移到了文本分析处理上。针对这一背景,本文设计并实现了一个细粒度层次的情感分析系统,解决了人工处理网络评论文本费时费力,分析不全面,效率低下等问题。本文主要利用对本文系统采集到的数据进行处理分析得到的结果进行情感分析,最终以直观的界面化的形式展现在用户面前,为用户提供便利。下面是本文所用到的一些主要的技术以及方法:(1)提出了基于聚类的垃圾评论检测方法本文首先对采集到的数据进行了预处理工作,将半结构化的网页转换成了结构化数据的形式,进而发现信息量过大将会对我们进行情感倾向性分析带来很大困扰。所以,考虑在进行情感分析之前进行信息的过滤,提出基于聚类垃圾评论过滤的方法。经过一系列的处理,将这些评论信息根据它们的相似性进行聚类,然后在此聚类的基础上进行处理。并且通过实验证明了,该方法具有高效性以及实用性。...
【文章来源】:山东师范大学山东省
【文章页数】:62 页
【学位级别】:硕士
【部分图文】:
中国网民规模和互联网普及率
我们可以看出,爬虫程序是用于收集信息的一种最基本的程序,其爬取数据??快速、全面、程序简单,所以本文也考虑用此种方法进行所需信息的采集。网络爬虫的??基本结构如图2-1所示。????初始URL地址??请求网页新解析出的URL???丫??解麵页?y??存储系统??^?」??图2-1网络爬虫基本结构图??8??
?已抓取?URL??图2-2网络爬虫框架??如图2-2为一个基本的网络爬虫的框架,从图中,我们可以看出网络爬虫工作时,??首先会从种子URL开始,然后将其传递到待抓取的URL序列。接下来读取URL,然后??解析DNS,下载网页。第三步,将己经下载的URL放入己抓取的URL队列,分析URL??以及URL队列中的其他URL,然后进入下一步的循环。以上就是网络爬虫一个基本的??工作流程。本文采用的是兼容性较好的爬行范围广的通用性网络爬虫。??2.1.2?Robots.txt?协议??9??
【参考文献】:
期刊论文
[1]中文基础情感词词典构建方法研究[J]. 柳位平,朱艳辉,栗春亮,向华政,文志强. 计算机应用. 2009(10)
[2]汉语意见型主观性文本标注语料库的构建[J]. 宋鸿彦,刘军,姚天昉,刘全升,黄高辉. 中文信息学报. 2009(02)
[3]文本意见挖掘综述[J]. 姚天昉,程希文,徐飞玉,汉思·乌思克尔特,王睿. 中文信息学报. 2008(03)
[4]情感语料库的构建和分析[J]. 徐琳宏,林鸿飞,赵晶. 中文信息学报. 2008(01)
[5]情感词汇本体的构造[J]. 徐琳宏,林鸿飞,潘宇,任惠,陈建美. 情报学报. 2008 (02)
本文编号:3614712
【文章来源】:山东师范大学山东省
【文章页数】:62 页
【学位级别】:硕士
【部分图文】:
中国网民规模和互联网普及率
我们可以看出,爬虫程序是用于收集信息的一种最基本的程序,其爬取数据??快速、全面、程序简单,所以本文也考虑用此种方法进行所需信息的采集。网络爬虫的??基本结构如图2-1所示。????初始URL地址??请求网页新解析出的URL???丫??解麵页?y??存储系统??^?」??图2-1网络爬虫基本结构图??8??
?已抓取?URL??图2-2网络爬虫框架??如图2-2为一个基本的网络爬虫的框架,从图中,我们可以看出网络爬虫工作时,??首先会从种子URL开始,然后将其传递到待抓取的URL序列。接下来读取URL,然后??解析DNS,下载网页。第三步,将己经下载的URL放入己抓取的URL队列,分析URL??以及URL队列中的其他URL,然后进入下一步的循环。以上就是网络爬虫一个基本的??工作流程。本文采用的是兼容性较好的爬行范围广的通用性网络爬虫。??2.1.2?Robots.txt?协议??9??
【参考文献】:
期刊论文
[1]中文基础情感词词典构建方法研究[J]. 柳位平,朱艳辉,栗春亮,向华政,文志强. 计算机应用. 2009(10)
[2]汉语意见型主观性文本标注语料库的构建[J]. 宋鸿彦,刘军,姚天昉,刘全升,黄高辉. 中文信息学报. 2009(02)
[3]文本意见挖掘综述[J]. 姚天昉,程希文,徐飞玉,汉思·乌思克尔特,王睿. 中文信息学报. 2008(03)
[4]情感语料库的构建和分析[J]. 徐琳宏,林鸿飞,赵晶. 中文信息学报. 2008(01)
[5]情感词汇本体的构造[J]. 徐琳宏,林鸿飞,潘宇,任惠,陈建美. 情报学报. 2008 (02)
本文编号:3614712
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3614712.html