基于新词识别和时间跨度的微博热点研究
发布时间:2017-11-15 11:21
本文关键词:基于新词识别和时间跨度的微博热点研究
更多相关文章: 热点识别 分词优化 Hadoop云计算平台 时间跨度特征 热点分类
【摘要】:微博热点,是在一段时间内微博用户涉及最多的热议焦点。微博热点的研究可以帮助互联网用户及时了解当下的微博热点话题和热门事件,可以帮助企业了解和评测其商品口碑及竞争对手状况,同时也能够使得政府对社会舆情热点有明确的方向把握。因此对于微博热点的研究有广泛的适用性和研究价值。由于微博文本有自由度大、语法不规范、即时性强的特点,因此通过传统的文本分析难以对微博热点进行准确的把握。尤其是一般的分词工具在对微博文本进行分词时效果难以令人满意。本论文使用Hadoop云计算平台对微博进行新词识别,构建新词词典,以对传统工具的分词结果进行优化。本文在识别微博热点词语之后,通过这些词语的时间跨度特征将其分类,分别将代表相同主题的热点词语一一归类。本文最后对微博的情感倾向性进行了研究,利用微博表情符号及CRFs分类器评价微博中包含情感的正负极性。实验后可以看到,本文的微博新词识别实验、微博热点词语识别和分组的实验及微博情感倾向性评价的实验都获得了较好的效果,说明本文提出的方法有不错的实用效果,在今后可以进行更深入的研究。
【学位授予单位】:上海交通大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP393.092;TP391.1
【参考文献】
中国期刊全文数据库 前3条
1 赵丽;郭宏文;;基于双字哈希的PAT树词典机制的研究[J];黑龙江生态工程职业学院学报;2011年01期
2 彭泽映;俞晓明;许洪波;刘春阳;;大规模短文本的不完全聚类[J];中文信息学报;2011年01期
3 廉捷;周欣;曹伟;刘云;;新浪微博数据挖掘方案[J];清华大学学报(自然科学版);2011年10期
中国硕士学位论文全文数据库 前2条
1 李p,
本文编号:1189556
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1189556.html