当前位置:主页 > 科技论文 > 搜索引擎论文 >

微博短文本分析技术研究及应用

发布时间:2017-06-30 00:07

  本文关键词:微博短文本分析技术研究及应用,,由笔耕文化传播整理发布。


【摘要】:微博的普及化,使得互联网中存在大量的文本数据。这些数据大多数是微博用户自创的短文本,其中隐含了微博用户个人的兴趣特征。通过深入分析,挖掘其中隐含的信息,作为其它应用的分析数据,如用户的个性化推荐。本文通过对微博短文本的研究,挖掘微博短文本特征,识别用户兴趣。本文主要完成了以下工作:1.提出了一种微博新词识别方法。针对微博中存在许多新型的未登录词典的网络词语,给出了微博新词识别方法。首先根据微博的特殊形式,给出了微博短文本的预处理方案。通过特定符号“【】”和“##”规定的功能,抽取其中的字符串,作为备选词。然后经过词典过滤、相邻串过滤,最后计算互信息,抽取互信息达到阈值的词语作为新词。建立新词词典的作用是在于提高分词效果。2.提出了微博短文本特征提取方法。基于微博的形式,考虑词频、文本稀疏、潜在语义三个方面,给出了将VSM(Vector Space Model)、聚类方法和LDA(Latent Dirichlet Allocation)相结合的特征词提取方法。对微博数据集利用基于K-Means++的聚类方法进行了聚类,根据聚类结果重组数据集。对重组后的数据集采用LDA建模,再依据概率分布,抽取特征。3.给出了微博用户兴趣的识别方法。基于特征词提取结果,给出了基于词典的识别方法。基于用户微博的特征词,计算每个主题词典的权重,选取权重大于给定阈值的主题作为最终的用户兴趣描述。4.设计了一个微博用户兴趣挖掘系统。为了将上述给出的方法应用于实际的微博数据中,得到的结果直观展示,设计了一个简单的微博用户兴趣挖掘系统。系统分为三层,数据获取层、数据分析层以及应用层。数据获取层是根据新浪API和开源搜索引擎软件爬虫获取微博数据;数据分析层是集合了本文给出的三种分析方法,分析的数据是个人微博的数据;应用层为结果显示,利用文本可视化方法将结果更加直观的展现。
【关键词】:微博 短文本 主题模型 特征提取 潜在狄利克雷分配模型
【学位授予单位】:电子科技大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.1
【目录】:
  • 摘要5-6
  • Abstract6-11
  • 第一章 绪论11-18
  • 1.1 研究背景与意义11-12
  • 1.2 本文研究内容12-13
  • 1.3 国内外研究现状13-16
  • 1.3.1 短文本挖掘研究现状13-15
  • 1.3.2 微博短文本分析现状15-16
  • 1.4 论文组织16-18
  • 第二章 文本分析相关知识18-31
  • 2.1 预处理阶段18-19
  • 2.1.1 噪声词处理19
  • 2.1.2 中文分词19
  • 2.2 文本表示19-20
  • 2.2.1 布尔模型19
  • 2.2.2 概率模型19-20
  • 2.2.3 向量空间模型20
  • 2.3 特征选择20-26
  • 2.3.1 TF-IDF20-21
  • 2.3.2 主题模型方法21-26
  • 2.4 微博文本情感分析26-30
  • 2.4.1 文本情感分析27-28
  • 2.4.2 中文微博文本分析问题28
  • 2.4.3 相关技术28-30
  • 2.5 本章小结30-31
  • 第三章 微博短文本规范化及新词识别31-41
  • 3.1 微博短文本规范化31-34
  • 3.1.1 符号处理31-33
  • 3.1.2 微博短文本分词33-34
  • 3.2 微博新词识别算法34-38
  • 3.2.1 新词识别34-35
  • 3.2.2 微博新词识别算法35-38
  • 3.3 实验与结果分析38-40
  • 3.3.1 实验环境38
  • 3.3.2 数据采集38-39
  • 3.3.3 实验结果39-40
  • 3.3.4 结果分析40
  • 3.4 本章小结40-41
  • 第四章 微博短文本特征提取41-57
  • 4.1 LDA模型41-44
  • 4.2 基于聚类和LDA模型的特征提取44-50
  • 4.2.1 聚类方法45-47
  • 4.2.2 LDA建模提取特征47-50
  • 4.3 实验与结果分析50-56
  • 4.3.1 实验环境50-51
  • 4.3.2 实验过程及分析51-55
  • 4.3.3 模型评价55-56
  • 4.4 本章小结56-57
  • 第五章 微博用户兴趣挖掘系统57-71
  • 5.1 系统概述57-58
  • 5.1.1 引入57
  • 5.1.2 系统描述57-58
  • 5.2 系统设计58-62
  • 5.2.1 开源软件与工具58-59
  • 5.2.2 系统整体设计59-61
  • 5.2.3 应用设计61-62
  • 5.3 系统功能实现62-69
  • 5.3.1 模块功能实现62-66
  • 5.3.2 功能展示66-69
  • 5.4 系统测试69-70
  • 5.4.1 系统性能测试69
  • 5.4.2 系统功能测试69-70
  • 5.5 本章小结70-71
  • 第六章 总结与展望71-73
  • 6.1 总结71
  • 6.2 进一步的工作71-73
  • 致谢73-74
  • 参考文献74-78
  • 在学期间的研究成果78-79

【参考文献】

中国期刊全文数据库 前2条

1 施聪莺;徐朝军;杨晓江;;TFIDF算法研究综述[J];计算机应用;2009年S1期

2 谢丽星;周明;孙茂松;;基于层次结构的多策略中文微博情感分析和特征抽取[J];中文信息学报;2012年01期


  本文关键词:微博短文本分析技术研究及应用,由笔耕文化传播整理发布。



本文编号:499825

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/499825.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户b1515***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com