基于Web的事件检测与评价系统的研究分析
发布时间:2017-07-03 20:24
本文关键词:基于Web的事件检测与评价系统的研究分析
更多相关文章: 网页解析 文本抽取 博弈论 事件检测 事件评价
【摘要】:随着互联网的发展社交网络的流行,网络中存在海量用户数据,但是这些数据以半结构化形式呈现,目前新闻网站每天产生大量数据。提取出网络中有效数据并对事件的检测以及该事件中用户的态度分析成为热门研究问题。本文主要针对中文网站及微博作为研究对象,实现在中文网站中快速获取有效数据并通过事件发现算法进行新事件检测,针对微博用户评论实现当前话题下用户态度分析。详细工作如下:(1)对于海量数据下半结构化网页数据快速提取有效文本内容,本文提出了基于博弈论的有效文本抽取算法。首先通过标签分块后形成博弈策略两个玩家寻找纳什均衡确定潜在文本块,实验表明本文提出方法优于基于DOM树分析算法和基于视觉分割算法,尤其在效率上。因此对于屏幕阅读等及时应用可以使用该方法。(2)本文提出了基于Text Rank算法从文本中提取关键词作为特征向量。首先将文本进行分词操作,分词后通过Text Rank算法提取出权值较大的60个特征向量然后进行单遍聚类用以检测新事件。实验通过对比tf-idf方法发现效果优于tf-idf方法,说明Text Rank在计算词语权重上更加合理。(3)本文提出了基于Text Rank算法从文本中提取关键词作为候选词。首先通过Text Rank算法提取出关键词然后提取评价对象与评价词,然后根据情感字典计算互信息后得出情感极性。实验通过对比最大熵句法分析法发现虽然在准确率上本文提出方法略低于最大熵句法分析法,但是时间效率上高于最大熵句法分析法。对于处理海量数据本算法具有很大优势。
【关键词】:网页解析 文本抽取 博弈论 事件检测 事件评价
【学位授予单位】:南京航空航天大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP393.092;TP391.3
【目录】:
- 摘要4-5
- ABSTRACT5-10
- 第一章 绪论10-18
- 1.1 研究背景及意义10
- 1.2 网页信息自适应抽取研究现状10-12
- 1.3 网络事件检测研究现状12-15
- 1.4 网络事件评价研究现状15-17
- 1.5 本文的主要工作和结构安排17-18
- 第二章 基于Hadoop的事件检测与评价系统18-26
- 2.1 Hadoop介绍18-21
- 2.1.1 Hadoop文件系统结构18-19
- 2.1.2 Hadoop计算模型Map-Reduce系统结构19-21
- 2.2 基于Hadoop的事件检测与评价系统21-24
- 2.2.1 Hadoop环境搭建21-22
- 2.2.2 系统设计概况22
- 2.2.3 抓取器详细设计22-23
- 2.2.4 事件检测模块设计23-24
- 2.2.5 事件评价模块设计24
- 2.3 数据存储24-25
- 2.4 总结25-26
- 第三章 基于博弈论的Web网页抽取26-40
- 3.1 背景及动机26-30
- 3.1.1 谷歌搜索引擎索引特征提取算法26-28
- 3.1.2 基于滑动窗口的文本抽取算法28-29
- 3.1.3 网页抽取存在的困难29-30
- 3.2 博弈论介绍30
- 3.3 基于博弈论的抽取算法30-33
- 3.3.1 网页解析工具介绍30-31
- 3.3.2 标签博弈算法31-33
- 3.4 实验分析与对比33-38
- 3.5 总结38-40
- 第四章 在线新闻事件检测40-50
- 4.1 背景动机40
- 4.2 文本聚类算法介绍40-43
- 4.2.1 K-Means聚类算法介绍40-41
- 4.2.2 CLARANS聚类算法介绍41-42
- 4.2.3 Single-Pass单遍聚类算法介绍42-43
- 4.3 基于文本摘要的文本特征抽取算法43-46
- 4.3.1 Page Rank算法介绍43-44
- 4.3.2 基于Text Rank的事件发现算法44-46
- 4.4 实验对比与分析46-49
- 4.5 总结49-50
- 第五章 基于文本摘要的微博情感评价算法50-58
- 5.1 背景动机50-51
- 5.2 最大熵句法分析算法51-53
- 5.3 基于文本摘要的情感评价算法53-55
- 5.3.1 微博信息预处理54-55
- 5.3.2 语义方向互信息定义55
- 5.4 实验分析55-57
- 5.5 总结57-58
- 第六章 总结与展望58-59
- 参考文献59-65
- 致谢65-67
- 在学校期间的研究成果及发表的学术论文67
本文关键词:基于Web的事件检测与评价系统的研究分析
更多相关文章: 网页解析 文本抽取 博弈论 事件检测 事件评价
,
本文编号:515117
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/515117.html