互联网热点话题聚类研究与实现
本文关键词:互联网热点话题聚类研究与实现,,由笔耕文化传播整理发布。
【摘要】:随着互联网技术不断的发展,计算机网络给我们带来丰富多彩的信息资源,但随之而来的是获取信息的难度在不断增加。当前信息日益膨胀的原因,主要是由网络信息的两个特征造成的:(1)网络信息规模不断增加(2)网络信息结构杂乱无章。因此,快速便捷的从互联网中获取所需相关信息的技术将有助于帮助人们摆脱这个困境。目前,搜索引擎已经成为人们获取信息的主要来源的手段之一,但其一般是采用关键词匹配来查找信息,未能体现文章间的相关性。尽管现在新闻媒体在作专题性的新闻报道是能让人们了解整个新闻事件的来龙去脉,然而,新闻专题报道都是通过人工归类总结到一起。针对以上存在问题,本文设计一个基于互联网热点话题的搜索模型及实现方案,具体总体设计如下:首先,设计定向抓取相关网页资源的聚焦爬虫,针对定向主题爬寻网页信息,通过网页去标签化,页面内容重排等手段,使处理过的文档满足系统需要。然后,对文档进行中文分词,提取特征值,权重计算等一系列预处理工作,构建文档向量空间模型。最后,利用话题侦测的研究技术,针对互联网信息的特点对话题侦测进行设计。通过测试对比各种文本相似度算法和文本聚类算法,从中选出合适的算法进而获取互联网热点话题。验证测试表明:本文利用相关的各项技术,通过实验测试和展示基本上完成了本论文的设计目的,能针对互联网热点话题自动发现,话题相关文本聚类关联度高。
【关键词】:话题侦测与追踪(TDT) 文本聚类分析 自然语言处理(NLP) 网络爬虫
【学位授予单位】:武汉邮电科学研究院
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1
【目录】:
- 摘要3-4
- ABSTRACT4-8
- 第1章 绪论8-13
- 1.1 课题背景及研究意义8-9
- 1.2 相关技术的研究情况9-11
- 1.3 论文的主要内容11-13
- 第2章 相关技术介绍13-31
- 2.1 文本采集技术——网络爬虫13-14
- 2.2 文本语料预处理——中文分词14-22
- 2.2.1 中文分词系统概述14-15
- 2.2.2 中文分词算法介绍15-19
- 2.2.3 本论文分词器采用的中文分词算法19-22
- 2.3 话题/报道模型22-28
- 2.3.1 语言模型和空间向量模型22-24
- 2.3.2 特征值提取法24-27
- 2.3.3 特征值权重计算27-28
- 2.4 相似度算法28-29
- 2.4.1 语言模型相似度计算29
- 2.4.2 向量空间模型相似度计算29
- 2.5 文本聚类算法29-30
- 2.6 本章小结30-31
- 第3章 系统设计框架31-45
- 3.1 整体设计思路31-32
- 3.2 系统设计流程图32-33
- 3.3 系统设计详解33-44
- 3.3.1 网络爬虫的设计33-35
- 3.3.2 中文分词的系统的选择35-37
- 3.3.3 热点话题发现设计37-39
- 3.3.4 相关试验数据测试39-44
- 3.4 本章小结44-45
- 第4章 热点话题聚类实现与验证45-52
- 4.1 测试数据采集与预处理工作45-48
- 4.2 文本聚类工作48-51
- 4.3 本章小结51-52
- 第5章 结束语52-54
- 5.1 全文总结52
- 5.2 工作不足与展望52-54
- 参考文献54-56
- 致谢56-57
- 附录1 攻读硕士学位期间发表的论文57
【参考文献】
中国期刊全文数据库 前10条
1 梁喜涛;顾磊;;中文分词与词性标注研究[J];计算机技术与发展;2015年02期
2 路永和;李焰锋;;改进TF-IDF算法的文本特征项权值计算方法[J];图书情报工作;2013年03期
3 朱恒民;朱卫未;;基于Single-Pass的网络话题在线聚类方法研究[J];现代图书情报技术;2011年12期
4 付年钧;彭昌水;王慰;;中文分词技术及其实现[J];软件导刊;2011年01期
5 Mohamed Farouk Abdel Hady;Friedhelm Schwenker;;Combining Committee-Based Semi-Supervised Learning and Active Learning[J];Journal of Computer Science & Technology;2010年04期
6 龙树全;赵正文;唐华;;中文分词算法概述[J];电脑知识与技术;2009年10期
7 刘华婷;郭仁祥;姜浩;;关联规则挖掘Apriori算法的研究与改进[J];计算机应用与软件;2009年01期
8 刘海娟;张佳骥;陈勇;;语言模型在话题跟踪中的应用[J];无线电工程;2008年09期
9 周建梁;;聚焦爬虫原理及关键技术研究[J];科技资讯;2008年22期
10 魏晓宁;;基于隐马尔科夫模型的中文分词研究[J];电脑知识与技术(学术交流);2007年21期
中国硕士学位论文全文数据库 前3条
1 王宝龙;面向新闻领域的文本数据获取系统的设计与实现[D];北京邮电大学;2010年
2 段明秀;层次聚类算法的研究及应用[D];中南大学;2009年
3 曹卫峰;中文分词关键技术研究[D];南京理工大学;2009年
本文关键词:互联网热点话题聚类研究与实现,由笔耕文化传播整理发布。
本文编号:323876
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/323876.html