木棉教育新闻平台的设计与实现
本文关键词:木棉教育新闻平台的设计与实现,,由笔耕文化传播整理发布。
【摘要】:互联网的发展使得网络新闻成了人们关注时事热点的更好选择。网络新闻的显著特征在于:数量多、种类多、报道源多、以及报道观点不一。用户的愿望是能快速地阅读到自己感兴趣的新闻,既能节省时间,也能提高阅读的体验。现有的新闻平台,大多没有对新闻做更精准的处理,特别是教育领域的新闻,通常很少成为各个新闻平台的热点。因此,面向对教育新闻特别感兴趣的用户,如学生、家长、教育工作者,设计和实现了教育新闻平台,从互联网上抓取教育类新闻进行处理、挖掘和索引,提取教育类的热点新闻话题,为用户提供新闻检索和热点新闻阅读等服务。本文先对木棉教育新闻平台进行了系统的体系结构设计,并将系统划分为六个功能模块。新闻爬虫实现教育新闻的抓取,信息抽取模块实现新闻关键信息的抽取,文本去重模块用于过滤大量被重复转载的新闻,新闻索引模块为新闻建立索引,分类模块为新闻训练分类器,热点话题识别模块用于检测教育类热点新闻话题。本文针对教育新闻分类和热点话题识别这两个关键技术进行了重点研究与实现。为了更精准地处理教育新闻,设计了教育新闻的层次分类方法。考虑教育新闻的特性,通过调整特征权重和特征比例来提高分类效果。对教育新闻中的热点检测,分为话题检测与跟踪与热点识别两个步骤,在话题检测中采用结合层次聚类和单通道(Single-Pass)聚类思想的两阶段聚类的方法,并选择人名、地名及普通名词作为聚类的特征空间,在计算话题热度结合话题簇的纯度、新闻文本数、媒体数量等因素。本文对分类及热点检测算法进行了实验测试,验证了其有效性。本文详细阐述了木棉教育新闻平台的实现机制,系统支持增量更新数据,即每次处理数据只需对当前抓取的新闻数据进行处理,不对系统已索引的数据造成影响。木棉教育新闻平台的运行及性能说明了设计的合理性以及系统实现的完整性。
【关键词】:教育新闻 专题搜索 新闻分类 话题检测 热点话题
【学位授予单位】:华南理工大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.3;TP393.09
【目录】:
- 摘要5-6
- Abstract6-10
- 第一章 绪论10-14
- 1.1 项目背景10
- 1.2 研究现状10-13
- 1.2.1 新闻平台研究现状10-12
- 1.2.2 话题检测与跟踪现状12-13
- 1.3 研究目标13
- 1.4 论文组织13-14
- 第二章 相关理论与技术14-24
- 2.1 搜索引擎技术14-17
- 2.1.1 网页爬虫14
- 2.1.2 信息抽取14-15
- 2.1.3 文本去重15-16
- 2.1.4 索引与Lucene16-17
- 2.2 分类与聚类17-21
- 2.2.0 分类算法17-19
- 2.2.1 特性选择方法19-20
- 2.2.2 聚类算法20-21
- 2.3 话题检测与跟踪21-23
- 2.3.1 话题定义21
- 2.3.2 检测与跟踪步骤21-23
- 2.3.3 话题的表示23
- 2.4 本章小结23-24
- 第三章 教育新闻平台的设计24-36
- 3.1 设计原则24
- 3.2 系统整体设计24-25
- 3.3 网页采集模块25-27
- 3.3.1 网页采集流程25
- 3.3.2 多线程结构25-26
- 3.3.3 主题限制26
- 3.3.4 网页下载26-27
- 3.3.5 图片抓取27
- 3.4 信息抽取模块27-32
- 3.4.1 信息抽取流程27-29
- 3.4.2 关键信息抽取29-31
- 3.4.3 新闻时间选择31-32
- 3.4.4 图片信息抽取32
- 3.5 新闻去重模块32-33
- 3.6 新闻索引模块33-34
- 3.7 新闻分类模块34
- 3.8 热点话题检测模块34-35
- 3.9 本章小结35-36
- 第四章 平台关键技术的实现36-49
- 4.1 教育新闻分类36-38
- 4.1.1 新闻分类策略36
- 4.1.2 特征比例选择36-37
- 4.1.3 新闻标题加权37
- 4.1.4 分类器的使用37-38
- 4.2 热点话题检测38-41
- 4.2.1 话题检测策略38-39
- 4.2.2 相似度计算39
- 4.2.3 特征空间选择39-40
- 4.2.4 两阶段聚类40
- 4.2.5 热点话题排序40-41
- 4.3 实验及实验结果分析41-48
- 4.3.1 实验数据集构建41-42
- 4.3.2 新闻分类实验42-45
- 4.3.3 新闻话题发现实验45-46
- 4.3.4 新闻热点检测46-48
- 4.4 本章小结48-49
- 第五章 教育新闻平台的实现49-60
- 5.1 系统整体实现方案49-51
- 5.1.1 系统组成49-50
- 5.1.2 采用方法与工具50
- 5.1.3 数据存储与访问50-51
- 5.2 系统的具体实现51-56
- 5.2.1 关键功能模块的实现51-55
- 5.2.2 用户接口的实现55-56
- 5.3 系统部署与运行56-59
- 5.3.1 系统部署56-57
- 5.3.2 运行与结果57-58
- 5.3.3 系统性能58-59
- 5.4 本章小结59-60
- 结论和展望60-61
- 参考文献61-64
- 攻读硕士学位期间取得的研究成果64-65
- 致谢65-66
- 附件66
【参考文献】
中国期刊全文数据库 前8条
1 万小军,杨建武;在线新闻主题检测系统的设计与应用[J];华南理工大学学报(自然科学版);2004年S1期
2 贾自艳 ,何清 ,张海俊 ,李嘉佑 ,史忠植;一种基于动态进化模型的事件探测和追踪算法[J];计算机研究与发展;2004年07期
3 刘志刚,李德仁,秦前清,史文中;支持向量机在多类分类问题中的推广[J];计算机工程与应用;2004年07期
4 钱哲怡;李芳;;基于关键词和命名实体识别的新闻话题线索抽取[J];计算机应用与软件;2011年12期
5 邓爱萍;;网络热点发现与跟踪算法研究[J];计算机与现代化;2009年12期
6 杨靖韬;陈会果;;对网络爬虫技术的研究[J];科技创业月刊;2010年10期
7 李渝勤,孙丽华;基于规则的自动分类在文本分类中的应用[J];中文信息学报;2004年04期
8 洪宇;张宇;刘挺;李生;;话题检测与跟踪的评测及研究综述[J];中文信息学报;2007年06期
中国重要会议论文全文数据库 前1条
1 彭楠峗;王厚峰;凌晨添;;基于层次聚类的网络新闻热点发现[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
中国硕士学位论文全文数据库 前3条
1 王海潮;基于网页结构的信息抽取关键技术研究[D];华南理工大学;2011年
2 谢林燕;话题检测与跟踪关键技术研究[D];华北电力大学;2012年
3 史纯侃;基于木棉教育新闻平台的图片检索子系统设计与实现[D];华南理工大学;2014年
本文关键词:木棉教育新闻平台的设计与实现,由笔耕文化传播整理发布。
本文编号:332705
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/332705.html