鞍山移动电信行业信息新闻发布系统的设计与实现
发布时间:2020-02-12 11:44
【摘要】:目前,每天都有大量的网站发布各种电信行业信息,这些信息具有很强的行业特殊性。面对如此众多海量的新闻,如何帮助用户从互联网中整合和处理电信行业数据已经成为摆在电信行业网站面前的重要问题。通过对行业信息进行分类,能够为用户提供信息的甄别和类别检索,缩小用户对新闻的检索范围,从而能够提高用户关注新闻的效率,同时提高网站的服务质量和访问量。为此针对行业信息,进行电信行业新闻的整合具有非常重要的意义。对于网络信息的收集和整合,网络爬虫是必不可少的工具之一。针对某一个特定的行业或领域设计具有针对性的网络爬虫,能够给行业信息整合带来很大的方便。为此,针对电信行业新闻的收集,需要设计一套符合电信行业的爬虫系统,实现对电信行业相关信息的全面收集与整合。本文就是在这种背景下,为了解决电信行业新闻整合的难题,提出了基于web的新闻整合发布系统,一方面为用户搜集重要的电信行业信息,另一方面也提高了用户黏性,并且减少用户在海量数据中搜索需要新闻的时间。本文目的是设计实现一个针对电信行业的新闻发布系统。首先介绍了课题的研究背景和现状,然后介绍了系统实现的相关技术如中文分词技术和TF-IDF方法。通过需求分析明确系统的功能和性能需求之后,本系统利用信息抓取技术,并设计电信行业信息爬虫来高效准确的搜集电信行业门户网站信息。然后,对于不同的网站设置不同的模板进行解析,提取页面正文信息。对于解析的新闻提取关键字,并对于文本进行分类处理。对于整合后的信息,系统将其存储在数据库中,通过后台管理,对于新闻信息进一步处理。最后通过友好的页面展示给系统用户,便于用户浏览和进一步使用。在本文中,整个模块在Microsoft.NET开发平台下,使用C#语言实现该系统。
【学位授予单位】:大连理工大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP393.092;TP391.1
本文编号:2578810
【学位授予单位】:大连理工大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP393.092;TP391.1
【参考文献】
相关期刊论文 前10条
1 熊忠阳;蔺显强;张玉芳;牙漫;;结合网页结构与文本特征的正文提取方法[J];计算机工程;2013年12期
2 赵旭剑;金培权;岳丽华;;TTP:一个面向中文新闻网页的主题时间解析器[J];小型微型计算机系统;2013年05期
3 刘娟;赵晓楠;;网页主题相关性判别的聚焦爬虫系统的设计与实现[J];计算机与现代化;2012年10期
4 于成龙;于洪波;;网络爬虫技术研究[J];东莞理工学院学报;2011年03期
5 宋明秋;张瑞雪;吴新涛;李文立;;网页正文信息抽取新方法[J];大连理工大学学报;2009年04期
6 李卫疆;赵铁军;朴星海;;一种新的面向主题的爬行算法[J];计算机应用研究;2009年05期
7 陈竹敏;马军;韩晓晖;雷景生;;面向主题爬取的多粒度URLs优先级计算方法[J];中文信息学报;2009年03期
8 牛强;王志晓;陈岱;夏士雄;;基于SVM的中文网页分类方法的研究[J];计算机工程与设计;2007年08期
9 郑冬冬,赵朋朋,崔志明;Deep Web爬虫研究与设计[J];清华大学学报(自然科学版);2005年S1期
10 王琦,唐世渭,杨冬青,王腾蛟;基于DOM的网页主题信息自动提取[J];计算机研究与发展;2004年10期
,本文编号:2578810
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2578810.html