当前位置:主页 > 管理论文 > 营销论文 >

三网融合下实时文本新闻的选择与分类技术研究

发布时间:2019-01-12 13:06
【摘要】:近年来随着科技与社会的发展,三网融合成为大势所趋。然而,三网融合在带来更全面更快捷更广泛服务的同时,也带来了巨大的安全隐患。互联网的特点是实时便捷全面,然而信息量大信息质量参差不齐。因此,三网融合后对网上信息内容的监管成为三网融合需要解决的重要问题。新闻是网络上信息传递的主要载体,对网络新闻的监管是内容监管的重要组成部分。文本分类与聚类技术是文本挖掘领域的重要技术,分类后的新闻易于管理与鉴别。分类在一定程度上解决了信息杂乱的问题,是信息过滤目标营销性能预测和医疗诊断等领域的基础,因此对文本分类的研究具有重要意义。HUSTRIM系统是三网融合环境下的内容监管系统。通过对内容的安全监控和管理为全网内容可监可管提供保证,其新闻选择分类为三网融合下新闻内容的监管提供支持。HUSTRIM采用网络爬虫新闻链接分析基于行块分布函数的正文抽取等技术,获取有效的新闻正文信息;采用朴素bayes与k-means相结合的方法对新闻进行先分类再聚类。HUSTRIM新闻选择分类包括新闻获取模块正文提取模块朴素bayes分类模块和k-means聚类模块。从互联网爬取了近700个网页新闻信息,借助搜狗实验室文本分类语料库对这700个网页新闻进行了分类和聚类。通过实验得到了正文抽取过程的最佳阀值朴素bayes分类的最佳特征属性维数和k-means聚类的最佳k值。
[Abstract]:In recent years, with the development of science and technology and society, the integration of three networks has become the trend of the times. However, triangulation is leading to a more comprehensive approach? Faster? More extensive service at the same time, but also brought huge security risks. The Internet is characterized by real-time? Convenient? Comprehensive, but large amount of information? The quality of information is uneven. Therefore, the supervision of the online information content becomes an important problem to be solved after the integration of three networks. News is the main carrier of information transmission on the network, and the supervision of network news is an important part of content supervision. Text classification and clustering technology is an important technology in the field of text mining, the classified news is easy to manage and identify. Classification solves the problem of information clutter to a certain extent, is information filtering? Target marketing? Because of the foundation of performance prediction and medical diagnosis, the research on text classification is of great significance. HUSTRIM system is a content monitoring system under the environment of three-network convergence. Through the security monitoring and management of the content for the entire web content can be monitored and managed to provide assurance, its news selection classification for the three-network integration of the supervision of news content to provide support. HUSTRIM using web crawlers? News link analysis? Based on line block distribution function of text extraction technology to obtain effective news text information; using the combination of simple bayes and k-means to classify news first and then clustering. HUSTRIM news selection classification includes news acquisition module. Text extraction module? Naive bayes classification module and k-means clustering module. Nearly 700 web pages were crawled from the Internet and classified and clustered with Sogou's laboratory text classification corpus. The optimal threshold of the text extraction process is obtained by experiments. The best feature attribute dimension of naive bayes classification and the best k value of k-means clustering.
【学位授予单位】:华中科技大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.1

【相似文献】

相关期刊论文 前10条

1 朱松岩;;网页设计之特性分析[J];山东省农业管理干部学院学报;2009年03期

2 安琳;;国外网页信息存档项目及相关问题研究[J];图书馆建设;2009年12期

3 蒋桂梅;;网页设计的艺术性[J];电脑知识与技术;2010年05期

4 龙正义;;网页长期保存的策略与方法研究[J];档案管理;2010年03期

5 李志义;梁士金;;国内网页去重技术研究:现状与总结[J];图书情报工作;2011年07期

6 王烁;;美国网页归档项目——Internet Archive发展研究[J];兰台世界;2012年17期

7 栗勇兵;韩平;董启雄;;网页信息自动提取的设计与实现[J];计算机光盘软件与应用;2012年18期

8 何立波;周世波;;网页设计中的艺术研究[J];考试周刊;2011年25期

9 秦永平;网页信息共享技术[J];计算机应用;2000年02期

10 项镇;网页设计新概念[J];江西教育学院学报(自然科学);2001年06期

相关会议论文 前10条

1 吴建军;;谈网页设计的艺术性表现[A];经天纬地——全国测绘科技信息网中南分网第十九次学术交流会优秀论文选编[C];2005年

2 韩近强;赵静;杨冬青;唐世渭;姚小波;;基于领域知识的网页筛选系统[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年

3 昝红英;苏玉梅;孙斌;俞士汶;;基于浅层分析的网页相关度研究[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年

4 孙静;刘正捷;奚小玲;王慧;;帮助盲人理解网页信息的一种网页结构划分方法[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年

5 曹淮;晁丁丁;;3D元素在网页信息传达中的应用研究[A];2006年中国机械工程学会年会暨中国工程院机械与运载工程学部首届年会论文集[C];2006年

6 唐超;刘辰;杨正球;;使用多层迭代分析和分类网页文档的方法[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年

7 马骁;王晓龙;王轩;卜永忠;;基于网页信息结构的网页体裁聚类分析[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年

8 罗阳;季铎;张桂平;王莹莹;;面向单一网页的双语资源挖掘方法[A];第六届全国信息检索学术会议论文集[C];2010年

9 于满泉;谭松波;许洪波;;网页内部结构挖掘技术研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年

10 王宇;黄炜;肖艳芹;任建立;李天柱;;ORBASE用于基于内容的Web查询[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年

相关重要报纸文章 前10条

1 本报记者 曾居仁 通讯员 郝金荣;贵州“万村千乡”网页工程开辟为农服务新渠道[N];中国气象报;2012年

2 壮壮;批量保存网页信息[N];电脑报;2004年

3 罗震宇 严小斌;一种新型WEB开发技术的探讨[N];中国冶金报;2011年

4 钱鹏;网尽Web页中的好东东[N];电脑报;2004年

5 星之海洋;迈出网页制作的第一步[N];电脑报;2004年

6 河南 张金贵;FrontPage2000组件详解(四)[N];电脑报;2001年

7 枫尔;网站浏览提速的五大秘方[N];中国证券报;2004年

8 飘零剑客;网络监控利器——AnyView[N];中国电脑教育报;2004年

9 八戒;眨眼之间 答案立现[N];电脑报;2013年

10 ;网络应用 天龙八“步” 申请上网账号[N];电脑报;2002年

相关博士学位论文 前10条

1 陈洁;基于概念融合的网页筛选技术研究[D];北京邮电大学;2013年

2 龚昌盛;基于语义标注的网页广告加载模型研究[D];武汉大学;2010年

3 孙建涛;Web挖掘中的降维和分类方法研究[D];清华大学;2005年

4 黄华军;网页信息隐藏与隐秘信息检测研究[D];湖南大学;2007年

5 徐晴阳;基于关系子群发现算法的聚焦爬行技术[D];吉林大学;2008年

6 曹鲁慧;Web个人信息集成问题研究[D];山东大学;2012年

7 刘馨月;Web挖掘中的链接分析与话题检测研究[D];大连理工大学;2012年

8 罗娜;基于本体的主题爬行技术研究[D];吉林大学;2009年

9 张勇实;基于链接相似性分析的WEB结构挖掘方法研究[D];哈尔滨工程大学;2012年

10 宗校军;中文网页定题采集及分类研究[D];华中科技大学;2006年

相关硕士学位论文 前10条

1 敖志敏;基于网页相似度的搜索算法改进的研究[D];上海师范大学;2015年

2 杨寻;地域文化的视觉元素在旅游网页设计中的应用研究[D];西南交通大学;2015年

3 张W,

本文编号:2407810


资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/yingxiaoguanlilunwen/2407810.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户17b63***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com