当前位置:主页 > 管理论文 > 移动网络论文 >

采用URL特征的Hub网页识别方法研究

发布时间:2019-11-25 22:11
【摘要】:【目的】通过构建简单数据样本,解决传统网页类型识别方法效率低的难题。【方法】采用URL特征作为识别依据,抽取URL信息构建训练集与测试集,使用支持向量机(SVM)建立机器学习模型以提高识别效率。【结果】在同样的数据集上,该方法的准确率为91.2%,优于其他识别方法。在效率性能方面,该方法提升近60%。【局限】当遇到URL特征不明显甚至完全相背的网站时,识别准确率会大幅度降低。【结论】该方法在效率方面存在很大优势,应用到采集系统中可提高采集效率。

【参考文献】

相关硕士学位论文 前1条

1 谢光华;中文网页自动分类的研究及其应用[D];大连理工大学;2007年

【共引文献】

相关硕士学位论文 前6条

1 苏秀芝;网页去噪与特征提取算法的研究及实现[D];西南交通大学;2010年

2 白凡;改进的K近邻算法在网页文本分类中的应用[D];安徽大学;2010年

3 刘艳敏;网页自动分类和存储管理系统的设计与实现[D];北京邮电大学;2010年

4 王立建;中文web文本过滤技术研究[D];中北大学;2010年

5 郭媛媛;基于GIS的商场疏散安全评估系统的设计与实现[D];电子科技大学;2013年

6 钱强;中文网页分类算法研究[D];江苏科技大学;2013年

【二级参考文献】

相关期刊论文 前9条

1 陈桂林,王永成;Internet网络信息自动摘要的研究[J];高技术通讯;1999年02期

2 冯是聪,单松巍,龚笔宏,张志刚,李晓明;“天网”目录导航服务研究[J];计算机研究与发展;2004年04期

3 王琦,唐世渭,杨冬青,王腾蛟;基于DOM的网页主题信息自动提取[J];计算机研究与发展;2004年10期

4 周明建,高济,李飞;基于本体论的Web信息抽取[J];计算机辅助设计与图形学学报;2004年04期

5 赵欣欣;索红光;刘玉树;;基于标记窗的网页正文信息提取方法[J];计算机应用研究;2007年03期

6 许勇,荀恩东,贾爱平,宋柔;基于互连网的术语定义获取系统[J];中文信息学报;2004年04期

7 孙承杰,关毅;基于统计的网页正文信息抽取方法的研究[J];中文信息学报;2004年05期

8 胡国平;张巍;王仁华;;基于双层决策的新闻网页正文精确抽取[J];中文信息学报;2006年06期

9 范焱,郑诚,王清毅,蔡庆生,刘洁;用Naive Bayes方法协调分类Web网页[J];软件学报;2001年09期

相关硕士学位论文 前1条

1 董静;中文网页形式自动分类[D];大连理工大学;2006年

【相似文献】

相关期刊论文 前10条

1 张东准;网页减肥工具大观[J];电脑技术;2001年04期

2 黄家贞;弹指间网页内码随心换[J];电脑知识与技术;2004年22期

3 黄家贞;弹指间网页内码随心换[J];网络与信息;2004年09期

4 宏伟;巧妙抓取防滚屏网页[J];电脑爱好者;2005年20期

5 启动;;浅谈网页文件引用[J];网络与信息;2006年05期

6 小丛;;教你轻松抓取无法滚屏的网页[J];计算机与网络;2006年08期

7 花的神明;;追寻网页上闪动的音乐[J];电脑迷;2007年12期

8 秋思;;收藏一个网页只需一个文件[J];电脑爱好者(普及版);2009年05期

9 唐永明;;浅议网页设计与制作[J];科技信息;2009年20期

10 蒋伟;徐义平;;个性化网页浅析[J];魅力中国;2009年35期

相关会议论文 前7条

1 张晓明;奈一雄;齐炯明;安媛媛;张建楠;王静娴;;基于信息隐藏的网页入侵检测技术与实现[A];2009通信理论与技术新发展——第十四届全国青年通信学术会议论文集[C];2009年

2 林政;吕雅娟;刘群;马希荣;;基于双语混和网页的平行语料挖掘[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年

3 熊德兰;鄢靖丰;陈静;;基于论坛主题的网页褒贬倾向性识别[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

4 隋春明;郭志丰;;网页防篡改技术在电力信息网中的应用[A];二○○九年全国电力企业信息化大会论文集[C];2009年

5 王海源;石睿智;;高校网页恶意代码的检测、清理与预防[A];中国高等教育学会教育信息化分会第十次学术年会论文集[C];2010年

6 戴玉刚;;藏文网页采集技术研究[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年

7 刘世杰;唐世渭;杨冬青;王腾蛟;姚小波;;自动的WEB信息提取和集成[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年

相关重要报纸文章 前10条

1 范德生 邓亚玲;守住网页的秘密[N];电脑报;2005年

2 贞;网页特效与瘦身专家[N];中国电脑教育报;2002年

3 网天;在自己的电脑上发布网页[N];大众科技报;2000年

4 杨兴平 六子;我的网页你别动[N];电脑报;2004年

5 杨耀祥;简繁网页批量互转有妙法[N];中国电脑教育报;2003年

6 河北 李永波;网页底图显个性[N];电脑报;2004年

7 ;让你的网页绽放最美丽的特效[N];中国电脑教育报;2004年

8 刘成富;编辑网页有妙法[N];计算机世界;2004年

9 绵阳南山 iled;让 Frontpage 2000 给我们“一了百了”[N];电脑报;2001年

10 陈宗伟;妙用查找替换功能编辑网页[N];电脑报;2004年

相关博士学位论文 前3条

1 计华;Web Spam特征分析及其检测技术研究[D];山东师范大学;2015年

2 陈定权;自动主题搜索的应用研究[D];中国科学院研究生院(文献情报中心);2003年

3 胡燕;基于Web信息抽取的专业知识获取方法研究[D];武汉理工大学;2007年

相关硕士学位论文 前10条

1 杜明明;基于关键词的垃圾网页判别研究[D];哈尔滨工业大学;2015年

2 刘慕凡;基于主题与语义的作弊网页检测方法研究[D];北京化工大学;2015年

3 贺知义;基于关键词的搜索引擎网页去重算法研究[D];华中师范大学;2015年

4 李小娟;基于分类技术的网页去噪方法的研究[D];贵州师范大学;2015年

5 龚诚;网页增量式采集技术研究[D];哈尔滨工业大学;2007年

6 李双;基于用户思维模型分析的网页可用性设计研究[D];江南大学;2008年

7 刘典型;多页面特殊网页文字提取与合并技术研究[D];湖南大学;2010年

8 宋鳌;网页去噪在交互电视中的应用与研究[D];上海交通大学;2011年

9 柳周频;基于链接上下文的网页预测[D];吉林大学;2006年

10 姜鑫;基于网页连通信息的主题爬行技术研究与实现[D];吉林大学;2007年



本文编号:2565868

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2565868.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户48f75***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com