当前位置:主页 > 管理论文 > 移动网络论文 >

基于文本语义图的网页分类算法研究

发布时间:2020-09-29 18:43
   伴随互联网的高速发展,互联网网页数量呈爆炸式增长。作为信息的载体,互联网上每时每刻都在产生大量主题各异的Web网页文本,数据量巨大,且内容越来越丰富。如何从海量的、动态的信息资源中获取所需的信息,成为一个重要的研究课题。Web网页分类技术能够实现对互联网中海量数据的快速检索、过滤、分类和归档,提高人们对于网络数据的利用率,降低搜索信息的时间,是网页大数据处理的基础。但基于统计的网页分类方法往往存在忽略词语语义和网页结构信息的问题,并且在分类过程中存在特征向量维度过高的现象,这会增加运算负担,进而影响分类效率。为了解决基于统计的网页分类算法存在的问题,提出一种基于网页文本语义图的Web网页分类算法。该算法通过搭建网页语义图来刻画网页语义信息,并在此基础上进行特征权值计算,进而实现网页分类,提高网页分类效率。同时,对特征选择算法做出改进,以进一步降低空间维度,增大信息密度。本文做了以下工作:(1)提出LP-TIF特征选择算法。论文针对TF-IDF算法中词频TF对网页文本内部信息表现不足的问题,提出一种在词频基础上融合词性、词位置等多个特征来表现词语对网页重要性的改进方法。然后引入词袋模式,利用同义词、相似词精简,对特征空间进行整合规范,进一步降低空间维度。(2)提出网页文本语义图搭建方法。论文提出一种兼顾词语相似性和文本相关性的网页语义图搭建方法。使用特征词词袋集作为语义图节点集,先利用词语相似性为语义图搭建相似边,然后提出一种新的基于共现词度量词语相关性的方法搭建相关边,最后对边进行合并,完成语义图搭建。(3)提出WordRank权值计算方法。论文在图结构的基础上,引入PageRank节点排序算法对特征节点权重进行计算,并结合文本语义图作为加权有向图的特点,针对节点权重和语义边权重对算法做出适应性改进,提出WordRank权重计算方法。最后分别对特征选择算法和基于网页文本语义图的网页分类算法的有效性进行验证。实验表明,相较于TF-IDF算法,基于LP-TIF和词袋的特征选择算法可有效降低空间维度,提高算法时间效率。并且,基于文本语义图的网页分类算法不仅能够很好的提高分类准确率,还可以优化网页分类效果,提高算法的稳定性。
【学位单位】:江苏科技大学
【学位级别】:硕士
【学位年份】:2019
【中图分类】:TP393.092;TP391.1
【文章目录】:
摘要
Abstract
第1章 绪论
    1.1 研究背景与意义
    1.2 国内外研究现状
        1.2.1 国外研究现状
        1.2.2 国内研究现状
    1.3 论文主要工作及组织结构
第2章 相关基础知识
    2.1 网页分类简述
        2.1.1 文本分类
        2.1.2 网页分类概述
    2.2 网页分类相关知识
        2.2.1 网页预处理
        2.2.2 网页特征选择
        2.2.3 网页向量表示
    2.3 网页语义图相关知识
        2.3.1 图模型简介
        2.3.2 语义词典
        2.3.3 关联规则
    2.4 本章小结
第3章 基于LP-TIF和词袋的特征选择
    3.1 PL-TIF特征选择
        3.1.1 候选词集
        3.1.2 词性因子(POS)
        3.1.3 词位置因子(LOC)
        3.1.4 LP-TIF特征选择
        3.1.5 LP-TIF算法描述
    3.2 基于词袋的特征选择
        3.2.1 词袋的概念
        3.2.2 词袋的计算
        3.2.3 特征词集的词袋打包
        3.2.4 特征词集的词袋合并
        3.2.5 特征词袋集算法描述
    3.3 特征选择算法描述
    3.4 本章小结
第4章 基于网页文本语义图的权值计算
    4.1 网页语义图简介
    4.2 网页语义图边搭建
        4.2.1 节点词的相似性
        4.2.2 相似边搭建
        4.2.3 节点词的共现性
        4.2.4 相关边搭建
    4.3 网页语义图模型搭建
        4.3.1 网页语义图整合
        4.3.2 网页语义图搭建算法描述
    4.4 基于网页语义图的权重计算
        4.4.1 PageRank算法
        4.4.2 WordRank基于边权重的改进
        4.4.3 WordRank基于节点权重的改进
        4.4.4 WordRank权重算法描述
    4.5 本章小结
第5章 实验分析
    5.1 性能评价和实验环境
        5.1.1 性能评价指标
        5.1.2 实验环境及数据集
    5.2 基于语义图的网页分类算法评估实验
        5.2.1 基于文本语义图的网页分类系统框架
        5.2.2基于语义图网页分类有效性实验
    5.3特征选择有效性评估实验
        5.3.1 特征选择降维效果
        5.3.2 特征选择有效性评估
    5.4 本章小结
第6章 总结与展望
    6.1 主要结论
    6.2 研究展望
参考文献
攻读学位期间发表的学术论文
致谢
中文详细摘要

【相似文献】

相关期刊论文 前10条

1 刘景云;;追寻网页上“闪动”的音乐[J];电脑知识与技术(经验技巧);2017年12期

2 老万;;加快网页文件的加载速度[J];电脑爱好者;2015年12期

3 吴阳阳;封化民;胡雪;杨发智;;网页文件信息隐藏技术安全性研究[J];北京电子科技学院学报;2014年04期

4 启动;;浅谈网页文件引用[J];网络与信息;2006年05期

5 张启宇;朱玲;车忠志;;网页文件元数据的自动提取[J];电脑与电信;2008年04期

6 柳林;轻松保存网页文件五法[J];电脑爱好者;2003年17期

7 陆莉;;隐蔽网页资源的挖掘利用探究[J];福建图书馆理论与实践;2008年03期

8 ;Script精简专家——ScriptCleaner[J];网络与信息;2003年03期

9 黄小花;;浅析网页的头部内容[J];电脑与电信;2019年05期

10 孙小英;;试论网页设计的基本规范和常用技巧[J];数码世界;2017年11期

相关会议论文 前4条

1 庄昭程;;高职《网页美工》课程教学的几点建议[A];中国职协2017年度优秀科研成果获奖论文集(一二等奖)[C];2018年

2 张晓明;奈一雄;齐炯明;安媛媛;张建楠;王静娴;;基于信息隐藏的网页入侵检测技术与实现[A];2009通信理论与技术新发展——第十四届全国青年通信学术会议论文集[C];2009年

3 刘世杰;唐世渭;杨冬青;王腾蛟;姚小波;;自动的WEB信息提取和集成[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年

4 刘世杰;唐世渭;杨冬青;王腾蛟;李立宇;;基于XML技术的Web信息提取和集成[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年

相关重要报纸文章 前10条

1 ;网页防篡改的回顾与展望[N];中国计算机报;2019年

2 马坤;用VB判断网页文件是否在IE缓存中[N];电脑报;2004年

3 何咏明 尹有仁;用VFP管理网页文件[N];中国计算机报;2001年

4 福建省工商行政管理局 王粟洋;网页证据的“三维取证法”[N];中国医药报;2018年

5 湖北 冯晓玲;快速调用记事本编辑网页文件[N];电脑报;2003年

6 王兆和;到秘密花园里“摘”烟花[N];中国电脑教育报;2004年

7 江苏 韶亚军;WPS 2000妙用五则[N];电脑报;2001年

8 ;网上购物安全手册[N];人民政协报;2000年

9 山东 刘红军;自己的事自己处理[N];中国电脑教育报;2002年

10 浙江 枫叶子;多彩链接靓起来[N];电脑报;2003年

相关博士学位论文 前1条

1 胡燕;基于Web信息抽取的专业知识获取方法研究[D];武汉理工大学;2007年

相关硕士学位论文 前10条

1 周文文;基于文本语义图的网页分类算法研究[D];江苏科技大学;2019年

2 鞠亮;基于关键词自学习的中文网页分类技术研究与实现[D];武汉理工大学;2017年

3 姜康;基于响应式的移动端网页界面设计与实现[D];中南民族大学;2016年

4 程元X;基于URL+文本的网页主题分类模型研究[D];武汉邮电科学研究院;2018年

5 曹亚男;WEB代理系统网页噪音信息识别与过滤技术研究[D];哈尔滨工程大学;2015年

6 李维旺;基于网页重构的网络用户体验优化研究与实现[D];电子科技大学;2018年

7 章俊;深网数据爬取关键技术研究[D];电子科技大学;2018年

8 刘江;网页篡改监控系统的设计与实现[D];北京邮电大学;2018年

9 李宗峰;网页隐秘通信及其检测与防护干扰方法[D];中国科学技术大学;2017年

10 田郸郸;基于谱哈希的大规模网页分类算法研究与实现[D];国防科学技术大学;2016年



本文编号:2830109

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2830109.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户76eee***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com