基于文本语义图的网页分类算法研究
【学位单位】:江苏科技大学
【学位级别】:硕士
【学位年份】:2019
【中图分类】:TP393.092;TP391.1
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 研究背景与意义
1.2 国内外研究现状
1.2.1 国外研究现状
1.2.2 国内研究现状
1.3 论文主要工作及组织结构
第2章 相关基础知识
2.1 网页分类简述
2.1.1 文本分类
2.1.2 网页分类概述
2.2 网页分类相关知识
2.2.1 网页预处理
2.2.2 网页特征选择
2.2.3 网页向量表示
2.3 网页语义图相关知识
2.3.1 图模型简介
2.3.2 语义词典
2.3.3 关联规则
2.4 本章小结
第3章 基于LP-TIF和词袋的特征选择
3.1 PL-TIF特征选择
3.1.1 候选词集
3.1.2 词性因子(POS)
3.1.3 词位置因子(LOC)
3.1.4 LP-TIF特征选择
3.1.5 LP-TIF算法描述
3.2 基于词袋的特征选择
3.2.1 词袋的概念
3.2.2 词袋的计算
3.2.3 特征词集的词袋打包
3.2.4 特征词集的词袋合并
3.2.5 特征词袋集算法描述
3.3 特征选择算法描述
3.4 本章小结
第4章 基于网页文本语义图的权值计算
4.1 网页语义图简介
4.2 网页语义图边搭建
4.2.1 节点词的相似性
4.2.2 相似边搭建
4.2.3 节点词的共现性
4.2.4 相关边搭建
4.3 网页语义图模型搭建
4.3.1 网页语义图整合
4.3.2 网页语义图搭建算法描述
4.4 基于网页语义图的权重计算
4.4.1 PageRank算法
4.4.2 WordRank基于边权重的改进
4.4.3 WordRank基于节点权重的改进
4.4.4 WordRank权重算法描述
4.5 本章小结
第5章 实验分析
5.1 性能评价和实验环境
5.1.1 性能评价指标
5.1.2 实验环境及数据集
5.2 基于语义图的网页分类算法评估实验
5.2.1 基于文本语义图的网页分类系统框架
5.2.2基于语义图网页分类有效性实验
5.3特征选择有效性评估实验
5.3.1 特征选择降维效果
5.3.2 特征选择有效性评估
5.4 本章小结
第6章 总结与展望
6.1 主要结论
6.2 研究展望
参考文献
攻读学位期间发表的学术论文
致谢
中文详细摘要
【相似文献】
相关期刊论文 前10条
1 刘景云;;追寻网页上“闪动”的音乐[J];电脑知识与技术(经验技巧);2017年12期
2 老万;;加快网页文件的加载速度[J];电脑爱好者;2015年12期
3 吴阳阳;封化民;胡雪;杨发智;;网页文件信息隐藏技术安全性研究[J];北京电子科技学院学报;2014年04期
4 启动;;浅谈网页文件引用[J];网络与信息;2006年05期
5 张启宇;朱玲;车忠志;;网页文件元数据的自动提取[J];电脑与电信;2008年04期
6 柳林;轻松保存网页文件五法[J];电脑爱好者;2003年17期
7 陆莉;;隐蔽网页资源的挖掘利用探究[J];福建图书馆理论与实践;2008年03期
8 ;Script精简专家——ScriptCleaner[J];网络与信息;2003年03期
9 黄小花;;浅析网页的头部内容[J];电脑与电信;2019年05期
10 孙小英;;试论网页设计的基本规范和常用技巧[J];数码世界;2017年11期
相关会议论文 前4条
1 庄昭程;;高职《网页美工》课程教学的几点建议[A];中国职协2017年度优秀科研成果获奖论文集(一二等奖)[C];2018年
2 张晓明;奈一雄;齐炯明;安媛媛;张建楠;王静娴;;基于信息隐藏的网页入侵检测技术与实现[A];2009通信理论与技术新发展——第十四届全国青年通信学术会议论文集[C];2009年
3 刘世杰;唐世渭;杨冬青;王腾蛟;姚小波;;自动的WEB信息提取和集成[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
4 刘世杰;唐世渭;杨冬青;王腾蛟;李立宇;;基于XML技术的Web信息提取和集成[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年
相关重要报纸文章 前10条
1 ;网页防篡改的回顾与展望[N];中国计算机报;2019年
2 马坤;用VB判断网页文件是否在IE缓存中[N];电脑报;2004年
3 何咏明 尹有仁;用VFP管理网页文件[N];中国计算机报;2001年
4 福建省工商行政管理局 王粟洋;网页证据的“三维取证法”[N];中国医药报;2018年
5 湖北 冯晓玲;快速调用记事本编辑网页文件[N];电脑报;2003年
6 王兆和;到秘密花园里“摘”烟花[N];中国电脑教育报;2004年
7 江苏 韶亚军;WPS 2000妙用五则[N];电脑报;2001年
8 ;网上购物安全手册[N];人民政协报;2000年
9 山东 刘红军;自己的事自己处理[N];中国电脑教育报;2002年
10 浙江 枫叶子;多彩链接靓起来[N];电脑报;2003年
相关博士学位论文 前1条
1 胡燕;基于Web信息抽取的专业知识获取方法研究[D];武汉理工大学;2007年
相关硕士学位论文 前10条
1 周文文;基于文本语义图的网页分类算法研究[D];江苏科技大学;2019年
2 鞠亮;基于关键词自学习的中文网页分类技术研究与实现[D];武汉理工大学;2017年
3 姜康;基于响应式的移动端网页界面设计与实现[D];中南民族大学;2016年
4 程元X;基于URL+文本的网页主题分类模型研究[D];武汉邮电科学研究院;2018年
5 曹亚男;WEB代理系统网页噪音信息识别与过滤技术研究[D];哈尔滨工程大学;2015年
6 李维旺;基于网页重构的网络用户体验优化研究与实现[D];电子科技大学;2018年
7 章俊;深网数据爬取关键技术研究[D];电子科技大学;2018年
8 刘江;网页篡改监控系统的设计与实现[D];北京邮电大学;2018年
9 李宗峰;网页隐秘通信及其检测与防护干扰方法[D];中国科学技术大学;2017年
10 田郸郸;基于谱哈希的大规模网页分类算法研究与实现[D];国防科学技术大学;2016年
本文编号:2830109
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2830109.html