当前位置:主页 > 科技论文 > 自动化论文 >

基于LSTM和迁移学习的网页主题分类方法研究与实现

发布时间:2020-04-05 05:44
【摘要】:文本分类的研究相对较早,而且拥有比较成熟的技术,因此网页分类研究主要以文本分类为基础。当前大多数网页分类方法属于浅层学习方法,由于语言的语法特殊、语义多元、隐寓性表达等特点,浅层的学习方法存在文本表征能力有限、依赖人工抽取特征等不足,难以获得较高的网页分类准确率。因此,本文基于深度学习方法开展网页主题分类研究。在自然语言处理领域,深度学习模型具有很强的针对性,及必须针特定任务训练特定的模型。众所周知,深度学习模型的训练及效果依赖于训练数据的规模。但对训练数据较少的一些任务,这将是一个刺手的问题,因此而限制了深度学习模型在小样本文本信息处理领域的应用。另外,由于深度学习模型结构复杂,即使拥有足够的训练数据,针对特定任务重新训练模型的成本较高。针对上述问题,本文以网页文本主题分类为研究目标,深入研究了网页文本主题分类技术,并结合深度学习和迁移学习,提出了一种可用于中文和维吾尔文分类问题的语言模型的微调方法。实验证明,基于语言模型的微调方法可有效解决中文和维吾尔文网页文本主题分类任务。本文的研究工作主要有一下三点:(1)构建了语言建模和网页主题分类数据集。利用网络爬虫技术从人民网、天山网等新闻网站中收集了中文和维吾尔文网页文本。构建了语言建模数据集和网页文本主题数据集。(2)利用有差异的参数优化方法。在深度神经网络中,不同层所表示的信息时有差异的,因此不同层设置不同的学习率,能够防止灾难性的遗忘,并加快模型的收敛速度。(3)提出了基于深度学习和迁移学习的网页主题分类方法,该方法能够解决高质量数据少、深度学习模型训练时间长等问题。相较于仅用目标任务数据训练,该方法在中文和维吾尔文网页主题分类的分类准确率分别提高了5.62%和5.87%,具有良好的分类效果。
【图文】:

架构图,架构,下载,引擎


新疆大学硕士学位论文crapy Engine)、调度器(Scheduler)、下载器(Downloader)、爬虫(m Pipeline)、下载中间件(Downloader Middlewares)、Spide架的核心,它负责爬虫、管道、下载器、调度器之间的通讯、负责接收引擎发过来的请求,,并按照一定的方式进行整理排列要时交还给引擎。下载器负责下载引擎发送的所有请求,并将se 交换给引擎,由引擎交给爬虫来处理。爬虫负责处理所有 R提取数据,获取 Item 字段需要的数据,并将需要跟进的 URL入调度器。管道负责处理爬虫中获取到的 Item,并进行后期的过滤、存储等)。下载中间件是一个可以自定义扩展下载功能件是一个可以自定义扩展和操作引擎与爬虫之间通信的功能
【学位授予单位】:新疆大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP391.1;TP393.092;TP181

【相似文献】

相关期刊论文 前10条

1 刘景云;;追寻网页上“闪动”的音乐[J];电脑知识与技术(经验技巧);2017年12期

2 老万;;加快网页文件的加载速度[J];电脑爱好者;2015年12期

3 吴阳阳;封化民;胡雪;杨发智;;网页文件信息隐藏技术安全性研究[J];北京电子科技学院学报;2014年04期

4 启动;;浅谈网页文件引用[J];网络与信息;2006年05期

5 张启宇;朱玲;车忠志;;网页文件元数据的自动提取[J];电脑与电信;2008年04期

6 柳林;轻松保存网页文件五法[J];电脑爱好者;2003年17期

7 陆莉;;隐蔽网页资源的挖掘利用探究[J];福建图书馆理论与实践;2008年03期

8 ;Script精简专家——ScriptCleaner[J];网络与信息;2003年03期

9 黄小花;;浅析网页的头部内容[J];电脑与电信;2019年05期

10 孙小英;;试论网页设计的基本规范和常用技巧[J];数码世界;2017年11期

相关会议论文 前4条

1 庄昭程;;高职《网页美工》课程教学的几点建议[A];中国职协2017年度优秀科研成果获奖论文集(一二等奖)[C];2018年

2 张晓明;奈一雄;齐炯明;安媛媛;张建楠;王静娴;;基于信息隐藏的网页入侵检测技术与实现[A];2009通信理论与技术新发展——第十四届全国青年通信学术会议论文集[C];2009年

3 刘世杰;唐世渭;杨冬青;王腾蛟;姚小波;;自动的WEB信息提取和集成[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年

4 刘世杰;唐世渭;杨冬青;王腾蛟;李立宇;;基于XML技术的Web信息提取和集成[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年

相关重要报纸文章 前10条

1 ;网页防篡改的回顾与展望[N];中国计算机报;2019年

2 马坤;用VB判断网页文件是否在IE缓存中[N];电脑报;2004年

3 何咏明 尹有仁;用VFP管理网页文件[N];中国计算机报;2001年

4 福建省工商行政管理局 王粟洋;网页证据的“三维取证法”[N];中国医药报;2018年

5 湖北 冯晓玲;快速调用记事本编辑网页文件[N];电脑报;2003年

6 王兆和;到秘密花园里“摘”烟花[N];中国电脑教育报;2004年

7 江苏 韶亚军;WPS 2000妙用五则[N];电脑报;2001年

8 ;网上购物安全手册[N];人民政协报;2000年

9 山东 刘红军;自己的事自己处理[N];中国电脑教育报;2002年

10 浙江 枫叶子;多彩链接靓起来[N];电脑报;2003年

相关博士学位论文 前1条

1 胡燕;基于Web信息抽取的专业知识获取方法研究[D];武汉理工大学;2007年

相关硕士学位论文 前10条

1 库尔班·麦麦提;基于LSTM和迁移学习的网页主题分类方法研究与实现[D];新疆大学;2019年

2 周文文;基于文本语义图的网页分类算法研究[D];江苏科技大学;2019年

3 鞠亮;基于关键词自学习的中文网页分类技术研究与实现[D];武汉理工大学;2017年

4 姜康;基于响应式的移动端网页界面设计与实现[D];中南民族大学;2016年

5 程元X;基于URL+文本的网页主题分类模型研究[D];武汉邮电科学研究院;2018年

6 曹亚男;WEB代理系统网页噪音信息识别与过滤技术研究[D];哈尔滨工程大学;2015年

7 李维旺;基于网页重构的网络用户体验优化研究与实现[D];电子科技大学;2018年

8 章俊;深网数据爬取关键技术研究[D];电子科技大学;2018年

9 刘江;网页篡改监控系统的设计与实现[D];北京邮电大学;2018年

10 李宗峰;网页隐秘通信及其检测与防护干扰方法[D];中国科学技术大学;2017年



本文编号:2614627

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2614627.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户4ed06***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com