基于分类技术的网页去噪方法的研究
发布时间:2017-05-28 15:14
本文关键词:基于分类技术的网页去噪方法的研究,,由笔耕文化传播整理发布。
【摘要】:互联网的快速发展使网络上的各种信息呈现出快速增长的趋势。如何从浩瀚的互联网文本中获取有效信息、分析网页数据之间的关联性等,是自然语言处理领域的一项挑战。网页导航、主题信息、超链接信息、版权信息等构成一个网页,其中除了网页正文信息外,其他的信息对于研究人员来说都属于噪音信息,这些噪音信息会对Web信息检索,网页分类等研究产生了不利的影响。为了使自然语言处理技术更好地应用到网页信息的研究中,提高对网页正文的处理能力,同时降低网页去噪领域对于网页模板的依赖性,本文提出了一种基于网页标签位置特征与文本特征相结合的网页去噪方法。该方法将HTML网页映射为相应的DOM树,在分析DOM树结构的基础上,抽取其中每一个标签节点的位置特征以及文本特征,同时考虑正文与标题的语义相似性,将这些DOM树节点在网页中所属的块分为正文节点和噪音节点,最后将它们表示为样本数据,运用机器学习中的分类方法进行分类实验。该方法实现简单且对于网页的模板依赖较小,具有一定的通用性。实验选取了决策树、朴素贝叶斯和支持向量机三种分类方法,通过对比实验验证了方法的有效性,同时实验还获得了较高的准确度,表明该方法能够较为精确地抽取出正文信息,去除网页噪音信息。最后,对实验结果进行了详细分析与讨论,总结导致误分类的原因。同时,通过特征选择实验将所选特征对于结果的贡献度及该特征的时间复杂度进行对比分析,论证特征选择对于模型训练精度和效率的重要性。
【关键词】:自然语言处理 网页去噪 正文 噪音 机器学习
【学位授予单位】:贵州师范大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP393.092
【目录】:
- 摘要2-3
- ABSTRACT3-7
- 1 绪论7-11
- 1.1 课题研究的背景与意义7
- 1.2 国内外研究现状7-9
- 1.3 本文的研究内容9-10
- 1.4 论文的组织结构10-11
- 2 网页结构特点与网页去噪技术11-15
- 2.1 网页DOM树11
- 2.2 网页DOM树的解析11-13
- 2.3 网页去噪技术13-14
- 2.4 本章小结14-15
- 3 基于分类方法的网页去噪15-21
- 3.1 常用分类方法15-19
- 3.2 分类方法的对比19
- 3.3 网页去噪分类模型19-20
- 3.4 本章小结20-21
- 4 网页特征的提取与表示21-27
- 4.1 文本与标题相似度21-23
- 4.2 文本长度比23
- 4.3 链接文字比23-24
- 4.4 网页的标签特征24-26
- 4.5 本章小结26-27
- 5 实验过程及评价27-38
- 5.1 数据获取与解析工具27-28
- 5.2 实验数据集28
- 5.3 实验及评价准则28-30
- 5.4 结果及其分析30-32
- 5.5 特征选择32-37
- 5.6 本章小结37-38
- 6 总结与展望38-39
- 参考文献39-42
- 攻读硕士学位期间完成论文42-43
- 致谢43-44
【参考文献】
中国期刊全文数据库 前3条
1 毛先领;何靖;闫宏飞;;网页去噪:研究综述[J];计算机研究与发展;2010年12期
2 张奇,黄萱菁,吴立德;一种新的句子相似度度量及其在文本自动摘要中的应用[J];中文信息学报;2005年02期
3 欧健文,董守斌,蔡斌;模板化网页主题信息的提取方法[J];清华大学学报(自然科学版);2005年S1期
中国硕士学位论文全文数据库 前2条
1 熊浩勇;基于SVM的中文文本分类算法研究与实现[D];武汉理工大学;2008年
2 杨茂;基于句子相似度的文本比对算法研究[D];电子科技大学;2010年
本文关键词:基于分类技术的网页去噪方法的研究,由笔耕文化传播整理发布。
本文编号:402921
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/402921.html