面向互联网网站标注的标签库的研究
发布时间:2021-08-06 03:15
随着Internet的飞速发展,互联网上的信息量呈爆炸式发展,Web网页中存放着涵盖各个领域的大量有价值的信息。现阶段对网站分类需要处理大量的数据,正确率却不高,类目的设置也是一个问题。网站信息抽取主要针对单一网站进行处理,即使获得模板也无法适应大规模web信息抽取的需要。web2.0时代的到来,使标签在博客系统、论坛、视频网站等方面得到了广泛的应用,成为一种全新的信息分类组织形式。本文选取对网站进行标签标注,并设计标签库实现信息的结构化保存和组织作为研究对象。本论文的主要工作分为标签库的研究、设计和对网站的标签提取两部分:对第一部分,分别对文献分类法和标签分类法进行了研究,在对分类目录和标签云进行分析对比后,提出了标签库的多面复合式等级结构,从主体性质、形式、行业、主题、地区、语言六个方面对网站进行信息标注。第二部分,在对网站进行结构分析后,与设计的标签库相结合,提出用网页分类、网页自动标引相结合的方法对网站进行标注,提取标签。通过分析网站拓扑结构建立网站结构树,来实现网页的自动分类,然后对内容网页进行自动标引提取标签。最后设计实验、分析结果,证明该方法取得了很好的效果。网站作为网络...
【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校
【文章页数】:61 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第一章 绪论
1.1 研究的背景及意义
1.2 国内外研究现状
1.3 本文的主要工作
1.4 论文组织结构
第二章 标注目录与网站标注相关技术的研究
2.1 文献分类目录与元数据
2.1.1 文献分类法组织网络信息
2.1.2 元数据
2.2 标签与标签云
2.2.1 标签
2.2.2 标签云与标签的层次结构
2.3 两种分类方式的对比
2.4 网站的信息标注
2.4.1 网页自动分类
2.4.2 网页自动标引
第三章 面向网站标注的标签库的结构
3.1 网站相关属性分析
3.1.1 网页与网站结构
3.1.2 URL及其关键字意义的研究
3.2 自定义网站元数据元素
3.2.1 网页元素的表示
3.2.2 网站元素表示
3.3 标签库
3.3.1 标签库的结构
3.3.2 主题子库的结构设计
第四章 网站标注方法的研究
4.1 标注系统设计
4.2 基于网络拓扑结构的网页的自动分类
4.2.1 网站拓扑图的建立
4.2.2 网站结构树的建立
4.2.3 网页分类
4.3 基于SVM的多特征的网页自动标引
4.3.1 SVM自动分类方法
4.3.2 基于SVM的多特征的网页自动标引
第五章 网站标注的设计实验与结果分析
5.1 数据集的获取与描述
5.2 实验评测标准
5.3 基于网站拓扑结构的网页分类实验
5.3.1 实验设计
5.3.2 实验结果分析
5.4 基于SVM的多特征网页自动标引实验
5.4.1 实验设计
5.4.2 实验结果分析
第六章 结束语
6.1 论文工作总结
6.2 进一步的研究工作
参考文献
致谢
攻读学位期间发表的学术论文目录
【参考文献】:
期刊论文
[1]一种基于词汇链的关键词抽取方法[J]. 索红光,刘玉树,曹淑英. 中文信息学报. 2006(06)
[2]近5年网络信息分类组织研究述略[J]. 刘延章. 图书情报工作. 2004(01)
[3]网络信息检索工具的分类体系——网络信息检索工具发展的方向与提高竞争力的途径(连载三)[J]. 张琪玉. 江苏图书馆学报. 2002(04)
[4]网络信息分类与网站分类目录初探[J]. 高薇薇,杨丽. 图书馆建设. 2002(03)
[5]网络信息分类体系[J]. 史学斌. 图书馆. 2002(02)
[6]网络信息分类系统的发展趋向研究[J]. 苏广利. 图书馆杂志. 2002(04)
[7]中文搜索引擎分类体系研究[J]. 谭宇红,胡德华,柳晓春. 情报科学. 2001(06)
[8]中文全文标引的主题词标引和主题概念标引方法[J]. 韩客松,王永成. 情报学报. 2001(02)
[9]网络信息分类与传统分类法的优劣分析──兼谈构建《中国网络信息分类法》[J]. 石晓华,王春芳. 图书馆理论与实践. 2001(01)
[10]计算机辅助分类主题标引系统设计——《中国分类主题词表》电子化[J]. 林彬,孟欣欣. 情报理论与实践. 1999(05)
本文编号:3324960
【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校
【文章页数】:61 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第一章 绪论
1.1 研究的背景及意义
1.2 国内外研究现状
1.3 本文的主要工作
1.4 论文组织结构
第二章 标注目录与网站标注相关技术的研究
2.1 文献分类目录与元数据
2.1.1 文献分类法组织网络信息
2.1.2 元数据
2.2 标签与标签云
2.2.1 标签
2.2.2 标签云与标签的层次结构
2.3 两种分类方式的对比
2.4 网站的信息标注
2.4.1 网页自动分类
2.4.2 网页自动标引
第三章 面向网站标注的标签库的结构
3.1 网站相关属性分析
3.1.1 网页与网站结构
3.1.2 URL及其关键字意义的研究
3.2 自定义网站元数据元素
3.2.1 网页元素的表示
3.2.2 网站元素表示
3.3 标签库
3.3.1 标签库的结构
3.3.2 主题子库的结构设计
第四章 网站标注方法的研究
4.1 标注系统设计
4.2 基于网络拓扑结构的网页的自动分类
4.2.1 网站拓扑图的建立
4.2.2 网站结构树的建立
4.2.3 网页分类
4.3 基于SVM的多特征的网页自动标引
4.3.1 SVM自动分类方法
4.3.2 基于SVM的多特征的网页自动标引
第五章 网站标注的设计实验与结果分析
5.1 数据集的获取与描述
5.2 实验评测标准
5.3 基于网站拓扑结构的网页分类实验
5.3.1 实验设计
5.3.2 实验结果分析
5.4 基于SVM的多特征网页自动标引实验
5.4.1 实验设计
5.4.2 实验结果分析
第六章 结束语
6.1 论文工作总结
6.2 进一步的研究工作
参考文献
致谢
攻读学位期间发表的学术论文目录
【参考文献】:
期刊论文
[1]一种基于词汇链的关键词抽取方法[J]. 索红光,刘玉树,曹淑英. 中文信息学报. 2006(06)
[2]近5年网络信息分类组织研究述略[J]. 刘延章. 图书情报工作. 2004(01)
[3]网络信息检索工具的分类体系——网络信息检索工具发展的方向与提高竞争力的途径(连载三)[J]. 张琪玉. 江苏图书馆学报. 2002(04)
[4]网络信息分类与网站分类目录初探[J]. 高薇薇,杨丽. 图书馆建设. 2002(03)
[5]网络信息分类体系[J]. 史学斌. 图书馆. 2002(02)
[6]网络信息分类系统的发展趋向研究[J]. 苏广利. 图书馆杂志. 2002(04)
[7]中文搜索引擎分类体系研究[J]. 谭宇红,胡德华,柳晓春. 情报科学. 2001(06)
[8]中文全文标引的主题词标引和主题概念标引方法[J]. 韩客松,王永成. 情报学报. 2001(02)
[9]网络信息分类与传统分类法的优劣分析──兼谈构建《中国网络信息分类法》[J]. 石晓华,王春芳. 图书馆理论与实践. 2001(01)
[10]计算机辅助分类主题标引系统设计——《中国分类主题词表》电子化[J]. 林彬,孟欣欣. 情报理论与实践. 1999(05)
本文编号:3324960
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3324960.html