基于链接路径搜索的网页命名实体提取研究
发布时间:2022-12-18 16:47
随着计算机的快速普及和Internet技术的迅猛发展,网络上的各种信息呈现指数级的增长,Web已经成为一个巨大的信息资源库,从海量数据中快速、高效地获取用户需要的信息成为了一种挑战。信息抽取旨在从无结构或半结构的Web文本中识别出用户感兴趣的数据,并将其转化为结构良好、语义清晰的格式,以方便快速、准确地获取关键信息。命名实体提取作为信息抽取的子任务和关键技术之一,已引起了国内外学者的广泛关注。 针对传统的命名实体提取方法需要对训练集进行一定规模的人工标注,且所处理的基本上是新闻文本,包含的命名实体类别较少,算法的复杂度较高这一问题,本文提出两个新的网页命名实体提取算法,探索最大程度地避免人工干预且高效、准确的命名实体提取方案,提高命名实体提取的自动化程度,增强可移植性。主要工作如下: (1)通过分析实验数据集中个人网页的URL特征发现,同类别个人网页的URL会具有一些共同的基本特征,由此,本文将这些基本特征和每类网页特有的特征结合,构建出一个自动识别个人网页的分类器。 (2)提出一个针对人名的命名实体提取方法,该算法是基于链接路径搜索的相关概念提出的,利用将锚文本和网...
【文章页数】:59 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
致谢
插图清单
表格清单
第一章 绪论
1.1 课题研究的背景、目的与意义
1.1.1 课题研究的背景
1.1.2 研究的目的和意义
1.2 命名实体提取研究历史
1.3 传统命名实体提取的不足
1.4 本文的主要研究内容
1.5 本文组织结构
1.6 本章小结
第二章 网页命名实体提取的理论基础
2.1 命名实体提取相关定义
2.1.1 信息抽取
2.1.2 命名实体
2.2 命名实体提取方法概述
2.2.1 基于模板的命名实体提取方法
2.2.2 基于概率统计的命名实体提取方法
2.2.3 基于模板和统计的命名实体提取方法
2.3 链接路径搜索的相关定义
2.4 本章小结
第三章 基于链接路径搜索的网页命名实体提取方法研究
3.1 引言
3.2 网页命名实体提取解决框架
3.3 数据的收集及预处理
3.3.1 个人网页特征总结
3.3.2 数据预处理
3.4 基于链接路径搜索的人名命名实体提取算法 NEEN
3.4.1 NEEN 算法思路
3.4.2 NEEN 算法描述
3.5 基于链接路径搜索的 Email 命名实体提取算法 NEEE
3.5.1 NEEE 算法思路
3.5.2 NEEE 算法描述
3.6 本章小结
第四章 实验结果与分析
4.1 实验数据集及预处理
4.2 NEEN 实验结果与分析
4.2.1 参数设置
4.2.2 NEEN 算法实验结果与分析
4.3 NEEE 算法实验结果与分析
4.3.1 评价指标
4.3.2 NEEE 算法实验结果分析
4.4 本章小结
第五章 基于链接路径搜索的网页命名实体提取的原型系统
5.1 系统设计框架
5.2 主要功能模块
5.3 安装使用
5.4 本章小结
第六章 总结与展望
6.1 本文总结
6.2 未来展望
参考文献
攻读硕士学位期间参与科研项目和发表的论文
【参考文献】:
期刊论文
[1]命名实体识别研究进展综述[J]. 孙镇,王惠临. 现代图书情报技术. 2010(06)
[2]基于Web的命名实体提取的研究方法[J]. 蔡爱杰. 哈尔滨师范大学自然科学学报. 2010(02)
[3]基于Web本体挖掘的语义目录研究[J]. 陈东方,王华,顾进广. 计算机工程与设计. 2008(12)
[4]面向信息检索的概念关系自动构建[J]. 胡熠,陆汝占,刘慧. 中文信息学报. 2007(05)
[5]一个统计与规则相结合的中文命名实体识别系统[J]. 向晓雯,史晓东,曾华琳. 计算机应用. 2005(10)
[6]命名实体识别研究[J]. 张晓艳,王挺,陈火旺. 计算机科学. 2005(04)
[7]论文本的自动摘要[J]. 王永成,刘功申,刘传汉,胡佩华,孙展. 中国索引. 2003(02)
[8]论文本的自动摘要[J]. 王永成,刘功申,刘传汉,胡佩华,孙展. 中国索引. 2003 (02)
[9]信息抽取研究综述[J]. 李保利,陈玉忠,俞士汶. 计算机工程与应用. 2003(10)
[10]基于DOM的Web信息提取[J]. 李效东,顾毓清. 计算机学报. 2002(05)
本文编号:3722404
【文章页数】:59 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
致谢
插图清单
表格清单
第一章 绪论
1.1 课题研究的背景、目的与意义
1.1.1 课题研究的背景
1.1.2 研究的目的和意义
1.2 命名实体提取研究历史
1.3 传统命名实体提取的不足
1.4 本文的主要研究内容
1.5 本文组织结构
1.6 本章小结
第二章 网页命名实体提取的理论基础
2.1 命名实体提取相关定义
2.1.1 信息抽取
2.1.2 命名实体
2.2 命名实体提取方法概述
2.2.1 基于模板的命名实体提取方法
2.2.2 基于概率统计的命名实体提取方法
2.2.3 基于模板和统计的命名实体提取方法
2.3 链接路径搜索的相关定义
2.4 本章小结
第三章 基于链接路径搜索的网页命名实体提取方法研究
3.1 引言
3.2 网页命名实体提取解决框架
3.3 数据的收集及预处理
3.3.1 个人网页特征总结
3.3.2 数据预处理
3.4 基于链接路径搜索的人名命名实体提取算法 NEEN
3.4.1 NEEN 算法思路
3.4.2 NEEN 算法描述
3.5 基于链接路径搜索的 Email 命名实体提取算法 NEEE
3.5.1 NEEE 算法思路
3.5.2 NEEE 算法描述
3.6 本章小结
第四章 实验结果与分析
4.1 实验数据集及预处理
4.2 NEEN 实验结果与分析
4.2.1 参数设置
4.2.2 NEEN 算法实验结果与分析
4.3 NEEE 算法实验结果与分析
4.3.1 评价指标
4.3.2 NEEE 算法实验结果分析
4.4 本章小结
第五章 基于链接路径搜索的网页命名实体提取的原型系统
5.1 系统设计框架
5.2 主要功能模块
5.3 安装使用
5.4 本章小结
第六章 总结与展望
6.1 本文总结
6.2 未来展望
参考文献
攻读硕士学位期间参与科研项目和发表的论文
【参考文献】:
期刊论文
[1]命名实体识别研究进展综述[J]. 孙镇,王惠临. 现代图书情报技术. 2010(06)
[2]基于Web的命名实体提取的研究方法[J]. 蔡爱杰. 哈尔滨师范大学自然科学学报. 2010(02)
[3]基于Web本体挖掘的语义目录研究[J]. 陈东方,王华,顾进广. 计算机工程与设计. 2008(12)
[4]面向信息检索的概念关系自动构建[J]. 胡熠,陆汝占,刘慧. 中文信息学报. 2007(05)
[5]一个统计与规则相结合的中文命名实体识别系统[J]. 向晓雯,史晓东,曾华琳. 计算机应用. 2005(10)
[6]命名实体识别研究[J]. 张晓艳,王挺,陈火旺. 计算机科学. 2005(04)
[7]论文本的自动摘要[J]. 王永成,刘功申,刘传汉,胡佩华,孙展. 中国索引. 2003(02)
[8]论文本的自动摘要[J]. 王永成,刘功申,刘传汉,胡佩华,孙展. 中国索引. 2003 (02)
[9]信息抽取研究综述[J]. 李保利,陈玉忠,俞士汶. 计算机工程与应用. 2003(10)
[10]基于DOM的Web信息提取[J]. 李效东,顾毓清. 计算机学报. 2002(05)
本文编号:3722404
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3722404.html