基于特征过滤对比的新词语识别
发布时间:2021-03-04 08:23
新词语的自动识别是语言监测工作中的重要环节,更是新词语研究的重要手段。这一技术的深入发展可以有效地促进汉语信息处理、词典编纂等工作的开展。对于新词语的自动识别,其本质在于新、旧字符串的对比。这些字符串就需要从前景语料和背景语料中分别获取。不论是采用基于规则的方法还是基于统计的方法,在字符串获取的过程中都会产生大量的垃圾串,尤其是从前景语料获取的字符串,这些垃圾串的大量存在都会严重地影响新词语的识别效果。因此,通过分析新词语的不同特征,提出基于特征过滤的字符串获取方法,这一方法是在字符串获取之前,将一些构词能力差的语言成分删除,这样可以有效地减少字符串的产生,以便进行下一步处理。在垃圾串过滤阶段,根据新词语的构成特点,提出基于二元结构的过滤方法,该方法可以有效过滤由三个或三个以上分词碎片构成的垃圾串。在过滤的基础上,对候选串进行多方面统计特征值的考查:从成词概率、构词模式概率及平均互信息的计算结果判断该候选串的有效性。在不使用统计模型的情况下,召回率与准确率分别为86.22%和0.15%;在使用统计模式之后,召回率与准确率分别达到43.86%和49.92%。
【文章来源】:渤海大学辽宁省
【文章页数】:66 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
目录
Contents
1 绪论
1.1 缘起
1.2 研究目的及意义
1.2.1 研究目的
1.2.2 研究意义
1.3 研究对象及材料来源
1.3.1 研究对象
1.3.2 材料来源
1.4 新词语自动识别的研究概述
1.4.1 基于规则的方法
1.4.2 基于统计的方法
1.4.3 规则与统计相结合的方法
1.4.4 新词语识别的难点
1.5 本文的研究方法及创新
1.6 本文的组织安排
2 新词语相关分析
2.1 新词语用字分析
2.2 新词语的词长分析
2.3 新词语构成成分的词类分析
2.4 新词语的构成模式分析
2.5 本章小结
3 基于特征与统计的新词语提取方法
3.1 基于特征过滤的字符集获取
3.1.1 分词碎片和碎片组
3.1.2 语料切分及字符串获取
3.1.3 特征碎片及其过滤
3.1.4 该方法的实验评测
3.2 新词语候选集的获取
3.2.1 基于参照词库的过滤
3.2.2 包含性字符串的归并
3.2.3 基于二元结构的过滤
3.2.4 基于规则的候选词语集过滤
3.3 基于统计模型的新词语识别
3.3.1 成词概率
3.3.2 汉字构词模式
3.3.3 平均互信息
3.4 本章小结
4 系统的设计、实现及实验结果
4.1 新词语自动提取系统的设计
4.1.1 系统设计
4.1.2 系统流程图
4.1.3 算法描述
4.2 实验过程及结果测评
4.2.1 实验过程
4.2.2 实验测评指标
4.2.3 实验结果分析
4.2.4 新词语丢失原因分析
4.3 本章小结
5 系统在 2011 年度新词语提取上的应用
5.1 实验过程
5.2 实验结果
5.3 本章小结
结论
参考文献
附录 CUCBst1.0 分词标注系统标记集
致谢
在读期间发表论文情况
【参考文献】:
期刊论文
[1]基于二元背景模型的新词发现[J]. 吴悦,燕鹏举,翟鲁峰. 清华大学学报(自然科学版). 2011(09)
[2]基于统计信息的未登录词的扩展识别方法[J]. 韩艳,林煜熙,姚建民. 中文信息学报. 2009(03)
[3]2006年以来的汉语新词语面面观——非族群词语[J]. 王琪. 渭南师范学院学报. 2009(03)
[4]不限领域的中文新词的识别研究[J]. 韩艳,姚建民,朱巧明,张晶. 郑州大学学报(理学版). 2008(03)
[5]三字词中的类词缀[J]. 曾立英. 语言文字应用. 2008(02)
[6]基于动态流通语料库(DCC)的新词语监测[J]. 刘长征. 长江学术. 2008(01)
[7]汉语三音节新词语与类词缀的发展初探[J]. 韩晨宇. 北京广播电视大学学报. 2007(03)
[8]汉语未登录词识别现状及一种新识别方法介绍[J]. 王蕾,杨季文. 计算机应用与软件. 2007(08)
[9]一种基于大规模语料的新词识别方法[J]. 贺敏,龚才春,张华平,程学旗. 计算机工程与应用. 2007(21)
[10]基于多特征的自适应新词识别[J]. 罗智勇,宋柔. 北京工业大学学报. 2007(07)
硕士论文
[1]基于大规模语料库的中文新词识别[D]. 吕红良.大连理工大学 2008
[2]中文新词检测与分析[D]. 崔世起.中国科学院研究生院(计算技术研究所) 2006
本文编号:3062889
【文章来源】:渤海大学辽宁省
【文章页数】:66 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
目录
Contents
1 绪论
1.1 缘起
1.2 研究目的及意义
1.2.1 研究目的
1.2.2 研究意义
1.3 研究对象及材料来源
1.3.1 研究对象
1.3.2 材料来源
1.4 新词语自动识别的研究概述
1.4.1 基于规则的方法
1.4.2 基于统计的方法
1.4.3 规则与统计相结合的方法
1.4.4 新词语识别的难点
1.5 本文的研究方法及创新
1.6 本文的组织安排
2 新词语相关分析
2.1 新词语用字分析
2.2 新词语的词长分析
2.3 新词语构成成分的词类分析
2.4 新词语的构成模式分析
2.5 本章小结
3 基于特征与统计的新词语提取方法
3.1 基于特征过滤的字符集获取
3.1.1 分词碎片和碎片组
3.1.2 语料切分及字符串获取
3.1.3 特征碎片及其过滤
3.1.4 该方法的实验评测
3.2 新词语候选集的获取
3.2.1 基于参照词库的过滤
3.2.2 包含性字符串的归并
3.2.3 基于二元结构的过滤
3.2.4 基于规则的候选词语集过滤
3.3 基于统计模型的新词语识别
3.3.1 成词概率
3.3.2 汉字构词模式
3.3.3 平均互信息
3.4 本章小结
4 系统的设计、实现及实验结果
4.1 新词语自动提取系统的设计
4.1.1 系统设计
4.1.2 系统流程图
4.1.3 算法描述
4.2 实验过程及结果测评
4.2.1 实验过程
4.2.2 实验测评指标
4.2.3 实验结果分析
4.2.4 新词语丢失原因分析
4.3 本章小结
5 系统在 2011 年度新词语提取上的应用
5.1 实验过程
5.2 实验结果
5.3 本章小结
结论
参考文献
附录 CUCBst1.0 分词标注系统标记集
致谢
在读期间发表论文情况
【参考文献】:
期刊论文
[1]基于二元背景模型的新词发现[J]. 吴悦,燕鹏举,翟鲁峰. 清华大学学报(自然科学版). 2011(09)
[2]基于统计信息的未登录词的扩展识别方法[J]. 韩艳,林煜熙,姚建民. 中文信息学报. 2009(03)
[3]2006年以来的汉语新词语面面观——非族群词语[J]. 王琪. 渭南师范学院学报. 2009(03)
[4]不限领域的中文新词的识别研究[J]. 韩艳,姚建民,朱巧明,张晶. 郑州大学学报(理学版). 2008(03)
[5]三字词中的类词缀[J]. 曾立英. 语言文字应用. 2008(02)
[6]基于动态流通语料库(DCC)的新词语监测[J]. 刘长征. 长江学术. 2008(01)
[7]汉语三音节新词语与类词缀的发展初探[J]. 韩晨宇. 北京广播电视大学学报. 2007(03)
[8]汉语未登录词识别现状及一种新识别方法介绍[J]. 王蕾,杨季文. 计算机应用与软件. 2007(08)
[9]一种基于大规模语料的新词识别方法[J]. 贺敏,龚才春,张华平,程学旗. 计算机工程与应用. 2007(21)
[10]基于多特征的自适应新词识别[J]. 罗智勇,宋柔. 北京工业大学学报. 2007(07)
硕士论文
[1]基于大规模语料库的中文新词识别[D]. 吕红良.大连理工大学 2008
[2]中文新词检测与分析[D]. 崔世起.中国科学院研究生院(计算技术研究所) 2006
本文编号:3062889
本文链接:https://www.wllwen.com/wenyilunwen/hanyulw/3062889.html