面向学科的新词汇抽取方法及应用研究
发布时间:2021-04-12 14:37
近年来,随着学科的蓬勃发展,各个领域的新词汇大量涌现,这些具有专业特点的新词汇充分体现和负载了一个学科领域的核心知识和专业价值,它们的变化在一定程度上反映了一个学科领域的发展变化。专业新词汇的提取对于信息检索、数据挖掘、自动翻译等语言信息处理研究以及了解、把握一个学科领域的发展现状、未来趋向等具有重要的理论和现实意义。在新词发现领域,当前主要倾向于采用基于规则和统计相结合的方法来进行新词发现。研究的困难在于现代汉语构词法的灵活多样,导致很难找到一种通用的方法来发现各个领域的新词汇,并且现有方法的准确率和召回率都不高,性能还有待优化。本文提出一种贪婪的原子词汇构词法,用于教育技术学科新词汇的发现,为发现该领域的新词汇提供了一种新的方法。本文设计了一种面向学科领域的新专业词汇发现方法,该方法的实现部分包括文本预处理、基于贪婪的原子词汇构词法的新词串构建与统计、基于规则库的词串过滤、重复子串筛选、新专业词汇提炼和结果排序。对教育技术学核心学术期刊《电化教育研究》中的100篇论文用此方法进行分析,首先抽取出文中用“”、‘’、()、《》等特殊符号标志的长度不大于10的词串,形成候选新词表1;然后...
【文章来源】:华中师范大学湖北省 211工程院校 教育部直属院校
【文章页数】:63 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 绪论
1.1 研究背景及意义
1.2 研究现状及存在问题
1.3 研究内容
1.4 论文的组织结构
2 新词发现基础
2.1 新词发现的理论基础
2.1.1 新词的定义
2.1.2 新词的来源
2.1.3 对新词进行评价的方法
2.1.4 新词发现研究的困难
2.2 新词发现的技术基础
2.2.1 基于统计的方法
2.2.2 基于规则的方法
2.2.3 统计和规则相结合的方法
2.3 小结
3 贪婪的原子词汇构词法研究
3.1 关于构词法的相关研究
3.2 贪婪的原子词汇构词法
3.2.1 算法思想
3.2.2 算法原理分析
3.2.3 算法流程图
3.3 垃圾词串过滤
3.3.1 垃圾词串过滤的必要性
3.3.2 词串过滤的方法
3.3.3 过滤规则库的制定
3.4 算法性能分析
3.4.1 实验数据来源
3.4.2 实验结果分析
3.5 小结
4 面向学科的新词发现系统的分析与设计
4.1 系统体系结构设计
4.1.1 研究方案介绍
4.1.2 方案实施流程
4.2 系统功能模块设计
4.2.1 文本预处理
4.2.2 新词串统计
4.2.3 垃圾词串的过滤
4.2.4 结果排序与输出
4.3 小结
5 面向学科的新词发现系统的实现和应用
5.1 系统开发环境
5.2 实验功能模块实现
5.2.1 文本预处理
5.2.2 新词串统计
5.2.3 垃圾词串过滤
5.2.4 结果排序与输出
5.3 系统应用分析
5.4 小结
6 总结与展望
6.1 研究总结
6.2 问题与展望
参考文献
项目资助及发表论文情况
致谢
【参考文献】:
期刊论文
[1]中文新词识别技术综述[J]. 张海军,史树敏,朱朝勇,黄河燕. 计算机科学. 2010(03)
[2]基于统计信息的未登录词的扩展识别方法[J]. 韩艳,林煜熙,姚建民. 中文信息学报. 2009(03)
[3]针对特定领域的新词发现和新技术发现[J]. 王文荣,乔晓东,朱礼军. 现代图书情报技术. 2008(02)
[4]基于词表和N-gram算法的新词识别实验[J]. 曹艳,杜慧平,刘竟,侯汉清. 情报科学. 2007(11)
[5]基于多特征的自适应新词识别[J]. 罗智勇,宋柔. 北京工业大学学报. 2007(07)
[6]基于统计和规则的未登录词识别方法研究[J]. 周蕾,朱巧明. 计算机工程. 2007(08)
[7]基于标引信息的网络新概念发现算法[J]. 夏霙,刘功申,李翔. 微型电脑应用. 2007(01)
[8]基于质子串分解的中文术语自动抽取[J]. 何婷婷,张勇. 计算机工程. 2006(23)
[9]基于数据挖掘的新词发现[J]. 王立希,王建东,汪静. 计算机应用研究. 2006(12)
[10]一种快速获取领域新词语的新方法[J]. 刘华. 中文信息学报. 2006(05)
硕士论文
[1]汉语新词语发现及其词性标注方法研究[D]. 杨辉.复旦大学 2008
[2]信息化教育领域的Web信息抽取技术研究[D]. 邱亚娜.天津师范大学 2008
[3]中文名实体识别与新词发现技术研究[D]. 刘利刚.哈尔滨工业大学 2007
[4]新词:论定中式复合名词的构词模式与构造过程[D]. 胡睿.东北师范大学 2006
本文编号:3133468
【文章来源】:华中师范大学湖北省 211工程院校 教育部直属院校
【文章页数】:63 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 绪论
1.1 研究背景及意义
1.2 研究现状及存在问题
1.3 研究内容
1.4 论文的组织结构
2 新词发现基础
2.1 新词发现的理论基础
2.1.1 新词的定义
2.1.2 新词的来源
2.1.3 对新词进行评价的方法
2.1.4 新词发现研究的困难
2.2 新词发现的技术基础
2.2.1 基于统计的方法
2.2.2 基于规则的方法
2.2.3 统计和规则相结合的方法
2.3 小结
3 贪婪的原子词汇构词法研究
3.1 关于构词法的相关研究
3.2 贪婪的原子词汇构词法
3.2.1 算法思想
3.2.2 算法原理分析
3.2.3 算法流程图
3.3 垃圾词串过滤
3.3.1 垃圾词串过滤的必要性
3.3.2 词串过滤的方法
3.3.3 过滤规则库的制定
3.4 算法性能分析
3.4.1 实验数据来源
3.4.2 实验结果分析
3.5 小结
4 面向学科的新词发现系统的分析与设计
4.1 系统体系结构设计
4.1.1 研究方案介绍
4.1.2 方案实施流程
4.2 系统功能模块设计
4.2.1 文本预处理
4.2.2 新词串统计
4.2.3 垃圾词串的过滤
4.2.4 结果排序与输出
4.3 小结
5 面向学科的新词发现系统的实现和应用
5.1 系统开发环境
5.2 实验功能模块实现
5.2.1 文本预处理
5.2.2 新词串统计
5.2.3 垃圾词串过滤
5.2.4 结果排序与输出
5.3 系统应用分析
5.4 小结
6 总结与展望
6.1 研究总结
6.2 问题与展望
参考文献
项目资助及发表论文情况
致谢
【参考文献】:
期刊论文
[1]中文新词识别技术综述[J]. 张海军,史树敏,朱朝勇,黄河燕. 计算机科学. 2010(03)
[2]基于统计信息的未登录词的扩展识别方法[J]. 韩艳,林煜熙,姚建民. 中文信息学报. 2009(03)
[3]针对特定领域的新词发现和新技术发现[J]. 王文荣,乔晓东,朱礼军. 现代图书情报技术. 2008(02)
[4]基于词表和N-gram算法的新词识别实验[J]. 曹艳,杜慧平,刘竟,侯汉清. 情报科学. 2007(11)
[5]基于多特征的自适应新词识别[J]. 罗智勇,宋柔. 北京工业大学学报. 2007(07)
[6]基于统计和规则的未登录词识别方法研究[J]. 周蕾,朱巧明. 计算机工程. 2007(08)
[7]基于标引信息的网络新概念发现算法[J]. 夏霙,刘功申,李翔. 微型电脑应用. 2007(01)
[8]基于质子串分解的中文术语自动抽取[J]. 何婷婷,张勇. 计算机工程. 2006(23)
[9]基于数据挖掘的新词发现[J]. 王立希,王建东,汪静. 计算机应用研究. 2006(12)
[10]一种快速获取领域新词语的新方法[J]. 刘华. 中文信息学报. 2006(05)
硕士论文
[1]汉语新词语发现及其词性标注方法研究[D]. 杨辉.复旦大学 2008
[2]信息化教育领域的Web信息抽取技术研究[D]. 邱亚娜.天津师范大学 2008
[3]中文名实体识别与新词发现技术研究[D]. 刘利刚.哈尔滨工业大学 2007
[4]新词:论定中式复合名词的构词模式与构造过程[D]. 胡睿.东北师范大学 2006
本文编号:3133468
本文链接:https://www.wllwen.com/wenyilunwen/yuyanyishu/3133468.html