当前位置:主页 > 经济论文 > 技术经济论文 >

基于领域特殊性和统计语言知识的新词抽取方法

发布时间:2018-10-31 07:49
【摘要】:近年来,随着经济社会的快速发展,大量新词出现在人们生活中。在自然语言处理领域,许多研究方向等都离不开新词的自动抽取。作为语言信息处理领域的一项基础技术,新词抽取技术具有巨大的研究价值和实际应用前景。本文提出了一种新颖的新词抽取方法,主要工作如下:1.提出了一个基于领域特殊性和统计语言知识的新词抽取方法。通过观察、分析语料的特点,采用基于领域特殊性的垃圾串过滤方法过滤垃圾串,得到候选新词列表;然后基于统计语言知识(包括词频、内部结合紧密性)对新词进行抽取。实验验证了该方法的有效性。2.新词抽取方法的优化,从两个方面对新词抽取方法进行了优化:优化内部结合紧密性,采用EMI来衡量,替换PMI;引入上下文外部特征,采用左熵和右熵来衡量词语的自由度。并从多方面采用多种方法评估比较该方法的效果,评估不同统计特征的结合以及调整参数。实验结果显示,相比未优化前的方法,新词抽取的效果得到大大提升,准确率最大提升39%,召回率最大提升63%。3.新词抽取方法的应用验证,将抽取的新词应用在分词系统中,实验结果显示,在含有新词的语料上,分词效果提升了10%;另外,新词抽取方法能够应用在英文领域词典的构建上。实验验证了本文方法可扩展性和语言独立性的特点。基于领域特殊性和统计语言知识的新词抽取方法是一种无监督的方法,它不需要训练语料,不需要定义规则,克服了传统方法的缺点。此外,本文方法具有很强的可扩展性和语言独立性,能够抽取大量的新词和领域词语。
[Abstract]:In recent years, with the rapid development of economy and society, a large number of new words appear in people's lives. In the field of natural language processing, many research directions are inseparable from the automatic extraction of new words. As a basic technology in the field of language information processing, neologism extraction technology has great research value and practical application prospect. In this paper, a novel new word extraction method is proposed. The main work is as follows: 1. A new word extraction method based on domain particularity and statistical language knowledge is proposed. By observing and analyzing the characteristics of the corpus, the garbage string filtering method based on domain particularity is used to filter the garbage string, and the list of candidate new words is obtained, and then the new words are extracted based on the knowledge of statistical language (including word frequency, internal compactness). The experimental results show that the method is effective. 2. This paper optimizes the neologism extraction method from two aspects: optimizing the internal compactness, using EMI to measure, replacing PMI; introducing the external features of context, and using left entropy and right entropy to measure the degree of freedom of words. Various methods are used to evaluate and compare the effect of the method, to evaluate the combination of different statistical characteristics and to adjust the parameters. The experimental results show that, compared with the unoptimized method, the effect of neologism extraction is greatly improved, the accuracy is increased by 39 and the recall rate is increased by 63. 3. The new words extraction method is applied to the word segmentation system. The experimental results show that the segmentation effect has been improved by 10% in the corpus containing new words. In addition, neologism can be applied to the construction of English domain dictionaries. Experiments verify the extensibility and language independence of this method. The new word extraction method based on domain particularity and statistical language knowledge is an unsupervised method. It does not require training corpus and does not need to define rules, which overcomes the shortcomings of traditional methods. In addition, this method has strong extensibility and language independence, it can extract a large number of new words and domain words.
【学位授予单位】:北京理工大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1

【相似文献】

相关期刊论文 前10条

1 石桢;姚天f ;;一种基于统计和规则的核心地名抽取方法[J];微型电脑应用;2013年02期

2 张世辉;一种新的基于距离的汉字笔画抽取方法[J];计算机工程;2003年14期

3 王大亮;涂序彦;郑雪峰;佟子健;;多策略融合的搭配抽取方法[J];清华大学学报(自然科学版);2008年04期

4 杨建明;;关系抽取方法研究[J];电子技术;2009年04期

5 孙继鹏;贾民;刘增宝;;一种面向文本的概念抽取方法的研究[J];计算机应用与软件;2009年09期

6 郑伟;吕建新;张建伟;;文本分类中特征预抽取方法研究[J];情报科学;2011年01期

7 肖明军,张巍,邹翔,蔡庆生;一种多策略联合信息抽取方法[J];小型微型计算机系统;2005年04期

8 郝博一;夏云庆;邬晓钧;郑方;刘轶;;基于泛化和繁殖的自举式意见目标抽取方法[J];清华大学学报(自然科学版);2009年S1期

9 栗春亮;朱艳辉;徐叶强;;中文产品评论中属性词抽取方法研究[J];计算机工程;2011年12期

10 蔡虹,叶水生;基于KPS的Web信息抽取[J];计算机与现代化;2005年06期

相关会议论文 前10条

1 宋涛;李素建;;基于流形排序的领域词抽取方法[A];第五届全国青年计算语言学研讨会论文集[C];2010年

2 卞真旭;;一种关键词抽取方法研究[A];2011年安徽省智能电网技术论坛论文集[C];2011年

3 罗斐;毛宇光;;基于领域分类的查询接口模式抽取方法[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年

4 栗春亮;朱艳辉;徐叶强;;中文产品评论中属性词抽取方法研究[A];第六届全国信息检索学术会议论文集[C];2010年

5 刘昊;王健;林鸿飞;;一种模板与图核融合的蛋白质关系抽取方法[A];第六届全国信息检索学术会议论文集[C];2010年

6 翁伟;王厚峰;;基于LDA的关键词抽取方法[A];第五届全国青年计算语言学研讨会论文集[C];2010年

7 何莉;林鸿飞;;一种面向WEB的生物医学领域英汉术语翻译对抽取方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年

8 左云存;宗成庆;;基于HMM的短语翻译对抽取方法[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年

9 王裴岩;张桂平;白宇;;一种基于核函数的技术关键词连接关系抽取方法[A];第六届全国信息检索学术会议论文集[C];2010年

10 蒲宇达;关毅;王强;;基于数据挖掘思想的网页正文抽取方法的研究[A];第三届学生计算语言学研讨会论文集[C];2006年

相关博士学位论文 前1条

1 李传席;基于本体的自适应Web信息抽取方法研究[D];中国科学技术大学;2012年

相关硕士学位论文 前10条

1 陈倩;基于特征模型的跨领域信息抽取方法研究[D];上海大学;2015年

2 刘骁;基于产品评论的意见抽取方法研究[D];黑龙江大学;2015年

3 洪军建;面向社会网络应用的人物关系抽取方法研究[D];西藏大学;2016年

4 梅莉莉;基于领域特殊性和统计语言知识的新词抽取方法[D];北京理工大学;2016年

5 吕云云;基于集成学习的中文观点句抽取方法研究[D];山西大学;2013年

6 杨云;基于句法结构的评价对象抽取方法研究[D];东北师范大学;2015年

7 方莹;基于句子聚类的信息抽取方法研究[D];山西大学;2005年

8 徐晓明;面向手机用户的社团抽取方法研究[D];吉林大学;2014年

9 李震;基于聚类的事件蕴涵抽取方法研究与实现[D];哈尔滨工业大学;2011年

10 王立;中文复述模板及搭配抽取方法研究[D];华中师范大学;2013年



本文编号:2301434

资料下载
论文发表

本文链接:https://www.wllwen.com/jingjilunwen/jiliangjingjilunwen/2301434.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户38356***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com