无监督分词算法在新词识别中的应用

发布时间：2021-01-24 15:23

　　新词识别过程中,使用分词工具进行预分词的方法,受限于训练语料而对某些领域的分词准确率不佳.针对这个问题,本文提出了一种改进方法.该方法首先基于元语言模型进行无监督预分词,再将词频、互信息和邻接熵作为主要特征进行新词发现.同时方法中还结合了命名实体识别对发现的结果进行过滤,得到候选词组后使用网格搜索寻找最优的超参数组合.实验选取四种不同领域的语料,在统一的超参数下,前10%的新词准确率分别达到了88. 3%、80. 5%、85. 9%、91. 9%.实验表明,这种无监督的分词方法适用于新词识别领域,并具备良好的领域适应性.

【文章来源】：小型微型计算机系统. 2020,41(04)北大核心

【文章页数】：5 页

【部分图文】：

无监督分词算法在新词识别中的应用

算法流程图

阈值,互信息,评价指标,范围

实验中需要重点对阈值超参数进行搜索，其中包含词频阈值、互信息阈值、邻接熵阈值．首先分析各特征对评价指标的影响，如图2-图4所示．然后选取合适的区间和步长，构成多维的网格空间，进而进行搜索．其中搜索中的评价指标为F1值．本次实验中选取了频次范围为(5,20)，互信息范围为(5.0,15.0)，邻接熵范围为(1.0,3.0)，共构成20000组参数进行实验，最终最优参数组合为:频次阈值为5，互信息阈值为5.6，邻接熵阈值为1.4，搜索速度为326组/秒．5.4实验设计及结果分析

阈值,互信息

互信息阈值对新词识别结果的影响

【参考文献】：
期刊论文
[1]N-gram模型综述[J]. 尹陈,吴敏.  计算机系统应用. 2018(10)
[2]面向中文社交媒体语料的无监督新词识别研究[J]. 张婧,黄锴宇,梁晨,黄德根.  中文信息学报. 2018(03)
[3]面向社会媒体的开放领域新词发现[J]. 张华平,商建云.  中文信息学报. 2017(03)
[4]基于互信息改进算法的新词发现对中文分词系统改进[J]. 杜丽萍,李晓戈,于根,刘春丽,刘睿.  北京大学学报(自然科学版). 2016(01)
[5]基于词内部结合度和边界自由度的新词发现[J]. 李文坤,张仰森,陈若愚.  计算机应用研究. 2015(08)
[6]中文分词模型的领域适应性方法[J]. 韩冬煦,常宝宝.  计算机学报. 2015(02)
[7]一种基于改进互信息和信息熵的文本特征选择方法[J]. 成卫青,唐旋.  南京邮电大学学报(自然科学版). 2013(05)
[8]基于条件随机场方法的开放领域新词发现[J]. 陈飞,刘奕群,魏超,张云亮,张敏,马少平.  软件学报. 2013(05)
[9]博客语料的新词发现方法[J]. 黄轩,李熔烽.  现代电子技术. 2013(02)
[10]中文新词识别技术综述[J]. 张海军,史树敏,朱朝勇,黄河燕.  计算机科学. 2010(03)

本文编号：2997478

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2997478.html

上一篇：基于合数阶双线性对的可搜索加密方案分析与改进
下一篇：光电探测及激光打击技术在无人机探测与反制领域的研究及应用

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|