无监督分词算法在新词识别中的应用
发布时间:2021-01-24 15:23
新词识别过程中,使用分词工具进行预分词的方法,受限于训练语料而对某些领域的分词准确率不佳.针对这个问题,本文提出了一种改进方法.该方法首先基于元语言模型进行无监督预分词,再将词频、互信息和邻接熵作为主要特征进行新词发现.同时方法中还结合了命名实体识别对发现的结果进行过滤,得到候选词组后使用网格搜索寻找最优的超参数组合.实验选取四种不同领域的语料,在统一的超参数下,前10%的新词准确率分别达到了88. 3%、80. 5%、85. 9%、91. 9%.实验表明,这种无监督的分词方法适用于新词识别领域,并具备良好的领域适应性.
【文章来源】:小型微型计算机系统. 2020,41(04)北大核心
【文章页数】:5 页
【部分图文】:
算法流程图
实验中需要重点对阈值超参数进行搜索,其中包含词频阈值、互信息阈值、邻接熵阈值.首先分析各特征对评价指标的影响,如图2-图4所示.然后选取合适的区间和步长,构成多维的网格空间,进而进行搜索.其中搜索中的评价指标为F1值.本次实验中选取了频次范围为(5,20),互信息范围为(5.0,15.0),邻接熵范围为(1.0,3.0),共构成20000组参数进行实验,最终最优参数组合为:频次阈值为5,互信息阈值为5.6,邻接熵阈值为1.4,搜索速度为326组/秒.5.4实验设计及结果分析
互信息阈值对新词识别结果的影响
【参考文献】:
期刊论文
[1]N-gram模型综述[J]. 尹陈,吴敏. 计算机系统应用. 2018(10)
[2]面向中文社交媒体语料的无监督新词识别研究[J]. 张婧,黄锴宇,梁晨,黄德根. 中文信息学报. 2018(03)
[3]面向社会媒体的开放领域新词发现[J]. 张华平,商建云. 中文信息学报. 2017(03)
[4]基于互信息改进算法的新词发现对中文分词系统改进[J]. 杜丽萍,李晓戈,于根,刘春丽,刘睿. 北京大学学报(自然科学版). 2016(01)
[5]基于词内部结合度和边界自由度的新词发现[J]. 李文坤,张仰森,陈若愚. 计算机应用研究. 2015(08)
[6]中文分词模型的领域适应性方法[J]. 韩冬煦,常宝宝. 计算机学报. 2015(02)
[7]一种基于改进互信息和信息熵的文本特征选择方法[J]. 成卫青,唐旋. 南京邮电大学学报(自然科学版). 2013(05)
[8]基于条件随机场方法的开放领域新词发现[J]. 陈飞,刘奕群,魏超,张云亮,张敏,马少平. 软件学报. 2013(05)
[9]博客语料的新词发现方法[J]. 黄轩,李熔烽. 现代电子技术. 2013(02)
[10]中文新词识别技术综述[J]. 张海军,史树敏,朱朝勇,黄河燕. 计算机科学. 2010(03)
本文编号:2997478
【文章来源】:小型微型计算机系统. 2020,41(04)北大核心
【文章页数】:5 页
【部分图文】:
算法流程图
实验中需要重点对阈值超参数进行搜索,其中包含词频阈值、互信息阈值、邻接熵阈值.首先分析各特征对评价指标的影响,如图2-图4所示.然后选取合适的区间和步长,构成多维的网格空间,进而进行搜索.其中搜索中的评价指标为F1值.本次实验中选取了频次范围为(5,20),互信息范围为(5.0,15.0),邻接熵范围为(1.0,3.0),共构成20000组参数进行实验,最终最优参数组合为:频次阈值为5,互信息阈值为5.6,邻接熵阈值为1.4,搜索速度为326组/秒.5.4实验设计及结果分析
互信息阈值对新词识别结果的影响
【参考文献】:
期刊论文
[1]N-gram模型综述[J]. 尹陈,吴敏. 计算机系统应用. 2018(10)
[2]面向中文社交媒体语料的无监督新词识别研究[J]. 张婧,黄锴宇,梁晨,黄德根. 中文信息学报. 2018(03)
[3]面向社会媒体的开放领域新词发现[J]. 张华平,商建云. 中文信息学报. 2017(03)
[4]基于互信息改进算法的新词发现对中文分词系统改进[J]. 杜丽萍,李晓戈,于根,刘春丽,刘睿. 北京大学学报(自然科学版). 2016(01)
[5]基于词内部结合度和边界自由度的新词发现[J]. 李文坤,张仰森,陈若愚. 计算机应用研究. 2015(08)
[6]中文分词模型的领域适应性方法[J]. 韩冬煦,常宝宝. 计算机学报. 2015(02)
[7]一种基于改进互信息和信息熵的文本特征选择方法[J]. 成卫青,唐旋. 南京邮电大学学报(自然科学版). 2013(05)
[8]基于条件随机场方法的开放领域新词发现[J]. 陈飞,刘奕群,魏超,张云亮,张敏,马少平. 软件学报. 2013(05)
[9]博客语料的新词发现方法[J]. 黄轩,李熔烽. 现代电子技术. 2013(02)
[10]中文新词识别技术综述[J]. 张海军,史树敏,朱朝勇,黄河燕. 计算机科学. 2010(03)
本文编号:2997478
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2997478.html