当前位置:主页 > 文艺论文 > 汉语言论文 >

字符序列标注的维吾尔语词干提取方法

发布时间:2021-04-12 18:02
  词干提取是形态丰富语言信息处理中的基础任务,对其他自然语言处理任务有着重要的影响。该文将词干提取任务看作序列标注问题,以字符为切分粒度来表征维吾尔语单词的构成机制,结合条件随机场模型,实现基于字符序列标注的维吾尔语词干提取方法。首先使用词典查询方法进行词干提取,然后结合字符的弱化发音特征、音类特征以及语音特征,针对受限数据和非受限数据采用条件随机场训练模型及预测结果。实验结果表明,该方法在非受限数据集上效果较佳,且能广泛应用到其他语言。 

【文章来源】:现代电子技术. 2020,43(12)北大核心

【文章页数】:5 页

【部分图文】:

字符序列标注的维吾尔语词干提取方法


维吾尔语词干提取标记示例

流程图,维吾尔,语词,流程图


本文利用少数民族语言分词技术评测(MLWS2017)语料,以字符(字母)为切分粒度,构建一种结合特征的条件随机场模型。首先利用词干/词缀词典对评测语料进行过滤,然后使用受限CRF模型和非受限CRF模型分别进行预测,最终评估结果。整体流程图如图1所示。2.1 预处理

【参考文献】:
期刊论文
[1]基于改进的Porter Stemmer词干提取与核方法的垃圾邮件过滤算法[J]. 孙汉博,冯国灿.  计算机科学. 2017(S1)
[2]基于N-gram模型的哈萨克词干提取方法[J]. 吾兰·努鲁别克,热木土拉·麦麦提,艾斯卡尔·艾木都拉.  电脑知识与技术. 2017(12)
[3]基于双向门限递归单元神经网络的维吾尔语形态切分[J]. 哈里旦木·阿布都克里木,程勇,刘洋,孙茂松.  清华大学学报(自然科学版). 2017(01)
[4]融合多策略的维吾尔语词干提取方法[J]. 赛迪亚古丽·艾尼瓦尔,向露,宗成庆,艾克白尔·帕塔尔,艾斯卡尔·艾木都拉.  中文信息学报. 2015(05)
[5]基于标注词典和规则的维吾尔文动词词干提取方法[J]. 塔依尔·阿不都外力,艾山·吾买尔,吐尔根·伊布拉音,张健.  新疆大学学报(自然科学版). 2013(01)
[6]词干提取方法及工具的对比分析研究[J]. 吴思竹,钱庆,胡铁军,李丹亚,李军莲,洪娜.  图书情报工作. 2012(15)
[7]新疆少数民族语言文字信息处理研究与应用[J]. 吐尔根·依布拉音,袁保社.  中文信息学报. 2011(06)
[8]基于条件随机场的蒙古语词切分研究[J]. 赵伟,侯宏旭,从伟,宋美娜.  中文信息学报. 2010(05)



本文编号:3133732

资料下载
论文发表

本文链接:https://www.wllwen.com/wenyilunwen/hanyulw/3133732.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户7e652***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com