基于特征对齐的中文分词和用户标识识别研究

发布时间:2021-11-03 14:17
  中文分词是自然语言处理中的基石,由于中文在文本中的特殊性,它并不像英文一样有明显的空格分隔开,而是以单个字为单位,因此如果需要从文本中获取有用的信息,一定需要有正确分词后的文本,才能更好地进行下一步的自然语言处理方面的工作。然而中文分词的两大难点——真歧义以及未登录词,至今仍旧没有很好地解决。面对网络上用户的复杂信息,作为命名实体识别中必不可少的一部分,用户标识识别就可以发挥其作用。序列标注模型在处理中文分词和命名实体识别这一块是卓有成效的,而条件随机场更是序列标注方法中的佼佼者。为了进一步提高中文分词的效果以及用户标识识别的准确性,本文提出了一种基于特征对齐的方法,然后将分类器与条件随机场结合来进行序列标注的任务。为了构建特征对齐的序列标注模型,本文主要完成的工作如下:1.结合分类器和条件随机场的算法,提出了一种基于特征对齐的中文分词方法。首先,针对文本中的字符二元组,抽取字符二元组的词频、信息熵、互信息、数字、标点、句子语境等共19项特征,将每一个字符二元组表示成一个19维的向量。其次,对于关于频数的13项特征利用地球移动距离(EMD)的方法使得标记数据和无标记数据进行特征对齐,从... 

【文章来源】:重庆邮电大学重庆市

【文章页数】:57 页

【学位级别】:硕士

【部分图文】:

基于特征对齐的中文分词和用户标识识别研究


网络新词

实例图,实例


迁移学习的实例

示意图,示意图,分类器,环节


EMD示意图

【参考文献】:
期刊论文
[1]Xgboost算法在区域用电预测中的应用![J]. 许裕栗,杨晶,李柠,甘中学.  自动化仪表. 2018(07)
[2]基于XGBoost的企业倒闭风险预测[J]. 石涛.  无线互联科技. 2018(08)
[3]基于隐马尔可夫模型在股票择时上的应用与研究[J]. 王旷羽.  电脑编程技巧与维护. 2018(04)
[4]基于GBDT的商品分配层次化预测模型[J]. 朱振峰,汤静远,常冬霞,赵耀.  北京交通大学学报. 2018(02)
[5]基于GBDT和HOG特征的人脸关键点定位[J]. 张重生,彭国雯,于珂珂.  河南大学学报(自然科学版). 2018(02)
[6]基于Bi-LSTM的医疗事件识别研究[J]. 侯伟涛,姬东鸿.  计算机应用研究. 2018(07)
[7]基于双线性函数注意力Bi-LSTM模型的机器阅读理解[J]. 刘飞龙,郝文宁,陈刚,靳大尉,宋佳星.  计算机科学. 2017(S1)
[8]基于最大熵马尔科夫模型的绩效评价方法[J]. 朱磊,牛绿茵,宋士吉,张玉利.  控制理论与应用. 2017(03)
[9]中文分词模型的领域适应性方法[J]. 韩冬煦,常宝宝.  计算机学报. 2015(02)
[10]基于条件随机场方法的开放领域新词发现[J]. 陈飞,刘奕群,魏超,张云亮,张敏,马少平.  软件学报. 2013(05)



本文编号:3473841

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3473841.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户681a7***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com