基于特征对齐的中文分词和用户标识识别研究
发布时间:2021-11-03 14:17
中文分词是自然语言处理中的基石,由于中文在文本中的特殊性,它并不像英文一样有明显的空格分隔开,而是以单个字为单位,因此如果需要从文本中获取有用的信息,一定需要有正确分词后的文本,才能更好地进行下一步的自然语言处理方面的工作。然而中文分词的两大难点——真歧义以及未登录词,至今仍旧没有很好地解决。面对网络上用户的复杂信息,作为命名实体识别中必不可少的一部分,用户标识识别就可以发挥其作用。序列标注模型在处理中文分词和命名实体识别这一块是卓有成效的,而条件随机场更是序列标注方法中的佼佼者。为了进一步提高中文分词的效果以及用户标识识别的准确性,本文提出了一种基于特征对齐的方法,然后将分类器与条件随机场结合来进行序列标注的任务。为了构建特征对齐的序列标注模型,本文主要完成的工作如下:1.结合分类器和条件随机场的算法,提出了一种基于特征对齐的中文分词方法。首先,针对文本中的字符二元组,抽取字符二元组的词频、信息熵、互信息、数字、标点、句子语境等共19项特征,将每一个字符二元组表示成一个19维的向量。其次,对于关于频数的13项特征利用地球移动距离(EMD)的方法使得标记数据和无标记数据进行特征对齐,从...
【文章来源】:重庆邮电大学重庆市
【文章页数】:57 页
【学位级别】:硕士
【部分图文】:
网络新词
迁移学习的实例
EMD示意图
【参考文献】:
期刊论文
[1]Xgboost算法在区域用电预测中的应用![J]. 许裕栗,杨晶,李柠,甘中学. 自动化仪表. 2018(07)
[2]基于XGBoost的企业倒闭风险预测[J]. 石涛. 无线互联科技. 2018(08)
[3]基于隐马尔可夫模型在股票择时上的应用与研究[J]. 王旷羽. 电脑编程技巧与维护. 2018(04)
[4]基于GBDT的商品分配层次化预测模型[J]. 朱振峰,汤静远,常冬霞,赵耀. 北京交通大学学报. 2018(02)
[5]基于GBDT和HOG特征的人脸关键点定位[J]. 张重生,彭国雯,于珂珂. 河南大学学报(自然科学版). 2018(02)
[6]基于Bi-LSTM的医疗事件识别研究[J]. 侯伟涛,姬东鸿. 计算机应用研究. 2018(07)
[7]基于双线性函数注意力Bi-LSTM模型的机器阅读理解[J]. 刘飞龙,郝文宁,陈刚,靳大尉,宋佳星. 计算机科学. 2017(S1)
[8]基于最大熵马尔科夫模型的绩效评价方法[J]. 朱磊,牛绿茵,宋士吉,张玉利. 控制理论与应用. 2017(03)
[9]中文分词模型的领域适应性方法[J]. 韩冬煦,常宝宝. 计算机学报. 2015(02)
[10]基于条件随机场方法的开放领域新词发现[J]. 陈飞,刘奕群,魏超,张云亮,张敏,马少平. 软件学报. 2013(05)
本文编号:3473841
【文章来源】:重庆邮电大学重庆市
【文章页数】:57 页
【学位级别】:硕士
【部分图文】:
网络新词
迁移学习的实例
EMD示意图
【参考文献】:
期刊论文
[1]Xgboost算法在区域用电预测中的应用![J]. 许裕栗,杨晶,李柠,甘中学. 自动化仪表. 2018(07)
[2]基于XGBoost的企业倒闭风险预测[J]. 石涛. 无线互联科技. 2018(08)
[3]基于隐马尔可夫模型在股票择时上的应用与研究[J]. 王旷羽. 电脑编程技巧与维护. 2018(04)
[4]基于GBDT的商品分配层次化预测模型[J]. 朱振峰,汤静远,常冬霞,赵耀. 北京交通大学学报. 2018(02)
[5]基于GBDT和HOG特征的人脸关键点定位[J]. 张重生,彭国雯,于珂珂. 河南大学学报(自然科学版). 2018(02)
[6]基于Bi-LSTM的医疗事件识别研究[J]. 侯伟涛,姬东鸿. 计算机应用研究. 2018(07)
[7]基于双线性函数注意力Bi-LSTM模型的机器阅读理解[J]. 刘飞龙,郝文宁,陈刚,靳大尉,宋佳星. 计算机科学. 2017(S1)
[8]基于最大熵马尔科夫模型的绩效评价方法[J]. 朱磊,牛绿茵,宋士吉,张玉利. 控制理论与应用. 2017(03)
[9]中文分词模型的领域适应性方法[J]. 韩冬煦,常宝宝. 计算机学报. 2015(02)
[10]基于条件随机场方法的开放领域新词发现[J]. 陈飞,刘奕群,魏超,张云亮,张敏,马少平. 软件学报. 2013(05)
本文编号:3473841
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3473841.html
最近更新
教材专著