使用无监督学习改进中文分词
本文关键词: 中文分词 词向量 无监督学习 未登陆词 分词优化 互联网语料 出处:《小型微型计算机系统》2017年04期 论文类型:期刊论文
【摘要】:针对互联网语料中的未登录词问题,提出一种基于无监督学习的中文分词改进算法.使用基准分词器对未标注的语料进行分词,选择适合于未登录词发现的模型进行无监督训练得到词向量,并使用词向量结果贪心地发现未登录词,修正分词结果.在传统中文语料上与互联网语料上,比较了基于字典的字符串匹配模型与基于字符标注的机器学习模型的分词效果.实验结果表明,改进算法可以提升中文分词效果,在互联网语料上的提升效果尤为明显.改进算法在PKU语料上取得了最多1.1%的F值提升,在MSR语料上取得了最多1.2%的F值提升,在互联网语料上取得了最多5%的F值提升.
[Abstract]:In order to solve the problem of unrecorded words in Internet corpus, an improved Chinese word segmentation algorithm based on unsupervised learning is proposed. Select the model suitable for unrecorded word discovery to get word vector, and use word vector result to find unregistered word covetously, correct the result of word segmentation. In the traditional Chinese corpus and the Internet corpus, The segmentation effect of string matching model based on dictionary and machine learning model based on character annotation is compared. The experimental results show that the improved algorithm can improve the effect of Chinese word segmentation. The improved algorithm achieved a maximum of 1.1% F on the PKU corpus, 1.2% F on the MSR corpus and 5% on the Internet corpus.
【作者单位】: 上海交通大学信息安全工程学院;
【分类号】:TP391.1
【参考文献】
相关期刊论文 前1条
1 黄昌宁;赵海;;中文分词十年回顾[J];中文信息学报;2007年03期
【共引文献】
相关期刊论文 前10条
1 王晓玉;李斌;;基于CRFs和词典信息的中古汉语自动分词[J];数据分析与知识发现;2017年05期
2 金哲凡;俞定国;林生佑;周忠成;;基于音位的网络盗版文本查重方法[J];山东农业大学学报(自然科学版);2017年03期
3 沈翔翔;李小勇;;使用无监督学习改进中文分词[J];小型微型计算机系统;2017年04期
4 胡婕;张俊驰;;双向循环网络中文分词模型[J];小型微型计算机系统;2017年03期
5 张少阳;王裴岩;蔡东风;;一种基于字的多模型中文分词方法[J];沈阳航空航天大学学报;2017年01期
6 张越;王东波;朱丹浩;;面向食品安全突发事件汉语分词的特征选择及模型优化研究[J];数据分析与知识发现;2017年02期
7 徐浩煜;任智慧;施俊;周晗;;基于链式条件随机场的中文分词改进方法[J];计算机应用与软件;2016年12期
8 徐建忠;朱俊;赵瑞;张亮;李娇娇;;基于Web技术的航天文本分类系统研究与应用[J];军民两用技术与产品;2016年23期
9 昝红英;许鸿飞;张坤丽;穗志方;;网络用语词典的构建及问题分析[J];中文信息学报;2016年06期
10 楼小帆;吴军;马严;林昭文;;基于LDA模型的高校论坛热点提取系统[J];华中科技大学学报(自然科学版);2016年S1期
【二级参考文献】
相关期刊论文 前5条
1 杨尔弘;方莹;刘冬明;乔羽;;汉语自动分词和词性标注评测[J];中文信息学报;2006年01期
2 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
3 孙茂松;谈谈汉语分词语料库的一致性问题[J];语言文字应用;1999年02期
4 黄昌宁;中文信息处理中的分词问题[J];语言文字应用;1997年01期
5 刘开瑛;现代汉语自动分词评测技术研究[J];语言文字应用;1997年01期
【相似文献】
相关期刊论文 前10条
1 张茂元,卢正鼎,邹春燕;一种基于语境的中文分词方法研究[J];小型微型计算机系统;2005年01期
2 程传鹏;;一种简单高效的中文分词方法[J];郑州轻工业学院学报;2006年03期
3 张博;姜建国;万平国;;对互联网环境下中文分词系统的一种架构改进[J];计算机应用研究;2006年11期
4 夏新松;肖建国;;一种新的错误驱动学习方法在中文分词中的应用[J];计算机科学;2006年03期
5 周军;王艳红;;一种基于词典的中文分词法的设计与实现[J];黑龙江科技信息;2008年25期
6 许高建;胡学钢;路遥;王庆人;;一种改进的中文分词歧义消除算法研究[J];合肥工业大学学报(自然科学版);2008年10期
7 张培颖;;运用有向图进行中文分词研究[J];计算机工程与应用;2009年22期
8 吴晶晶;荆继武;聂晓峰;王平建;;一种快速中文分词词典机制[J];中国科学院研究生院学报;2009年05期
9 袁健;张劲松;马良;;二次回溯中文分词方法[J];计算机应用研究;2009年09期
10 刘智文;;利用系统整合提高中文分词精度的方法研究[J];现代计算机(专业版);2009年10期
相关会议论文 前10条
1 王敏;叶宽余;薛峰;;一种面向网店商品搜索的中文分词系统设计[A];全国第22届计算机技术与应用学术会议(CACIS·2011)暨全国第3届安全关键技术与应用(SCA·2011)学术会议论文摘要集[C];2011年
2 黄昌宁;赵海;;由字构词——中文分词新方法[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
3 任飞亮;石磊;姚天顺;;应用支持向量机进行中文分词[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
4 吴晶晶;荆继武;王平建;;一种基于词典的新型中文分词机制[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
5 李玉梅;靳光瑾;黄昌宁;;中文分词规范中的歧义字段消解细则[A];第五届全国语言文字应用学术研讨会论文集[C];2007年
6 修驰;宋柔;;基于“大词”实例的中文分词研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
7 黄居仁;;瓶颈,挑战,与转机:中文分词研究的新思维[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
8 赵海;揭春雨;;基于子串标注的中文分词:寻找更佳的标注单元[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
9 李寿山;黄居仁;;基于词边界分类的中文分词方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
10 张梅山;邓知龙;车万翔;刘挺;;统计与词典相结合的领域自适应中文分词[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
相关重要报纸文章 前2条
1 本报记者 张彤;让计算机说中国话[N];网络世界;2004年
2 清华大学IT可用性实验室;2005中文搜索引擎质量对比[N];计算机世界;2005年
相关博士学位论文 前4条
1 奚宁;统计机器翻译中的中文分词策略研究[D];南京大学;2013年
2 修驰;适应于不同领域的中文分词方法研究与实现[D];北京工业大学;2013年
3 何嘉;基于遗传算法优化的中文分词研究[D];电子科技大学;2012年
4 李志国;面向分布式文本知识管理的中文分词与文本分类研究[D];重庆大学;2008年
相关硕士学位论文 前10条
1 顾辉;基于中文分词的购物中心微信平台购物导航的设计与实现[D];华中师范大学;2015年
2 韩冰;基于感知器算法的中文分词增量系统设计与实现[D];哈尔滨工业大学;2015年
3 杜丽萍;基于互联网海量语料的新词发现研究及中文分词系统改进[D];西安邮电大学;2015年
4 周祺;基于统计与词典相结合的中文分词的研究与实现[D];哈尔滨工业大学;2015年
5 梁喜涛;基于主动学习的中文分词方法研究[D];南京邮电大学;2015年
6 杨淦;基于条件随机场模型的中文分词系统研究与实现[D];重庆大学;2015年
7 朱云杰;大数据环境下垃圾评论过滤系统的研究与实现[D];东南大学;2015年
8 吕先超;视障汉语转换软件SunBraille的设计实现[D];兰州大学;2016年
9 黄积杨;基于双向LSTMN神经网络的中文分词研究分析[D];南京大学;2016年
10 梁科;面向中医医案的数据挖掘技术研究及应用[D];山东大学;2016年
,本文编号:1503330
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1503330.html