基于互信息改进算法的新词发现对中文分词系统改进
本文关键词:基于互信息改进算法的新词发现对中文分词系统改进
更多相关文章: 新词识别 未登录词 互信息 PMI改进算法 中文分词
【摘要】:提出一种非监督的新词识别方法。该方法利用互信息(PMI)的改进算法——PMIk算法与少量基本规则相结合,从大规模语料中自动识别2~n元网络新词(n为发现的新词最大长度,可以根据需要指定)。基于257MB的百度贴吧语料实验,当PMIk方法的参数为10时,结果精度达到97.39%,比PMI方法提高28.79%,实验结果表明,该新词发现方法能够有效地从大规模网络语料中发现新词。将新词发现结果编纂成用户词典,加载到汉语词法分析系统ICTCLAS中,基于10 KB的百度贴吧语料实验,比加载用户词典前的分词结果准确率、召回率和F值分别提高7.93%,3.73%和5.91%。实验表明,通过进行新词发现能有效改善分词系统对网络文本的处理效果。
【作者单位】: 西安邮电大学;
【基金】:国家自然科学基金(61373116) 陕西省普通高等学校重点学科专项资金(112-1602) 西安邮电大学研究生创新基金(ZL2013-31)资助
【分类号】:TP391.1
【正文快照】: 随着信息时代的发展与科学技术的进步,大量网络新词不断涌现,使得分词结果中存在大量的“散串”,严重影响分词系统处理网络文本的效果,新词识别已经成为提高分词效果的瓶颈[1]。对于网络上出现的新词汇,例如近日在网上热传的“APEC蓝”、“Duang”、“一带一路”、“单肾贵图1
【参考文献】
中国期刊全文数据库 前1条
1 张海军;史树敏;朱朝勇;黄河燕;;中文新词识别技术综述[J];计算机科学;2010年03期
【共引文献】
中国期刊全文数据库 前10条
1 李亚松;王玉龙;;一种新词自动提取方法[J];电信工程技术与标准化;2014年12期
2 廖祥文;林自芳;陈水利;;基于词内部模式的中文新词识别研究[J];集美大学学报(自然科学版);2011年06期
3 安俊秀;;基于服务器集群的云检索系统的研究与示范[J];计算机科学;2010年07期
4 张海军;栾静;李勇;齐向伟;;基于统计学习框架的中文新词检测方法[J];计算机科学;2012年02期
5 杨锦锋;吕新波;关毅;周春波;;基于购物网站用户搜索日志的商品词发现[J];计算机应用与软件;2011年11期
6 张瑞霞;杨国增;吴慧欣;;基于《知网》的汉语未登录词语义相似度计算[J];中文信息学报;2012年01期
7 张海军;刘战东;木妮娜;;基于逐层剪枝的中文高频重复模式快速提取算法[J];计算机科学;2014年05期
8 王倩倩;范通让;;汉语中新词识别方法研究[J];河北省科学院学报;2014年02期
9 张海军;李勇;闫琪琪;;一种基于海量语料的网络热点新词识别方法[J];计算机工程与应用;2015年05期
10 付丽娜;肖和;姬东鸿;;基于OC-SVM的新情感词识别[J];计算机应用研究;2015年07期
中国博士学位论文全文数据库 前2条
1 王芳;基于本体的广域农业信息服务系统关键技术研究[D];河北农业大学;2012年
2 徐坤;基于本体的科学数据监护平台研究[D];吉林大学;2014年
【二级参考文献】
中国期刊全文数据库 前9条
1 罗智勇;宋柔;;基于多特征的自适应新词识别[J];北京工业大学学报;2007年07期
2 崔世起;刘群;孟遥;于浩;西野文人;;基于大规模语料库的新词检测[J];计算机研究与发展;2006年05期
3 周正宇,李宗葛;一种新的基于统计的词典扩展方法[J];中文信息学报;2001年05期
4 邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇;面向Internet的中文新词语检测[J];中文信息学报;2004年06期
5 刘华;;一种快速获取领域新词语的新方法[J];中文信息学报;2006年05期
6 黄昌宁;赵海;;中文分词十年回顾[J];中文信息学报;2007年03期
7 刘挺,吴岩,王开铸;串频统计和词形匹配相结合的汉语自动分词系统[J];中文信息学报;1998年01期
8 曹勇刚;曹羽中;金茂忠;刘超;;面向信息检索的自适应中文分词系统[J];软件学报;2006年03期
9 郑家恒,李文花;基于构词法的网络新词自动识别初探[J];山西大学学报(自然科学版);2002年02期
【相似文献】
中国期刊全文数据库 前10条
1 张茂元,卢正鼎,邹春燕;一种基于语境的中文分词方法研究[J];小型微型计算机系统;2005年01期
2 程传鹏;;一种简单高效的中文分词方法[J];郑州轻工业学院学报;2006年03期
3 张博;姜建国;万平国;;对互联网环境下中文分词系统的一种架构改进[J];计算机应用研究;2006年11期
4 夏新松;肖建国;;一种新的错误驱动学习方法在中文分词中的应用[J];计算机科学;2006年03期
5 周军;王艳红;;一种基于词典的中文分词法的设计与实现[J];黑龙江科技信息;2008年25期
6 许高建;胡学钢;路遥;王庆人;;一种改进的中文分词歧义消除算法研究[J];合肥工业大学学报(自然科学版);2008年10期
7 张培颖;;运用有向图进行中文分词研究[J];计算机工程与应用;2009年22期
8 吴晶晶;荆继武;聂晓峰;王平建;;一种快速中文分词词典机制[J];中国科学院研究生院学报;2009年05期
9 袁健;张劲松;马良;;二次回溯中文分词方法[J];计算机应用研究;2009年09期
10 刘智文;;利用系统整合提高中文分词精度的方法研究[J];现代计算机(专业版);2009年10期
中国重要会议论文全文数据库 前10条
1 王敏;叶宽余;薛峰;;一种面向网店商品搜索的中文分词系统设计[A];全国第22届计算机技术与应用学术会议(CACIS·2011)暨全国第3届安全关键技术与应用(SCA·2011)学术会议论文摘要集[C];2011年
2 黄昌宁;赵海;;由字构词——中文分词新方法[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
3 任飞亮;石磊;姚天顺;;应用支持向量机进行中文分词[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
4 吴晶晶;荆继武;王平建;;一种基于词典的新型中文分词机制[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
5 李玉梅;靳光瑾;黄昌宁;;中文分词规范中的歧义字段消解细则[A];第五届全国语言文字应用学术研讨会论文集[C];2007年
6 修驰;宋柔;;基于“大词”实例的中文分词研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
7 黄居仁;;瓶颈,挑战,与转机:中文分词研究的新思维[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
8 赵海;揭春雨;;基于子串标注的中文分词:寻找更佳的标注单元[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
9 李寿山;黄居仁;;基于词边界分类的中文分词方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
10 张梅山;邓知龙;车万翔;刘挺;;统计与词典相结合的领域自适应中文分词[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
中国重要报纸全文数据库 前2条
1 本报记者 张彤;让计算机说中国话[N];网络世界;2004年
2 清华大学IT可用性实验室;2005中文搜索引擎质量对比[N];计算机世界;2005年
中国博士学位论文全文数据库 前3条
1 修驰;适应于不同领域的中文分词方法研究与实现[D];北京工业大学;2013年
2 何嘉;基于遗传算法优化的中文分词研究[D];电子科技大学;2012年
3 李志国;面向分布式文本知识管理的中文分词与文本分类研究[D];重庆大学;2008年
中国硕士学位论文全文数据库 前10条
1 顾辉;基于中文分词的购物中心微信平台购物导航的设计与实现[D];华中师范大学;2015年
2 韩冰;基于感知器算法的中文分词增量系统设计与实现[D];哈尔滨工业大学;2015年
3 王荔;统计全切分中文分词系统的研究与实现[D];西安电子科技大学;2009年
4 黄翼彪;开源中文分词器的比较研究[D];郑州大学;2013年
5 许华婷;基于Active Learning的中文分词领域自适应方法的研究[D];北京交通大学;2015年
6 曹卫峰;中文分词关键技术研究[D];南京理工大学;2009年
7 许顺;中文分词规范可计算化的研究与实现[D];苏州大学;2006年
8 魏博诚;中文分词交集型歧义处理研究[D];安徽大学;2011年
9 代聪;基于英汉平行语料的中文分词研究与应用[D];大连理工大学;2012年
10 王为磊;基于多目标优化的中文分词模型的研究[D];苏州大学;2008年
,本文编号:1287086
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1287086.html