中文分词中未登录词分布规律及处理方法研究
本文关键词:中文分词中未登录词分布规律及处理方法研究
【摘要】:本文以较大规模汉语语料库为基础,对中文分词中的未登录词分布规律进行考察,提出了词增长代价、语料效率等评价指标,借此来定量考察语料规模与未登录词之间的内在关系。调查结果显示,随着语料规模的不断扩大,未登录词的覆盖率也随之增大,但同时词增长代价也越来越大,而新增未登录词的词例数占新增总词例数的比例始终保持在一个较低水平,造成语料效率较低。基于该调查结果,提出针对"伪未登录词"使用定向收集语料的方法来扩充训练集,从而在不过分扩大语料规模的前提下,更有针对性地为未登录词识别提供语言知识,提高分词的准确率和领域适应性。本文在SIGHAN组织的第二届中文分词评测语料上进行实验,结果显示该方法能够有效提高分词准确率。
【作者单位】: 解放军外国语学院语言工程系;
【关键词】: 中文分词 机器学习 未登录词 伪未登录词
【分类号】:H087
【正文快照】: 1.基于机器学习的中文分词近年来机器学习方法被广泛应用到中文分词之中,在相关分词评测中获得了较高的准确率,被一些研究者认为是当前主流的分词方法。(黄昌宁、赵海,2007;罗彦彦、黄根德,2009)利用机器学习方法进行中文分词的主要思路大概如下:1)构建或选择合适规模的分词
【参考文献】
中国期刊全文数据库 前3条
1 黄昌宁;赵海;;中文分词十年回顾[J];中文信息学报;2007年03期
2 罗彦彦;黄德根;;基于CRFs边缘概率的中文分词[J];中文信息学报;2009年05期
3 李寿山;黄居仁;;基于词边界分类的中文分词方法[J];中文信息学报;2010年01期
【共引文献】
中国期刊全文数据库 前10条
1 于江德;王希杰;;词位标注汉语分词技术详解[J];安阳师范学院学报;2010年05期
2 杨尔弘;;媒体5年词语使用情况调查分析[J];北华大学学报(社会科学版);2011年04期
3 刘文华;康海燕;;领域问答系统生成器的研究[J];北京信息科技大学学报(自然科学版);2009年03期
4 田占霄;韩宪忠;王克俭;;一种改进的长词优先逆向最大匹配分词消歧策略[J];河北农业大学学报;2009年04期
5 李跃民;王浩;赵生慧;;有词典中文分词算法研究[J];滁州学院学报;2008年03期
6 朱维彬;;语音合成中的语言学计算模型:现状及展望[J];当代语言学;2009年02期
7 吴佩韦;李昌华;;一种基于Lucene的搜索推荐词生成方法[J];电脑知识与技术;2009年10期
8 明小娜;龙毅;钱程扬;张翎;;基于受限自然语言的GIS命令解析方法[J];地球信息科学学报;2009年02期
9 朱聪慧;赵铁军;郑德权;;基于无向图序列标注模型的中文分词词性标注一体化系统[J];电子与信息学报;2010年03期
10 王希杰;;最大正向匹配分词算法的VC++实现[J];福建电脑;2011年04期
中国重要会议论文全文数据库 前10条
1 李金;宋阳;梁洪;;语言残障患者医疗辅助系统设计[A];第九届全国信息获取与处理学术会议论文集Ⅱ[C];2011年
2 于江德;王希杰;樊孝忠;;汉语词法分析中上文和下文孰重孰轻[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 韩冬煦;常宝宝;;基于边界熵和卡方统计量的多领域适应性中文分词方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 修驰;宋柔;;基于“大词”实例的中文分词研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
5 李玉梅;靳光瑾;黄昌宁;;中文分词规范中的歧义字段消解细则[A];第五届全国语言文字应用学术研讨会论文集[C];2007年
6 郑亚斌;曹嘉伟;刘知远;;基于最大匹配和马尔科夫模型的对联系统[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
7 李寿山;黄居仁;;基于词边界分类的中文分词方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
8 李月伦;常宝宝;;基于最大间隔马尔可夫网模型的汉语分词方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
9 丁大斌;黄昌宁;;汉语同音词调查及拼音输入法基线模型研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
10 刘东生;尹宝生;张桂平;徐立军;苗雪雷;;面向专利文献的中文分词技术的研究[A];第五届全国信息检索学术会议论文集[C];2009年
中国博士学位论文全文数据库 前10条
1 荆涛;面向领域网页的语义标注若干问题研究[D];吉林大学;2011年
2 张海军;基于大规模语料的中文新词识别技术研究[D];中国科学技术大学;2011年
3 屠晓;英文地址图像识别与翻译研究[D];华东师范大学;2011年
4 李智星;用于文本分类的简明语义分析技术研究[D];重庆大学;2011年
5 陈博;WEB文本情感分类中关键问题的研究[D];北京邮电大学;2008年
6 车海燕;面向中文自然语言Web文档的自动知识抽取和知识融合[D];吉林大学;2008年
7 张格伟;基于工艺知识网格的可重构CAPP系统关键技术研究[D];南京航空航天大学;2008年
8 胡东滨;决策问题管理系统及其开发组件研究[D];中南大学;2008年
9 王小芳;文本主题域划分与无监督特征提取[D];吉林大学;2009年
10 陈慧;基于DCC动态流通语料库的中文组织名考察与研究[D];北京语言大学;2008年
中国硕士学位论文全文数据库 前10条
1 罗义兵;领域文本相似度计算方法研究[D];山东科技大学;2010年
2 冯海瑛;《万历野获编》分词理论与实践[D];广西师范学院;2010年
3 张燕丽;基于Winnow算法和CAPTCHA的垃圾短信过滤研究[D];郑州大学;2010年
4 刘金宁;词性标注体系对中文分词的影响[D];大连理工大学;2010年
5 王东亮;基于条件随机场模型的中文人名识别的研究[D];大连理工大学;2010年
6 赵莲;大规模中英可比较语料库构建[D];大连理工大学;2010年
7 红霞;基于层叠条件随机场的中文机构名识别的研究[D];大连理工大学;2010年
8 黄辉;基于LSI和SVC的网页文本分类算法研究[D];长沙理工大学;2010年
9 苏保君;在线组合分类器应用于大规模垃圾邮件过滤的研究[D];浙江大学;2010年
10 马静;基于web的数字化资源全文检索系统的设计与实现[D];西安电子科技大学;2010年
【二级参考文献】
中国期刊全文数据库 前9条
1 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
2 吴春颖;王士同;;基于二元语法的N-最大概率中文粗分模型[J];计算机应用;2007年12期
3 骆正清,陈增武,胡上序;一种改进的MM分词方法的算法设计[J];中文信息学报;1996年03期
4 杨尔弘;方莹;刘冬明;乔羽;;汉语自动分词和词性标注评测[J];中文信息学报;2006年01期
5 黄昌宁;赵海;;中文分词十年回顾[J];中文信息学报;2007年03期
6 赵海;揭春雨;;基于有效子串标注的中文分词[J];中文信息学报;2007年05期
7 黄昌宁;中文信息处理中的分词问题[J];语言文字应用;1997年01期
8 刘开瑛;现代汉语自动分词评测技术研究[J];语言文字应用;1997年01期
9 孙茂松;谈谈汉语分词语料库的一致性问题[J];语言文字应用;1999年02期
【相似文献】
中国期刊全文数据库 前10条
1 ;徐立本教授[J];吉林大学社会科学学报;2001年01期
2 韩彤;;基于归纳逻辑的人工智能研究[J];重庆科技学院学报(社会科学版);2010年03期
3 里查德.S.米谢尔斯基;张令振;;人工智能和机器学习[J];应用心理学;1988年02期
4 易勇;郑艳;何中市;李良炎;;基于机器学习的古典诗词作者的判别研究[J];心智与计算;2007年03期
5 张宝燕;毛海飞;;汉语框架网络学习策略研究[J];山西电子技术;2008年06期
6 刘小虎,李生;机器翻译系统中基于机器学习的目标词选择[J];计算机研究与发展;1998年10期
7 王培铎;几类基本学习认知模型[J];武警学院学报;1999年06期
8 鞠实儿;关于科学发现机器的研究[J];中山大学学报(社会科学版);1990年03期
9 ;学科带头人钟明军博士简介[J];大连民族学院学报;2008年01期
10 扬子江;;王胡装机被宰记[J];电脑采购周刊;2002年06期
中国重要会议论文全文数据库 前10条
1 徐礼胜;李乃民;王宽全;张冬雨;耿斌;姜晓睿;陈超海;罗贵存;;机器学习在中医计算机诊断识别系统中的应用思考[A];第一届全国中西医结合诊断学术会议论文选集[C];2006年
2 李月伦;常宝宝;;基于最大间隔马尔可夫网模型的汉语分词方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
3 谢世朋;胡茂林;;基于局部仿射区域对稀疏纹理分类的研究[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
4 夏诏杰;郭力;李晓霞;;化学主题网络爬虫的研究[A];第十届全国计算(机)化学学术会议论文摘要集[C];2009年
5 张郴;;基于神经网络集成的旅游需求预测模型[A];中国地理学会百年庆典学术论文摘要集[C];2009年
6 吴宪祥;于培松;万e,
本文编号:698851
本文链接:https://www.wllwen.com/wenyilunwen/hanyulw/698851.html