当前位置:主页 > 科技论文 > 软件论文 >

基于链式条件随机场的中文分词改进方法

发布时间:2017-10-25 23:33

  本文关键词:基于链式条件随机场的中文分词改进方法


  更多相关文章: 中文分词 词位标注 条件随机场 特征模板


【摘要】:基于链式条件随机场模型的序列标注中文分词方法随着中文分词评测Bakeoff的展开得到广泛应用。词位标注集和特征模板集对该模型的学习至关重要,但当前的研究大多采用单一的标注集和特征模板集进行实验,缺乏标注集和特征模板集结合的尝试,使得中文分词中未登录词识别率不高,从而影响互联网领域语料的分词效果。首次采用六词位标注集结合TMPT-10和TMPT-10`特征模板,并与常见标注集和特征模板集的组合在Bakeoff语料上进行实验对比,结果表明,改进的方法 6tag-tmpt10取得更好的未登录词召回率,在互联网领域中文分词能取得很好的效果;同时在F值上也与其他最好结果相当。
【作者单位】: 中国科学院上海高等研究院航空通讯技术联合实验室;中国科学院大学;上海大学通信与信息工程学院;
【关键词】中文分词 词位标注 条件随机场 特征模板
【基金】:国家自然科学基金项目(61471231)
【分类号】:TP391.1
【正文快照】: 0引言 在基于中文的自然语言处理中,由于不像英文中词与词之间有固定的自然分界符,因此对中文进行分词通常是中文信息处理任务中最基础的任务;同时由于中文自身的复杂性,中文分词也一直是中文信息处理任务的难题。中文分词是进行词性标注、命名实体识别、关键词提取和文本聚

【相似文献】

中国期刊全文数据库 前10条

1 张茂元,卢正鼎,邹春燕;一种基于语境的中文分词方法研究[J];小型微型计算机系统;2005年01期

2 程传鹏;;一种简单高效的中文分词方法[J];郑州轻工业学院学报;2006年03期

3 张博;姜建国;万平国;;对互联网环境下中文分词系统的一种架构改进[J];计算机应用研究;2006年11期

4 夏新松;肖建国;;一种新的错误驱动学习方法在中文分词中的应用[J];计算机科学;2006年03期

5 周军;王艳红;;一种基于词典的中文分词法的设计与实现[J];黑龙江科技信息;2008年25期

6 许高建;胡学钢;路遥;王庆人;;一种改进的中文分词歧义消除算法研究[J];合肥工业大学学报(自然科学版);2008年10期

7 张培颖;;运用有向图进行中文分词研究[J];计算机工程与应用;2009年22期

8 吴晶晶;荆继武;聂晓峰;王平建;;一种快速中文分词词典机制[J];中国科学院研究生院学报;2009年05期

9 袁健;张劲松;马良;;二次回溯中文分词方法[J];计算机应用研究;2009年09期

10 刘智文;;利用系统整合提高中文分词精度的方法研究[J];现代计算机(专业版);2009年10期

中国重要会议论文全文数据库 前10条

1 王敏;叶宽余;薛峰;;一种面向网店商品搜索的中文分词系统设计[A];全国第22届计算机技术与应用学术会议(CACIS·2011)暨全国第3届安全关键技术与应用(SCA·2011)学术会议论文摘要集[C];2011年

2 黄昌宁;赵海;;由字构词——中文分词新方法[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年

3 任飞亮;石磊;姚天顺;;应用支持向量机进行中文分词[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年

4 吴晶晶;荆继武;王平建;;一种基于词典的新型中文分词机制[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年

5 李玉梅;靳光瑾;黄昌宁;;中文分词规范中的歧义字段消解细则[A];第五届全国语言文字应用学术研讨会论文集[C];2007年

6 修驰;宋柔;;基于“大词”实例的中文分词研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

7 黄居仁;;瓶颈,挑战,与转机:中文分词研究的新思维[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年

8 赵海;揭春雨;;基于子串标注的中文分词:寻找更佳的标注单元[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年

9 李寿山;黄居仁;;基于词边界分类的中文分词方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年

10 张梅山;邓知龙;车万翔;刘挺;;统计与词典相结合的领域自适应中文分词[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

中国重要报纸全文数据库 前2条

1 本报记者 张彤;让计算机说中国话[N];网络世界;2004年

2 清华大学IT可用性实验室;2005中文搜索引擎质量对比[N];计算机世界;2005年

中国博士学位论文全文数据库 前4条

1 奚宁;统计机器翻译中的中文分词策略研究[D];南京大学;2013年

2 修驰;适应于不同领域的中文分词方法研究与实现[D];北京工业大学;2013年

3 何嘉;基于遗传算法优化的中文分词研究[D];电子科技大学;2012年

4 李志国;面向分布式文本知识管理的中文分词与文本分类研究[D];重庆大学;2008年

中国硕士学位论文全文数据库 前10条

1 顾辉;基于中文分词的购物中心微信平台购物导航的设计与实现[D];华中师范大学;2015年

2 韩冰;基于感知器算法的中文分词增量系统设计与实现[D];哈尔滨工业大学;2015年

3 杜丽萍;基于互联网海量语料的新词发现研究及中文分词系统改进[D];西安邮电大学;2015年

4 周祺;基于统计与词典相结合的中文分词的研究与实现[D];哈尔滨工业大学;2015年

5 梁喜涛;基于主动学习的中文分词方法研究[D];南京邮电大学;2015年

6 杨淦;基于条件随机场模型的中文分词系统研究与实现[D];重庆大学;2015年

7 朱云杰;大数据环境下垃圾评论过滤系统的研究与实现[D];东南大学;2015年

8 吕先超;视障汉语转换软件SunBraille的设计实现[D];兰州大学;2016年

9 黄积杨;基于双向LSTMN神经网络的中文分词研究分析[D];南京大学;2016年

10 梁科;面向中医医案的数据挖掘技术研究及应用[D];山东大学;2016年



本文编号:1096034

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1096034.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户192b3***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com