基于Web知识的中文分词结果优化
本文关键词:基于Web知识的中文分词结果优化
更多相关文章: 中文分词 未登录词 网络新词 搜索引擎 分词优化
【摘要】:随着人们在互联网上的活动越来越频繁,网络新词不断涌现。现有的中文分词系统对新词的识别效率并不高。对新词的识别效率直接影响分词的精度,也对互联网应用系统的服务质量产生影响。在分词系统分词结果的基础上,提出利用搜索引擎和百度百科等Web知识,结合统计和匹配实现新词识别的方法,进一步实现对系统原始分词结果的优化。实验数据表明,该方法能够有效识别网络新词并实现分词结果的优化。
【作者单位】: 上海应用技术学院计算机科学与信息工程学院;
【关键词】: 中文分词 未登录词 网络新词 搜索引擎 分词优化
【分类号】:TP391.1
【正文快照】: 0引言中文分词是将句子根据一定的规则切分为词序列的过程[1],是中文信息处理的关键技术之一,在中文文本信息自动化索引、分类、聚类、信息抽取、语义分析、机器翻译等领域都有着广泛的应用[2]。对此许多研究者进行了大量的研究并取得了一定的成果,例如:基于字符串匹配的分词
【参考文献】
中国硕士学位论文全文数据库 前1条
1 何爱元;基于词典和概率统计的中文分词算法研究[D];辽宁大学;2011年
【共引文献】
中国期刊全文数据库 前1条
1 李凯;袁甜甜;韩梅;;中国手语多媒体数据库设计[J];浙江工业大学学报(社会科学版);2015年03期
中国硕士学位论文全文数据库 前10条
1 柏雪;主观题自动阅卷系统的研究与设计[D];西南交通大学;2013年
2 耿端;基于同义词词林的评分在中医案例自测系统中的应用[D];西北大学;2013年
3 黄翼彪;开源中文分词器的比较研究[D];郑州大学;2013年
4 张亚楠;基于Hadoop云计算平台的聚类算法并行化研究[D];内蒙古科技大学;2013年
5 汤国锋;基于移动终端的Web信息检索技术研究[D];浙江理工大学;2012年
6 周二亮;微博短文本情感分析关键技术研究与实现[D];河北科技大学;2014年
7 樊中奎;地质资料全文聚类分析及信息提取的研究[D];中国地质大学(北京);2014年
8 李小三;新闻垂直搜索引擎中文分词与网页去重的应用与研究[D];长安大学;2014年
9 舒奔;基于Fish-search算法的垂直搜索引擎研究与设计[D];安徽理工大学;2014年
10 杨慧;行业文献自动分析系统的设计与实现[D];武汉理工大学;2014年
【二级参考文献】
中国期刊全文数据库 前10条
1 张德鑫;“水至清则无鱼”——我的新生词语规范观[J];北京大学学报(哲学社会科学版);2000年05期
2 李钝;曹元大;万月亮;;Internet中的新词识别[J];北京邮电大学学报;2008年01期
3 刘群,张华平,俞鸿魁,程学旗;基于层叠隐马模型的汉语词法分析[J];计算机研究与发展;2004年08期
4 徐飞;孙劲光;;基于一种粗切分的最短路径中文分词研究[J];计算机与信息技术;2007年11期
5 杨琳;张建平;颜永红;;特定领域的汉语语言模型平滑算法比较研究[J];计算机工程与应用;2006年32期
6 刘丹;方卫国;周泓;;二元语法中文分词数据平滑算法性能研究[J];计算机工程与应用;2009年17期
7 何国斌;赵晶璐;;汉语文本自动分词算法的研究[J];计算机工程与应用;2010年03期
8 张海军;史树敏;朱朝勇;黄河燕;;中文新词识别技术综述[J];计算机科学;2010年03期
9 贾自艳,史忠植;基于概率统计技术和规则方法的新词发现[J];计算机工程;2004年20期
10 周蕾;朱巧明;;基于统计和规则的未登录词识别方法研究[J];计算机工程;2007年08期
中国博士学位论文全文数据库 前1条
1 肖镜辉;非时齐语言建模技术研究及实践[D];哈尔滨工业大学;2007年
中国硕士学位论文全文数据库 前4条
1 刘婷;中文自动分词法在全文检索中的研究及应用[D];南京航空航天大学;2007年
2 王靖;基于机械切分和标注的中文分词研究[D];湖南大学;2009年
3 周程远;中文自动分词系统的研究与实现[D];华东师范大学;2010年
4 盛启东;基于Web的新词语发现研究[D];安徽大学;2010年
【相似文献】
中国期刊全文数据库 前10条
1 张茂元,卢正鼎,邹春燕;一种基于语境的中文分词方法研究[J];小型微型计算机系统;2005年01期
2 程传鹏;;一种简单高效的中文分词方法[J];郑州轻工业学院学报;2006年03期
3 张博;姜建国;万平国;;对互联网环境下中文分词系统的一种架构改进[J];计算机应用研究;2006年11期
4 夏新松;肖建国;;一种新的错误驱动学习方法在中文分词中的应用[J];计算机科学;2006年03期
5 周军;王艳红;;一种基于词典的中文分词法的设计与实现[J];黑龙江科技信息;2008年25期
6 许高建;胡学钢;路遥;王庆人;;一种改进的中文分词歧义消除算法研究[J];合肥工业大学学报(自然科学版);2008年10期
7 张培颖;;运用有向图进行中文分词研究[J];计算机工程与应用;2009年22期
8 吴晶晶;荆继武;聂晓峰;王平建;;一种快速中文分词词典机制[J];中国科学院研究生院学报;2009年05期
9 袁健;张劲松;马良;;二次回溯中文分词方法[J];计算机应用研究;2009年09期
10 刘智文;;利用系统整合提高中文分词精度的方法研究[J];现代计算机(专业版);2009年10期
中国重要会议论文全文数据库 前10条
1 王敏;叶宽余;薛峰;;一种面向网店商品搜索的中文分词系统设计[A];全国第22届计算机技术与应用学术会议(CACIS·2011)暨全国第3届安全关键技术与应用(SCA·2011)学术会议论文摘要集[C];2011年
2 黄昌宁;赵海;;由字构词——中文分词新方法[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
3 任飞亮;石磊;姚天顺;;应用支持向量机进行中文分词[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
4 吴晶晶;荆继武;王平建;;一种基于词典的新型中文分词机制[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
5 李玉梅;靳光瑾;黄昌宁;;中文分词规范中的歧义字段消解细则[A];第五届全国语言文字应用学术研讨会论文集[C];2007年
6 修驰;宋柔;;基于“大词”实例的中文分词研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
7 黄居仁;;瓶颈,挑战,与转机:中文分词研究的新思维[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
8 赵海;揭春雨;;基于子串标注的中文分词:寻找更佳的标注单元[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
9 李寿山;黄居仁;;基于词边界分类的中文分词方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
10 张梅山;邓知龙;车万翔;刘挺;;统计与词典相结合的领域自适应中文分词[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
中国重要报纸全文数据库 前2条
1 本报记者 张彤;让计算机说中国话[N];网络世界;2004年
2 清华大学IT可用性实验室;2005中文搜索引擎质量对比[N];计算机世界;2005年
中国博士学位论文全文数据库 前3条
1 修驰;适应于不同领域的中文分词方法研究与实现[D];北京工业大学;2013年
2 何嘉;基于遗传算法优化的中文分词研究[D];电子科技大学;2012年
3 李志国;面向分布式文本知识管理的中文分词与文本分类研究[D];重庆大学;2008年
中国硕士学位论文全文数据库 前10条
1 顾辉;基于中文分词的购物中心微信平台购物导航的设计与实现[D];华中师范大学;2015年
2 韩冰;基于感知器算法的中文分词增量系统设计与实现[D];哈尔滨工业大学;2015年
3 王荔;统计全切分中文分词系统的研究与实现[D];西安电子科技大学;2009年
4 黄翼彪;开源中文分词器的比较研究[D];郑州大学;2013年
5 许华婷;基于Active Learning的中文分词领域自适应方法的研究[D];北京交通大学;2015年
6 曹卫峰;中文分词关键技术研究[D];南京理工大学;2009年
7 许顺;中文分词规范可计算化的研究与实现[D];苏州大学;2006年
8 魏博诚;中文分词交集型歧义处理研究[D];安徽大学;2011年
9 代聪;基于英汉平行语料的中文分词研究与应用[D];大连理工大学;2012年
10 王为磊;基于多目标优化的中文分词模型的研究[D];苏州大学;2008年
,本文编号:814290
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/814290.html