一种改进的长词优先逆向最大匹配分词消歧策略
[Abstract]:In order to improve the segmentation accuracy of the inverse maximum matching algorithm, a better disambiguation effect is obtained by using word frequency threshold and single word function. The experimental results show that the algorithm can not only follow the principle of long word preference, but also further recognize and eliminate the covering ambiguity. The improved RMM not only maintains a great advantage in speed but also improves the accuracy of word segmentation. It has some practical value in improving the accuracy of word segmentation for small and medium-sized search engines using mechanical word segmentation algorithm.
【作者单位】: 河北农业大学信息科学与技术学院;
【基金】:河北省科学技术研究与发展计划项目(07213512)
【分类号】:TP391.1
【参考文献】
相关期刊论文 前3条
1 李跃民;王浩;赵生慧;;有词典中文分词算法研究[J];滁州学院学报;2008年03期
2 闫引堂,周晓强;交集型歧义字段切分方法研究[J];情报学报;2000年06期
3 丁振国;张卓;黎靖;;基于Hash结构的逆向最大匹配分词算法的改进[J];计算机工程与设计;2008年12期
【共引文献】
相关期刊论文 前10条
1 高艳萍;于红;尹祥贵;綦孝姬;王春永;赵志强;;基于双数组Trie树的渔业领域分词研究[J];安徽农业科学;2008年11期
2 于江德;王希杰;;词位标注汉语分词技术详解[J];安阳师范学院学报;2010年05期
3 杨尔弘;;媒体5年词语使用情况调查分析[J];北华大学学报(社会科学版);2011年04期
4 刘文华;康海燕;;领域问答系统生成器的研究[J];北京信息科技大学学报(自然科学版);2009年03期
5 佟欣;韩玉琢;;房产自动应答系统的分析与设计[J];赤峰学院学报(自然科学版);2010年01期
6 佟欣;;自动应答系统中文处理策略和算法[J];赤峰学院学报(自然科学版);2010年02期
7 张林曼;吴升;;地理编码系统中地名地址分词算法研究[J];测绘科学;2010年02期
8 李跃民;王浩;赵生慧;;有词典中文分词算法研究[J];滁州学院学报;2008年03期
9 刘春辉;金顺福;刘国华;李颖;;基于优化最大匹配与统计结合的汉语分词方法[J];燕山大学学报;2009年02期
10 赵春红;高希龙;王柠;赵威;刘国华;;一种应用分治策略的中文分词方法[J];燕山大学学报;2009年05期
相关会议论文 前10条
1 李金;宋阳;梁洪;;语言残障患者医疗辅助系统设计[A];第九届全国信息获取与处理学术会议论文集Ⅱ[C];2011年
2 于江德;王希杰;樊孝忠;;汉语词法分析中上文和下文孰重孰轻[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 韩冬煦;常宝宝;;基于边界熵和卡方统计量的多领域适应性中文分词方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 修驰;宋柔;;基于“大词”实例的中文分词研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
5 黄明初;陆旭安;潘雄伟;钟威;;中文分词技术在档案智能搜索中的应用[A];广西计算机学会2010年学术年会论文集[C];2010年
6 李玉梅;靳光瑾;黄昌宁;;中文分词规范中的歧义字段消解细则[A];第五届全国语言文字应用学术研讨会论文集[C];2007年
7 苏亮;孙斌;;一种基于Lucene的Hash改进中文分词算法的实现[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(上册)[C];2007年
8 吴晶晶;荆继武;王平建;;一种基于词典的新型中文分词机制[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
9 李江波;周强;陈祖舜;;汉语词典快速查询算法研究[A];第二届全国学生计算语言学研讨会论文集[C];2004年
10 杨超;李仁发;蒋斌;;一种高效的汉语自动分词词典机制[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
相关博士学位论文 前10条
1 荆涛;面向领域网页的语义标注若干问题研究[D];吉林大学;2011年
2 张海军;基于大规模语料的中文新词识别技术研究[D];中国科学技术大学;2011年
3 屠晓;英文地址图像识别与翻译研究[D];华东师范大学;2011年
4 李智星;用于文本分类的简明语义分析技术研究[D];重庆大学;2011年
5 杨雨图;支持双语的协同CAPP系统若干关键技术研究[D];南京航空航天大学;2006年
6 杨传耀;中文信息检索索引模型及相关技术研究[D];复旦大学;2007年
7 秦颖;汉语词和短语的歧义消解研究[D];北京邮电大学;2008年
8 陈博;WEB文本情感分类中关键问题的研究[D];北京邮电大学;2008年
9 车海燕;面向中文自然语言Web文档的自动知识抽取和知识融合[D];吉林大学;2008年
10 张格伟;基于工艺知识网格的可重构CAPP系统关键技术研究[D];南京航空航天大学;2008年
相关硕士学位论文 前10条
1 罗义兵;领域文本相似度计算方法研究[D];山东科技大学;2010年
2 冯海瑛;《万历野获编》分词理论与实践[D];广西师范学院;2010年
3 张燕丽;基于Winnow算法和CAPTCHA的垃圾短信过滤研究[D];郑州大学;2010年
4 耿倩;基于文本相似度计算的文本聚类算法研究与实现[D];哈尔滨工程大学;2010年
5 刘金宁;词性标注体系对中文分词的影响[D];大连理工大学;2010年
6 冯晶晶;面向软件测试领域的自动问答系统[D];河南理工大学;2010年
7 梁桢;基于尾字词典的逆向回溯中文分词技术研究[D];武汉工业学院;2010年
8 苏保君;在线组合分类器应用于大规模垃圾邮件过滤的研究[D];浙江大学;2010年
9 陈磊;用例图到顺序图转换的研究[D];西安电子科技大学;2009年
10 马静;基于web的数字化资源全文检索系统的设计与实现[D];西安电子科技大学;2010年
【二级参考文献】
相关期刊论文 前2条
1 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
2 冯素琴;陈惠明;;一种自组织的汉语组合型歧义消歧方法[J];计算机工程与设计;2007年03期
【相似文献】
相关期刊论文 前10条
1 田占霄;韩宪忠;王克俭;;一种改进的长词优先逆向最大匹配分词消歧策略[J];河北农业大学学报;2009年04期
2 张恒;杨文昭;屈景辉;卢虹冰;张亮;赵飞;;基于词典和词频的中文分词方法[J];微计算机信息;2008年03期
3 徐吉;朱兰娟;;用于网络搜索引擎的中文分词消岐算法[J];微型电脑应用;2011年04期
4 马志强;苏依拉;;基于次优查找树的词典机制研究[J];内蒙古工业大学学报(自然科学版);2010年04期
5 程肖;陆蓓;谌志群;;热点主题词提取方法研究[J];现代图书情报技术;2010年10期
6 龚伟;瞿X;李柳柏;;智能决策支持的E-mail过滤模型[J];计算机工程与设计;2008年04期
7 熊桂喜;李政;;基于规则和语料库的中文姓名识别研究[J];计算机与信息技术;2007年12期
8 李跃民;王浩;赵生慧;;有词典中文分词算法研究[J];滁州学院学报;2008年03期
9 许高建;胡学钢;路遥;王庆人;;一种改进的中文分词歧义消除算法研究[J];合肥工业大学学报(自然科学版);2008年10期
10 黄德根;焦世斗;周惠巍;;基于子词的双层CRFs中文分词[J];计算机研究与发展;2010年05期
相关会议论文 前10条
1 王敏;叶宽余;薛峰;;一种面向网店商品搜索的中文分词系统设计[A];全国第22届计算机技术与应用学术会议(CACIS·2011)暨全国第3届安全关键技术与应用(SCA·2011)学术会议论文摘要集[C];2011年
2 修驰;宋柔;;基于“大词”实例的中文分词研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 张梅山;邓知龙;车万翔;刘挺;;统计与词典相结合的领域自适应中文分词[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 韩冬煦;常宝宝;;基于边界熵和卡方统计量的多领域适应性中文分词方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
5 彭辉;翟翔;;AutoCAD 2008自动翻译软件研发[A];全国冶金自动化信息网2010年年会论文集[C];2010年
6 张必隐;;中文双字词认知中的邻近词频率效果[A];第八届全国心理学学术会议文摘选集[C];1997年
7 赵海;揭春雨;;基于子串标注的中文分词:寻找更佳的标注单元[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
8 王屹林;朱慕华;朱靖波;;针对SVM中文分词特性的个性化后处理设计[A];第三届学生计算语言学研讨会论文集[C];2006年
9 刘东生;尹宝生;张桂平;徐立军;苗雪雷;;面向专利文献的中文分词技术的研究[A];第五届全国信息检索学术会议论文集[C];2009年
10 戴莉;周明全;武仲科;王永恒;王燕妮;周曼;;Lucene在智能答疑系统中的应用研究[A];图像图形技术与应用进展——第三届图像图形技术与应用学术会议论文集[C];2008年
相关重要报纸文章 前10条
1 本报记者 吴刚;提案数量骤增 热词频现[N];湘声报;2010年
2 清华大学IT可用性实验室;2005中文搜索引擎质量对比[N];计算机世界;2005年
3 本报记者 张彤;让计算机说中国话[N];网络世界;2004年
4 记者 吴苡婷;用技术挖出网络信息中“金子”[N];上海科技报;2009年
5 深圳特区报记者 梁婷;我们正进入全民“词时代”[N];深圳特区报;2010年
6 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
7 贺俊;汇聚亿万草根智慧 奇虎发布经验搜索[N];证券日报;2006年
8 记者 杨朝晖;医药搜索:不再“众里寻他千百度”[N];科技日报;2007年
9 王翌;互联网2005:个性化生存[N];计算机世界;2005年
10 王志军;Google输入法的六大特色功能[N];中国电脑教育报;2007年
相关博士学位论文 前10条
1 何嘉;基于遗传算法优化的中文分词研究[D];电子科技大学;2012年
2 孙越恒;基于统计的NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
3 杨传耀;中文信息检索索引模型及相关技术研究[D];复旦大学;2007年
4 孙道军;文本挖掘预处理相关基础技术分析与应用研究[D];北京邮电大学;2008年
5 杨梅;现代汉语合成词构词研究[D];南京师范大学;2006年
6 陈博;WEB文本情感分类中关键问题的研究[D];北京邮电大学;2008年
7 李乐夫;中国公有经济部门人力资本回报的实证研究[D];清华大学;2009年
8 任飞亮;高适应性基于实例的机器翻译中关键技术研究[D];东北大学;2008年
9 张京楣;基于统计方法的文本风格分析研究[D];山东大学;2012年
10 吴恩锋;基于经济报道标题语料库的概念隐喻研究[D];浙江大学;2008年
相关硕士学位论文 前10条
1 马忠宝;基于支持向量机的中文文本分类系统研究[D];武汉理工大学;2006年
2 杨彦;基于Hash结构的机械统计分词系统[D];中南大学;2005年
3 戚晶;基于RSS的搜索引擎的研究与实现[D];吉林大学;2006年
4 马莉;基于SVM的垃圾邮件过滤的研究[D];山东大学;2005年
5 王新梅;基于内容挖掘的垃圾邮件过滤技术[D];武汉理工大学;2006年
6 李培国;基于人工神经网的中文垃圾邮件过滤器的设计与实现[D];暨南大学;2007年
7 刘琨;搜索引擎的研究与实现[D];西安电子科技大学;2004年
8 王圆;文本内容过滤的关键技术研究[D];东北师范大学;2006年
9 李东海;基于Nutch技术的主题搜索引擎实现[D];吉林大学;2008年
10 孟美华;桌面搜索引擎的设计与实现[D];大连理工大学;2009年
,本文编号:2266678
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2266678.html