基于罚分因子的论文相似度检测研究
本文关键词:基于罚分因子的论文相似度检测研究
【摘要】:提出一种特殊标记符和词根沙普利值二步骤分词模型,提高分词的准确率,通过搜索引擎指数来识别新词。在相似度比较方面,提出了带行列顺序罚分因子距离矩阵模型,该模型综合了向量检测、汉明距离和最长公共子串的特点,重新定义了距离矩阵。与传统的论文相似性检索相比,具有分词准确,计算量小等优点。
【作者单位】: 湖北工业大学计算机学院;
【关键词】: 中文分词 相似度比较 距离矩阵
【基金】:湖北省教育厅科学研究计划资助项目(D20141403)
【分类号】:TP391.1
【正文快照】: 论文检测以相似度计算为基础,利用计算机自动计算文本间的相似度[1]。文本相似度的计算广泛应用于信息检索、机器翻译、自动问答系统、文本挖掘等领域,是一个非常基础而关键的问题,长期以来一直是人们研究的热点和难点[2]。当前文本相似度检测的主要算法有:向量空间模型Vector
【参考文献】
中国期刊全文数据库 前5条
1 张焕炯,王国胜,钟义信;基于汉明距离的文本相似度计算[J];计算机工程与应用;2001年19期
2 王春红;张敏;;隐含语义索引模型的分析与研究[J];计算机应用;2007年05期
3 李庆虎,陈玉健,孙家广;一种中文分词词典新机制——双字哈希机制[J];中文信息学报;2003年04期
4 陈飞;王秀峰;饶一梅;;一种混合的中文分词算法[J];南开大学学报(自然科学版);2007年05期
5 张春霞,郝天永;汉语自动分词的研究现状与困难[J];系统仿真学报;2005年01期
【共引文献】
中国期刊全文数据库 前10条
1 高艳萍;于红;尹祥贵;綦孝姬;王春永;赵志强;;基于双数组Trie树的渔业领域分词研究[J];安徽农业科学;2008年11期
2 敖成龙,苏英,龚元明;基于相似度的复杂数据对象比较[J];北京理工大学学报;2003年05期
3 游福成;;一种基于反馈机制的Web文本挖掘分类算法[J];北京印刷学院学报;2009年02期
4 张林曼;吴升;;地理编码系统中地名地址分词算法研究[J];测绘科学;2010年02期
5 田占霄;韩宪忠;王克俭;;一种改进的长词优先逆向最大匹配分词消歧策略[J];河北农业大学学报;2009年04期
6 赵春红;高希龙;王柠;赵威;刘国华;;一种应用分治策略的中文分词方法[J];燕山大学学报;2009年05期
7 曲维光;唐旭日;俞敬松;;超大规模语料库精加工技术研究[J];当代语言学;2009年02期
8 于源,衣袭;中文全切分快速分词方法[J];大连铁道学院学报;2005年02期
9 范卓华;李茹;梅瑞;张虎;;IUC构建在农业专家系统中的应用[J];电脑开发与应用;2007年02期
10 谢红薇;王栋;;基于Web文本挖掘中的一种中文分词算法研究[J];电脑开发与应用;2007年07期
中国重要会议论文全文数据库 前10条
1 刮俊杰;吴树国;伊胜伟;;基于词效应的中文术语提取方法[A];第三届中国智能计算大会论文集[C];2009年
2 苏亮;孙斌;;一种基于Lucene的Hash改进中文分词算法的实现[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(上册)[C];2007年
3 吴晶晶;荆继武;王平建;;一种基于词典的新型中文分词机制[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
4 李江波;周强;陈祖舜;;汉语词典快速查询算法研究[A];第二届全国学生计算语言学研讨会论文集[C];2004年
5 杨超;李仁发;蒋斌;;一种高效的汉语自动分词词典机制[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
6 李江波;周强;陈祖舜;;汉语词典的快速查询算法研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
7 刘悦;许洪波;程学旗;;互联网挖掘和搜索的研究进展[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
8 满正行;高璐;;藏语单语料库分析及标注探讨[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
9 刘东生;尹宝生;张桂平;徐立军;苗雪雷;;面向专利文献的中文分词技术的研究[A];第五届全国信息检索学术会议论文集[C];2009年
10 严灿勋;刘慧敏;;从语义关系的复杂性看语义词典建设[A];第五届全国青年计算语言学研讨会论文集[C];2010年
中国博士学位论文全文数据库 前10条
1 单建芳;面向事件的文本表示研究[D];上海大学;2012年
2 隋岩;基于“动态流通语料库”的“有效字符串”提取研究[D];北京语言大学;2004年
3 易勇;计算机辅助诗词创作中的风格辨析及联语应对研究[D];重庆大学;2005年
4 杨雨图;支持双语的协同CAPP系统若干关键技术研究[D];南京航空航天大学;2006年
5 刘涛;现代信息检索中的文本分类及图像恢复研究[D];北京邮电大学;2006年
6 熊文新;信息检索Query语言分析[D];北京语言大学;2006年
7 张春霞;领域文本知识获取方法研究及其在考古领域中的应用[D];中国科学院研究生院(计算技术研究所);2005年
8 姜韶华;科研项目管理中的文本挖掘方法研究及应用[D];大连理工大学;2006年
9 曹锦丹;多视角信息组织模式研究[D];吉林大学;2006年
10 杨传耀;中文信息检索索引模型及相关技术研究[D];复旦大学;2007年
中国硕士学位论文全文数据库 前10条
1 刘洋;基于本体的医保审计知识库构建研究[D];哈尔滨工程大学;2010年
2 刘靖媛;个性搜索引擎中用户兴趣模型研究[D];哈尔滨工程大学;2010年
3 孙萍;面向事件的多文档自动文摘研究[D];江苏大学;2010年
4 刘金凤;面向自然语言处理的汉语句子语义知识库构建研究[D];鲁东大学;2009年
5 李丹;基于规则与统计的汉语自动分词研究[D];长春工业大学;2010年
6 吕靖;互联网搜索词分类关键技术研究[D];浙江大学;2011年
7 梁桢;基于尾字词典的逆向回溯中文分词技术研究[D];武汉工业学院;2010年
8 司圣涛;领域知识库的构建方法及其应用研究[D];昆明理工大学;2009年
9 李福转;基于内容的垃圾邮件过滤技术的研究[D];电子科技大学;2010年
10 曹亚辉;非结构文本最佳近似匹配系统的研究与实现[D];东华大学;2011年
【二级参考文献】
中国期刊全文数据库 前10条
1 高军,陈锡先;无监督的动态分词方法[J];北京邮电大学学报;1997年04期
2 王锡江;王启祥;陈家骏;;基于邻接知识的汉语自动分词系统[J];计算机研究与发展;1992年11期
3 付国宏,王晓龙;汉语词语边界自动划分的模型与算法[J];计算机研究与发展;1999年09期
4 吴胜远;一种汉语分词方法[J];计算机研究与发展;1996年04期
5 孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳;利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J];计算机研究与发展;1997年05期
6 吴胜远;并行分词方法的研究[J];计算机研究与发展;1997年07期
7 李振星,徐泽平,唐卫清,唐荣锡;全二分最大匹配快速分词算法[J];计算机工程与应用;2002年11期
8 谭琼,史忠植;分词中的歧义处理[J];计算机工程与应用;2002年11期
9 潘谦红,王炬,史忠植;基于属性论的文本相似度计算[J];计算机学报;1999年06期
10 赵军,黄昌宁;汉语基本名词短语结构分析模型[J];计算机学报;1999年02期
【相似文献】
中国期刊全文数据库 前10条
1 郭帆;余敏;叶继华;;一种基于分类和相似度的报警聚合方法[J];计算机应用;2007年10期
2 许鹏远;党延忠;;基于元相似度的推荐算法[J];计算机应用研究;2011年10期
3 孙喜来;王欣;葛昂;郑家民;邓宏斌;;面向相似度的多维异构数据比对模型研究[J];信息安全与技术;2011年09期
4 杨云;朱学峰;;一种新的计算中药指纹图谱相似度方法与实现[J];计算机测量与控制;2007年10期
5 熊子奇;张晖;林茂松;;基于相似度的中文网页正文提取算法[J];西南科技大学学报;2010年01期
6 刘萍;陈烨;;词汇相似度研究进展综述[J];现代图书情报技术;2012年Z1期
7 孙瑶瑶;刘杰;;基于Embedded MATLAB函数模块的图像相似度的实现[J];计算机与数字工程;2010年02期
8 朱新懿;耿国华;;颅面重构中颅面相似度比较[J];计算机应用研究;2010年08期
9 厉晗;徐向民;尤芳敏;钱民;马东;;利用相似度分割特征集的混合核构造方法[J];科学技术与工程;2007年04期
10 邢长征;孙伟;;一种改进的基于句子相似度的检测算法[J];计算机系统应用;2010年02期
中国重要会议论文全文数据库 前4条
1 杜琦;巩政;;基于字符串相似度的自动评分算法实现[A];2011年全国电子信息技术与应用学术会议论文集[C];2011年
2 韩敏;唐常杰;段磊;李川;巩杰;;基于TF/IDF相似度的标签聚类方法[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
3 郭帆;叶继华;余敏;;分布式IDS报警聚合研究与实现[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
4 何梅;刘亚军;陈耿;;词性划分和差额法在主观题阅卷中的应用[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
中国博士学位论文全文数据库 前2条
1 朱新懿;三维颅面相似度比较的研究[D];西北大学;2012年
2 吴迪;基于加权相似度的序列聚类算法研究[D];燕山大学;2014年
中国硕士学位论文全文数据库 前10条
1 唐凌志;基于语义理解的论文相似度研究[D];湘潭大学;2011年
2 梁浩;网络新闻相似度检测系统[D];吉林大学;2011年
3 单晗怀;跨媒体相似度机制研究和实现[D];浙江大学;2006年
4 朱松;术语相似度和术语相关度的融合研究及应用[D];河北大学;2008年
5 裴冬梅;程序代码相似度中的代码转换技术的研究[D];内蒙古师范大学;2008年
6 徐德玉;中文文档内容相似度检测方法研究[D];长春工业大学;2010年
7 黄妮;网络学习平台中的分词与句子相似度算法研究[D];陕西师范大学;2012年
8 张金鹏;基于语义的文本相似度算法研究及应用[D];重庆理工大学;2014年
9 王艳红;基于节点相似度的复杂网络社区发现算法的研究[D];西安电子科技大学;2014年
10 吕瑞鹏;基于移动概括的新用户相似度衡量方法[D];山东大学;2014年
,本文编号:707313
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/707313.html