当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于马尔科夫模型词序因子的文本相似度研究

发布时间:2018-08-14 09:45
【摘要】:在中文信息处理的应用中,文本相似度计算是最底层的工作,在所有的文字处理系统中都要用到文本相似度,使用非常广泛,比如搜索引擎、文本查重、信息检索等领域,一个文本相似度算法的好坏,主要体现在正确率和运行效率上,结果要尽可能的接近人工的方法,运行时间要尽可能的少。目前用的方法主要是基于关键词匹配的方法,很多算法的文本的特征项的抽取都是基于空间向量模型的(VSM),查询速度快,但是该类方法有明显不足之处,很多对文本相似度的计算带来的影响的因素没考虑在内,比如同义词、多义词、词序等因素。 本文提出了一种基于马尔科夫模型词序因子的中文文本相似度算法,参考了很多国内外相关文献,对当前文本相似度计算方法的情况做了进一步研究,提出了新的文本相似度计算方法——采用《知网》知识结构进行相似度计算的方法,把多义词和同义词等因素考虑在内,然后结合马尔科夫模型,,把词序因素结合进去,即把语义相似度应用到马尔科夫模型当中去,综合考虑了词频、同义词、多义词、词序等因素。从传统的空间向量模型和语义相似度计算方法的对比结果可以看出,该算法具有较高的正确率,具有一定的实用性。 最后,利用几个较小的文本文档对该算法进行测试,对几种不同的相似度计算方法进行测试对比,说明基于马尔科夫的相似度方法,正确率和可行性方面比传统几种计算方法有一定的提高。通过在准确度方面对本课题的研究成果进行测试上的比对。为文本相似度算法的发展提供一种新的思路。
[Abstract]:In the application of Chinese information processing, text similarity calculation is the lowest work. It is widely used in all word processing systems, such as search engine, text search, information retrieval and so on. A text similarity algorithm, mainly reflected in the accuracy and efficiency, the results should be as close as possible to the artificial method, running time should be as little as possible. At present, the methods used are mainly based on keyword matching. The extraction of text feature items in many algorithms is based on (VSM), query speed based on spatial vector model, but this kind of method has obvious shortcomings. Many factors, such as synonyms, polysemous words, word order and so on, are not taken into account. In this paper, we propose a Chinese text similarity algorithm based on word order factor of Markov model. Referring to a lot of relevant literatures at home and abroad, this paper makes further research on the current text similarity calculation method. In this paper, a new method of text similarity calculation is proposed, which uses knowledge structure to calculate similarity, including polysemous words and synonyms, and then combines word order factors with Markov model. The semantic similarity is applied to Markov model, and the factors such as word frequency, synonym, polysemy, word order and so on are considered. From the comparison of the traditional space vector model and the semantic similarity calculation method, it can be seen that the algorithm has higher accuracy and practicability. Finally, several smaller text documents are used to test the algorithm, and several different similarity calculation methods are tested and compared to illustrate the similarity method based on Markov. The accuracy and feasibility are improved compared with the traditional calculation methods. Through the accuracy of the research results of the subject to test the comparison. It provides a new idea for the development of text similarity algorithm.
【学位授予单位】:湖北工业大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP391.1

【相似文献】

相关期刊论文 前10条

1 李欢,宋麦玲,杨捷;基于内容的图像检索系统[J];自动化博览;2005年04期

2 张婧;李珏峰;;数据挖掘技术在BBS管理中的应用[J];福建电脑;2008年04期

3 史豪杰;邢清华;刘付显;;基于引入概率的范例匹配新方法[J];计算机工程与应用;2009年10期

4 大鱼儿;;自动扩展大小的TEdit[J];软件;2001年07期

5 王煜;白石;王正欧;;用于Web文本分类的快速KNN算法[J];情报学报;2007年01期

6 赵俊杰;胡学钢;;基于文本分类的文档相似度计算[J];微型电脑应用;2008年12期

7 郝祥根;杨思春;高远飙;张伟;;基于向量空间模型的中文问答系统研究与实现[J];苏州科技学院学报(自然科学版);2009年01期

8 王波;薛媛媚;;网上销售常问问答系统的构建[J];软件导刊;2009年02期

9 袁正午;李玉森;张雪英;;基于属性的文本相似度计算算法改进[J];计算机工程;2009年17期

10 缪勇;宋斌;;基于Web日志的典型匿名用户路径挖掘研究[J];计算机应用;2009年10期

相关会议论文 前10条

1 王凯;李绍稳;张友华;刘超;;缺值背景中的粗糙形式概念相似度计算理论与方法[A];中国农业工程学会电气信息与自动化专业委员会、中国电机工程学会农村电气化分会科技与教育专委会2010年学术年会论文摘要[C];2010年

2 陈立;宋自林;郑世明;张英;;基于本体的概念相似度计算研究[A];江苏省系统工程学会第十一届学术年会论文集[C];2009年

3 吴志雄;;不精确数据的相似度计算[A];逻辑学及其应用研究——第四届全国逻辑系统、智能科学与信息科学学术会议论文集[C];2008年

4 陈光强;杨树强;张晓辉;李润恒;贾焰;;面向海量文本数据的多任务并行调度加载技术研究与实现[A];第15届全国信息存储技术学术会议论文集[C];2008年

5 车万翔;刘挺;秦兵;李生;;面向双语句对检索的汉语句子相似度计算[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年

6 李虎;邹鹏;贾焰;周斌;;一种基于Map Reduce的分布式文本数据过滤模型研究[A];第26次全国计算机安全学术交流会论文集[C];2011年

7 丁兆云;贾焰;周斌;;基于文本数据的多维层次式舆情计算模型的研究与实现[A];第二十五届中国数据库学术会议论文集(一)[C];2008年

8 沈君;马生全;;两种新的相似性度量在模糊推理中的应用[A];中国运筹学会模糊信息与模糊工程分会第五届学术年会论文集[C];2010年

9 蒋勇;陈晓静;;一种多方向手写文本行提取方法[A];第二十七届中国控制会议论文集[C];2008年

10 蔡嘉荣;印鉴;刘玉葆;黄志兰;;一种有效的文本聚类算法[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年

相关重要报纸文章 前10条

1 曾华q

本文编号:2182476


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2182476.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户d90ca***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com