基于语义的中文文本相似度的算法研究
发布时间:2021-04-04 06:03
在信息爆炸式增长的时代,个性化信息获取需求愈加强烈,如何从庞大的信息库中获取所需要的有价值的个性化信息极其重要,应运而生的信息分类及检索技术需求增加。在文本分类挖掘处理方面,技术应用成了关键问题。在中文的文本处理方面,计算文本相似度是一个很广泛的研究热点,经常应用于信息文本检索、人工智能服务、相似性排查等方面,如何提高文本相似度检测方法的准确性是一个值得深入研究且极具实用价值的问题。目前,解决这类问题有几个很流行的算法:向量空间模型算法(VSM),这类算法没有考虑文本数据中语义相似词语的存在,也无法解决语义相似词语对算法准确性干扰的问题,这样使得文本相似度计算准确性不足;隐性语义索引(LSI)算法,主要使用奇异值分解(SVD)分解文本文件,也不能解决语义相关性的问题;KNN算法是一种非参数的文本分类方法,因其简单、有效的特点被广泛应用于机器学习领域,但是其时间成本及运维效率相对较差;最大词组组合算法能快速有效的进行分词,但对于语义相近、文字差别较大的词组无法做到精确分类,同样无法解决语义相关性的问题。本文提出一个新的解决方案,将词语的语义相似度加入到文本相似度算法中,并对算法复杂度进行...
【文章来源】: 刘禄艳 西安电子科技大学
【文章页数】:62 页
【学位级别】:硕士
【部分图文】:
中文文本预处理过程
西安电子科技大学硕士学位论文16图3.1知网义原层次结构可见,知网的自上而下的层次结构相对复杂,它是使用知网计算语义相似度的基础[39]。3.5基于知网的语义相似度算法基于知网的语义相似度计算已经应用非常广泛。相比于经典且传统的词典,在知网的体系结构中,并非所有的概念都会存在于体系节点上。一般来讲,这些概念是通过义原的方式,通过知识描述语言的形式表现两个中文单词的词语相似度,上文已经介绍了知网中的两个最基本的元素“概念”、“义原”。下面是知网语言描述的一些介绍,及基于知网的语义相似度算法。(1)知网将其收录的单词分成两种类型,即虚词和实词。(2)相对来讲,实词的语言描述相比于虚词来说要稍微复杂一些。(3)实词中,基本义原描述,主要是使用基本义原来实现的。(4)实词中,关系义原描述,主要是使用关系义原(具体词)来实现的。(5)实词中,关系符号描述,主要是通过关系符号(具体词)来实现的。(6)对于描述实词,首要的描述必须是基本义原的描述,这也是核心的描述。比较两个W1和W2两个中文单词,假设W1有n个义项11121,,...,nSSS,W2有m个异项21222,,...,mSSS,W1、W2相似度的计算值就是每个异项相似度中的最大值。在知网中的实词描述,定义一个结构,该结构将两个实词的相似度定义如公式(3-5)所示:12Sim(c,c)d(3-5)公式中c1,c2代表实词,d代表着两个实词在义原体系中的路径长度。在知网的语言结构中,存在一些义原的位置上出现一个概念,这些概念通常与义原的语义极为相似,把它当作极小的常数,越接近,越贴近0。第一义原通常描述为112Sim(c,c),其他的独立义原描述为212Sim(c,c),关系义原表
西安电子科技大学硕士学位论文20分词之后,去除掉名词、形容词量词等等虚词,本文采用的是去除停用词表中信息语义相似度的研究上使用以实词为主的文本分析。先进性文本分词,使用的是汉语分词LCTCLAS,并且去除名词、形容词量词等等词,将语义相似度加入文本相似度计算使用的是知网语义相似度。通过计算得到最大词语组合,使用最大词语组合进行运算。采用如下步骤方法:1.将文本用过汉语分词系统LCTCLAS进行分词。得到新的词语向量。2.对得到的词语数组进行筛选,去除其中的名词、形容词、量词等虚词信息,仅仅保留实词信息,最后得到文本向量设置为12{,,...}nMMMM。3.引入语义相似度的计算,使用知网语义相似度,将语义相似度信息应用到文本向量中,得到新文本向量12,...nN{NN,,N}。并且设置最大词语组合为P。4.取文本向量N中数据(,)ijNN,其中(ji并且1jn)。设iN为被比较的单条向量,将jN划分为10个子集,采用KMP模式匹配算法对,ijNN进行比较。5.在jN中寻找与iN文本相似度高的单条向量加入最大词语组合P。6.NNP,将P从N中移除,并继续返回步骤4。直到N为空。最后得到最大词语组合P。7.将两片文本向量处理得到的最大词语组合P取出设置为1P,2P,计算两者的余弦值即为最终文本相似度的评判。具体流程如图4.1所示:图4.1文本相似度计算流程
【参考文献】:
期刊论文
[1]基于句法结构分析的中文文本聚类方法研究[J]. 尹积栋,谢茶花,彭崧,刘红,曾昭虎. 计算机与数字工程. 2018(05)
[2]关于期刊编辑培养研究的概况及启示——基于中国知网2000—2016年收录文献的量化分析[J]. 李文玉. 出版广角. 2018(08)
[3]基于知网与搜索引擎的词汇语义相似度计算[J]. 吴克介,王家伟. 计算机与现代化. 2018(04)
[4]基于多谓词语义框架的长短语文本相似度计算[J]. 王景中,杨彬彬,何云华. 计算机工程与设计. 2018(04)
[5]基于上下文信息的中文命名实体消歧方法研究[J]. 王旭阳,姜喜秋. 计算机应用研究. 2018(04)
[6]利用深度学习的文本相似度计算方法[J]. 汪一百,陈实,叶剑锋. 湘潭大学自然科学学报. 2018(02)
[7]基于文本属性的微博用户相似度研究[J]. 李梦洁,邵曦. 计算机技术与发展. 2018(05)
[8]基于语义词典和词频信息的文本相似度计算[J]. 董苑,钱丽萍. 计算机科学. 2017(S2)
[9]基于中国知网的我国人文护理学文献计量学研究[J]. 刘成媛,卢根娣,罗梦丹. 护理研究. 2017(25)
[10]中文文本聚类常用停用词表对比研究[J]. 官琴,邓三鸿,王昊. 数据分析与知识发现. 2017(03)
硕士论文
[1]科技文档的分类与查重[D]. 吕青普.天津财经大学 2007
本文编号:3117865
【文章来源】: 刘禄艳 西安电子科技大学
【文章页数】:62 页
【学位级别】:硕士
【部分图文】:
中文文本预处理过程
西安电子科技大学硕士学位论文16图3.1知网义原层次结构可见,知网的自上而下的层次结构相对复杂,它是使用知网计算语义相似度的基础[39]。3.5基于知网的语义相似度算法基于知网的语义相似度计算已经应用非常广泛。相比于经典且传统的词典,在知网的体系结构中,并非所有的概念都会存在于体系节点上。一般来讲,这些概念是通过义原的方式,通过知识描述语言的形式表现两个中文单词的词语相似度,上文已经介绍了知网中的两个最基本的元素“概念”、“义原”。下面是知网语言描述的一些介绍,及基于知网的语义相似度算法。(1)知网将其收录的单词分成两种类型,即虚词和实词。(2)相对来讲,实词的语言描述相比于虚词来说要稍微复杂一些。(3)实词中,基本义原描述,主要是使用基本义原来实现的。(4)实词中,关系义原描述,主要是使用关系义原(具体词)来实现的。(5)实词中,关系符号描述,主要是通过关系符号(具体词)来实现的。(6)对于描述实词,首要的描述必须是基本义原的描述,这也是核心的描述。比较两个W1和W2两个中文单词,假设W1有n个义项11121,,...,nSSS,W2有m个异项21222,,...,mSSS,W1、W2相似度的计算值就是每个异项相似度中的最大值。在知网中的实词描述,定义一个结构,该结构将两个实词的相似度定义如公式(3-5)所示:12Sim(c,c)d(3-5)公式中c1,c2代表实词,d代表着两个实词在义原体系中的路径长度。在知网的语言结构中,存在一些义原的位置上出现一个概念,这些概念通常与义原的语义极为相似,把它当作极小的常数,越接近,越贴近0。第一义原通常描述为112Sim(c,c),其他的独立义原描述为212Sim(c,c),关系义原表
西安电子科技大学硕士学位论文20分词之后,去除掉名词、形容词量词等等虚词,本文采用的是去除停用词表中信息语义相似度的研究上使用以实词为主的文本分析。先进性文本分词,使用的是汉语分词LCTCLAS,并且去除名词、形容词量词等等词,将语义相似度加入文本相似度计算使用的是知网语义相似度。通过计算得到最大词语组合,使用最大词语组合进行运算。采用如下步骤方法:1.将文本用过汉语分词系统LCTCLAS进行分词。得到新的词语向量。2.对得到的词语数组进行筛选,去除其中的名词、形容词、量词等虚词信息,仅仅保留实词信息,最后得到文本向量设置为12{,,...}nMMMM。3.引入语义相似度的计算,使用知网语义相似度,将语义相似度信息应用到文本向量中,得到新文本向量12,...nN{NN,,N}。并且设置最大词语组合为P。4.取文本向量N中数据(,)ijNN,其中(ji并且1jn)。设iN为被比较的单条向量,将jN划分为10个子集,采用KMP模式匹配算法对,ijNN进行比较。5.在jN中寻找与iN文本相似度高的单条向量加入最大词语组合P。6.NNP,将P从N中移除,并继续返回步骤4。直到N为空。最后得到最大词语组合P。7.将两片文本向量处理得到的最大词语组合P取出设置为1P,2P,计算两者的余弦值即为最终文本相似度的评判。具体流程如图4.1所示:图4.1文本相似度计算流程
【参考文献】:
期刊论文
[1]基于句法结构分析的中文文本聚类方法研究[J]. 尹积栋,谢茶花,彭崧,刘红,曾昭虎. 计算机与数字工程. 2018(05)
[2]关于期刊编辑培养研究的概况及启示——基于中国知网2000—2016年收录文献的量化分析[J]. 李文玉. 出版广角. 2018(08)
[3]基于知网与搜索引擎的词汇语义相似度计算[J]. 吴克介,王家伟. 计算机与现代化. 2018(04)
[4]基于多谓词语义框架的长短语文本相似度计算[J]. 王景中,杨彬彬,何云华. 计算机工程与设计. 2018(04)
[5]基于上下文信息的中文命名实体消歧方法研究[J]. 王旭阳,姜喜秋. 计算机应用研究. 2018(04)
[6]利用深度学习的文本相似度计算方法[J]. 汪一百,陈实,叶剑锋. 湘潭大学自然科学学报. 2018(02)
[7]基于文本属性的微博用户相似度研究[J]. 李梦洁,邵曦. 计算机技术与发展. 2018(05)
[8]基于语义词典和词频信息的文本相似度计算[J]. 董苑,钱丽萍. 计算机科学. 2017(S2)
[9]基于中国知网的我国人文护理学文献计量学研究[J]. 刘成媛,卢根娣,罗梦丹. 护理研究. 2017(25)
[10]中文文本聚类常用停用词表对比研究[J]. 官琴,邓三鸿,王昊. 数据分析与知识发现. 2017(03)
硕士论文
[1]科技文档的分类与查重[D]. 吕青普.天津财经大学 2007
本文编号:3117865
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3117865.html