文本表示模型及相似度计算算法研究与应用
发布时间:2021-07-25 12:55
文本表示和文本相似度计算是自然语言处理领域中最为重要的任务,为后续的文本计算提供良好的方法和支持。为充分表达文本的语义、结构信息和获得更好的相似度计算结果,本文构建和设计了基于特征贡献度的句向量表示模型和多模型加权融合的文本相似度计算算法。主要研究工作如下:(1)针对句向量表示语义信息不集中且任务针对性差等问题,在现有SIF句向量模型的研究基础上,建立了一种基于特征贡献度的句向量表示改进模型。该模型通过引入类内词频和类内、类间区分度因子,改进信息增益计算公式,增强文本特征选择的效果。再结合通用词频因子,构建可刻画特征对任务贡献度的特征贡献度因子。最后,利用特征贡献度因子筛选出贡献度较低的特征词,让剩余特征词参与后续句向量的计算,得到语义信息集中且任务针对性强的句向量表示。实验表明,较原始模型,本文提出的句向量模型在文本分类任务上获得了更高的准确率,文本相似度计算任务中在准确率、召回率和F1值三个评价指标下均获得更好的结果。(2)针对传统文本相似度计算算法只单一的考虑了文本的语义信息或结构信息,对捕捉文本的关键特征有一定局限性等不足,设计了多模型加权融合的文本相似度计算算法。该算法通过改...
【文章来源】:西安科技大学陕西省
【文章页数】:62 页
【学位级别】:硕士
【部分图文】:
文本表示发展现状综上所述,浅层语义表示中的传统文本表示模型思想简单,容易实现
2相关理论基础92相关理论基础本章详细介绍了词向量表示模型、特征选择方法以及文本相似度计算中的一些典型算法,为下文句向量表示模型和相似度计算算法的改进提供理论依据。2.1词向量表示模型词向量模型作为文本向量表示中最常用的基础模型,是自然语言处理中的一组语言建模和特征学习技术的统称。其核心思想是将非结构化的文本词语映射到向量空间中,最终达到用结构化的向量来表示非结构化的文本的目的。2.1.1Word2Vec词向量模型Word2Vec是词嵌入的实现工具。其核心思想是上下文相似的词,其语义也相似。所以语义相似的文本之间其在向量上的数值是相似的。Word2Vec使用三层神经网络将独热编码形式的词向量映射到分布式形式的稠密词向量,其中意思相近的词将被映射到向量空间中相近的位置。该算法主要包括两个模型:CBOW(ContinuousBags-of-WordsModel)和Skip-gram(ContinuousSkip-gramModel)。CBOW模型主要思想是通过某单词tw的上下文预测该单词tw。Skip-gram模型主要思想是通过某单词tw去预测该单词的上下文。CBOW对小型数据库比较合适,而Skip-Gram在大型语料中表现更好。这两种模型结构都是输入层-投影层-输出层。如下图2.1所示。图2.1CBOW模型和Skip-gram模型的结构对比
西安科技大学硕士学位论文142.3.2文本相似度计算算法文本相似度是自然语言处理领域里大多应用的基础,一直是该领域研究的热点课题。本节就沿用第一章中关于文本相似度计算算法研究现状的思路,详细介绍了两种经典的文本相似度计算算法,这对本文后续关于文本相似度计算算法的改进有着一定的指导意义。(1)向量空间模型向量空间模型(VectorSpaceModel,VSM)认为文本由多个独立的词语构成。这些独立词语构成该文本的特征集合。再结合文本词频信息赋予每个特征项不同的权重,以所有特征项的权重为分量形成该文本的空间向量。最后根据两个文本的空间向量计算语义距离得到文本相似度计算结果。文本的向量空间模型表示如下图2.2所示。给定文本T,用it表示文本中的某一特征项,iW表示it在文本T中的权重值,那么在多维向量空间中,文本T中所有特征项的权重就形成了向量文本123(,,,,)TnVWWWW,iW就是向量文本TV在某一维度上的值。图2.2向量空间模型空间图在对文本进行必要的预处理之后,向量空间模型中特征项的权重赋予是非常关键的一步,现有研究中通常利用TF-IDF来计算特征项的权重值。TF-IDF的计算公式在上节中已给出,在此不再赘述。TF-IDF方法既考虑了单个特征项能否表达出单个文本的信息,又体现了该特征项是否能区分该文本与其他文本。计算出权重后,就得到了文本的向量空间表示。继而可以计算文本间的相似度。目前一般是用欧氏距离来计算两个文本间的相似程度。文本iT和jT的特征向量分别是12(,,,)iTiiinVwww和12(,,,)jTjjjnVwww,则文本iT和jT的文本相似度为:
【参考文献】:
期刊论文
[1]融合耦合距离区分度和强类别特征的短文本相似度计算方法[J]. 马慧芳,刘文,李志欣,蔺想红. 电子学报. 2019(06)
[2]基于改进信息增益的ACO-WNB分类算法研究[J]. 邱宁佳,高鹏,王鹏,陶跃. 计算机仿真. 2019(01)
[3]基于LDA的多特征融合的短文本相似度计算[J]. 张小川,余林峰,张宜浩. 计算机科学. 2018(09)
[4]基于词向量的Jaccard相似度算法[J]. 田星,郑瑾,张祖平. 计算机科学. 2018(07)
[5]一种基于语义关系图的词语语义相关度计算模型[J]. 张仰森,郑佳,李佳媛. 自动化学报. 2018(01)
[6]基于Word2vec的句子语义相似度计算研究[J]. 李晓,解辉,李立杰. 计算机科学. 2017(09)
[7]微博文本的句向量表示及相似度计算方法研究[J]. 段旭磊,张仰森,孙祎卓. 计算机工程. 2017(05)
[8]现代汉语同义并列复合词词性、词序分析[J]. 陈宏. 南开语言学刊. 2008(01)
[9]基于信息增益的特征词权重调整算法研究[J]. 张玉芳,陈小莉,熊忠阳. 计算机工程与应用. 2007(35)
[10]知网的理论发现[J]. 董振东,董强,郝长伶. 中文信息学报. 2007(04)
本文编号:3302071
【文章来源】:西安科技大学陕西省
【文章页数】:62 页
【学位级别】:硕士
【部分图文】:
文本表示发展现状综上所述,浅层语义表示中的传统文本表示模型思想简单,容易实现
2相关理论基础92相关理论基础本章详细介绍了词向量表示模型、特征选择方法以及文本相似度计算中的一些典型算法,为下文句向量表示模型和相似度计算算法的改进提供理论依据。2.1词向量表示模型词向量模型作为文本向量表示中最常用的基础模型,是自然语言处理中的一组语言建模和特征学习技术的统称。其核心思想是将非结构化的文本词语映射到向量空间中,最终达到用结构化的向量来表示非结构化的文本的目的。2.1.1Word2Vec词向量模型Word2Vec是词嵌入的实现工具。其核心思想是上下文相似的词,其语义也相似。所以语义相似的文本之间其在向量上的数值是相似的。Word2Vec使用三层神经网络将独热编码形式的词向量映射到分布式形式的稠密词向量,其中意思相近的词将被映射到向量空间中相近的位置。该算法主要包括两个模型:CBOW(ContinuousBags-of-WordsModel)和Skip-gram(ContinuousSkip-gramModel)。CBOW模型主要思想是通过某单词tw的上下文预测该单词tw。Skip-gram模型主要思想是通过某单词tw去预测该单词的上下文。CBOW对小型数据库比较合适,而Skip-Gram在大型语料中表现更好。这两种模型结构都是输入层-投影层-输出层。如下图2.1所示。图2.1CBOW模型和Skip-gram模型的结构对比
西安科技大学硕士学位论文142.3.2文本相似度计算算法文本相似度是自然语言处理领域里大多应用的基础,一直是该领域研究的热点课题。本节就沿用第一章中关于文本相似度计算算法研究现状的思路,详细介绍了两种经典的文本相似度计算算法,这对本文后续关于文本相似度计算算法的改进有着一定的指导意义。(1)向量空间模型向量空间模型(VectorSpaceModel,VSM)认为文本由多个独立的词语构成。这些独立词语构成该文本的特征集合。再结合文本词频信息赋予每个特征项不同的权重,以所有特征项的权重为分量形成该文本的空间向量。最后根据两个文本的空间向量计算语义距离得到文本相似度计算结果。文本的向量空间模型表示如下图2.2所示。给定文本T,用it表示文本中的某一特征项,iW表示it在文本T中的权重值,那么在多维向量空间中,文本T中所有特征项的权重就形成了向量文本123(,,,,)TnVWWWW,iW就是向量文本TV在某一维度上的值。图2.2向量空间模型空间图在对文本进行必要的预处理之后,向量空间模型中特征项的权重赋予是非常关键的一步,现有研究中通常利用TF-IDF来计算特征项的权重值。TF-IDF的计算公式在上节中已给出,在此不再赘述。TF-IDF方法既考虑了单个特征项能否表达出单个文本的信息,又体现了该特征项是否能区分该文本与其他文本。计算出权重后,就得到了文本的向量空间表示。继而可以计算文本间的相似度。目前一般是用欧氏距离来计算两个文本间的相似程度。文本iT和jT的特征向量分别是12(,,,)iTiiinVwww和12(,,,)jTjjjnVwww,则文本iT和jT的文本相似度为:
【参考文献】:
期刊论文
[1]融合耦合距离区分度和强类别特征的短文本相似度计算方法[J]. 马慧芳,刘文,李志欣,蔺想红. 电子学报. 2019(06)
[2]基于改进信息增益的ACO-WNB分类算法研究[J]. 邱宁佳,高鹏,王鹏,陶跃. 计算机仿真. 2019(01)
[3]基于LDA的多特征融合的短文本相似度计算[J]. 张小川,余林峰,张宜浩. 计算机科学. 2018(09)
[4]基于词向量的Jaccard相似度算法[J]. 田星,郑瑾,张祖平. 计算机科学. 2018(07)
[5]一种基于语义关系图的词语语义相关度计算模型[J]. 张仰森,郑佳,李佳媛. 自动化学报. 2018(01)
[6]基于Word2vec的句子语义相似度计算研究[J]. 李晓,解辉,李立杰. 计算机科学. 2017(09)
[7]微博文本的句向量表示及相似度计算方法研究[J]. 段旭磊,张仰森,孙祎卓. 计算机工程. 2017(05)
[8]现代汉语同义并列复合词词性、词序分析[J]. 陈宏. 南开语言学刊. 2008(01)
[9]基于信息增益的特征词权重调整算法研究[J]. 张玉芳,陈小莉,熊忠阳. 计算机工程与应用. 2007(35)
[10]知网的理论发现[J]. 董振东,董强,郝长伶. 中文信息学报. 2007(04)
本文编号:3302071
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3302071.html
最近更新
教材专著