中文词汇知识获取算法和语义计算研究及应用

发布时间：2019-04-09 12:30

【摘要】：互联网的飞速发展使其成为全球信息传播和共享的最重要资源，其数据成几何级数增长，然而要从互联网上获取有用的知识却非常困难，“数据爆炸，知识贫乏”已成为当前诸多专家学者需要迫切解决的问题。目前知识获取的大多数研究都是从单纯的计算机技术角度出发，采取诸如规则、句式等从语法逻辑结构层面来挖掘、提取知识，然而新概念的不断涌现，导致许多新词汇被创造出来。这些新词汇由多个语素或多个词组成，，当前的分词系统，在收录这些词之前，会将它们切分成多个语素或词，而导致当前已有的知识获取方法无法正确识别，更难于在语义层面上进行比较。这将给知识获取带来新的难题，也使得当前以信息检索为主要技术的搜索引擎在处理网页时采取了“非语义”的关键词匹配的方式，以致于内容查找准确率低，语义计算的引入将有望改善这种状况。本文的主要研究工作有两部分：中文词汇知识获取算法和中文词汇语义计算方法。本文基于分词系统之上，进行合成词的识别，解决未登录词无法正确识别的问题；为合成词建立词性标注模型，对合成词进行词性标注，消除词性歧义，解决当前词性标注模型无法直接应用于合成词的词性标注的问题，同时修正分词结果。在实现合成词识别的基础上进行文本主题词的提取，建立词汇语义计算模型，使词与词之间可比较，用语义计算代替传统的关键词匹配，是实现智能信息检索的一个根本途径；同时也是构建词汇语义知识库、实现知识推理的一个关键基础性研究工作，具有重要的研究意义。本文最后实现了一个中文词汇知识获取和语义计算平台，通过应用上述算法，建立了一个包含中文词汇知识获取以及中文词汇语义计算的综合系统，验证了本文各项研究工作的意义和算法的有效性。本文的创新性工作主要有以下几点： 1、针对当前未登录词识别的难点问题，提出了基于词性探测和词共现有向图的合成词识别算法CWRWCDG，该算法先采用词性探测从文本中获取词串，进而由获取到的词串生成词共现有向图，借鉴Bellman-Ford算法思想，从词共现有向图中搜索多源点长度最长且权重值满足给定条件的路径，则该路径所对应的词串为合成词。实验结果表明该算法要优于同类算法。 2、中文合成词标注的难点在于词性的确定，针对该问题，提出了基于核心属性渗透理论的中文合成词词性标注算法，核心属性渗透理论最早由Lieber于1980年提出，他认为在英语中合成词的词性由合成词的核心成分决定，本文将该理论应用于中文合成词词性的标注，并根据实际情况需要提供显式标注和隐式标注两种方式。 3、当前文本主题词提取算法主要从词频角度出发，基于TF/IDF值，然而对于词语分布较均衡的文本效果不理想，针对这种情况，提出了基于词位置权重和增量词集频率的主题词提取算法TTEITS。该算法认为同一个词在文本的不同位置出现，对该词是否成为主题词的影响是不一样的，同时，在确定一个候选主题词是否真正成为主题词时，不但计算该单个词的权重（频率），而且计算它对整个主题词集的增量权重（频率），若该增量大于某个给定的阈值，则判定该词为主题词，否则算法结束。该算法的优点在于当各候选主题词出现次数都比较低、较平均时，仍然能够提取出最合适的主题词。 4、研究主题词集在自动文摘上的应用，提出了基于主题词集的中文自动文摘算法CASTTS。该算法先通过TTEITS算法提取文本主题词，再由主题词权重进行加权计算各主题词所在的句子权重，从而得出主题词集对应的每个句子的总权重，最后根据自动文摘比例选取句子权重较大的几个句子并按原文顺序输出文摘。实验结果表明，该方法所获得的文摘质量高，较接近于参考文摘，取得了良好的效果。 5、针对现有词汇语义计算及文本相似度计算中存在的一些不足，基于知网，巧妙的将文本相似度计算转换为计算文本主题词集相似度，提出了基于主题词集的文本相似度计算方法TSCTTS。该方法先通过TTEITS算法提取文本主题词，然后在知网义原层次体系结中构获取两个词语的语义距离，经转换公式得到两个词语的语义相似度，最后由主题词集的语义相似度得到文本相似度。该算法应用于文本分类实验，结果表明该算法有较好的分类性能。
[Abstract]:......
【学位授予单位】：华南理工大学
【学位级别】：博士
【学位授予年份】：2012
【分类号】：TP391.1

【参考文献】