基于语义相似度计算的术语推荐与可视化

发布时间:2018-01-07 01:38

  本文关键词:基于语义相似度计算的术语推荐与可视化 出处:《聊城大学》2017年硕士论文 论文类型:学位论文


  更多相关文章: 术语 语义相似度 结构化 非结构化 可视化 术语推荐 知识图谱


【摘要】:信息时代飞速发展,带动世界变成移动化,智能化。信息数据的爆炸式增长,推动术语学也在不断更新与发展。术语数据规模的增长,信息文化的丰富,促使术语概念含义逐渐多样性。术语概念含义的多样性给国际标准组织ISO制定术语标准文件时,带来极大的困难;同时国际术语专家急需一个术语推荐系统,实现各国术语概念更新及制定工作同步进行。术语的语义相似度计算方法对其它学科的发展具有基础性作用,如信息检索,机器翻译,人工智能等,研究人员不断对其进行更新优化,以适应新的需求。目前的计算方法多数基于数据的组织形式进行划分,如基于结构化数据和非结构化数据两种方法。数据的结构化组织形式包括本体、Hownet、WordNet等;非结构化组织形式,往往是大规模的数据,没有固定的结构形式。非结构化数据的语义相似度计算是通过机器学习进行模型训练,然后调用模型进行计算。本文主要通过对基于本体的结构化数据及大规模非结构化数据的术语语义相似度计算方法进行研究及应用,主要包含以下内容:(1)基于结构化数据的术语语义相似度计算方法大多不能兼顾各种影响因子,或者根据专家经验确定各因子的权值,造成计算不准确等问题。因此本文对基于本体的混合式语义相似度计算方法改进,借鉴模糊优化排序思想确定不同因素的权值,提高了计算的准确性。同时将本方法应用于术语推荐工作中,在术语专家进行术语推荐前,需要对推荐术语进行语义相似度计算,判断其在术语标准文件中是否存在同义或近义词,然后将其提交到术语推荐系统中,进行术语文件的更新。(2)随着大数据时代的到来,大规模非结构化数据语料的术语语义相似度计算方法逐渐成为研究热点。在海量数据中提取出术语的语义相似词并进行可视化展示,是本文的另一个研究重点。对于大规模非结构化数据的语义相似度计算,本文通过基于词向量的术语语义相似度计算方法,利用Word2vec对语料进行模型训练,将语料库中的文本用词向量进行表示。通过词向量进行语义相似度计算,得到术语的语义相似词。其次,调用Prefuse组件对语义相似词的关系网络进行可视化展示,这样方便术语工作者挖掘术语之间的潜在关系,同时为后期的知识图谱的绘制工作奠定基础。
[Abstract]:The rapid development of the information era, led the world into mobile, intelligent information. The explosive growth of data, promote the terminology is constantly updated and development. In terms of the growth in the size of data information, the rich culture, promote concept meaning gradually diversity. Diversity in terms of the concept to develop the standards of terminology documents to the international standards organization ISO when bring great difficulties; at the same time the international experts need a term term recommendation system, the realization of national term concept update and develop work simultaneously. The term semantic similarity calculation method plays a basic role in the development of other disciplines, such as information retrieval, artificial intelligence, Machine Translation, researchers continue to update optimization and in order to meet the new demand. Most of the current calculation method of data partition based on the organizational form, such as based on structured data and unstructured data Two. Structured data including ontology, Hownet, WordNet; unstructured form of organization is often large-scale data, no fixed structure. Semantic similarity calculation of unstructured data is used to train the model through machine learning, and then call the model calculation. This paper focuses on the calculation method of term semantic similarity structured data and unstructured data of large-scale ontology based on the research and application, mainly includes the following contents: (1) the term semantic similarity calculation method based on structured data are not taking into account the various factors, or to determine the factor weights based on expert experience, resulting in inaccurate calculation problems. The calculation method of mixing type of semantic similarity based on ontology, using fuzzy optimization to determine the different factors of the right sort of thinking value, improve The accuracy of the calculation. At the same time, the proposed method is applied to the recommended terms in terms of recommendation in terms of experts before the need for semantic similarity calculation of recommended terms, determine whether the file exists in the standard terminology of synonyms or near synonyms, which will then be submitted to the term recommendation system. The term document update (2). With the advent of the era of big data, the term semantic similarity of large unstructured data corpus method has gradually become a research hotspot. In the data extracted in terms of semantic similar words and visual display, is another focus of this paper. The semantic similarity of large-scale unstructured data calculation, through the calculation method of semantic terms the similarity of word vector based on the model of training corpus by using Word2vec, the text corpus of the word by word vector representation. Vector of semantic similarity calculation, get the term semantic similarity word. Secondly, call the Prefuse component of the semantic similarity between word network visual display, so convenient term workers excavate the potential relations between terms, and lay the foundation for the knowledge map drawing work.

【学位授予单位】:聊城大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.3

【相似文献】

相关期刊论文 前10条

1 胡艳波;崔新春;路青;;2002~2011年国内语义相似度研究计量分析[J];情报科学;2013年07期

2 王家琴;李仁发;李仲生;唐剑波;;一种基于本体的概念语义相似度方法的研究[J];计算机工程;2007年11期

3 刘俊;;基于语义相似度的关键词生成在企业搜索引擎营销中应用[J];电脑知识与技术;2008年14期

4 宗裕朋;吴刚;;一种基于上下文的语义相似度算法[J];微计算机信息;2008年30期

5 刘春辰;刘大有;王生生;赵静滨;王兆丹;;改进的语义相似度计算模型及应用[J];吉林大学学报(工学版);2009年01期

6 徐猛;刘宗田;周文;;一种基于知网语义相似度计算的应用研究[J];微计算机信息;2010年03期

7 孙海霞;钱庆;成颖;;基于本体的语义相似度计算方法研究综述[J];现代图书情报技术;2010年01期

8 魏椺;向阳;陈千;;计算术语间语义相似度的混合方法[J];计算机应用;2010年06期

9 马续补;郭菊娥;;基于《知网》语义相似度的企业事实主题诊断研究[J];情报杂志;2010年05期

10 魏凯斌;冉延平;余牛;;语义相似度的计算方法研究与分析[J];计算机技术与发展;2010年07期

相关会议论文 前10条

1 关毅;王晓龙;;基于统计的汉语词汇间语义相似度计算[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年

2 李月雷;师瑞峰;林丽冰;周一民;;汉语语句语义相似度的计算方法[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年

3 冯新元;魏建国;路文焕;党建武;;引入领域知识的基于《知网》词语语义相似度计算[A];第十二届全国人机语音通讯学术会议(NCMMSC'2013)论文集[C];2013年

4 章成志;;词语的语义相似度计算及其应用研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年

5 刘寒磊;关毅;徐永东;;多文档文摘中基于语义相似度的最大边缘相关技术研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年

6 石静;邱立坤;王菲;吴云芳;;相似词获取的集成方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

7 陈明;鹿e,

本文编号:1390442


资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/1390442.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户717f4***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com