当前位置:主页 > 科技论文 > 软件论文 >

基于词嵌入模型的内容关联方法设计与应用

发布时间:2018-11-15 13:38
【摘要】:现实生活中,文本内容之间的关联十分常见。它既可以是论文文献系统中,篇章之间的引用;也可以是在线论坛里,读者评论与原始文章的对应。这些关联为用户提供了一个很好的联系通道,并且增加了人们对文本内容理解的客观性与全面性。还可以为接下来的工作比如信息检索、摘要和内容管理提供有力的帮助。然而,日益增长的语料数据规模决定了这项任务无法仅仅依靠于人工。因此,探索一种自动化的内容关联任务实现方法存在必要性。目前为止,内容关联的大部分实现方法都是基于传统语法或语义特征的相似度计算,产生的主要问题来自于文本及单词的表面浅层特征的缺陷。而近些年来,词嵌入模型在自然语言处理任务中特别在挖掘深层语义方面呈现出优异的表现。在本论文中,我们提出一种引入词嵌入模型作为特征的内容关联方法。先对模型结构原理进行深入学习,然后详细评估了不同参数下的训练出的词向量结果,最后对英文生物领域论文文献和中英文在线论坛(天涯杂谈、英国卫报)数据三种语料进行了实验,并与传统方法进行比较,证实了我们提出方法的有效性。
[Abstract]:In real life, the correlation between text content is very common. It can be either a reference between chapters in a paper document system or an online forum where the reader comments correspond to the original article. These associations provide users with a good communication channel and enhance the objectivity and comprehensiveness of text content understanding. It can also provide effective assistance for subsequent tasks such as information retrieval, summary and content management. However, the growing size of corpus data makes this task impossible to rely on human resources alone. Therefore, it is necessary to explore an automatic implementation method of content association task. Up to now, most of the implementation methods of content association are based on the similarity calculation of traditional grammar or semantic features, and the main problem arises from the defects of surface shallow features of text and words. In recent years, word embedding model has shown excellent performance in the task of natural language processing, especially in mining deep semantics. In this paper, we propose a content association method which uses word embedding model as a feature. First, we study the structure of the model in depth, then we evaluate the results of the trained word vector under different parameters in detail. Finally, we discuss the literature in English biology field and the online forum in Chinese and English. The three kinds of data are tested and compared with the traditional method, which proves the validity of the proposed method.
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1

【相似文献】

相关期刊论文 前10条

1 杨寿勋;《统计自然语言处理基础》评介[J];外语教学与研究;2001年04期

2 ;《统计自然语言处理基础》[J];中文信息学报;2005年03期

3 徐继伟;;自然语言处理技术在生物信息学中的应用(英文)[J];生物信息学;2006年01期

4 王挺;麦范金;刘忠;;自然语言处理及其应用前景的研究[J];桂林航天工业高等专科学校学报;2006年04期

5 ;第二届全国少数民族青年自然语言处理学术研讨会召开[J];模式识别与人工智能;2008年05期

6 高精揓;萧国政;姬东鸿;;手持嵌入式系统应用中的自然语言处理关键技术[J];长江学术;2009年02期

7 冯志伟;;自然语言处理中的一些宏观问题之我见[J];中国外语;2009年05期

8 曹佩;;论自然语言处理[J];信息与电脑(理论版);2010年05期

9 邵泽国;;语言科学发展的新分支——自然语言处理[J];电子科技;2013年05期

10 李霞;;面向本科阶段开设的“自然语言处理”课程教学研究[J];福建电脑;2013年07期

相关会议论文 前10条

1 马颖华;苏贵洋;;基于概念的自然语言处理[A];第一届学生计算语言学研讨会论文集[C];2002年

2 李生;;哈工大自然语言处理研究进展[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年

3 ;哈尔滨工业大学智能技术与自然语言处理研究室简介[A];中国中文信息学会第六次全国会员代表大会暨成立二十五周年学术会议中文信息处理重大成果汇报展资料汇编[C];2006年

4 冯志伟;;自然语言处理中的理性主义和经验主义[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年

5 宋柔;;自然语言处理中语言知识的基础性地位[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年

6 李文;程华良;彭耀;温明杰;肖威清;张陈斌;陈宗海;;自然语言处理云平台[A];系统仿真技术及其应用学术论文集(第15卷)[C];2014年

7 徐超;毕玉德;;面向自然语言处理的韩国语隐喻知识库构建研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

8 周国栋;孔芳;朱巧明;;指代消解:国内外研究现状及趋势[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年

9 ;SWCL-2006组织机构[A];第三届学生计算语言学研讨会论文集[C];2006年

10 张sソ,

本文编号:2333457


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2333457.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户3c803***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com