当前位置:主页 > 科技论文 > 软件论文 >

面向文本分类任务的主题强化词句嵌入模型研究

发布时间:2018-12-17 09:02
【摘要】:近年来,深度学习在自然语言处理领域受到了更多的重视,基于深度学习的神经语言模型和词句嵌入模型相继被提出,这类模型以其高准确率、低复杂度的优点被学术界和工业界广泛研究和应用。然而,将原本依赖语言模型分布假设的词句嵌入模型直接用于文本分类等任务,显然是不合适的,因为文本分类任务所需要的是高极性的主题特征,而原词句嵌入模型只是单纯的捕捉语言规律,没有重视主题信息的挖掘。为了使基于深度学习的词句嵌入模型更加适合应用到文本分类任务中,本文对原模型进行主题强化,提出了主题强化的词句嵌入模型,期望获得更高的文本分类性能。由于语义极性相反的单词可能拥有相似的局部上下文,而原模型只利用局部上下文训练该单词的分布式嵌入表示,是无法捕捉到具有相反极性的语义的。因此,本文提出用高阶纯依赖建模词句嵌入模型中的长程上下文,从而加强词句分布式嵌入表示的情感或者主题信息,进而提高情感分析和主题挖掘任务的性能。高阶纯依赖方法有严格的理论依据保证长程上下文单词间的依赖是“纯”的,即单词依赖是一个完整的语义实体,并且单词的联合概率分布不能够被条件分解(当然也不能被非条件分解)。这样保证了高阶的单词依赖不能够分解成几个低阶依赖的随机共现,从而高阶纯依赖可以有效地建模出语义丰富的、非歧义的主题信息。本文将主题强化的词句嵌入模型应用到基于标准数据集的情感分析和主题挖掘任务中,均超过了所有现有模型的性能。在中文新闻语料的分类项目中,与词袋模型、LDA主题模型特征作对比,分别应用了线性和非线性分类器,从多角度调研了其分类结果,证明了主题强化的词句嵌入模型完全可以与现有主流文本特征提取方法相竞争。
[Abstract]:In recent years, more and more attention has been paid to deep learning in the field of natural language processing. Neural language models and sentence embedding models based on deep learning have been proposed one after another. The advantages of low complexity have been widely studied and applied in academia and industry. However, it is obviously inappropriate to embed words and sentences that rely on the hypothesis of linguistic model distribution to be directly used in tasks such as text categorization, because the task of text categorization requires highly polar thematic features. The original sentence embedding model only captures the language rules and does not pay attention to the topic information mining. In order to make the word-sentence embedding model based on in-depth learning more suitable for the task of text classification, this paper proposes a topic enhancement model for the original model, which is expected to achieve higher text classification performance. Because a word with opposite semantic polarity may have similar local context, the original model can only use local context to train the distributed embedded representation of the word, so it is impossible to capture the semantic with opposite polarity. Therefore, this paper proposes to embed the long term context in the model with high order pure dependency, so as to enhance the emotional or topic information expressed by the distributed embedding of words and phrases, and then improve the performance of emotion analysis and topic mining tasks. The high-order pure dependency method has strict theoretical basis to ensure that the dependency between words in long term context is "pure", that is, word dependency is a complete semantic entity. And the joint probability distribution of words can not be decomposed by condition (and certainly not by non-conditional decomposition). This ensures that high-order word dependencies cannot be decomposed into several low-order dependencies of random co-occurrence, so that high-order pure dependencies can effectively model semantic rich, non-ambiguous subject information. In this paper, we apply the topic enhanced sentence embedding model to the emotional analysis and topic mining tasks based on the standard data set, which is superior to the performance of all the existing models. In the classification items of Chinese news corpus, compared with word bag model and LDA thematic model, linear and nonlinear classifiers are used, and the classification results are investigated from many angles. It is proved that the topic-enhanced word-sentence embedding model can compete with the existing mainstream text feature extraction methods.
【学位授予单位】:天津大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1

【相似文献】

相关期刊论文 前10条

1 李天铎;利用塑料模型设计高技术产品[J];管理科学文摘;1999年02期

2 高俊波;安博文;王晓峰;;在线论坛中潜在影响力主题的发现研究[J];计算机应用;2008年01期

3 吴玲达,谢毓湘,栾悉道,肖鹏;互联网多媒体主题信息自动收集与处理系统的研制[J];计算机应用研究;2005年05期

4 常跃中;;计算机在建筑模型设计中的应用[J];中国科技信息;2006年02期

5 王灏,王换招,刘洪斐;一个分布式入侵检测系统模型的设计[J];微机发展;2003年01期

6 蒋凡,高俊波,张敏,王煦法;BBS中主题发现原型系统的设计与实现[J];计算机工程与应用;2005年31期

7 刘洪星;陈明;;PowerDesigner设计XER模型的方法[J];武汉理工大学学报(信息与管理工程版);2006年02期

8 ;其它计算机与系统[J];电子科技文摘;2003年01期

9 ;TV Game秀[J];网络与信息;2004年01期

10 周亦鹏;杜军平;;基于时空情境模型的主题跟踪[J];华南理工大学学报(自然科学版);2012年08期

相关会议论文 前10条

1 马智;杜雪涛;罗枫;;基于模式的网络资源模型设计[A];中国通信学会信息通信网络技术委员会2009年年会论文集(上册)[C];2009年

2 张霖;;面向复杂系统仿真的模型工程[A];新观点新学说学术沙龙文集58:复杂系统建模仿真中的困惑和思考[C];2011年

3 吴晨;宋丹;薛德军;师庆辉;;科技主题识别及表示[A];第五届全国信息检索学术会议论文集[C];2009年

4 熊方;王晓宇;郑骏;周傲英;;ITED:一种基于链接的主题提取和主题发现系统[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年

5 王玉婷;杜亚军;涂腾涛;;基于Web链接的主题爬行虫初始URL的研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年

6 李洪波;;从业务需求分析到软件业务模型设计[A];创新驱动,加快战略性新兴产业发展——吉林省第七届科学技术学术年会论文集(上)[C];2012年

7 宁晓莉;尤扬;葛培勤;;基于状态的Fuzz测试模型设计与实现[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年

8 李韬;周亮;;一种多属性识别的模型设计[A];2008年中国西部青年通信学术会议论文集[C];2008年

9 鲍培明;;XML的语义结构模型设计[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年

10 冯少卿;都云程;施水才;;基于模板的网页主题信息抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

相关重要报纸文章 前5条

1 关石;层次化模型[N];计算机世界;2001年

2 本报记者 刘玉杰;模型艺术:寓于建筑 超越建筑[N];建筑时报;2003年

3 邱桂奇;品筑模型:创新第一 服务制胜[N];中国房地产报;2012年

4 记者 李鹏;邬荣领:能预测生物未来的人[N];北京科技报;2012年

5 记者 沙星海 见习记者 毛玺玺;一大学生开发出解决业内难题软件[N];平顶山日报;2010年

相关博士学位论文 前8条

1 余化鹏;复杂场景下的目标检测技术研究[D];电子科技大学;2015年

2 杨肖;基于主题的互联网信息抓取研究[D];浙江大学;2014年

3 马威;云计算环境中高保证隔离模型及关键技术研究[D];北京交通大学;2016年

4 赵一鸣;基于多维尺度分析的潜在主题可视化研究[D];华中师范大学;2013年

5 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年

6 薛利;面向证券应用的WEB主题观点挖掘若干关键问题研究[D];复旦大学;2013年

7 陶军;基于非合作博弈模型的QoS分配中关键技术的研究[D];东南大学;2005年

8 周厚奎;概率主题模型的研究及其在多媒体主题发现和演化中的应用[D];浙江大学;2017年

相关硕士学位论文 前10条

1 邢宁;面向文本分类任务的主题强化词句嵌入模型研究[D];天津大学;2016年

2 葛丽娟;基于出租汽车运营数据的交通基础模型研究及计算[D];长安大学;2015年

3 刘轩;最优统计套利模型[D];上海交通大学;2015年

4 郑茂;篇章级联想模型的研究与实现[D];哈尔滨工业大学;2015年

5 解琰;主题优化过滤方法研究与应用[D];大连海事大学;2015年

6 杨春艳;基于语义和引用加权的文献主题提取研究[D];浙江大学;2015年

7 卢洋;基于主题模型的混合推荐算法研究[D];电子科技大学;2014年

8 黄志;基于维基歧义页的搜索结果聚类方法研究[D];北京理工大学;2015年

9 王亮;基于主题模型的文本挖掘的研究[D];大连理工大学;2015年

10 任昱凤;基于Hadoop的分布式主题爬虫及其实现[D];陕西师范大学;2015年



本文编号:2383992

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2383992.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户02d53***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com