面向文本分类任务的主题强化词句嵌入模型研究
[Abstract]:In recent years, more and more attention has been paid to deep learning in the field of natural language processing. Neural language models and sentence embedding models based on deep learning have been proposed one after another. The advantages of low complexity have been widely studied and applied in academia and industry. However, it is obviously inappropriate to embed words and sentences that rely on the hypothesis of linguistic model distribution to be directly used in tasks such as text categorization, because the task of text categorization requires highly polar thematic features. The original sentence embedding model only captures the language rules and does not pay attention to the topic information mining. In order to make the word-sentence embedding model based on in-depth learning more suitable for the task of text classification, this paper proposes a topic enhancement model for the original model, which is expected to achieve higher text classification performance. Because a word with opposite semantic polarity may have similar local context, the original model can only use local context to train the distributed embedded representation of the word, so it is impossible to capture the semantic with opposite polarity. Therefore, this paper proposes to embed the long term context in the model with high order pure dependency, so as to enhance the emotional or topic information expressed by the distributed embedding of words and phrases, and then improve the performance of emotion analysis and topic mining tasks. The high-order pure dependency method has strict theoretical basis to ensure that the dependency between words in long term context is "pure", that is, word dependency is a complete semantic entity. And the joint probability distribution of words can not be decomposed by condition (and certainly not by non-conditional decomposition). This ensures that high-order word dependencies cannot be decomposed into several low-order dependencies of random co-occurrence, so that high-order pure dependencies can effectively model semantic rich, non-ambiguous subject information. In this paper, we apply the topic enhanced sentence embedding model to the emotional analysis and topic mining tasks based on the standard data set, which is superior to the performance of all the existing models. In the classification items of Chinese news corpus, compared with word bag model and LDA thematic model, linear and nonlinear classifiers are used, and the classification results are investigated from many angles. It is proved that the topic-enhanced word-sentence embedding model can compete with the existing mainstream text feature extraction methods.
【学位授予单位】:天津大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1
【相似文献】
相关期刊论文 前10条
1 李天铎;利用塑料模型设计高技术产品[J];管理科学文摘;1999年02期
2 高俊波;安博文;王晓峰;;在线论坛中潜在影响力主题的发现研究[J];计算机应用;2008年01期
3 吴玲达,谢毓湘,栾悉道,肖鹏;互联网多媒体主题信息自动收集与处理系统的研制[J];计算机应用研究;2005年05期
4 常跃中;;计算机在建筑模型设计中的应用[J];中国科技信息;2006年02期
5 王灏,王换招,刘洪斐;一个分布式入侵检测系统模型的设计[J];微机发展;2003年01期
6 蒋凡,高俊波,张敏,王煦法;BBS中主题发现原型系统的设计与实现[J];计算机工程与应用;2005年31期
7 刘洪星;陈明;;PowerDesigner设计XER模型的方法[J];武汉理工大学学报(信息与管理工程版);2006年02期
8 ;其它计算机与系统[J];电子科技文摘;2003年01期
9 ;TV Game秀[J];网络与信息;2004年01期
10 周亦鹏;杜军平;;基于时空情境模型的主题跟踪[J];华南理工大学学报(自然科学版);2012年08期
相关会议论文 前10条
1 马智;杜雪涛;罗枫;;基于模式的网络资源模型设计[A];中国通信学会信息通信网络技术委员会2009年年会论文集(上册)[C];2009年
2 张霖;;面向复杂系统仿真的模型工程[A];新观点新学说学术沙龙文集58:复杂系统建模仿真中的困惑和思考[C];2011年
3 吴晨;宋丹;薛德军;师庆辉;;科技主题识别及表示[A];第五届全国信息检索学术会议论文集[C];2009年
4 熊方;王晓宇;郑骏;周傲英;;ITED:一种基于链接的主题提取和主题发现系统[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
5 王玉婷;杜亚军;涂腾涛;;基于Web链接的主题爬行虫初始URL的研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
6 李洪波;;从业务需求分析到软件业务模型设计[A];创新驱动,加快战略性新兴产业发展——吉林省第七届科学技术学术年会论文集(上)[C];2012年
7 宁晓莉;尤扬;葛培勤;;基于状态的Fuzz测试模型设计与实现[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
8 李韬;周亮;;一种多属性识别的模型设计[A];2008年中国西部青年通信学术会议论文集[C];2008年
9 鲍培明;;XML的语义结构模型设计[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
10 冯少卿;都云程;施水才;;基于模板的网页主题信息抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
相关重要报纸文章 前5条
1 关石;层次化模型[N];计算机世界;2001年
2 本报记者 刘玉杰;模型艺术:寓于建筑 超越建筑[N];建筑时报;2003年
3 邱桂奇;品筑模型:创新第一 服务制胜[N];中国房地产报;2012年
4 记者 李鹏;邬荣领:能预测生物未来的人[N];北京科技报;2012年
5 记者 沙星海 见习记者 毛玺玺;一大学生开发出解决业内难题软件[N];平顶山日报;2010年
相关博士学位论文 前8条
1 余化鹏;复杂场景下的目标检测技术研究[D];电子科技大学;2015年
2 杨肖;基于主题的互联网信息抓取研究[D];浙江大学;2014年
3 马威;云计算环境中高保证隔离模型及关键技术研究[D];北京交通大学;2016年
4 赵一鸣;基于多维尺度分析的潜在主题可视化研究[D];华中师范大学;2013年
5 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年
6 薛利;面向证券应用的WEB主题观点挖掘若干关键问题研究[D];复旦大学;2013年
7 陶军;基于非合作博弈模型的QoS分配中关键技术的研究[D];东南大学;2005年
8 周厚奎;概率主题模型的研究及其在多媒体主题发现和演化中的应用[D];浙江大学;2017年
相关硕士学位论文 前10条
1 邢宁;面向文本分类任务的主题强化词句嵌入模型研究[D];天津大学;2016年
2 葛丽娟;基于出租汽车运营数据的交通基础模型研究及计算[D];长安大学;2015年
3 刘轩;最优统计套利模型[D];上海交通大学;2015年
4 郑茂;篇章级联想模型的研究与实现[D];哈尔滨工业大学;2015年
5 解琰;主题优化过滤方法研究与应用[D];大连海事大学;2015年
6 杨春艳;基于语义和引用加权的文献主题提取研究[D];浙江大学;2015年
7 卢洋;基于主题模型的混合推荐算法研究[D];电子科技大学;2014年
8 黄志;基于维基歧义页的搜索结果聚类方法研究[D];北京理工大学;2015年
9 王亮;基于主题模型的文本挖掘的研究[D];大连理工大学;2015年
10 任昱凤;基于Hadoop的分布式主题爬虫及其实现[D];陕西师范大学;2015年
,本文编号:2383992
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2383992.html