不同粒度下的话题表示生成方法研究

发布时间：2021-10-21 05:13

　　日前网络信息爆炸式增长,把信息按话题组织的同时,还需要将话题以简洁明了的方式展示给用户,通过有效简洁的文字表征话题（话题表示）,以使用户迅速了解话题大意,获取所需信息更高效。基于人工编写的精练话题表示虽然效果好,但耗时费力,目前自动生成的话题表示效果欠佳。事件是细粒度的话题,同样受关注。因此针对事件和话题两种不同粒度研究自动生成堪比人工编写的精练话题表示很有必要。本文研究事件和话题两种粒度的话题表示自动生成,事件和话题由多文档描述,旨在生成形式如热搜词的精练准确、语义明确完整、可读性好的话题表示,其比标题和摘要简洁。本文主要工作如下:（1）事件粒度的话题表示生成方法研究本文利用同一事件有不同的报道描述但它们内容往往高度相似的特点,提出一种抽取式的话题表示生成方法,把事件文档集中的标题作为处理对象,通过提取事件文档标题集中按原序组合的共性信息,并对这些共性信息筛选甚至压缩来生成该事件的话题表示。在真实事件数据上的实验结果表明该方法能较好地生成精练准确、语义明确完整且可读性好的话题表示。（2）话题粒度的话题表示生成方法研究本文针对话题由多个相关事件构成,其内容复杂、涵盖面广、动态变化但围绕...

【文章来源】：中国科学院大学(中国科学院大学人工智能学院)北京市

【文章页数】：90 页

【学位级别】：硕士

【部分图文】：

不同粒度下的话题表示生成方法研究

图１．２本文的组织结构??Ｆｉｇｕｒｅ?１．２?Ｔｈｅ?ｏｒｇａｎｉｚａｔｉｏｎａｌ?ｓｔｒｕｃｔｕｒｅ?ｏｆ?ｔｈｉｓ?ｔｈｅｓｉｓ??８??

序列,神经网络,机器翻译,隐藏层

?不同粒度下的话题表示生成方法研究???〇ＵｔＰＵｔ?Ｌ３ｙｅｒ?＾??—?Ｉ??图２．７循环神经网络??Ｆｉｇｕｒｅ?２．７?Ｒｅｃｕｒｒｅｎｔ?Ｎｅｕｒａｌ?Ｎｅｔｗｏｒｋ??循环神经网络在ｔ时刻隐藏层的状态ｈｔ的更新公式为：??ｈ，＝ｆ（Ｕｈ，＿ｌ＋Ｗｘ，＋ｂ）?（２－１７）??其中，向量ｊｃ，?ｅ，表示在ｔ时刻网络的输入，为状态输入权重矩??阵，ＡｅＴ？＂为偏置向量，／（？）为非线性激活函数。表明隐藏层状态ｈｔ不仅和当前??时刻的输入ｘｔ有关，也与上一时刻隐藏层的状态ｈＭ有关，即ＲＮＮ会对前面的??信息进行记忆学习并应用于当前输出的计算中。??ＲＮＮ的参数通过反向传播算法进行学习，当输入序列较长时，会存在梯度??爆炸或消失问题。为了解决上述问题，研究者对ＲＮＮ进行了改进，提出很多基??于ＲＮＮ的扩展模型，如：双向ＲＮＮ、长短期记忆网络ＬＳＴＭ?（Ｌｏｎｇ?Ｓｈｏｒｔ?Ｔｅｒｍ??Ｍｅｍｏｒｙ?Ｎｅｔｗｏｒｋ）、门控循环单元?ＧＲＵ?（Ｇａｔｅｄ?Ｒｅｃｕｒｒｅｎｔ?Ｕｎｉｔ）等。??２．５．２深度学习在自然语言处理中的应用??深度学习广泛应用于自然语言处理领域，涉及信息提娶文本匹配、问答系??统、机器翻译、自动文摘等多项任务。这里对深度学习在机器翻译和自动文摘的??工作进行简要回顾。??机器翻译（Ｍａｃｈｉｎｅ?ｔｒａｎｓｌａｔｉｏｎ，?ＭＴ）是自然语言处理中最典型的任务，它??是使用计算机将一种语言的文档自动翻译成另外一种语言。有研究者尝试在传统??的机器翻译框架中引入将神经网络语言模型［５Ｕ２１，并取得了显著提升。Ｓｕｔｓｋｅｖｅｒ??等人１５３］采用端到端的深度学习模型对文本进行翻译，首先

流程图,事件,粒度,古墓

?不同粒度下的话题表示生成方法研究???本研究以由多篇文档进行描述的事件作为研究对象，其研宄内容是事件粒度??的话题表示自动生成，即：输入事件的文档集合，输出该事件形式如热搜词的精??练话题表示。图３．１抽象展示了本研宄的研究内容。??［＝）——话题表示生成方法??？精练话题表示??苺件文档集??图３．１事件粒度的话题表示生成流程??Ｆｉｇｕｒｅ?３．１?Ｅｖｅｎｔ?ｇｒａｉｎｅｄ?ｔｏｐｉｃ?ｒｅｐｒｅｓｅｎｔａｔｉｏｎ?ｇｅｎｅｒａｔｉｏｎ?ｐｒｏｃｅｓｓ??本研宄具有以下难点：虽然事件下的多篇文档是相关的，都在报道同一件事，??但是由于报道的用语习惯以及表达方式的不同，对同一件事存在不同的描述。比??如，对于“清华大学发现古墓”这个事件，有“清华大学校园内发现近百座古墓，??暂未发现陪葬品”、“清华历史系师生热议发现古墓群：期待、兴奋”等相关报??道文章。表３．１展示了部分报道该事件的文章标题。那么，如何从文档集内不同??的描述中获得该事件的主要内容，如何保证生成的话题表示简短精练且有好的可??读性。??表３．１事件内的相关报道样例??Ｔａｂｌｅ?３．１?Ｅｘａｍｐｌｅｓ?ｏｆ?ｒｅｌａｔｅｄ?ｒｅｐｏｒｔｓ?ｉｎ?ｅｖｅｎｔ??事件：清华大学发现古墓??清华大学校内发现近百座古墓暂未发现陪葬品??Ｋ?清华历史系师生热议发现古墓群：期待、兴奋??ｉｔ????｜?清华大学发现古墓：几乎无陪葬品，墓主或为平民??白勺??标?＿?＇??题?清华大学校园内发现９５座古墓下面到底有什么？??据考古人员认定清华大学发现的古墓属于明清朝代??如果对事件的一组文档直接采用己有的关键词语抽娶自动

本文编号：3448315

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/shengwushengchang/3448315.html

上一篇：基于构造性覆盖的不平衡数据欠采样分类方法研究
下一篇：基于社团检测的粒子群优化特征选择算法的研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|