不同粒度下的话题表示生成方法研究
发布时间:2021-10-21 05:13
日前网络信息爆炸式增长,把信息按话题组织的同时,还需要将话题以简洁明了的方式展示给用户,通过有效简洁的文字表征话题(话题表示),以使用户迅速了解话题大意,获取所需信息更高效。基于人工编写的精练话题表示虽然效果好,但耗时费力,目前自动生成的话题表示效果欠佳。事件是细粒度的话题,同样受关注。因此针对事件和话题两种不同粒度研究自动生成堪比人工编写的精练话题表示很有必要。本文研究事件和话题两种粒度的话题表示自动生成,事件和话题由多文档描述,旨在生成形式如热搜词的精练准确、语义明确完整、可读性好的话题表示,其比标题和摘要简洁。本文主要工作如下:(1)事件粒度的话题表示生成方法研究本文利用同一事件有不同的报道描述但它们内容往往高度相似的特点,提出一种抽取式的话题表示生成方法,把事件文档集中的标题作为处理对象,通过提取事件文档标题集中按原序组合的共性信息,并对这些共性信息筛选甚至压缩来生成该事件的话题表示。在真实事件数据上的实验结果表明该方法能较好地生成精练准确、语义明确完整且可读性好的话题表示。(2)话题粒度的话题表示生成方法研究本文针对话题由多个相关事件构成,其内容复杂、涵盖面广、动态变化但围绕...
【文章来源】:中国科学院大学(中国科学院大学人工智能学院)北京市
【文章页数】:90 页
【学位级别】:硕士
【部分图文】:
图1.2本文的组织结构??Figure?1.2?The?organizational?structure?of?this?thesis??8??
?不同粒度下的话题表示生成方法研究???〇UtPUt?L3yer?^??—?I??图2.7循环神经网络??Figure?2.7?Recurrent?Neural?Network??循环神经网络在t时刻隐藏层的状态ht的更新公式为:??h,=f(Uh,_l+Wx,+b)?(2-17)??其中,向量jc,?e,表示在t时刻网络的输入,为状态输入权重矩??阵,AeT?"为偏置向量,/(?)为非线性激活函数。表明隐藏层状态ht不仅和当前??时刻的输入xt有关,也与上一时刻隐藏层的状态hM有关,即RNN会对前面的??信息进行记忆学习并应用于当前输出的计算中。??RNN的参数通过反向传播算法进行学习,当输入序列较长时,会存在梯度??爆炸或消失问题。为了解决上述问题,研究者对RNN进行了改进,提出很多基??于RNN的扩展模型,如:双向RNN、长短期记忆网络LSTM?(Long?Short?Term??Memory?Network)、门控循环单元?GRU?(Gated?Recurrent?Unit)等。??2.5.2深度学习在自然语言处理中的应用??深度学习广泛应用于自然语言处理领域,涉及信息提娶文本匹配、问答系??统、机器翻译、自动文摘等多项任务。这里对深度学习在机器翻译和自动文摘的??工作进行简要回顾。??机器翻译(Machine?translation,?MT)是自然语言处理中最典型的任务,它??是使用计算机将一种语言的文档自动翻译成另外一种语言。有研究者尝试在传统??的机器翻译框架中引入将神经网络语言模型[5U21,并取得了显著提升。Sutskever??等人153]采用端到端的深度学习模型对文本进行翻译,首先
?不同粒度下的话题表示生成方法研究???本研究以由多篇文档进行描述的事件作为研究对象,其研宄内容是事件粒度??的话题表示自动生成,即:输入事件的文档集合,输出该事件形式如热搜词的精??练话题表示。图3.1抽象展示了本研宄的研究内容。??[=)——话题表示生成方法???精练话题表示??苺件文档集??图3.1事件粒度的话题表示生成流程??Figure?3.1?Event?grained?topic?representation?generation?process??本研宄具有以下难点:虽然事件下的多篇文档是相关的,都在报道同一件事,??但是由于报道的用语习惯以及表达方式的不同,对同一件事存在不同的描述。比??如,对于“清华大学发现古墓”这个事件,有“清华大学校园内发现近百座古墓,??暂未发现陪葬品”、“清华历史系师生热议发现古墓群:期待、兴奋”等相关报??道文章。表3.1展示了部分报道该事件的文章标题。那么,如何从文档集内不同??的描述中获得该事件的主要内容,如何保证生成的话题表示简短精练且有好的可??读性。??表3.1事件内的相关报道样例??Table?3.1?Examples?of?related?reports?in?event??事件:清华大学发现古墓??清华大学校内发现近百座古墓暂未发现陪葬品??K?清华历史系师生热议发现古墓群:期待、兴奋??it????|?清华大学发现古墓:几乎无陪葬品,墓主或为平民??白勺??标?_?'??题?清华大学校园内发现95座古墓下面到底有什么???据考古人员认定清华大学发现的古墓属于明清朝代??如果对事件的一组文档直接采用己有的关键词语抽娶自动
本文编号:3448315
【文章来源】:中国科学院大学(中国科学院大学人工智能学院)北京市
【文章页数】:90 页
【学位级别】:硕士
【部分图文】:
图1.2本文的组织结构??Figure?1.2?The?organizational?structure?of?this?thesis??8??
?不同粒度下的话题表示生成方法研究???〇UtPUt?L3yer?^??—?I??图2.7循环神经网络??Figure?2.7?Recurrent?Neural?Network??循环神经网络在t时刻隐藏层的状态ht的更新公式为:??h,=f(Uh,_l+Wx,+b)?(2-17)??其中,向量jc,?e,表示在t时刻网络的输入,为状态输入权重矩??阵,AeT?"为偏置向量,/(?)为非线性激活函数。表明隐藏层状态ht不仅和当前??时刻的输入xt有关,也与上一时刻隐藏层的状态hM有关,即RNN会对前面的??信息进行记忆学习并应用于当前输出的计算中。??RNN的参数通过反向传播算法进行学习,当输入序列较长时,会存在梯度??爆炸或消失问题。为了解决上述问题,研究者对RNN进行了改进,提出很多基??于RNN的扩展模型,如:双向RNN、长短期记忆网络LSTM?(Long?Short?Term??Memory?Network)、门控循环单元?GRU?(Gated?Recurrent?Unit)等。??2.5.2深度学习在自然语言处理中的应用??深度学习广泛应用于自然语言处理领域,涉及信息提娶文本匹配、问答系??统、机器翻译、自动文摘等多项任务。这里对深度学习在机器翻译和自动文摘的??工作进行简要回顾。??机器翻译(Machine?translation,?MT)是自然语言处理中最典型的任务,它??是使用计算机将一种语言的文档自动翻译成另外一种语言。有研究者尝试在传统??的机器翻译框架中引入将神经网络语言模型[5U21,并取得了显著提升。Sutskever??等人153]采用端到端的深度学习模型对文本进行翻译,首先
?不同粒度下的话题表示生成方法研究???本研究以由多篇文档进行描述的事件作为研究对象,其研宄内容是事件粒度??的话题表示自动生成,即:输入事件的文档集合,输出该事件形式如热搜词的精??练话题表示。图3.1抽象展示了本研宄的研究内容。??[=)——话题表示生成方法???精练话题表示??苺件文档集??图3.1事件粒度的话题表示生成流程??Figure?3.1?Event?grained?topic?representation?generation?process??本研宄具有以下难点:虽然事件下的多篇文档是相关的,都在报道同一件事,??但是由于报道的用语习惯以及表达方式的不同,对同一件事存在不同的描述。比??如,对于“清华大学发现古墓”这个事件,有“清华大学校园内发现近百座古墓,??暂未发现陪葬品”、“清华历史系师生热议发现古墓群:期待、兴奋”等相关报??道文章。表3.1展示了部分报道该事件的文章标题。那么,如何从文档集内不同??的描述中获得该事件的主要内容,如何保证生成的话题表示简短精练且有好的可??读性。??表3.1事件内的相关报道样例??Table?3.1?Examples?of?related?reports?in?event??事件:清华大学发现古墓??清华大学校内发现近百座古墓暂未发现陪葬品??K?清华历史系师生热议发现古墓群:期待、兴奋??it????|?清华大学发现古墓:几乎无陪葬品,墓主或为平民??白勺??标?_?'??题?清华大学校园内发现95座古墓下面到底有什么???据考古人员认定清华大学发现的古墓属于明清朝代??如果对事件的一组文档直接采用己有的关键词语抽娶自动
本文编号:3448315
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3448315.html
最近更新
教材专著