基于信息提取技术对文本命名实体识别和主题提取的工程构建
发布时间:2022-01-27 19:18
本论文根据目前新闻检索领域遇到的问题,针对性的提出解决方案。在新闻搜索和推荐过程中,作者发现,人们往往关注于新闻中出现的人物、新闻发生的地点、以及新闻中出现的组织。如果新闻系统获取到了新闻中的人物、地点和组织,那通过这样的方法就可以来向最近关注过本新闻中出现的人物、地点和组织的读者推荐当前新闻。在新闻搜索过程中,如果用户直接搜索新闻中出现的关键词,如人、地、组织等,系统就可以及时作出响应,降低了检索花费的时间。本文主要内容分为两个部分。第一部分作为新闻本文语料信息抽取的模型的研究,制定了新闻本文语料需要抽取的三个主要部分为新闻的实体、主题和摘要的方案。首先,本文分析了传统的命名实体识别模型存在的问题,提出了基于BI-LSTM和CRF组合的算法结构的解决方案,并对命名实体识别模型的个性化识别进行定制化的训练,经验证该方法可以有效的提取出个性化需要的实体。其次,本文分析了以LDA为例的主题抽取方法的原理以及存在的问题,提出了循环神经网络结构训练词向量的方法解决不同语境下词语存在相似含义的解决方案,并且根据解决方案进行了相关的实验验证。最后,本文提出了一种训练循环神经网络词向量和排序结合的方...
【文章来源】:北京交通大学北京市211工程院校教育部直属院校
【文章页数】:87 页
【学位级别】:硕士
【部分图文】:
主题提取模型矩阵计算示意图
主题模型计算的向童图
LDA抽取三层示意图
【参考文献】:
期刊论文
[1]基于word2vec和TF-IDF算法实现酒店评论的个性化推送[J]. 张雷. 电脑与信息技术. 2017(06)
[2]基于主题词的微博热点话题发现[J]. 叶成绪,杨萍,刘少鹏. 计算机应用与软件. 2016(02)
[3]基于频繁项集的海量短文本聚类与主题抽取[J]. 彭敏,黄佳佳,朱佳晖,黄济民,刘纪平. 计算机研究与发展. 2015(09)
[4]基于LDA模型的文本聚类研究[J]. 王鹏,高铖,陈晓美. 情报科学. 2015(01)
[5]基于时空主题模型的微博主题提取[J]. 段炼,呙维,朱欣焰,胡宝清. 武汉大学学报(信息科学版). 2014(02)
[6]基于文本聚类与LDA相融合的微博主题检索模型研究[J]. 唐晓波,房小可. 情报理论与实践. 2013(08)
[7]一种基于LDA的在线主题演化挖掘模型[J]. 崔凯,周斌,贾焰,梁政. 计算机科学. 2010(11)
[8]基于降维的短信文本语义分类及主题提取[J]. 刘金岭. 计算机工程与应用. 2010(23)
[9]命名实体识别研究进展综述[J]. 孙镇,王惠临. 现代图书情报技术. 2010(06)
[10]一种基于字同现频率的汉语文本主题抽取方法[J]. 马颖华,王永成,苏贵洋,张宇萌. 计算机研究与发展. 2003(06)
硕士论文
[1]基于LSTM的语义关系分类研究[D]. 胡新辰.哈尔滨工业大学 2015
[2]基于中文微博的热点事件情感倾向分析[D]. 王潇天.北京邮电大学 2015
[3]中文命名实体识别粒度和特征选择研究[D]. 刘章勋.哈尔滨工业大学 2010
本文编号:3612945
【文章来源】:北京交通大学北京市211工程院校教育部直属院校
【文章页数】:87 页
【学位级别】:硕士
【部分图文】:
主题提取模型矩阵计算示意图
主题模型计算的向童图
LDA抽取三层示意图
【参考文献】:
期刊论文
[1]基于word2vec和TF-IDF算法实现酒店评论的个性化推送[J]. 张雷. 电脑与信息技术. 2017(06)
[2]基于主题词的微博热点话题发现[J]. 叶成绪,杨萍,刘少鹏. 计算机应用与软件. 2016(02)
[3]基于频繁项集的海量短文本聚类与主题抽取[J]. 彭敏,黄佳佳,朱佳晖,黄济民,刘纪平. 计算机研究与发展. 2015(09)
[4]基于LDA模型的文本聚类研究[J]. 王鹏,高铖,陈晓美. 情报科学. 2015(01)
[5]基于时空主题模型的微博主题提取[J]. 段炼,呙维,朱欣焰,胡宝清. 武汉大学学报(信息科学版). 2014(02)
[6]基于文本聚类与LDA相融合的微博主题检索模型研究[J]. 唐晓波,房小可. 情报理论与实践. 2013(08)
[7]一种基于LDA的在线主题演化挖掘模型[J]. 崔凯,周斌,贾焰,梁政. 计算机科学. 2010(11)
[8]基于降维的短信文本语义分类及主题提取[J]. 刘金岭. 计算机工程与应用. 2010(23)
[9]命名实体识别研究进展综述[J]. 孙镇,王惠临. 现代图书情报技术. 2010(06)
[10]一种基于字同现频率的汉语文本主题抽取方法[J]. 马颖华,王永成,苏贵洋,张宇萌. 计算机研究与发展. 2003(06)
硕士论文
[1]基于LSTM的语义关系分类研究[D]. 胡新辰.哈尔滨工业大学 2015
[2]基于中文微博的热点事件情感倾向分析[D]. 王潇天.北京邮电大学 2015
[3]中文命名实体识别粒度和特征选择研究[D]. 刘章勋.哈尔滨工业大学 2010
本文编号:3612945
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3612945.html