基于条件随机场与改进LSTM的短文本挖掘研究

发布时间:2024-06-03 02:07
  随着互联网技术的不断发展,诸如微博、QQ、微信等社交平台,京东、淘宝等网购平台,可以说互联网的产物层出不穷。而在日常生活中,人们日渐频繁的上网行为,通过这些平台发布的评论形成了散布在互联网中数量级巨大的短文本数据。挖掘这些短文本数据中蕴含的丰富情感观点以及态度,对于政府部门进行舆情监控、卖家制定营销策略以及买家做出购买决定等具有重要且明确地指导意义。短文本数据往往呈现出篇幅较短,上下文特征稀疏以及语言表达口语化等特点,这为短文本数据挖掘带来了巨大的挑战。近年来,条件随机场与深度学习模型在图像处理、文本挖掘以及个性化推荐系统等领域的应用越来越广泛。条件随机场是一种基于条件概率分布的模型,克服了标注数据时常见的标记偏差问题,可以有效地提取评论文本中包含的评价对象等相关信息,而深度学习模型可以在弱监督下,主动学习评论文本中包含的情感倾向信息,这些优势决定了两种模型在短文本挖掘领域受到的关注度越来越高。由于评论文本体现出的情感倾向,与文本中的评价对象有着密切的联系,本文在条件随机场与深度学习模型的基础上,分别提出了针对于短文本评价对象识别与情感分析两个方面的短文本挖掘方法。本文的工作主要有:(...

【文章页数】:89 页

【学位级别】:硕士

【部分图文】:

图3-4预处理过程所需的LTP组件Figure3-4LTPComponentsrequiredforpreprocessing如上述例句:“手机外观很好看,发货很快

图3-4预处理过程所需的LTP组件Figure3-4LTPComponentsrequiredforpreprocessing如上述例句:“手机外观很好看,发货很快

图3-4预处理过程所需的LTP组件Figure3-4LTPComponentsrequiredforpreprocessing如上述例句:“手机外观很好看,发货很快。”。1.分词结果:“手机外观很好看发货很快”。2.词性标注结果:“手机/n外观/....


图3-5实验中所需以及生成的文件Figure3-5Documentsneededandgeneratedintheexperiment

图3-5实验中所需以及生成的文件Figure3-5Documentsneededandgeneratedintheexperiment

合适的特征模板;实验二,在实验一选定较合适的特征模板的基础上,首先验证语义特征在识别评价对象任务中的有效性;其次,在其他特征组合的基础上引入语义特征,目的是为了验证引入语义特征是否能够改善识别的效率。本文实现条件随机场模型使用的是C++环境中的外部集成工具CRF++_0.58....


图4-3生成词向量各参数设置Figure4-3TheParameterSettingsofGeneratingWordVector

图4-3生成词向量各参数设置Figure4-3TheParameterSettingsofGeneratingWordVector

图4-2词向量生成原理图Figure4-2TheSchematicDiagramofWordVectorGeneration本文通过Python中的gensim模块实现Word2vec,将文本中的词语训练生成词向量。由于实验主要针对的是评论短文本,短....


图4-5实验中Attention层的python程序实现Figure4-5PythonProgramImplementationofAttentionLayerinExperiments

图4-5实验中Attention层的python程序实现Figure4-5PythonProgramImplementationofAttentionLayerinExperiments

图4-5实验中Attention层的python程序实现Figure4-5PythonProgramImplementationofAttentionLayerinExperiments4.1.4Softmax层Softmax层是模型的最后一个模....



本文编号:3988013

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3988013.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户36309***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com