基于集成学习与主题记忆网络的营销意图识别的研究与应用
发布时间:2024-03-22 01:39
由于互联网信息的的高速发展,同时热爱新闻的人们不断上升,导致新闻传播的方式发生了变化。尽管现有的自媒体经营商已经针对安全的上网问题做出了巨大的贡献,但是网络具有开放性的特点,它仍然无法完全阻止网络恶意营销事件,因此识别营销意图是非常重要的。目前对于营销意图的主要研究是基于外部资源来进行有效的识别,但是由于外部资源难以获取的特性,一些意图识别的方法未被广泛的应用。通过参考国内外文献得知,现在营销意图识别主要的三种方法分别是:通过日志信息匹配的方式;以词典为模板的规则判断;基于分类的方法来进行意图识别。由于相应的数据集很难发现,导致日志信息和词典的方式很难自动化实现,因此分类的方法显得更为优越。由于短新闻文本数据的稀疏性,以及数据集规模庞大的特性,需要优化特征提取方式以及构建泛化能力强的分类模型是至关重要的。针对以上问题本文提出了基于集成学习和主题记忆网络的营销意图识别方法,做了如下的几点工作:(1)构建了LSI-Word2vec主题提取方式,由于Word2vec算法在文档表达方向具有优越性,建立LSI-Word2vec模型,使得算法优势被充分利用到特征提取过程中。(2)利用决策剪枝的策略...
【文章页数】:64 页
【学位级别】:硕士
【部分图文】:
本文编号:3934439
【文章页数】:64 页
【学位级别】:硕士
【部分图文】:
图1.1论文结构图
济南大学硕士学位论文5种组合方法的优点是既能反映语义信息,又能反映文本的主题,本文在3.3将会进行详细分析。(2)简化Stacking模型融合方式。使用剪枝后的Stacking模型可以减少集成学习的计算资源,提高学习效果,本文在3.4章节会详细分析。(3)改进了一种基于NTM的神....
图3.1营销意图识别框架
济南大学硕士学位论文17第三章基于集成学习的营销意图识别为了识别恶意营销意图,我们采用分类的措施来解决这一问题,为了处理大量数据的问题,采用集成学习的方式去判别恶意营销意图。首先本章先展示集成学习模型的整体框架,再根据每一个部分分别展开。3.1节提出Stacking模型识别营销意....
图3.2数据预处理流程
首先,从抓取的数据中删除HTML标签,按照Jieba的方式完成分词。首先,利用Trie树进行单词和图形的扫描工作,然后再利用句子中包含的所有可能存在的单词组合方式生成一个向无环图。利用动态规划的策略来获得2最大概率的路径,此方法能够发现基于词频的最大分割策略以及组合....
图3.3特征提取流程
济南大学硕士学位论文19映射的方法进行特征提龋通过Word2vec算法对分词阶段之后的数据完成训练步骤,把所有词语通过上下文函数映射到相应的低纬度实数的空间向量之中,然后利用词语的词性与词频来获得TF-IDF权值,Word2vec词向量与权值结合并且进行加权操作来生成文本向量,利....
本文编号:3934439
本文链接:https://www.wllwen.com/xinwenchuanbolunwen/3934439.html