交互式主题建模方法及其应用研究
发布时间:2021-10-31 18:39
随着社交媒体和移动互联网的发展,用户生成内容的速度越来越快,用户发布的文本数量也越来越多,使得网络信息飞速增长。对文本进行挖掘处理有着很重要的意义。近年来,主题建模方法成为文本挖掘的一个研究热点,但由于文本特征的复杂性,特别是面向短文本挖掘,主题模型还存在着许多挑战。本文以交互式主题建模方法为研究目标,以组合建模和不确定性推断为工具,研究基于人工交互的主题建模方法及其应用。主要研究思路如下:首先,考虑单人交互式主题建模方法,假设模型的参与者为单一的专家用户,以专家知识为背景研究单个用户与主题模型的交互策略,并基于专家的交互结果提出新的主题模型。然后,基于多个用户提供反馈的场景,考虑不同背景的用户知识,研究基于众包的主题建模方法。最后,基于单人交互式和多人交互式的主题建模方法,以用户角色发现和信息服务匹配为目标,研究交互式主题建模方法在不同场景下的应用。具体研究工作和创新点如下:(1)基于单人交互式主题建模方法。为了研究专家知识对主题建模的作用,本文提出了一种基于单人交互的主题模型。模型提供了多种交互策略,使专家可以根据初步的主题建模结果灵活地调整主题分布中令人困惑的单词,并采用了不同的...
【文章来源】:合肥工业大学安徽省 211工程院校 教育部直属院校
【文章页数】:113 页
【学位级别】:博士
【部分图文】:
图1.4ITM过程??Fig?l.4?The?process?of?ITM??
单词都可以支持用户对该主题的理解,-?些单词的存在与主题所表达的含义并不??相关。??图2.1显示了使用LDA在路透社语料库[44]中发现的两个主题。主题(a)的含义??是不明确的,因为该主题由关于疾病、生活、经济等单词的混合词组成。而对于??主题(b)来说,人们可以猜测主题(b)是生物医学新闻,但是,主题中的“right”和“float”??这些单词令人困惑。??s?t?rut?hers?wel?lefneyer??papyrus?end?T'ight?trademark??nasd?cancer?]1〇n?s?jckle?s;°^.??result?j3re-tax?,?del?hi??u—?Cyprus?cell?il〇dtCell?testi|i<7??,hare?lifestyle?eat?—rne?t?eSt??siemens?diagnosis?researcher??carcinossa?hunian?COf油..iCt?technology?gardini?current??contraceptive?berns?t?e?I?n??(a)?(b)??图2.1无意义的主题(a)和有意义的主题中包含了无意义的单词(b)??Fig?2.1?Two?topics?mined?from?Reuters?corpus??在线社交媒体的基本特征是言论自由,造成用户生成内容具有无规则性,进??而使主题一致性成为LDA及其改进模型的难题。为了评价主题的质量,Newman??等人引入了一种评估主题一致性的新指标coherence
人类知识被广泛证明是提高理论模型性能的有用因素。本章旨在将人类专家??的知识整合到主题模型中,并提出新的互动策略来挖掘高质量的主题。本章所提??出的iLDA模型的框架如图2.2所示。如图2.2所示,iLDA首先通过经典主题模型??生成初步的主题-单词分布,然后iLDA将选择需要被调整的主题,将该主题下最??高概率的单词列表呈现给专家,允许人类专家根据其背景知识调整该主题-单词分??布中不合理的单词,可以以一定的概率降低某个单词在主题中的概率。由于主题―??单词的分布是多项式分布,其概率总和为1,专家降低了不相关单词的概率后需要??增加其他相关单词的概率,因此模型将根据专家调整多出的概率部分分配到剩下??的单词中,进而生成基于专家知识背景的主观主题-单词分布。最终合并主观和客??观主题-单词分布以生成全面的主题词分布,用于探索下一代主题。重复交互过程,??直到获得一致且高质量的主题为止。??n?n?I??□?i|??:步骚一???计眞客观芏题???彡.纖布?- ̄ ̄—??!/?^?^???i要涊猶3纖?r??^?1—■r?????
【参考文献】:
期刊论文
[1]基于概率主题模型的物联网服务发现[J]. 魏强,金芝,许焱. 软件学报. 2014(08)
[2]基于LDA的微博文本主题建模方法研究述评[J]. 张培晶,宋蕾. 图书情报工作. 2012(24)
博士论文
[1]基于概率主题模型的情境建模方法研究[D]. 怀宝兴.中国科学技术大学 2014
[2]基于主题模型的用户建模研究[D]. 李文峰.北京邮电大学 2013
[3]基于主题模型和随机游走的标签技术研究[D]. 孙甲申.北京邮电大学 2013
[4]基于概率生成模型的文本主题建模及其应用[D]. 丁轶群.浙江大学 2010
本文编号:3468650
【文章来源】:合肥工业大学安徽省 211工程院校 教育部直属院校
【文章页数】:113 页
【学位级别】:博士
【部分图文】:
图1.4ITM过程??Fig?l.4?The?process?of?ITM??
单词都可以支持用户对该主题的理解,-?些单词的存在与主题所表达的含义并不??相关。??图2.1显示了使用LDA在路透社语料库[44]中发现的两个主题。主题(a)的含义??是不明确的,因为该主题由关于疾病、生活、经济等单词的混合词组成。而对于??主题(b)来说,人们可以猜测主题(b)是生物医学新闻,但是,主题中的“right”和“float”??这些单词令人困惑。??s?t?rut?hers?wel?lefneyer??papyrus?end?T'ight?trademark??nasd?cancer?]1〇n?s?jckle?s;°^.??result?j3re-tax?,?del?hi??u—?Cyprus?cell?il〇dtCell?testi|i<7??,hare?lifestyle?eat?—rne?t?eSt??siemens?diagnosis?researcher??carcinossa?hunian?COf油..iCt?technology?gardini?current??contraceptive?berns?t?e?I?n??(a)?(b)??图2.1无意义的主题(a)和有意义的主题中包含了无意义的单词(b)??Fig?2.1?Two?topics?mined?from?Reuters?corpus??在线社交媒体的基本特征是言论自由,造成用户生成内容具有无规则性,进??而使主题一致性成为LDA及其改进模型的难题。为了评价主题的质量,Newman??等人引入了一种评估主题一致性的新指标coherence
人类知识被广泛证明是提高理论模型性能的有用因素。本章旨在将人类专家??的知识整合到主题模型中,并提出新的互动策略来挖掘高质量的主题。本章所提??出的iLDA模型的框架如图2.2所示。如图2.2所示,iLDA首先通过经典主题模型??生成初步的主题-单词分布,然后iLDA将选择需要被调整的主题,将该主题下最??高概率的单词列表呈现给专家,允许人类专家根据其背景知识调整该主题-单词分??布中不合理的单词,可以以一定的概率降低某个单词在主题中的概率。由于主题―??单词的分布是多项式分布,其概率总和为1,专家降低了不相关单词的概率后需要??增加其他相关单词的概率,因此模型将根据专家调整多出的概率部分分配到剩下??的单词中,进而生成基于专家知识背景的主观主题-单词分布。最终合并主观和客??观主题-单词分布以生成全面的主题词分布,用于探索下一代主题。重复交互过程,??直到获得一致且高质量的主题为止。??n?n?I??□?i|??:步骚一???计眞客观芏题???彡.纖布?- ̄ ̄—??!/?^?^???i要涊猶3纖?r??^?1—■r?????
【参考文献】:
期刊论文
[1]基于概率主题模型的物联网服务发现[J]. 魏强,金芝,许焱. 软件学报. 2014(08)
[2]基于LDA的微博文本主题建模方法研究述评[J]. 张培晶,宋蕾. 图书情报工作. 2012(24)
博士论文
[1]基于概率主题模型的情境建模方法研究[D]. 怀宝兴.中国科学技术大学 2014
[2]基于主题模型的用户建模研究[D]. 李文峰.北京邮电大学 2013
[3]基于主题模型和随机游走的标签技术研究[D]. 孙甲申.北京邮电大学 2013
[4]基于概率生成模型的文本主题建模及其应用[D]. 丁轶群.浙江大学 2010
本文编号:3468650
本文链接:https://www.wllwen.com/jingjilunwen/xmjj/3468650.html