概率主题模型的研究及其在多媒体主题发现和演化中的应用
本文关键词:概率主题模型的研究及其在多媒体主题发现和演化中的应用
更多相关文章: 主题演化 主题模型 随机游走 运动模式 异常检测
【摘要】:随着信息技术、互联网和数据库技术的发展,人们积累的数据不断增加,信息泛滥问题日益严重。如何从大量的数据集中发现用户感兴趣的热点主题以及这些主题随时间发展演化的情况,逐渐成为这个信息爆炸时代的重要问题。搜索引擎的出现为人们从海量的存档数据中快速检索和寻找有用信息提供了一种有效途径。然而,搜索引擎所返回的搜索结果往往是零碎的非结构化的信息,它不能反映整个主题随时间发展演化的情况。随着以LDA为代表的概率主题模型的出现,各种主题发现和演化的研究大量涌现,为解决热点主题的发现和主题随时间的演化等问题提供了很好的途径。近十年来,概率概率主题模型的研究越来越受到数据挖掘和知识发现领域研究者的重视,相关研究成果也在文本、图像和视频数据处理上获得了广泛的应用,取得了不少进展,但也存在一些问题。例如,各种概率主题模型的对比分析、归纳总结的综合性分析还很少出现;在科研文献的主题发现和演化分析研究中,利用结构化的数据中的多种信息源来发现主题和跟踪主题的演化研究方面还不够深入;跟踪不同主题之间的相互演化的研究还未出现;概率主题模型在交通视频的运动模式发现和异常行为检测上的应用还很不完善。针对这些问题,本文首先对各种概率主题模型中的典型模型进行了综述分析和对比研究;在此基础上,针对科研文献数据中广泛存在的多源结构化信息,提出了一种内容和引用信息相结合的概率主题模型,并应用到科研文献的主题发现和跟踪中;其次,提出了一种新的基于随机游走模型的主题演化图构建算法,解决了不同主题之间的演化问题;最后,提出了一种两层结构的非参数化的概率主题模型,并应用到交通视频中的运动模式识别和异常行为检测中。论文的主要工作和研究成果如下:(1)对最新的各种不同类型的概率主题模型进行了综述分析。首先根据模型对时间变量处理的特点,将其分为三类典型模型——离散时间主题模型、连续时间主题模型和在线式的主题模型。其次,分别对这三类模型的特点进行了总结,并选取每类模型中的典型模型进行了详细的分析,包括模型的建模过程、模型特点以及各种模型的优缺点。针对各类概率主题模型的对比实验问题,分析了模型性能比较的各种可能方法,并总结了两种有效的性能指标——困惑度值和sKL散度值。分别对三类主题模型中的典型模型,在两个典型的科研文献数据库上进行了对比实验研究,通过对比实验验证了综述分析中对各种模型特点的分析。(2)提出了一种Citation-Content-LDA主题模型,该模型在一个概率主题模型中综合利用文档的文本信息和文档之间的引用信息来进行主题的建模。该Citation-Content-LDA模型是一种两层的主题模型,其分别利用引用信息来生成“父主题”和文本信息生成“子主题”,在此基础上还实现了主题跟踪算法,并利用吉布斯采样算法来求解模型的参数。通过在两个典型的科研文献数据集上的对比实验研究,验证了该模型的有效性和优越性。(3)提出了一种基于主题分割和主题关系度量的主题演化图的构建算法。针对不同主题之间的演化问题,在Citation-Content-LDA模型发现的主题的基础上,利用主题中文档的时间信息进行主题的分割,解决了主题对齐的问题;提出了一种基于随机游走的主题关系度量算法,借鉴PageRank算法的思想,建立主题之间关联关系的有向无环图,并通过对图的随机游走遍历实现了主题之间关系的概率度量,最终实现了不同主题之间演化关系图的构建算法。通过在两个典型的科研文献数据集上的实验,分别得到了这两个数据集上不同主题之间的演化图。(4)提出了一种非参数化的两层结构的主题模型,应用于交通视频数据的运动模式识别和异常行为检测。该两层结构的非参数化的主题模型能够自动确定每层的主题数量,可分别提取出交通视频中的局部主题(视觉活动)和全局主题(交通模式)。提出了一种基于该两层模型的似然函数的视频异常行为检测算法,在交通视频异常行为检测中取得了比现有方法更好的结果。
【学位授予单位】:浙江大学
【学位级别】:博士
【学位授予年份】:2017
【分类号】:TP391.1
【相似文献】
中国期刊全文数据库 前10条
1 侯锋军,何克清;CWM多维元模型中键的定义方法[J];计算机工程;2005年06期
2 祝义;AMVC模型的设计与应用[J];福建电脑;2005年11期
3 胡长城;;现实篇:模型与技术的搏弈[J];软件世界;2007年14期
4 张朋柱,张梅,韩崇昭,万百五;决策支持过程控制:问题-模型-求解递阶分层法[J];控制与决策;1993年04期
5 龚报钧,王树青;模型层MAS模型的获取和实现方法[J];计算机工程与应用;2001年19期
6 刘威;乔立红;;基于元模型的统一制造资源模型框架[J];计算机集成制造系统;2007年10期
7 李静;;高校图书馆电子资源使用过程中用户情境模型的构建与应用[J];情报理论与实践;2009年02期
8 李海峰,金昊,吴介一;采用XMI标准实现UML模型到XML的转换[J];制造业自动化;2003年04期
9 柴兴无;乔京成;陈芸生;;对多媒体数据库管理系统的层次结构分析[J];计算机科学;1995年01期
10 王建光;段富;;一种UML模型到XML模型的转换方法[J];计算机技术与发展;2007年07期
中国重要会议论文全文数据库 前6条
1 吴晨;宋丹;薛德军;师庆辉;;科技主题识别及表示[A];第五届全国信息检索学术会议论文集[C];2009年
2 潘志勇;李红燕;;一种MVC架构中的数据组织方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
3 熊方;王晓宇;郑骏;周傲英;;ITED:一种基于链接的主题提取和主题发现系统[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
4 王玉婷;杜亚军;涂腾涛;;基于Web链接的主题爬行虫初始URL的研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
5 郑伟;王朝坤;刘璋;王建民;;一种基于随机游走模型的多标签分类算法[A];NDBC2010第27届中国数据库学术会议论文集A辑一[C];2010年
6 冯少卿;都云程;施水才;;基于模板的网页主题信息抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 周厚奎;概率主题模型的研究及其在多媒体主题发现和演化中的应用[D];浙江大学;2017年
2 单黎君;图形化模型的一致性检查[D];国防科学技术大学;2008年
3 李响烁;PLM开发实施进程与集成产品元模型研究[D];浙江大学;2007年
4 杨肖;基于主题的互联网信息抓取研究[D];浙江大学;2014年
5 江涛;特定领域元建模语言的形式化及其模型一致性验证研究[D];云南大学;2010年
6 薛斌党;嵌入式隐Markov模型和神经网络人脸识别[D];大连理工大学;2002年
7 赵一鸣;基于多维尺度分析的潜在主题可视化研究[D];华中师范大学;2013年
8 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年
9 张楚贤;基于元模型的工程系统仿真建模方法及应用研究[D];华中科技大学;2011年
10 邓凯英;复杂网络搜索策略及相关模型的数值方法[D];东北师范大学;2015年
中国硕士学位论文全文数据库 前10条
1 柴叶生;基于MARTE模型的系统性能评估[D];苏州大学;2015年
2 李小青;中学物理课程中光的本质模型的学习进阶研究[D];长江大学;2016年
3 杜彩兰;基于COX模型的某跨国企业人员流失预测模型研究[D];大连理工大学;2016年
4 夏刘洋;基于多尺度内聚颗粒模型的振动挤压破碎过程研究[D];江西理工大学;2016年
5 田彬;基于语义元模型的作物模型开发方法与设计工具研究[D];南京农业大学;2015年
6 李鑫;飞行员疲劳度评估模型及应用研究[D];大连理工大学;2016年
7 张媛;基于有线电视宽带网的电子商务模型中心平台模型层的研究与实现[D];昆明理工大学;2004年
8 田刚;基于元模型的PIM到PSM转换技术研究[D];山东科技大学;2007年
9 宋亮亮;基于模型的软件工具链的设计与实现[D];汕头大学;2009年
10 李明宇;UML模型一致性检测的研究[D];山东大学;2005年
,本文编号:1265842
本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/1265842.html