主题分析方法及其在文献管理系统上的应用
发布时间:2022-01-17 21:12
随着科技不断进步,科研文献迅猛增长,新的研究方向不断涌现,如何有效对科研文献进行分类、管理、分析对科研人员和科技的发展都具有重要意义。传统的科研文献研究主要集中于文献主题分析、科研领域社交网络分析等,而从科研人员自身需求出发的研究工作甚少。本文利用机器学习方法来研究和分析科研文献,从科研人员本身角度出发,以主题模型、集成学习为基础,以科研文献为研究对象进行了研究和分析,设计实现了服务于科研人员的科研文献管理系统,主要工作如下:1.针对现有研究极少考虑科研文献类别不平衡的问题,提出了一种类别不平衡科研文献集成分类方法,该方法将主题模型与集成学习方法相结合,通过有放回采样的方式重构数据集,以及对多个弱学习器集成的方式提升主题模型的分类性能,并在真实数据集上验证了方法有效性。2.针对科研人员需花费大量时间和精力去发现学术会议的热点或发展趋势,提出了一种会议热点和发展趋势分析的学习方法,该方法将会议热点抽象为主题在关键词上的分布,利用相对熵捕捉研究热点随时间的发展趋势。通过对机器学习领域学术会议NIPS录用的科研文献进行分析,验证了方法有效性。3.针对现有文献管理系统中信息不准确问题,提出了一...
【文章来源】:南京大学江苏省 211工程院校 985工程院校 教育部直属院校
【文章页数】:69 页
【学位级别】:硕士
【部分图文】:
图2.1?LDA模型??
?南京大学研究生毕业论文???最直观的方法就是在LDA中加入监督信息。??有监督的隐狄利克雷模型(supervised?Latent?Dirichlet?Allocation,sLDA)是??在LDA基础上加入监督信息的主题模型。sLDA概率图模型如图2.2所示,??〇—--〇——〇??a?dd?Vd,n?Wd,n?pk??\??M?K???a??r],8??图2.2?sLDA模型??其原理与假设与LDA模型基本相同,只不过在LDA模型中为每个文档加入了??-个响应变量(Response?Variable),在分类任务中,这个响应变量即为文档的标签。??该响应变景与单词Wdin并不直接相连,而是与该单词的主题Zd_n相关联。??sLDA认为一个预料库屮的每??篇文档及其响应变量的生成过程如下:??1)生成N,?N?Poisson?,?N为该文档长度。??2)生成%,?0d?Dir(:c〇,0d为该文档在主题上多项式分布。??3)对于文档屮的每一个单词1^?:??a)生成Zd.n,Z^n-Mu/tinomiaK%),Zd,n为该词所属主题;??b)生成wd,n,?p(Wd,n|zd,n,(Pfc),w以为生成的单词。??4)所有单词生成结束后,生成y|z1:w,n,S?GLM(f,ri,6),?y为该文档点响应??变量,其中:??z:=?(1//V))?zn??而响应变M?y的分布是一个广义线性模型(Generalized?Linear?Model,?GLM):??(rirz)y?—?ACri1?z)??P(y\zi:N^,S)?=?h(y,S)exp{???}??li??
?南京大学研究生毕业论文???CZZ^I有放回的采样b_Sam个样本^??类别?1?数????样后的子数据集1??类另??{?采样后的子数据集2??类别3数雛"…?????」??类别n数据集?采样后的子数据集b_Nura??图2.3均衡集成BEsLDA采样过程??果进行集成时,采用的集成策略是最简中.的投票法,而最后的分类结果取投票数??前3名的三个主题,因此本文的方法最终的输出结采是3个主题标签。??R?一^〇0<\0<?2?^分类结果1^1??U??〇^1〇????数据集1?sLDA_l??0_^?_?f分类结果2?rJsT^i^l??U?L__〇d°?^^?^最终结果??数据集?2?sLDA_2?^J??????t?籲???響?_秦參?■■??〇!?000-0-?0?f分类结果1??J?:? ̄4〇-〇?b_Num??数据集?b_Num?sLDA_b_Num??阉2.4均衡集成BEsLDA集成过程??13??
【参考文献】:
期刊论文
[1]技术预见研究热点的演进分析:内容挖掘视角[J]. 李牧南. 科研管理. 2018(03)
[2]国内技术预见研究卓越机构及研究热点可视化描绘[J]. 张秀妮,张薇. 竞争情报. 2015(03)
[3]近十年(2004~2013)国际技术预见研究的热点及动向分析[J]. 李国秋,龙怡. 图书情报知识. 2014(03)
[4]现实世界中的主题突发与其间断演化发现(英文)[J]. 汤斯亮,张寅,王翰琪,陈铭,吴飞,庄越挺. 中国通信. 2013(03)
[5]网络爬虫技术的研究[J]. 孙立伟,何国辉,吴礼发. 电脑知识与技术. 2010(15)
本文编号:3595447
【文章来源】:南京大学江苏省 211工程院校 985工程院校 教育部直属院校
【文章页数】:69 页
【学位级别】:硕士
【部分图文】:
图2.1?LDA模型??
?南京大学研究生毕业论文???最直观的方法就是在LDA中加入监督信息。??有监督的隐狄利克雷模型(supervised?Latent?Dirichlet?Allocation,sLDA)是??在LDA基础上加入监督信息的主题模型。sLDA概率图模型如图2.2所示,??〇—--〇——〇??a?dd?Vd,n?Wd,n?pk??\??M?K???a??r],8??图2.2?sLDA模型??其原理与假设与LDA模型基本相同,只不过在LDA模型中为每个文档加入了??-个响应变量(Response?Variable),在分类任务中,这个响应变量即为文档的标签。??该响应变景与单词Wdin并不直接相连,而是与该单词的主题Zd_n相关联。??sLDA认为一个预料库屮的每??篇文档及其响应变量的生成过程如下:??1)生成N,?N?Poisson?,?N为该文档长度。??2)生成%,?0d?Dir(:c〇,0d为该文档在主题上多项式分布。??3)对于文档屮的每一个单词1^?:??a)生成Zd.n,Z^n-Mu/tinomiaK%),Zd,n为该词所属主题;??b)生成wd,n,?p(Wd,n|zd,n,(Pfc),w以为生成的单词。??4)所有单词生成结束后,生成y|z1:w,n,S?GLM(f,ri,6),?y为该文档点响应??变量,其中:??z:=?(1//V))?zn??而响应变M?y的分布是一个广义线性模型(Generalized?Linear?Model,?GLM):??(rirz)y?—?ACri1?z)??P(y\zi:N^,S)?=?h(y,S)exp{???}??li??
?南京大学研究生毕业论文???CZZ^I有放回的采样b_Sam个样本^??类别?1?数????样后的子数据集1??类另??{?采样后的子数据集2??类别3数雛"…?????」??类别n数据集?采样后的子数据集b_Nura??图2.3均衡集成BEsLDA采样过程??果进行集成时,采用的集成策略是最简中.的投票法,而最后的分类结果取投票数??前3名的三个主题,因此本文的方法最终的输出结采是3个主题标签。??R?一^〇0<\0<?2?^分类结果1^1??U??〇^1〇????数据集1?sLDA_l??0_^?_?f分类结果2?rJsT^i^l??U?L__〇d°?^^?^最终结果??数据集?2?sLDA_2?^J??????t?籲???響?_秦參?■■??〇!?000-0-?0?f分类结果1??J?:? ̄4〇-〇?b_Num??数据集?b_Num?sLDA_b_Num??阉2.4均衡集成BEsLDA集成过程??13??
【参考文献】:
期刊论文
[1]技术预见研究热点的演进分析:内容挖掘视角[J]. 李牧南. 科研管理. 2018(03)
[2]国内技术预见研究卓越机构及研究热点可视化描绘[J]. 张秀妮,张薇. 竞争情报. 2015(03)
[3]近十年(2004~2013)国际技术预见研究的热点及动向分析[J]. 李国秋,龙怡. 图书情报知识. 2014(03)
[4]现实世界中的主题突发与其间断演化发现(英文)[J]. 汤斯亮,张寅,王翰琪,陈铭,吴飞,庄越挺. 中国通信. 2013(03)
[5]网络爬虫技术的研究[J]. 孙立伟,何国辉,吴礼发. 电脑知识与技术. 2010(15)
本文编号:3595447
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3595447.html