基于机器学习的文献挖掘算法研究
发布时间:2021-10-10 03:58
随着科研人员数量的不断增长,学术文献也是与日增长,这就使得对文献分类具有十分重要的意义。应用于多领域文档集合的分类算法种类繁多,应用广泛,然而,诸如文本全是关于室内定位或者全是关于医学等这样窄领域的文献分类应用,是一个极其困难的任务。尽管在科学研究中发挥着很重要的作用,却没有得到很好的研究。本文的研究重点是针对SpringerLink窄域文献数据进行处理,提取出好的文本特征,并得到好的分类效果,主要工作如下:(1)本文在传统LDA分类模型的基础上,引入词向量表示,融合词向量语义,提出基于LDA和Word2vec特征扩展文本表示方法,分别从主题和词语上下文语义上学习特征。在“indoor location”和“computer science”文献语料下的实验结果表明,基于LDA和Word2vec的特征扩展分类性能明显优于LDA、LDA-w2v两种基础模型,其更加精细地表达了短文本语义信息,一定程度上克服了短文本稀疏问题和主题聚焦性差的问题,并且基于LDA和Word2vec的特征扩展分类本质上是一种半监督学习方法,无需大量标注语料集。(2)为了更好的解决主题聚焦性差问题,本文引入摘要提取...
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:75 页
【学位级别】:硕士
【部分图文】:
SpringerLink网页结构图
994-2018年“indoorlocation”、“computerscience”主题在各个研究方向的学术文献发
摘要中句子间的距离示例
【参考文献】:
期刊论文
[1]LDA模型的优化及其主题数量选择研究——以科技文献为例[J]. 王婷婷,韩满,王宇. 数据分析与知识发现. 2018(01)
[2]基于主题相似度的宏观篇章主次关系识别方法[J]. 蒋峰,褚晓敏,徐昇,李培峰,朱巧明. 中文信息学报. 2018(01)
[3]一种新型朴素贝叶斯文本分类算法[J]. 邸鹏,段利国. 数据采集与处理. 2014(01)
[4]基于LDA主题模型的短文本分类方法[J]. 张志飞,苗夺谦,高灿. 计算机应用. 2013(06)
[5]基于LDA模型的文本分类研究[J]. 姚全珠,宋志理,彭程. 计算机工程与应用. 2011(13)
[6]文本分类中基于基尼指数的特征选择算法研究[J]. 尚文倩,黄厚宽,刘玉玲,林永民,瞿有利,董红斌. 计算机研究与发展. 2006(10)
[7]中文文本分类中的特征选择研究[J]. 周茜,赵明生,扈旻. 中文信息学报. 2004(03)
[8]基于最大熵模型的组块分析[J]. 李素建,刘群,杨志峰. 计算机学报. 2003(12)
[9]分类法的发展趋势简论[J]. 侯汉清. 情报科学. 1981(01)
硕士论文
[1]文本表示模型和特征选择算法研究[D]. 陈磊.中国科学技术大学 2017
本文编号:3427598
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:75 页
【学位级别】:硕士
【部分图文】:
SpringerLink网页结构图
994-2018年“indoorlocation”、“computerscience”主题在各个研究方向的学术文献发
摘要中句子间的距离示例
【参考文献】:
期刊论文
[1]LDA模型的优化及其主题数量选择研究——以科技文献为例[J]. 王婷婷,韩满,王宇. 数据分析与知识发现. 2018(01)
[2]基于主题相似度的宏观篇章主次关系识别方法[J]. 蒋峰,褚晓敏,徐昇,李培峰,朱巧明. 中文信息学报. 2018(01)
[3]一种新型朴素贝叶斯文本分类算法[J]. 邸鹏,段利国. 数据采集与处理. 2014(01)
[4]基于LDA主题模型的短文本分类方法[J]. 张志飞,苗夺谦,高灿. 计算机应用. 2013(06)
[5]基于LDA模型的文本分类研究[J]. 姚全珠,宋志理,彭程. 计算机工程与应用. 2011(13)
[6]文本分类中基于基尼指数的特征选择算法研究[J]. 尚文倩,黄厚宽,刘玉玲,林永民,瞿有利,董红斌. 计算机研究与发展. 2006(10)
[7]中文文本分类中的特征选择研究[J]. 周茜,赵明生,扈旻. 中文信息学报. 2004(03)
[8]基于最大熵模型的组块分析[J]. 李素建,刘群,杨志峰. 计算机学报. 2003(12)
[9]分类法的发展趋势简论[J]. 侯汉清. 情报科学. 1981(01)
硕士论文
[1]文本表示模型和特征选择算法研究[D]. 陈磊.中国科学技术大学 2017
本文编号:3427598
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3427598.html
最近更新
教材专著