基于文本挖掘的学术文献内容智能识别方法研究
发布时间:2021-01-25 00:08
作为人工智能领域的前沿课题之一,文本挖掘(Text Mining)是以文本数据为研究对象,以数理统计分析为理论基础,结合机器学习与自然语言处理等相关方法,提取文本隐含信息以及知识的计算机处理技术。为解决传统人力分析方法在处理规模化学术文档集时效率低下的问题,本文以切割布局问题(Cutting and Packing Problem,C&P)学术文献为研究对象,旨在结合文本挖掘与机器学习相关方法,实现该类文献内容类别的智能化解析及识别,从而为规模化学术文档集的分析和处理提供更加高效的途径。主要研究工作包括以下几个方面:(1)根据本文的研究对象和研究目标,研究了 C&P问题的基本概念和该类学术文献的主要内容类别,并以国际主流运筹学期刊为数据来源,建立了文档数据集,作为本文算法模型的测试对象。(2)基于Python编程语言及其第三方库,构建了包括文档格式的转换、文本数据降噪、文本切分、停用词去除、词性标注以及词干提取等步骤在内的文本数据预处理流程。(3)对比经典特征提取方法,选择并建立了基于人工神经网络(ANN)的文本特征提取模型。主要包括样本训练数据的生成、全连接神经网络的...
【文章来源】:北京交通大学北京市 211工程院校 教育部直属院校
【文章页数】:124 页
【学位级别】:硕士
【部分图文】:
图2-2文档格式转换流程图??Figure?2-2?Document?format?conversion?flowchart??
??噪声去除前后的样例文本数据对比如图2-3所示。??In?this?paper,?we?study?the?circular?packing?this?paper?study?the?circular?packing??problem?Its?objective?is?lo?pack?j?set?ol?n?problem?Its?objective?pack?set?circular??circular?pieces?into?ii?rectangular?plate?R?of?pieces?into?rectangular?plate?fixed??fixed?dimensions?I?x?\\?Each?piece’s?type?dimensions?Each?pieces?type??i.?i?1?m,?is?characterized?by?its?characterized?its?radius?and?its?demand??radius?ri?and?its?demand?bi?.?The?objective?The?objective?determine?the?packing??is?((xi?)2?4?(yi?—?yj?)2?-?(!?i?.?fj?z]?pattern?corresponding?the?minimum??>?0,?j?l?i?1,?,n:?j?I?a?(xi?ri?unused?area?for?the?circular?pieces?placed??)zi?>?0
?????????■????样例文本数据词性标签如图2-4所示??’this,,DT'?I?’paper'?■>?,NN,?I?'study'?^?'VBZ'?i?'the'?->?'DT'??'circular''JJ'?!?’packing’?+?'NN,?I?’problem,今?TW?1?'Its'?^?'PRPS'??'objective'?^?'JJ'?i?'pack'?'NN'?I?'set'?^?'VBN'?i?'circular1?今?’JJ’??'pieces'->?'NNS'?!?'into'?^?'IN'?I?'rectangular'^?'JJ'?I?'plate'->?'NN'??'fixed'?'VBN'?!?'dimensions'?'NNS'?I?'Each'?'DT'?I?'piece'?'NN'??'type'?'NN'?I?'characterized'?->?'VBD'?I?'its'?'PRP¥'?I?'radius'?'NN'??'and'?'CC'?|?'its'?^?'PRP¥'?I?’demand'今?’NN'?i?'The’?+?'DT'??'objective'->?'JJ'?|?'determine'?^?'NN'?i?'the'?'DT'?|?'packing'^?'NN'??'determine'?'NN'?|?'the'?'DT'?|?'packing'?'NN'?|?'pattern'?'NN'??’the1?+?'DT’?丨'minimum’?+
【参考文献】:
期刊论文
[1]卷积神经网络中激活函数的一种改进[J]. 刘小文,郭大波,李聪. 测试技术学报. 2019(02)
[2]基于卷积神经网络的反向传播算法改进[J]. 杨鹤标,龚文彦. 计算机工程与设计. 2019(01)
[3]高性能正则表达式匹配算法综述[J]. 付哲,李军. 计算机工程与应用. 2018(20)
[4]基于深度学习的自动文摘句排序方法[J]. 何凯霖,丁晓峰. 计算机工程与设计. 2017(12)
[5]基于LDA的社科文献主题建模方法[J]. 李昌亚,刘方方. 计算机技术与发展. 2018(02)
[6]基于正则表达式的Web页面信息抽取技术研究[J]. 罗粮,朱儒明. 现代计算机(专业版). 2017(15)
[7]大数据背景下BCC语料库的研制[J]. 荀恩东,饶高琦,肖晓悦,臧娇娇. 语料库语言学. 2016(01)
[8]大规模中文语料库检索技术研究[J]. 余一骄,刘芹. 计算机科学. 2015(02)
[9]基于余弦距离度量学习的伪K近邻文本分类算法[J]. 彭凯,汪伟,杨煜普. 计算机工程与设计. 2013(06)
[10]基于LDA模型的中文微博话题意见领袖挖掘[J]. 冯时,景珊,杨卓,王大玲. 东北大学学报(自然科学版). 2013(04)
硕士论文
[1]梯度下降法在机器学习中的应用[D]. 孙娅楠.西南交通大学 2018
[2]基于语境和停用词驱动的中文自动分词研究[D]. 江兆中.合肥工业大学 2010
本文编号:2998177
【文章来源】:北京交通大学北京市 211工程院校 教育部直属院校
【文章页数】:124 页
【学位级别】:硕士
【部分图文】:
图2-2文档格式转换流程图??Figure?2-2?Document?format?conversion?flowchart??
??噪声去除前后的样例文本数据对比如图2-3所示。??In?this?paper,?we?study?the?circular?packing?this?paper?study?the?circular?packing??problem?Its?objective?is?lo?pack?j?set?ol?n?problem?Its?objective?pack?set?circular??circular?pieces?into?ii?rectangular?plate?R?of?pieces?into?rectangular?plate?fixed??fixed?dimensions?I?x?\\?Each?piece’s?type?dimensions?Each?pieces?type??i.?i?1?m,?is?characterized?by?its?characterized?its?radius?and?its?demand??radius?ri?and?its?demand?bi?.?The?objective?The?objective?determine?the?packing??is?((xi?)2?4?(yi?—?yj?)2?-?(!?i?.?fj?z]?pattern?corresponding?the?minimum??>?0,?j?l?i?1,?,n:?j?I?a?(xi?ri?unused?area?for?the?circular?pieces?placed??)zi?>?0
?????????■????样例文本数据词性标签如图2-4所示??’this,,DT'?I?’paper'?■>?,NN,?I?'study'?^?'VBZ'?i?'the'?->?'DT'??'circular''JJ'?!?’packing’?+?'NN,?I?’problem,今?TW?1?'Its'?^?'PRPS'??'objective'?^?'JJ'?i?'pack'?'NN'?I?'set'?^?'VBN'?i?'circular1?今?’JJ’??'pieces'->?'NNS'?!?'into'?^?'IN'?I?'rectangular'^?'JJ'?I?'plate'->?'NN'??'fixed'?'VBN'?!?'dimensions'?'NNS'?I?'Each'?'DT'?I?'piece'?'NN'??'type'?'NN'?I?'characterized'?->?'VBD'?I?'its'?'PRP¥'?I?'radius'?'NN'??'and'?'CC'?|?'its'?^?'PRP¥'?I?’demand'今?’NN'?i?'The’?+?'DT'??'objective'->?'JJ'?|?'determine'?^?'NN'?i?'the'?'DT'?|?'packing'^?'NN'??'determine'?'NN'?|?'the'?'DT'?|?'packing'?'NN'?|?'pattern'?'NN'??’the1?+?'DT’?丨'minimum’?+
【参考文献】:
期刊论文
[1]卷积神经网络中激活函数的一种改进[J]. 刘小文,郭大波,李聪. 测试技术学报. 2019(02)
[2]基于卷积神经网络的反向传播算法改进[J]. 杨鹤标,龚文彦. 计算机工程与设计. 2019(01)
[3]高性能正则表达式匹配算法综述[J]. 付哲,李军. 计算机工程与应用. 2018(20)
[4]基于深度学习的自动文摘句排序方法[J]. 何凯霖,丁晓峰. 计算机工程与设计. 2017(12)
[5]基于LDA的社科文献主题建模方法[J]. 李昌亚,刘方方. 计算机技术与发展. 2018(02)
[6]基于正则表达式的Web页面信息抽取技术研究[J]. 罗粮,朱儒明. 现代计算机(专业版). 2017(15)
[7]大数据背景下BCC语料库的研制[J]. 荀恩东,饶高琦,肖晓悦,臧娇娇. 语料库语言学. 2016(01)
[8]大规模中文语料库检索技术研究[J]. 余一骄,刘芹. 计算机科学. 2015(02)
[9]基于余弦距离度量学习的伪K近邻文本分类算法[J]. 彭凯,汪伟,杨煜普. 计算机工程与设计. 2013(06)
[10]基于LDA模型的中文微博话题意见领袖挖掘[J]. 冯时,景珊,杨卓,王大玲. 东北大学学报(自然科学版). 2013(04)
硕士论文
[1]梯度下降法在机器学习中的应用[D]. 孙娅楠.西南交通大学 2018
[2]基于语境和停用词驱动的中文自动分词研究[D]. 江兆中.合肥工业大学 2010
本文编号:2998177
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/2998177.html
最近更新
教材专著