文本挖掘中若干关键技术研究

发布时间:2020-11-05 21:13
   随着计算机、传感、通信等技术的迅速发展,互联网作为全球信息资源网络,日益融入到人们的工作和生活中,文本作为信息的主要载体,也因此呈现爆炸式增长。文本挖掘旨在从丰富的文本信息中获取有用知识,已成为学术界前沿研究领域之一。文本分类技术和文本摘要技术是文本挖掘研究的重要分支,广泛用于网络监测、垃圾邮件过滤、信息检索等应用中。传统文本分类算法仅使用全标注文本样本学习分类模型,然而实际应用中标注文本真实类别的代价十分昂贵,大量文本都是未标注,或仅可标注是否为正例样本。因此,研究仅采用正例与未标注文本进行学习的文本分类算法有着重要的意义。文本摘要技术对大量的文本快速地压缩、提炼,生成文章的主旨,帮助人们快速获取信息,其中句子排序在文档摘要句子提取中起着关键作用。本文围绕正例与未标注文本分类问题展开研究,同时对文档摘要中句子排序技术进行了探索。主要工作如下:(1)针对现有两阶段策略对正例与未标注文本学习时,第一阶段从未标注样本抽取可靠负例数量较少,质量较低的问题,提出基于概率密度估计的正例和未标注学习方法。利用正例和负例文档共享尽可能少的特征项这一特点,充分利用未标注文本的信息,基于概率密度估计,尽可能多地从未标注文本中抽取可靠正例和可靠负例,为验证该算法的有效性,以抽取的可靠负例文本,以及已有的标注的正例文本作为训练集,构造分类器。在真实数据集上Reuters-21578和20-Newsgroups的实验结果表明,本文提出的算法可以有效提取可靠负例,在第二步中构建的分类器性能稳定,在多数情况下分类性能优于现有的两阶段算法,甚至于当标注的正例很少的情况下都具有良好的分类性能。(2)基于统计学习模型的正例与未标注贝叶斯文本分类算法需要人为提供正例先验概率或者基于“完全样本随机选择”假设,对正例先验概率进行估计,这些做法都不符合实际应用,针对此问题,提出基于最大期望估计(EM)的正例和未标注贝叶斯分类算法。该算法将每一个样本的产生建模为一个随机过程,并用EM算法估计参数的极大似然估计值,然后利用所获参数值构造分类器,进而对未标注样本进行分类。该算法不需要用户给定正例的先验概率或基于“完全随机选择”假设模型进行参数估计。在Reuters-21578以及20-Newsgroups语料库上实验结果显示,本研究提出的算法性能优于现有的PNB算法。(3)研究了针对网络式文本的正例和未标注文本分类算法。处理网络式文本需要同时考虑单个文本的内部特征以及多个文本间的联系特征。现有的正例和未标注文本分类算法在标注文本数目较大的数据集上性能表现良好,但是当已标注的文本数量较小时性能较差。针对该问题,提出基于非负矩阵分解的正例和未标注网络式文本学习算法,对样本的实例-特征矩阵以及网络拓扑矩阵进行分解,同时将监督式信息通过一致性约束加入到目标函数的优化中。本研究主要对标注文本极其稀少的网络式文本进行正例和未标注学习。在基准网络式数据集Cora、CiteSeer、PubMed等5个数据集上的实验结果表明本文提出的算法能够提升分类性能。(4)研究了多文档自动摘要技术。多文档自动摘要的目的是产生一个简明的包含一组源文件主要信息的摘要。句子排序是多文档自动摘要中最重要的问题。针对现有排序算法对句子进行排序时仅考虑句子内部特征,忽略句子外部联系特征的问题,提出一种基于图的排序方法,在对句子排序中考虑句子-句子,句子-词语,词语-词语间的联系特征信息。在DUC和TAC数据集上的实验结果表明该方法的有效性。
【学位单位】:西北农林科技大学
【学位级别】:博士
【学位年份】:2016
【中图分类】:TP391.1
【部分图文】:

文本挖掘,步骤,生活实践,形式多样


文本挖掘的步骤

数据集,均值,K值


图 3-1 Acq 数据集在不同的 K 值下的 F1 均值Fig. 3-1 Average F1 in Different K for Acq Collection

数据集,均值,K值


图 3-1 Acq 数据集在不同的 K 值下的 F1 均值Fig. 3-1 Average F1 in Different K for Acq Collection
【相似文献】

相关期刊论文 前10条

1 张雯雯;许鑫;;文本挖掘工具述评[J];图书情报工作;2012年08期

2 邢鸿飞;;文本挖掘口角升温[J];世界科学;2013年05期

3 蒋良孝,蔡之华;文本挖掘及其应用[J];现代计算机(专业版);2003年02期

4 谌志群;张国煊;;文本挖掘研究进展[J];模式识别与人工智能;2005年01期

5 王娜;李云松;;基于概念格的文本挖掘[J];计算机技术与发展;2006年01期

6 黄维金;顾益军;;刑侦档案文本挖掘系统平台中的文本精炼初探[J];中国人民公安大学学报(自然科学版);2006年02期

7 张燕;寒枫;楚红涛;;文本挖掘简述[J];中国电力教育;2006年S3期

8 韩春;田大钢;;对股票市场信息的文本挖掘[J];中国高新技术企业;2008年23期

9 程志;黄荣怀;;文本挖掘及其教育应用[J];现代远距离教育;2008年02期

10 巩知乐;张德贤;;文本挖掘理论概述[J];福建电脑;2008年09期


相关博士学位论文 前10条

1 曹奇敏;网络信息文本挖掘若干问题研究[D];北京理工大学;2015年

2 陈虹枢;基于主题模型的专利文本挖掘方法及应用研究[D];北京理工大学;2015年

3 李梅;文本挖掘中若干关键技术研究[D];西北农林科技大学;2016年

4 孙道军;文本挖掘预处理相关基础技术分析与应用研究[D];北京邮电大学;2008年

5 周雪忠;文本挖掘在中医药中的若干应用研究[D];浙江大学;2004年

6 王明春;基于粗糙集的数据及文本挖掘方法研究[D];天津大学;2005年

7 李芳;文本挖掘若干关键技术研究[D];北京化工大学;2010年

8 文翰;面向信息检索的Web文本挖掘方法研究[D];华南理工大学;2012年

9 卜东波;聚类/分类理论研究及其在文本挖掘中的应用[D];中国科学院研究生院(计算技术研究所);2000年

10 陈晓云;文本挖掘若干关键技术研究[D];复旦大学;2005年


相关硕士学位论文 前10条

1 任振宇;基于网络新闻文本挖掘的英语写作训练应用[D];华南理工大学;2015年

2 刘超;基于文本挖掘的轻量级搜索引擎[D];西南大学;2015年

3 张磊;基于文本挖掘的项目风险分析方法研究[D];山东大学;2015年

4 梁楠;基于文本挖掘的律师推荐方法研究与应用[D];电子科技大学;2015年

5 滕家雨;云框架下的文本挖掘算法并行化研究[D];中国矿业大学;2015年

6 唐东;基于XML和SVM的Web文本挖掘系统研究[D];电子科技大学;2014年

7 秦辉;基于文本挖掘的分布式网络监控系统的研究与实现[D];电子科技大学;2014年

8 谌语;文本挖掘关键技术的研究及模拟实现[D];电子科技大学;2014年

9 靳旭东;基于社会网络分析下文本挖掘的微博营销[D];兰州财经大学;2015年

10 何敏;基于MapReduce的文本挖掘研究[D];电子科技大学;2015年



本文编号:2872196

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/2872196.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户38c77***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com