当前位置:主页 > 经济论文 > 企业经济论文 >

基于文本数据的软集合预测方法研究

发布时间:2018-02-14 08:23

  本文关键词: 软集合 软依赖 软序列依赖 文本数据 预测 出处:《重庆大学》2016年博士论文 论文类型:学位论文


【摘要】:大数据时代,文本数据是人们传播和接受信息的重要途径之一。企业利用文本数据发布招聘和优惠广告,新闻机构利用文本数据描述正在发生的事件,公众利用文本数据表达观点抒发情感等。对于企业和个人而言,文本数据蕴含了大量价值。分析提取文本数据中蕴含的价值,是大数据时代取得竞争优势的重要途径。研究基于文本数据的预测方法则是文本数据价值提取的途径之一。但自然语言特征、非精确性等不确定性特征阻碍了利用文本数据进行预测,有必要寻找处理不确定性特征的合适理论并开发相应预测方法。软集合理论是处理不确定性特征的先进理论之一。它源于对近似描述问题的研究,以寻找近似解为构建理念,使用参数化集族的方式描述问题,着眼于建立非精确模型解决问题,并得到相应的近似解。从理论构建理念、问题描述方式和解决路径来看,软集合理论适于作为研究不确定性预测方法的基础理论。因此,寻找基于文本数据的预测问题和软集合理论的结合点,构建基于文本数据的软集合预测方法,能够在发现、提取文本数据蕴含价值的过程中为企业和个人提供可靠工具。本文以三个方面为切入点研究基于文本数据的软集合预测方法。(1)基于文本数据的软集合特征选择方法研究。特征选择阶段是基于文本数据预测的重要阶段。本文针对该阶段以及特征间非精确关系构建了基于文本数据的软集合特征选择方法(FSST)。该方法提出了新的基于等价类的软集合模型,即成对关系软集合模型(PRSS),并进一步构建了近似软集合、依赖度软集合和不可分辨关系软集合用以处理特征间非精确关系。成对关系软集合模型消除了以往基于等价类软集合模型(NSS)的冗余,将衡量特征间依赖程度的运算转化为矩阵计算方式,提升了运算效率。使用算例分析详细介绍了FSST的执行过程。使用16个样本数据库分析比较了FSST与基于NSS的特征选择方法。结果说明FSST保持了分类精度和可扩展性,提高了运行效率。(2)基于文本数据的软依赖预测方法研究。与以往预测方法相比,该方法利用了软概率、软条件概率和软依赖处理自然语言特征和非精确性的优点,即能够处理整个预测过程、随数据库更新动态变化、不需要提供严格的概率稳定性假设、构建非精确模型获取近似解等。首先介绍了软概率、软条件概率、软估计和软依赖等基础理论,然后介绍了方法所解决的预测问题,并构建了基于文本数据的软依赖预测模型、特征软集合模型以及依赖软集合模型。依据这些模型,构建了基于文本数据的软依赖预测方法。软依赖预测模型建立起不考虑时间滞后效应并基于文本数据的软集合预测问题与软依赖之间的联系。软依赖预测模型的具体实现依赖于特征软集合模型和依赖软集合模型。特征软集合模型整合了FSST方法,能够处理特征间非精确关系并将文本数据转化为向量空间表示形式。依赖软集合模型计算软估计,完成预测任务。同时针对依赖软集合模型中存在的空集问题和预测过程中特征过多问题,提出了寻找近似事件和采用启发式算法的解决方案。为了对软估计的效果进行评估,定义了三种软估计误差度量,即误差软映射、单次误差软映射和总误差,并介绍了计算软估计误差度量所需的点与集合之间误差度量,即基于Hausdorff距离的Theil不等系数和基于最小Manhattan距离的Theil不等系数。算例分析中介绍了基于文本数据的软依赖预测方法执行过程。应用分析中使用该方法预测10家公司8-K报告对当期股价波动的影响,分析了方法的优劣势并与其他预测方法做了定性比较。结果说明,基于文本数据的软依赖预测方法能够为不考虑时间滞后效应并基于文本数据的软集合预测任务提供支持。(3)基于文本数据的软序列依赖预测方法研究。该方法利用软序列概率、软序列条件概率和软序列依赖,解决了基于文本数据的软依赖预测方法无法处理时间滞后效应的问题。由于软序列依赖是软依赖在处理样本序列上的扩展,软序列依赖拥有与软依赖相同的处理自然语言特征和非精确性的优势。首先根据软序列概率、软序列条件概率定义了软序列估计和软序列依赖,而后介绍了方法所解决的预测问题,构建了基于文本数据的软序列依赖预测模型和序列依赖软集合模型。依据这些模型,构建了基于文本数据的软序列依赖预测方法。基于文本数据的软序列依赖预测模型建立起考虑时间滞后效应并基于文本数据的软集合预测问题与软序列依赖之间的联系。软序列依赖预测模型的具体实现依赖于特征软集合模型和序列依赖软集合模型。特征软集合模型将文本数据转化为向量空间表示形式。序列依赖软集合模型计算软序列估计,完成预测任务。同时针对序列依赖软集合模型中存在空集和特征过多问题,分别构建了寻找近似事件的方法和启发式算法。定义了序列误差软映射、序列单次误差软映射及序列总误差对软序列估计进行评估。算例分析中介绍了基于文本数据的软序列依赖预测方法执行过程,应用分析中使用该方法预测10家公司8-K报告对滞后一期股价波动的影响。结果说明,基于文本数据的软序列依赖预测方法能够为考虑时间滞后效应并基于文本数据的软集合预测任务提供支持。
[Abstract]:......
【学位授予单位】:重庆大学
【学位级别】:博士
【学位授予年份】:2016
【分类号】:F272

【参考文献】

相关期刊论文 前5条

1 袁鼎荣;谢扬才;陆广泉;刘星;;一种新的基于软集合理论的文本分类方法[J];广西师范大学学报(自然科学版);2011年01期

2 艾伟;孙四明;张峰;;基于本体的Web文本挖掘与信息检索[J];计算机工程;2010年22期

3 洪智勇;秦克云;;基于模糊软集合理论的文本分类方法[J];计算机工程;2010年13期

4 李汶华;郭均鹏;;区间型符号数据回归分析及其应用[J];管理科学学报;2010年04期

5 肖智,李潆兵 ,钟波,杨秀苔;基于软集合的企业竞争力综合评价方法研究[J];统计研究;2003年10期



本文编号:1510270

资料下载
论文发表

本文链接:https://www.wllwen.com/jingjilunwen/xmjj/1510270.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户e10fa***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com