融合频繁项集和潜在语义分析的股评论坛主题发现方法

发布时间：2020-10-19 09:26

　　针对股评论坛主题发现,提出基于频繁项集与潜在语义相结合的短文本聚类(STC_FL)框架.在基于知网的知识获取后得到概念向量空间,挖掘并筛选出重要频繁项集,然后采用统计和潜在语义相结合的方法进行重要频繁项集的自适应聚类.最后,提出TSC-SN(text soft classifying based on similarity threshold and non-overlapping)算法,通过参数调优策略选择和控制文本软聚类过程.股吧论坛数据实证分析发现:所提出的STC_FL框架和TSC-SN算法可充分挖掘文本潜在语义信息,并有效降低特征空间维度,最终实现对短文本的深层次信息挖掘和主题归类.
【部分图文】：

潜在语义,频繁项集,短文,聚类

第４期张涛，等：融合频繁项集和潜在语义分析的股评论坛主题发现方法２面向股评论坛的主题发现新框架为解决现有主题挖掘方法处理网络股评论坛中短文本数据所存在的困难，构建一种面向股评论坛主题发现的短文本聚类框架．利用频繁项集与潜在语义相结合的ＳＴＣ＿ＦＬ框架从在线股评抽取主题词，再使用ＴＳＣ－ＳＮ算法基于主题词进行文本检索，从而实现特有的股评文本聚类，如图１所示．知网（ＨｏｗＮｅｔ）是以揭示概念与概念之间和概念所具有的属性之间的关系为基本内容的常识知识库．针对文本中所蕴含的潜在语义关系，引入知网作为背景知识库建立基于概念的向量空间，并在文本集相似度计算的基础上，采用基于统计和潜在语义相结合的度量模式．通过较长频繁项集预估主题个数，以解决聚类结果数目的最优设定．针对融合频繁项集与潜在语义关系的文本软聚类，在文本检索阶段对ＴＳＣ－ＳＮ算法设置短文本与主题簇间相似度阈值与簇间非重叠度参数，灵活选择和控制文本与主题间的对应关系．采用频繁项集和概念映射来降低向量空间维度，弥补基于向量空间的聚类所存在的语义缺失问题；融合频繁项集与潜在语义，有效降低特征空间维度的同时充分考虑潜在语义关系；在对主题词相关文本进行检索时控制短文本与主题簇间相似度阈值，同时引入簇间非重叠度概念，利用新型文本集划分策略实现文本软聚类．图１基于频繁项集和潜在语义的短文本聚类基本框架Ｆｉｇ．１Ｂａｓｉｃｆｒａｍｅｗｏｒｋｏｆｓｈｏｒｔｔｅｘｔｃｌｕｓｔｅｒｉｎｇｂａｓｅｄｏｎｆｒｅｑｕｅｎｔｉｔｅｍ－ｓｅｔｓａｎ

频繁项集,最小支持度,百分比

特征空间的概念数为１９０７５，特征空间维度缩减５８．９％，有效缓解概念向量空间表示中所存在的高维度问题．３．１重要参数设置３．１．１重要频繁项集数的参数分析为通过频繁项集过滤策略获得比较完整与冗余性低的重要频繁项集集合，特别分析最小支持度ｍｉｎ＿ｓｕｐ和频繁项集间的Ｊａｃｃａｒｄ系数最大相似度α与重要频繁项集个数的关系，分别设置α的不同取值，观测每个取值下过滤后的重要频繁项集数与最小支持度ｍｉｎ＿ｓｕｐ之间的变化规律，如图４所示．由图４可知，在α的不同设置中，过滤后的频繁项集占频繁项集总数的百分比均不超过２０％，有利于提高频繁项集聚类的效率．为挖掘出更多的频繁项集，这里将ｍｉｎ＿ｓｕｐ设置较低，由此可得到大量包含主题信息的频繁项集，再通过过滤策略得到高质图４过滤后频繁项集所占百分比与最小支持度的关系Ｆｉｇ．４Ｒｅｌａｔｉｏｎｓｈｉｐｂｅｔｗｅｅｎｆｒｅｑｕｅｎｔｉｔｅｍ－ｓｅｔｓｐｒｏｐｏｒｔｉｏｎａｎｄｍｉｎｉｍｕｍｓｕｐｐｏｒｔｄｅｇｒｅｅａｆｔｅｒｆｉｌｔｅｒｉｎｇ量的重要频繁项集．过滤策略的方法复杂度低，不会增加过多的时间消耗．α设置越高，过滤后的重要频繁项集所占百分比越高．当α取值为０．４与０．５时，重要频繁项集的百分比相差较小；当α取值为０．６时，重要频繁项集的百分比显著增大．这主要是因为基于ＦＰ－ｇｒｏｗｔｈ算法挖掘获取的频繁项集中包含大量３－项集．当α取值为０．４或０．５时，两个３－

频繁项集,短文,聚类,申购

蓝筹、ＥＴＦ、申购、汇金蓝筹、ＥＴＦ、１２００亿、申购蓝筹、ＥＴＦ、申购、护盘７暂停ＩＰＯ国务院、ＩＰＯ、暂停、新股国务院、ＩＰＯ、暂停、Ａ股国务院、ＩＰＯ、暂停、Ａ股注：ＥＴＦ为交易型开放式指数基金；ＩＰＯ为首次公开募股．３．２．２文本聚类通过计算文本与频繁项集簇中主题词之间的相似度，将文本划分至相似度最高的主题词簇下，围绕２０１５年股市大幅下跌前后的评论数据进行文本聚类，部分聚类结果如图５所示．图５基于频繁项集的短文本聚类部分结果Ｆｉｇ．５Ｒｅｓｕｌｔｓｏｆｓｈｏｒｔｔｅｘｔｃｌｕｓｔｅｒｉｎｇｂａｓｅｄｏｎｆｒｅｑｕｅｎｔｉｔｅｍ－ｓｅｔｓ９８５
【参考文献】

相关期刊论文前5条

1 杨震;王来涛;赖英旭;;基于改进语义距离的网络评论聚类研究[J];软件学报;2014年12期

2 曹丽娜;唐锡晋;;基于主题模型的BBS话题演化趋势分析[J];管理科学学报;2014年11期

3 蔡淑琴;张静;王旸;马玉涛;林勇;;基于中心化的微博热点发现方法[J];管理学报;2012年06期

4 徐戈;王厚峰;;自然语言处理中主题模型的发展[J];计算机学报;2011年08期

5 刘青磊;顾小丰;;基于《知网》的词语相似度算法研究[J];中文信息学报;2010年06期

【共引文献】

相关期刊论文前10条

1 冯妍;徐浩;王以新;刘新桥;张佩雪;张淼淼;;不稳定型心绞痛基于主题模型的不同兼症及合并病中医治疗方案优化方法研究[J];中国医药;2017年01期

2 孙国超;徐硕;乔晓东;;主题模型可视化研究综述[J];情报工程;2015年06期

3 王小玉;董诚;曾文;;科技政策语义分析方法研究[J];情报工程;2015年06期

4 叶川;马静;;多媒体微博评论信息的主题发现算法研究[J];现代图书情报技术;2015年11期

5 杜海燕;叶光辉;;社交博客用户分层与话题演化研究——以MetaFilter Music版块为例[J];信息资源管理学报;2015年04期

6 肖璐;唐晓波;;基于句子成分的微博热点主题挖掘模型研究[J];情报科学;2015年11期

7 王忠群;皇苏斌;修宇;张义;;基于领域专家和商品特征概念树的在线商品评论深刻性度量[J];现代图书情报技术;2015年09期

8 唐晓波;肖璐;;基于依存句法分析的微博主题挖掘模型研究[J];情报科学;2015年09期

9 吴晓娜;严建峰;刘晓升;;基于动态先验的LDA模型消息传递算法[J];计算机应用与软件;2015年08期

10 赵阳;徐田华;;基于文本挖掘的高铁信号系统车载设备故障诊断[J];铁道学报;2015年08期

【二级参考文献】

相关期刊论文前10条

1 尤薇佳;李红;刘鲁;;突发事件Web信息传播渠道信任比较研究[J];管理科学学报;2014年02期

2 石大文;张晖;;基于LDA模型的BBS话题演化[J];工业控制计算机;2012年05期

3 胡艳丽;白亮;张维明;;网络舆情中一种基于OLDA的在线话题演化方法[J];国防科技大学学报;2012年01期

4 杨震;赖英旭;段立娟;李玉鑑;;基于上下文重构的短文本情感极性判别研究[J];自动化学报;2012年01期

5 徐戈;王厚峰;;自然语言处理中主题模型的发展[J];计算机学报;2011年08期

6 刘宇鹏;李生;赵铁军;;基于WordNet词义消歧的系统融合[J];自动化学报;2010年11期

7 唐锡晋;;两个定性综合集成支持技术[J];系统工程理论与实践;2010年09期

8 杨锋;彭勤科;徐涛;;基于随机网络的在线评论情绪倾向性分类[J];自动化学报;2010年06期

9 马旭;徐蔚然;郭军;胡日勒;;SMS-2008标注中文短信息库[J];中文信息学报;2009年04期

10 杨震;范科峰;雷建军;郭军;;基于语义的文本流形研究[J];电子学报;2009年03期

【相似文献】

相关期刊论文前10条

1 李广璞;黄妙华;;频繁项集挖掘的研究进展及主流方法[J];计算机科学;2018年S2期

2 陈凤娟;;不确定数据中的代表频繁项集近似挖掘[J];计算机与数字工程;2017年02期

3 陈瑶;桂峰;卢超;王华;;基于频繁项集挖掘算法的伴随车应用与实现[J];计算机应用与软件;2017年04期

4 阚宝朋;崔利;;基于渐近取样的频繁项集挖掘近似算法[J];控制工程;2017年09期

5 翟悦;郭杨;王玉姣;;一种利用差集的加权频繁项集挖掘算法[J];辽宁工程技术大学学报(自然科学版);2016年03期

6 黄红星;;挖掘完全频繁项集的蚁群算法[J];微电子学与计算机;2014年12期

7 李挥剑;;大数据环境下频繁项集挖掘的研究[J];青岛科技大学学报(自然科学版);2015年02期

8 黄朝辉;;不确定数据频繁项集挖掘方法探析[J];莆田学院学报;2014年02期

9 吴建章;韩立新;曾晓勤;;一种基于多核微机的闭频繁项集挖掘算法[J];计算机应用与软件;2013年03期

10 陈小玉;杨艳燕;刘克成;朱颢东;;基于改进倒排表和集合的最频繁项集挖掘算法[J];计算机应用研究;2012年06期

相关博士学位论文前10条

1 屈俊峰;频繁项集与高可用项集挖掘算法及其性能研究[D];武汉大学;2013年

2 温磊;基于有向项集图的关联规则挖掘算法研究与应用[D];天津大学;2004年

3 贾彩燕;关联规则挖掘的取样复杂性分析[D];中国科学院研究生院（计算技术研究所）;2004年

4 郑晓艳;频繁模式挖掘技术研究及其在供应链管理中的应用[D];天津大学;2010年

5 孙崇敬;面向属性与关系的隐私保护数据挖掘理论研究[D];电子科技大学;2014年

6 谭军;面向产品持续质量控制的数据挖掘技术与应用研究[D];中南大学;2013年

7 陈湘;基于基集和概念格的数据挖掘方法研究[D];电子科技大学;2011年

8 董杰;基于位表的关联规则挖掘及关联分类研究[D];大连理工大学;2009年

9 吴学雁;金融时间序列模式挖掘方法的研究[D];华南理工大学;2010年

10 毛伊敏;数据流频繁模式挖掘关键算法及其应用研究[D];中南大学;2011年

相关硕士学位论文前10条

1 胡涵宇;基于动态散列和事务压缩的频繁项集挖掘的研究与实现[D];北京工业大学;2018年

2 何镇宏;并行频繁项集挖掘算法研究[D];四川师范大学;2018年

3 牛晨晨;数据流频繁项集挖掘算法研究[D];兰州财经大学;2018年

4 杜斐阳;基于Spark的并行频繁项集挖掘算法研究及应用[D];华中师范大学;2018年

5 夏儒斐;基于频繁项集关联的海量中文文本聚类系统及其在Spark平台的实现[D];华南理工大学;2018年

6 梅建强;析取空间中频繁项集精简表示模型研究[D];合肥工业大学;2018年

7 陈龙;支持差分隐私的频繁项集挖掘算法研究[D];华中科技大学;2017年

8 马强;基于Hadoop云平台的频繁项集算法的研究与实现[D];湖南大学;2014年

9 王杰;数据智能分析及其应用研究[D];江南大学;2019年

10 刘朋;混合个性化推荐方法研究[D];北方工业大学;2018年

本文编号：2847028

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/guanlilunwen/zhqtouz/2847028.html

上一篇：政府质量、产权性质与现金股利
下一篇：A股与H股市场对关键审计事项反应的比较研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|