统计模型在中文文本挖掘中的应用
本文选题:中文分词 切入点:关键词提取 出处:《数理统计与管理》2017年04期 论文类型:期刊论文
【摘要】:本文讨论了中文文本挖掘的三个问题:分词、关键词提取和文本分类。对分词问题,介绍了基于层叠隐马尔可夫模型的ICTCLAS分词法,以及将词与词之间的分隔视为缺失数据并用EM算法求解的WDM方法;对关键词提取问题,提出了贝叶斯因子法,并介绍了使用稀疏回归的CCS方法;对文本分类问题,介绍了根据关键词频率建立分类器的方法,以及先建立主题模型再根据主题概率建立分类器的方法。本文通过两组文本数据对上述方法进行比较,并给出使用建议。
[Abstract]:This paper discusses three problems of Chinese text mining: word segmentation, keyword extraction and text classification. For word segmentation, ICTCLAS word segmentation method based on cascaded hidden Markov model is introduced. The separation between words and words is regarded as missing data and solved by EM algorithm. The Bayesian factor method is proposed for keyword extraction, and the CCS method using sparse regression is introduced. This paper introduces the method of establishing classifier according to the frequency of keywords, and the method of establishing the classifier based on the topic model and the probability of topic first. This paper compares these methods with two groups of text data, and gives some suggestions for their use.
【作者单位】: 北京大学光华管理学院;
【分类号】:TP391.1
【参考文献】
相关期刊论文 前1条
1 孔翔宇;毕秀春;张曙光;;财经新闻与股市预测——基于数据挖掘技术的实证分析[J];数理统计与管理;2016年02期
【共引文献】
相关期刊论文 前5条
1 洪亮;李雪思;周莉娜;;领域跨越:数据挖掘的应用和发展趋势[J];图书情报知识;2017年04期
2 陈云松;严飞;;网络舆情是否影响股市行情? 基于新浪微博大数据的ARDL模型边限分析[J];社会;2017年02期
3 王健;张俊妮;;统计模型在中文文本挖掘中的应用[J];数理统计与管理;2017年04期
4 王大庆;;基于大数据时代背景下的财经新闻转变探讨[J];新闻研究导刊;2016年23期
5 孟雪井;杨亚飞;赵新泉;;财经新闻与股市投资策略研究——基于财经网站的文本挖掘[J];投资研究;2016年08期
【二级参考文献】
相关期刊论文 前1条
1 赵丽丽;赵茜倩;杨娟;王铁军;李庆;;财经新闻对中国股市影响的定量分析[J];山东大学学报(理学版);2012年07期
【相似文献】
相关期刊论文 前10条
1 张妍;许云峰;张立全;;基于云计算的中文分词研究[J];河北科技大学学报;2012年03期
2 张茂元,卢正鼎,邹春燕;一种基于语境的中文分词方法研究[J];小型微型计算机系统;2005年01期
3 程传鹏;;一种简单高效的中文分词方法[J];郑州轻工业学院学报;2006年03期
4 张博;姜建国;万平国;;对互联网环境下中文分词系统的一种架构改进[J];计算机应用研究;2006年11期
5 夏新松;肖建国;;一种新的错误驱动学习方法在中文分词中的应用[J];计算机科学;2006年03期
6 周军;王艳红;;一种基于词典的中文分词法的设计与实现[J];黑龙江科技信息;2008年25期
7 许高建;胡学钢;路遥;王庆人;;一种改进的中文分词歧义消除算法研究[J];合肥工业大学学报(自然科学版);2008年10期
8 张培颖;;运用有向图进行中文分词研究[J];计算机工程与应用;2009年22期
9 吴晶晶;荆继武;聂晓峰;王平建;;一种快速中文分词词典机制[J];中国科学院研究生院学报;2009年05期
10 袁健;张劲松;马良;;二次回溯中文分词方法[J];计算机应用研究;2009年09期
相关会议论文 前10条
1 王敏;叶宽余;薛峰;;一种面向网店商品搜索的中文分词系统设计[A];全国第22届计算机技术与应用学术会议(CACIS·2011)暨全国第3届安全关键技术与应用(SCA·2011)学术会议论文摘要集[C];2011年
2 黄昌宁;赵海;;由字构词——中文分词新方法[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
3 任飞亮;石磊;姚天顺;;应用支持向量机进行中文分词[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
4 吴晶晶;荆继武;王平建;;一种基于词典的新型中文分词机制[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
5 李玉梅;靳光瑾;黄昌宁;;中文分词规范中的歧义字段消解细则[A];第五届全国语言文字应用学术研讨会论文集[C];2007年
6 修驰;宋柔;;基于“大词”实例的中文分词研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
7 黄居仁;;瓶颈,挑战,与转机:中文分词研究的新思维[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
8 李寿山;黄居仁;;基于词边界分类的中文分词方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
9 张梅山;邓知龙;车万翔;刘挺;;统计与词典相结合的领域自适应中文分词[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
10 王屹林;朱慕华;朱靖波;;针对SVM中文分词特性的个性化后处理设计[A];第三届学生计算语言学研讨会论文集[C];2006年
相关博士学位论文 前4条
1 奚宁;统计机器翻译中的中文分词策略研究[D];南京大学;2013年
2 修驰;适应于不同领域的中文分词方法研究与实现[D];北京工业大学;2013年
3 何嘉;基于遗传算法优化的中文分词研究[D];电子科技大学;2012年
4 李志国;面向分布式文本知识管理的中文分词与文本分类研究[D];重庆大学;2008年
相关硕士学位论文 前10条
1 顾辉;基于中文分词的购物中心微信平台购物导航的设计与实现[D];华中师范大学;2015年
2 韩冰;基于感知器算法的中文分词增量系统设计与实现[D];哈尔滨工业大学;2015年
3 杜丽萍;基于互联网海量语料的新词发现研究及中文分词系统改进[D];西安邮电大学;2015年
4 周祺;基于统计与词典相结合的中文分词的研究与实现[D];哈尔滨工业大学;2015年
5 梁喜涛;基于主动学习的中文分词方法研究[D];南京邮电大学;2015年
6 朱云杰;大数据环境下垃圾评论过滤系统的研究与实现[D];东南大学;2015年
7 吕先超;视障汉语转换软件SunBraille的设计实现[D];兰州大学;2016年
8 黄积杨;基于双向LSTMN神经网络的中文分词研究分析[D];南京大学;2016年
9 梁科;面向中医医案的数据挖掘技术研究及应用[D];山东大学;2016年
10 郑宗荣;基于实例的中文分词系统设计与实现[D];电子科技大学;2016年
,本文编号:1623458
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1623458.html