当前位置:主页 > 科技论文 > 软件论文 >

LDA模型下不同分词方法对文本分类性能的影响研究

发布时间:2018-07-25 16:48
【摘要】:通过定义类别聚类密度、类别复杂度以及类别清晰度三个指标,从语料库信息度量的角度研究多种代表性的中文分词方法在隐含概率主题模型LDA下对文本分类性能的影响,定量、定性地分析不同分词方法在网页和学术文献等不同类型文本的语料上进行分类的适用性及影响分类性能的原因。结果表明:三项指标可以有效指明分词方法对语料在分类时产生的影响,Ik Analyzer和ICTCLAS分词法分别受类别复杂度和类别聚类密度的影响较大,二元分词法受三个指标的作用相当,使其对于不同语料具有较好的适应性。对于学术文献类型的语料,使用二元分词法时的分类效果较好,F1值均在80%以上;而网页类型的语料对于各种分词法的适应性更强。尝试通过对语料进行信息度量而非单纯的实验来选择提高该语料分类性能的最佳分词方法,以期为网页和学术文献等不同类型的文本在基于LDA模型的分类系统中选择合适的中文分词方法提供参考。
[Abstract]:By defining three indexes of clustering density, class complexity and class clarity, the paper studies the influence of several representative Chinese word segmentation methods on text classification performance under the implicit probability topic model (LDA) from the perspective of corpus information measurement. This paper quantitatively and qualitatively analyzes the applicability of different word segmentation methods in the corpus of different types of texts, such as web pages and academic documents, and the reasons that affect the classification performance. The results show that the three indexes can effectively indicate the influence of word segmentation on the classification of corpus. Ik Analyzer and ICTCLAS participle are influenced by the class complexity and cluster density respectively, while the binary participle is equally affected by the three indexes. So that it has better adaptability to different corpus. For the corpus of academic literature, the classification effect of binary participle method is better than 80%, while the data of web page type is more adaptable to all kinds of word segmentation methods. This paper attempts to choose the best word segmentation method to improve the classification performance of the corpus by measuring the information of the corpus rather than simply experimenting. It is expected to provide a reference for different types of text such as web pages and academic documents to select suitable Chinese word segmentation methods in the classification system based on LDA model.
【作者单位】: 武汉大学信息管理学院;武汉大学信息资源研究中心;
【基金】:国家社会科学基金资助项目(15BTQ066)
【分类号】:TP391.1

【相似文献】

相关期刊论文 前10条

1 张江;基于规则的分词方法[J];计算机与现代化;2005年04期

2 杨柳;袁方;霍亮;;基于渐进式丰富词典的分词方法研究[J];计算机工程与应用;2006年32期

3 彭正龙;许炎义;;一种新的词典分词方法[J];计算机与信息技术;2009年12期

4 傅赛香,袁鼎荣,黄柏雄,钟智;基于统计的无词典分词方法[J];广西科学院学报;2002年04期

5 张聪品;赵理莉;吴长茂;;基于字词分类的层次分词方法[J];计算机应用;2010年08期

6 李斌;陈小荷;;面向中文陌生文本的人机交互式分词方法[J];中文信息学报;2007年03期

7 高军,陈锡先;无监督的动态分词方法[J];北京邮电大学学报;1997年04期

8 陈平;刘晓霞;李亚军;;基于字典和统计的分词方法[J];计算机工程与应用;2008年10期

9 王忠建;王悦;;归纳学习与规则结合的分词方法的有效性考察[J];哈尔滨师范大学自然科学学报;2010年01期

10 徐秉铮,詹剑,贺前华;基于神经网络的分词方法[J];中文信息学报;1993年02期

相关会议论文 前4条

1 王俞霖;孙乐;李文波;;基于单字消除和实体识别的查询切分研究[A];第五届全国信息检索学术会议论文集[C];2009年

2 张玉连;张敏;张波;;一种无词典分词方法的分析与研究[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年

3 李斌;陈小荷;;面向中文陌生文本的人机交互式分词方法[A];第三届学生计算语言学研讨会论文集[C];2006年

4 赵伟;路永刚;吴琼;;一种新的基于BMM和RMM分词方法的研究与实现[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年

相关硕士学位论文 前7条

1 周利军;中文分词方法在农业搜索中的应用研究[D];四川农业大学;2015年

2 石金铭;面向微博文本的分词及情感分析研究[D];郑州大学;2016年

3 李慧;词典与统计相结合的傣文分词方法与实现[D];云南大学;2016年

4 游治勇;基于字的分词方法的研究与实现[D];电子科技大学;2015年

5 李卫红;一种新的并发分词算法的研究与实现[D];山东大学;2005年

6 刘浩;面向情感搜索的中文语料分析及其分词[D];北京邮电大学;2014年

7 田占霄;中英文混合分词方法及应用研究[D];河北农业大学;2009年



本文编号:2144437

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2144437.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户0e6e3***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com