中文短文本主题分类方法研究
本文关键词:中文短文本主题分类方法研究,由笔耕文化传播整理发布。
【摘要】:对搜索引擎的查询串、图片内容的描述串这样的短文本进行分类,普遍的做法是,通过特征扩展对传统的机器学习分类方法进行优化,以此提高对短文本分类的效果。但是,这种方法仍然存在如下一些不足:性能开销大,并行化程度低;分类的准确率不高;难以处理信息快速更新的情况;模型训练缺乏准确标注的大语料集。为此,本文采用一种基于规则的主题分类方法,可有效解决传统方法的不足。 其主要研究工作如下: 1)通过对句法分析技术的语法体系和处理方法的分析可知,基于统计的依存句法分析是当前主流句法分析技术。本文以此作为句法分析的基础,并对分词模块和命名实体标注模块进行一定程度的调整,使其满足主题分类的要求。在此基础上,引入语义块概念、语义块确定规则及语义块主题确定规则。 2)分析分类法和主题法的相关技术,在分类-主题一体化的基础上,兼顾主题聚合的要求,构建一个面向互联网开放域的二级主题分类表,并采用反向过滤+TF-IDF+人工判定的混合方法来构建准确率较高的主题词典。用该词典对分词结果进行主题标注后,根据主题标注结果和句法分析结果满足的规则来确定短文本的主题。 3)在上述研究分析的基础上,本文实现一个基于搜索日志的主题挖掘系统。该系统中实现基于规则的主题分类方法和基于统计的模型分类方法,根据实际应用,通过分析两种方法在性能、并行程度、对数据更新的适应性以及标注语料集需求方面的差异,进一步证实了本方法的有效性。
【关键词】:句法分析 主题词典 疑问主题 分类规则
【学位授予单位】:西北大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.1
【目录】:
- 摘要3-4
- Abstract4-9
- 第一章 绪论9-15
- 1.1 研究背景及意义9-10
- 1.2 研究现状10-13
- 1.2.1 模型分类研究现状10-12
- 1.2.2 规则分类研究现状12-13
- 1.3 论文研究内容13-14
- 1.4 论文结构14-15
- 第二章 句法结构分析15-29
- 2.1 句法分析的语法体系15-18
- 2.1.1 短语结构语法15-17
- 2.1.2 依存语法17-18
- 2.1.3 两种语法体系的比较18
- 2.2 句法分析的处理方法18-19
- 2.2.1 基于规则的方法18
- 2.2.2 基于统计的方法18-19
- 2.2.3 两种处理方法的比较19
- 2.3 哈工大语言分析技术19-25
- 2.3.1 LTP架构20-22
- 2.3.2 LTP符号说明22-23
- 2.3.3 LTP应用23-25
- 2.4 语义块主题25-27
- 2.4.1 语义块概念26
- 2.4.2 语义块主题判定规则26-27
- 2.5 本章小结27-29
- 第三章 主题词典的构建29-43
- 3.1 信息组织方法29-34
- 3.1.1 分类法技术29-30
- 3.1.2 主题法技术30-31
- 3.1.3 分类法与主题法的异同及融合31-33
- 3.1.4 互联网开放域的主题分类表33-34
- 3.2 主题词典的构建34-40
- 3.2.1 基于现有知识库35-36
- 3.2.2 反向过滤36
- 3.2.3 改进的TF-IDF方法36-38
- 3.2.4 特定领域抽取38
- 3.2.5 主题词典的构建流程38-40
- 3.3 主题冲突的解决方法40-41
- 3.3.1 热度表40
- 3.3.2 主干词距离40-41
- 3.3.3 基于规则的主题融合41
- 3.4 本章小结41-43
- 第四章 基于规则的主题分类43-59
- 4.1 主题分类的流程43-44
- 4.2 疑问主题及确定规则44-45
- 4.3 用规则进行主题分类45-50
- 4.3.1 预处理45-46
- 4.3.2 分类规则制定依据46-47
- 4.3.3 分类规则用法47-49
- 4.3.4 分类规则使用说明49-50
- 4.4 实验与分析50-58
- 4.4.1 实验环境与数据50
- 4.4.2 评价指标50-51
- 4.4.3 实验结果与分析51-58
- 4.5 本章小结58-59
- 第五章 主题分类的应用59-71
- 5.1 基于搜索日志的主题挖掘系统介绍59
- 5.1.1 应用背景59
- 5.1.2 开发环境59
- 5.2 基于搜索日志的主题挖掘系统59-67
- 5.2.1 系统流程59-60
- 5.2.2 主要模块功能与实现60-64
- 5.2.3 主题分类的改进64-65
- 5.2.4 模型分类的应用65-67
- 5.3 应用分析67-69
- 5.3.1 性能分析67-68
- 5.3.2 并行程度分析68
- 5.3.3 对数据更新的适应性分析68
- 5.3.4 标注语料集需求分析68-69
- 5.4 本章小结69-71
- 总结与展望71-73
- 参考文献73-77
- 攻读硕士学位期间取得的科研成果77-79
- 致谢79
【参考文献】
中国期刊全文数据库 前10条
1 谭金波;;基于规则的网络教育资源分类技术研究[J];中国远程教育;2010年03期
2 闫瑞;曹先彬;李凯;;面向短文本的动态组合分类算法[J];电子学报;2009年05期
3 郭泗辉;樊兴华;;一种改进的贝叶斯网络短文本分类算法[J];广西师范大学学报(自然科学版);2010年03期
4 吕德新;张桂平;蔡东风;余超;;基于语义信息的问题分类[J];沈阳航空工业学院学报;2006年03期
5 赵欢;朱红权;;基于双数组Trie树中文分词研究[J];湖南大学学报(自然科学版);2009年05期
6 王鹏,戴新宇,陈家骏,王启祥;基于规则的汉语句法分析方法研究[J];计算机工程与应用;2003年29期
7 王细薇;樊兴华;赵军;;一种基于特征扩展的中文短文本分类方法[J];计算机应用;2009年03期
8 王盛;樊兴华;陈现麟;;利用上下位关系的中文短文本分类[J];计算机应用;2010年03期
9 蔡月红;朱倩;孙萍;程显毅;;基于属性选择的半监督短文本分类算法[J];计算机应用;2010年04期
10 周强;汉语句法树库标注体系[J];中文信息学报;2004年04期
中国博士学位论文全文数据库 前1条
1 宋巍;基于主题的查询意图识别研究[D];哈尔滨工业大学;2013年
中国硕士学位论文全文数据库 前1条
1 程勇;汉语句法分析的重排序技术研究[D];哈尔滨工业大学;2012年
本文关键词:中文短文本主题分类方法研究,,由笔耕文化传播整理发布。
本文编号:300897
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/300897.html