当前位置:主页 > 科技论文 > 搜索引擎论文 >

中文短文本主题分类方法研究

发布时间:2017-04-12 06:20

  本文关键词:中文短文本主题分类方法研究,由笔耕文化传播整理发布。


【摘要】:对搜索引擎的查询串、图片内容的描述串这样的短文本进行分类,普遍的做法是,通过特征扩展对传统的机器学习分类方法进行优化,以此提高对短文本分类的效果。但是,这种方法仍然存在如下一些不足:性能开销大,并行化程度低;分类的准确率不高;难以处理信息快速更新的情况;模型训练缺乏准确标注的大语料集。为此,本文采用一种基于规则的主题分类方法,可有效解决传统方法的不足。 其主要研究工作如下: 1)通过对句法分析技术的语法体系和处理方法的分析可知,基于统计的依存句法分析是当前主流句法分析技术。本文以此作为句法分析的基础,并对分词模块和命名实体标注模块进行一定程度的调整,使其满足主题分类的要求。在此基础上,引入语义块概念、语义块确定规则及语义块主题确定规则。 2)分析分类法和主题法的相关技术,在分类-主题一体化的基础上,兼顾主题聚合的要求,构建一个面向互联网开放域的二级主题分类表,并采用反向过滤+TF-IDF+人工判定的混合方法来构建准确率较高的主题词典。用该词典对分词结果进行主题标注后,根据主题标注结果和句法分析结果满足的规则来确定短文本的主题。 3)在上述研究分析的基础上,本文实现一个基于搜索日志的主题挖掘系统。该系统中实现基于规则的主题分类方法和基于统计的模型分类方法,根据实际应用,通过分析两种方法在性能、并行程度、对数据更新的适应性以及标注语料集需求方面的差异,进一步证实了本方法的有效性。
【关键词】:句法分析 主题词典 疑问主题 分类规则
【学位授予单位】:西北大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.1
【目录】:
  • 摘要3-4
  • Abstract4-9
  • 第一章 绪论9-15
  • 1.1 研究背景及意义9-10
  • 1.2 研究现状10-13
  • 1.2.1 模型分类研究现状10-12
  • 1.2.2 规则分类研究现状12-13
  • 1.3 论文研究内容13-14
  • 1.4 论文结构14-15
  • 第二章 句法结构分析15-29
  • 2.1 句法分析的语法体系15-18
  • 2.1.1 短语结构语法15-17
  • 2.1.2 依存语法17-18
  • 2.1.3 两种语法体系的比较18
  • 2.2 句法分析的处理方法18-19
  • 2.2.1 基于规则的方法18
  • 2.2.2 基于统计的方法18-19
  • 2.2.3 两种处理方法的比较19
  • 2.3 哈工大语言分析技术19-25
  • 2.3.1 LTP架构20-22
  • 2.3.2 LTP符号说明22-23
  • 2.3.3 LTP应用23-25
  • 2.4 语义块主题25-27
  • 2.4.1 语义块概念26
  • 2.4.2 语义块主题判定规则26-27
  • 2.5 本章小结27-29
  • 第三章 主题词典的构建29-43
  • 3.1 信息组织方法29-34
  • 3.1.1 分类法技术29-30
  • 3.1.2 主题法技术30-31
  • 3.1.3 分类法与主题法的异同及融合31-33
  • 3.1.4 互联网开放域的主题分类表33-34
  • 3.2 主题词典的构建34-40
  • 3.2.1 基于现有知识库35-36
  • 3.2.2 反向过滤36
  • 3.2.3 改进的TF-IDF方法36-38
  • 3.2.4 特定领域抽取38
  • 3.2.5 主题词典的构建流程38-40
  • 3.3 主题冲突的解决方法40-41
  • 3.3.1 热度表40
  • 3.3.2 主干词距离40-41
  • 3.3.3 基于规则的主题融合41
  • 3.4 本章小结41-43
  • 第四章 基于规则的主题分类43-59
  • 4.1 主题分类的流程43-44
  • 4.2 疑问主题及确定规则44-45
  • 4.3 用规则进行主题分类45-50
  • 4.3.1 预处理45-46
  • 4.3.2 分类规则制定依据46-47
  • 4.3.3 分类规则用法47-49
  • 4.3.4 分类规则使用说明49-50
  • 4.4 实验与分析50-58
  • 4.4.1 实验环境与数据50
  • 4.4.2 评价指标50-51
  • 4.4.3 实验结果与分析51-58
  • 4.5 本章小结58-59
  • 第五章 主题分类的应用59-71
  • 5.1 基于搜索日志的主题挖掘系统介绍59
  • 5.1.1 应用背景59
  • 5.1.2 开发环境59
  • 5.2 基于搜索日志的主题挖掘系统59-67
  • 5.2.1 系统流程59-60
  • 5.2.2 主要模块功能与实现60-64
  • 5.2.3 主题分类的改进64-65
  • 5.2.4 模型分类的应用65-67
  • 5.3 应用分析67-69
  • 5.3.1 性能分析67-68
  • 5.3.2 并行程度分析68
  • 5.3.3 对数据更新的适应性分析68
  • 5.3.4 标注语料集需求分析68-69
  • 5.4 本章小结69-71
  • 总结与展望71-73
  • 参考文献73-77
  • 攻读硕士学位期间取得的科研成果77-79
  • 致谢79

【参考文献】

中国期刊全文数据库 前10条

1 谭金波;;基于规则的网络教育资源分类技术研究[J];中国远程教育;2010年03期

2 闫瑞;曹先彬;李凯;;面向短文本的动态组合分类算法[J];电子学报;2009年05期

3 郭泗辉;樊兴华;;一种改进的贝叶斯网络短文本分类算法[J];广西师范大学学报(自然科学版);2010年03期

4 吕德新;张桂平;蔡东风;余超;;基于语义信息的问题分类[J];沈阳航空工业学院学报;2006年03期

5 赵欢;朱红权;;基于双数组Trie树中文分词研究[J];湖南大学学报(自然科学版);2009年05期

6 王鹏,戴新宇,陈家骏,王启祥;基于规则的汉语句法分析方法研究[J];计算机工程与应用;2003年29期

7 王细薇;樊兴华;赵军;;一种基于特征扩展的中文短文本分类方法[J];计算机应用;2009年03期

8 王盛;樊兴华;陈现麟;;利用上下位关系的中文短文本分类[J];计算机应用;2010年03期

9 蔡月红;朱倩;孙萍;程显毅;;基于属性选择的半监督短文本分类算法[J];计算机应用;2010年04期

10 周强;汉语句法树库标注体系[J];中文信息学报;2004年04期

中国博士学位论文全文数据库 前1条

1 宋巍;基于主题的查询意图识别研究[D];哈尔滨工业大学;2013年

中国硕士学位论文全文数据库 前1条

1 程勇;汉语句法分析的重排序技术研究[D];哈尔滨工业大学;2012年


  本文关键词:中文短文本主题分类方法研究,,由笔耕文化传播整理发布。



本文编号:300897

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/300897.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户58d75***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com