当前位置:主页 > 科技论文 > 数学论文 >

基于线性回归的中文文本可读性预测方法研究

发布时间:2017-08-15 03:19

  本文关键词:基于线性回归的中文文本可读性预测方法研究


  更多相关文章: 可读性预测 中文文本 线性回归模型 特征选择 可读性公式


【摘要】:随着Internet的发展,网络上的信息越来越多,人们往往通过向搜索引擎提交查询,然后搜索引擎能够返回与用户的查询最相关的结果。然而人们的阅读水平与理解能力不尽相同,如何为用户找到适合其阅读的网页文本成为一个重要的课题,而文本的可读性预测在这一过程中扮演着重要的角色。因此,如何准确地预测文本的可读性具有十分重要的意义。文本的可读性预测指的是度量文本的阅读难度,这在多个领域中都有应用,如语言教育,信息检索和文本简化。迄今为止使用最多的方法是可读性公式,这些公式一般是基于一些简单的特征通过线性回归模型建立的。近期的研究使用了机器学习技术,并且受益于自然语言处理技术等其他领域的发展,一些新的复杂的特征得以被利用。这些新的可读性预测方法表现出对经典可读性公式的优越性。然而可读性公式的这种表现很有可能是由于使用的特征有限,并且它们是基于特定的训练语料库建立的。本文总结并分析了现有的可读性研究成果,提出了基于线性回归与特征选择的中文文本可读性预测方法,然后通过一系列的实证研究来评估该方法的有效性。现将本文的主要贡献概括如下:1.综述了文本可读性预测问题的研究进展。首先对文本可读性预测问题进行了介绍,包括文本可读性的基本概念,以及可读性预测的问题定义。然后总结了现有的文本可读性预测方法,并将其分为四类进行了介绍,包括基于传统的文本特征的可读性公式方法、基于认知理论的方法、基于单词统计的语言模型方法和基于复杂特征与机器学习的方法。2.提出了基于线性回归与特征选择的中文文本可读性预测方法。首先对本文提出的基于线性回归与特征选择的中文文本可读性预测方法的动机进行了介绍,接着阐述了该方法的框架,并从中文特征计算、特征选择和线性回归模型三个方面对该框架进行了介绍,最后介绍了该方法的设计与实现。3.展开了对基于线性回归与特征选择的中文文本可读性预测方法的实证研究。为了评估本文中提出的基于线性回归与特征选择的中文文本可读性预测方法的有效性,我们首先提出两个主要的研究问题。接着对实验用的数据集进行介绍。然后介绍实验设计部分,包括实验设置和所使用的性能评价指标。最后通过分析实验结果,验证本文提出方法的有效性。
【关键词】:可读性预测 中文文本 线性回归模型 特征选择 可读性公式
【学位授予单位】:南京大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.1;O212.1
【目录】:
  • 摘要4-6
  • Abstract6-10
  • 第一章 绪论10-16
  • 1.1 背景和意义10-12
  • 1.2 可读性研究的发展历史12-14
  • 1.3 本文的主要工作14-15
  • 1.4 本文的组织结构15-16
  • 第二章 文本可读性预测问题的介绍16-32
  • 2.1 文本可读性预测的概述16
  • 2.2 现有可读性预测研究方法的总结16-28
  • 2.2.1 基于传统的文本特征的可读性公式方法17-19
  • 2.2.2 基于认知理论的方法19-23
  • 2.2.3 基于单词统计的语言模型方法23-25
  • 2.2.4 基于复杂特征与机器学习的方法25-28
  • 2.3 特征选择28-30
  • 2.4 本章小结30-32
  • 第三章 基于线性回归模型与特征选择的可读性预测方法32-46
  • 3.1 方法的动机32-33
  • 3.2 方法的框架33
  • 3.3 中文特征计算33-38
  • 3.3.1 数据预处理34
  • 3.3.2 分词和词性标注34-35
  • 3.3.3 语法分析35
  • 3.3.4 计算得到的中文可读性特征35-38
  • 3.4 特征选择38-41
  • 3.4.1 基于排序的特征选择38-40
  • 3.4.2 考虑冗余的特征选择40-41
  • 3.4.3 考虑组合特征的特征选择41
  • 3.5 线性回归模型41-42
  • 3.6 方法的设计与实现42-44
  • 3.6.1 方法的设计42-43
  • 3.6.2 方法的实现43-44
  • 3.7 本章小结44-46
  • 第四章 实证研究46-60
  • 4.1 研究问题46
  • 4.2 数据集46-47
  • 4.3 实验设计47-48
  • 4.3.1 实验设置47-48
  • 4.3.2 评价指标48
  • 4.4 实验结果分析48-58
  • 4.4.1 基于设计特征的线性回归模型vs SVR49-52
  • 4.4.2 基于线性回归与特征选择的中文文本可读性预测方法的研究52-58
  • 4.5 本章小结58-60
  • 第五章 总结与展望60-64
  • 5.1 总结60-61
  • 5.2 展望61-64
  • 致谢64-66
  • 参考文献66-72
  • 攻读硕士学位期间发表论文及参与项目情况72-73

【参考文献】

中国期刊全文数据库 前2条

1 黄敏;;汉语特质与中文新闻易读性公式研究[J];新闻与传播研究;2010年04期

2 王蕾;;可读性公式的内涵及研究范式——兼议对外汉语可读性公式的研究任务[J];语言教学与研究;2008年06期



本文编号:676018

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/yysx/676018.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户102b9***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com