当前位置:主页 > 科技论文 > 网络通信论文 >

基于韵律和词汇信息的中英文句边界检测研究

发布时间:2017-10-20 18:03

  本文关键词:基于韵律和词汇信息的中英文句边界检测研究


  更多相关文章: 句边界检测 条件随机场 深度神经网络 深度递归神经网络


【摘要】:句边界检测(Sentence Boundary Detection)是从语音或文本数据中自动地找到完整语义单元(句子)的边界,是众多下游任务的前提和基础。本文基于韵律和词汇等多模态信息,研究了句边界检测任务的有效特征和方法。本文首先对句边界检测任务中涉及的韵律和词汇特征进行了研究,韵律特征包括停顿时长、基频、能量、词和音素时长以及说话人转换特征,词汇特征包括N-grams、POS、Chunk以及词向量特征。我们研究了基于条件随机场(Conditional Random Field)的句边界检测建模方法,条件随机场对上下文信息和边界类别的序列信息有较强的建模能力。文中我们把句边界检测任务转化为序列标注的问题,通过调节类别序列的阶数和上下文特征的窗口,我们得到了最优的条件随机场模型。我们对比了其他常用分类器在句边界检测任务中的效果,包括决策树、朴素贝叶斯、多层感知机、最大熵模型和支持向量机,结果表明条件随机场模型的检测效果超越了其他分类器。由于韵律特征存在冗余信息,我们利用基于相关性的特征选择方法对韵律特征进行了特征选择。深度神经网络(Deep Neural Network)具有很强的特征学习能力,通过多层非线性函数把输入特征转化为较好的特征表示。文中我们提出了一个基于深度神经网络和条件随机场(DNN-CRF)混合模型的句边界检测系统,该系统以深度神经网络在韵律特征上的后验概率和词汇特征为输入,并用条件随机场对该后验概率与词汇特征进行建模,标注出句子的边界信息。结果表明,我们提出的DNN-CRF混合模型的检测效果超越了先前最好的基于决策树的DT-CRF方法,其NIST错误率在手工抄本和识别抄本条件下分别比DT-CRF降低了16.7%和4.1%。深度递归神经网络(Deep Recurrent Neural Network)具有深度神经网络的特征学习能力以及条件随机场模型的序列和上下文建模能力,因此我们提出了基于深度递归神经网络的句边界检测方法,把韵律和词汇特征统一到同一个框架中。传统的深度递归神经网络对上下文和序列信息建模能力有限,也存在着梯度消失的问题,基于长短时记忆(Long Short Term Memory)结构的深度递归神经网络能够解决上述问题。本文中我们主要研究了深度双向长短时记忆的递归神经网络(DBLSTM-RNN)和特征融合的策略,并使用了词向量特征来表示词语信息。实验结果表明,在手工抄本和识别抄本条件下,结合韵律和词汇特征的DBLSTM-RNN模型都超越了前文提出的DNN-CRF方法,其NIST错误率分别降低了15.9%和4.5%。
【关键词】:句边界检测 条件随机场 深度神经网络 深度递归神经网络
【学位授予单位】:西北工业大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TN912.34;TP183
【目录】:
  • 摘要4-5
  • abstract5-10
  • 1 绪论10-18
  • 1.1 课题来源与研究意义10-11
  • 1.2 句边界检测的研究现状11-14
  • 1.3 本文主要工作及创新点14-16
  • 1.4 本文组织结构16-18
  • 2 语料库及评测标准18-22
  • 2.1 语料库18-19
  • 2.1.1 中文广播新闻语料库18-19
  • 2.1.2 英文广播新闻语料库19
  • 2.2 评测标准19-22
  • 3 句边界检测特征研究22-30
  • 3.1 韵律特征22-26
  • 3.1.1 停顿时长特征22-23
  • 3.1.2 基频特征23-25
  • 3.1.3 能量特征25-26
  • 3.1.4 词和音素时长特征26
  • 3.1.5 说话人转换特征26
  • 3.2 词汇特征26-28
  • 3.2.1 N-grams特征26-27
  • 3.2.2 POS和Chunk特征27
  • 3.2.3 词向量特征27-28
  • 3.3 本章小结28-30
  • 4 基于条件随机场的句边界检测30-44
  • 4.1 条件随机场模型30-37
  • 4.1.1 模型定义30-33
  • 4.1.2 概率计算问题33-34
  • 4.1.3 模型学习问题34-36
  • 4.1.4 序列预测问题36-37
  • 4.2 句边界检测系统概述37-38
  • 4.3 实验与分析38-41
  • 4.3.1 实验设置38-39
  • 4.3.2 实验结果与分析39-40
  • 4.3.3 特征使用分析40-41
  • 4.4 本章小结41-44
  • 5 基于DNN-CRF的句边界检测44-54
  • 5.1 深度神经网络模型44-48
  • 5.1.1 前向传播45-47
  • 5.1.2 后向传播47-48
  • 5.2 DNN-CRF句边界检测系统48-49
  • 5.3 实验与分析49-52
  • 5.3.1 实验设置49-50
  • 5.3.2 DNN韵律模型的结果与分析50-51
  • 5.3.3 DNN-CRF的结果与分析51-52
  • 5.4 本章小结52-54
  • 6 基于DBLSTM-RNN的句边界检测54-70
  • 6.1 递归神经网络54-57
  • 6.1.1 前向传播54-56
  • 6.1.2 后向传播56
  • 6.1.3 双向递归神经网络56-57
  • 6.2 长短时记忆57-62
  • 6.2.1 前向传播59-61
  • 6.2.2 后向传播61-62
  • 6.3 DBLSTM-RNN句边界检测系统62-64
  • 6.4 实验与分析64-69
  • 6.4.1 实验设置64-65
  • 6.4.2 基于韵律特征的实验结果与分析65-66
  • 6.4.3 基于词汇特征的实验结果与分析66-68
  • 6.4.4 多类特征融合的实验结果与分析68-69
  • 6.5 本章小结69-70
  • 7 总结与展望70-72
  • 参考文献72-78
  • 致谢78-80
  • 科研成果发表80-81

【相似文献】

中国期刊全文数据库 前10条

1 郭圣文,罗立民;一种新的线边界检测方法[J];计算机学报;2003年07期

2 韩海;线条化的边界检测[J];湖北大学学报(自然科学版);2003年03期

3 张俊燕;全方向M型心动图像的边界检测[J];成都信息工程学院学报;2004年01期

4 许先斌,汪长城,陈勇华;一种基于运动特征的快速镜头边界检测方法[J];计算机应用;2004年12期

5 韩冰,姬红兵,高新波;一种基于小波的分层和多分辨的镜头边界检测方法[J];西安电子科技大学学报;2005年01期

6 韩冰,姬红兵,高新波;一种先切分后检测的分层镜头边界检测方法[J];系统工程与电子技术;2005年02期

7 高健;周宇玫;茅时群;;一种基于相关性分析的镜头边界检测系统[J];电视技术;2006年03期

8 蒋兴浩;孙锬锋;方之昕;李荣杰;冯冰;;基于可变窗的镜头边界检测算法[J];上海交通大学学报;2009年11期

9 肖永良;朱韶平;刘超群;;基于结构保留投影的镜头边界检测[J];计算机工程与应用;2012年32期

10 谢筱华,罗立民,韦钰;基于矩的异分辨率图象边界检测[J];电子学报;1993年10期

中国重要会议论文全文数据库 前7条

1 Yue Feng WAN;Jack-Gérard POSTAIRE;Fran噻ois CABESTAING;;图像边界检测[A];1995年中国控制会议论文集(上)[C];1995年

2 管永红;刘瑞根;周俸才;;用计算机对比法进行边界检测[A];中国工程物理研究院科技年报(1998)[C];1998年

3 卢文锋;;基于贝叶斯方法的超声波图像边界检测[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年

4 彭进业;郝重阳;;一种基于二维图像分割的视频镜头边界检测方法[A];信号与信息处理技术第三届信号与信息处理全国联合学术会议论文集[C];2004年

5 刘瑞根;董维申;周俸才;管永红;;三种不依赖对比样品的闪光X光照相图像边界检测[A];中国工程物理研究院科技年报(1999)[C];1999年

6 王丽辉;袁保宗;苗振江;;结合FCM和边界检测算法进行不规则点云去噪[A];第十三届全国信号处理学术年会(CCSP-2007)论文集[C];2007年

7 范竞往;翟晓飞;封化民;杨鼎才;方勇;;一种双层新闻逻辑单元分割框架[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年

中国博士学位论文全文数据库 前3条

1 邰振华;位场数据高精度处理方法的研究与应用[D];吉林大学;2016年

2 张辉;基于朝向对比度的边界检测和图像分类研究[D];北京交通大学;2014年

3 李桂丹;无线传感器网络路由协议及容错事件边界检测研究[D];天津大学;2009年

中国硕士学位论文全文数据库 前10条

1 耿鹏;混合属性数据聚类边界检测技术的研究[D];郑州大学;2015年

2 樊骏笠;关联稀疏在图像恢复和边界检测中的应用[D];浙江师范大学;2015年

3 孙娟;新的视频镜头边界检测的度量标准[D];兰州大学;2015年

4 刘烽;基于动态阈值与拟合特征的镜头边界检测[D];南京大学;2013年

5 刘胜男;基于超像素的点互信息图像边界检测与分割算法研究[D];西北农林科技大学;2016年

6 王瑞宇;无监督在线学习实现遮挡边界检测与遮挡规避方法研究[D];燕山大学;2016年

7 张铖;基于小型无人直升机的环境污染区域边界检测与跟踪算法的研究[D];华南理工大学;2016年

8 严征;无人车的道路边界检测研究[D];西安工业大学;2016年

9 Malichenko Viktor;实时道路边界检测和交通标志识别[D];北京工业大学;2016年

10 许成林;基于韵律和词汇信息的中英文句边界检测研究[D];西北工业大学;2015年



本文编号:1068556

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/wltx/1068556.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户2a7ef***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com