汉语句义结构模型分析及其文本表示方法研究
本文关键词:汉语句义结构模型分析及其文本表示方法研究
更多相关文章: 汉语句义结构模型 句义结构 文本表示 主题模型 语义分析 文本分类 文本聚类 自然语言处理
【摘要】:随着移动互联网和信息技术的迅速发展,新闻、评论和微博等文本数量呈现爆炸式增长,对通过计算机处理海量文本数据提出了更高的要求。其中,文本表示是文本分类、聚类、检索等基础研究中极为重要内容之一,在文本数据处理中具有举足轻重的地位。同时,文本处理中对语义分析的需求越来越强,需要更深层次地挖掘语言中的语义信息。与英语等语种不同,汉语文本的处理存在更多、更大的困难,特别是汉语语义分析研究更是一项长期的具有挑战性的工作。本文围绕汉语句义结构模型及其在文本表示中的应用展开研究,建立汉语句义结构分析方法,利用其丰富的语义信息有效提升长文本和短文本的文本表示效果,力图推进汉语义分析理论与技术的发展。论文的主要成果和创新包括:1.提出了一种基于条件随机场和依存分析的句义结构多环节分析方法,可识别句义结构模型的28种句义成分和3种句义成分间关系,丰富了计算机可处理的汉语句义特征。汉语句义结构模型是汉语句子语义的抽象表示,是汉语语义分析的一种重要方法,是计算机可理解、可计算汉语句义的一种模型表示。论文提出的汉语句义结构多环节分析方法,将句义结构的识别过程分为5个环节,每个环节都可以得到相应的语义信息,包括28种句义成分和3种句义成分间关系,可根据需要灵活选用各识别环节。基于BFS-CTC语料库的实验,结果表明,句义结构识别F值为0.787。句义结构分析方法可以一次性完整识别句义结构模型的句义成分和句义成分间关系,实现了汉语句子到计算机可计算的句义结构的转换,丰富了计算机可处理的汉语句义特征,有利于进一步推进汉语语义分析的研究。2.提出了一种融合句义成分间关系的长文本表示方法,利用句义成分间关系指导主题模型的词语生成过程,打破主题模型的词袋假设,充分利用文本语义信息,有效提升了长文本分类和聚类的效果。长文本表示方法近年来得到了长足的发展,主题模型是长文本表示极为重要的方法。但是,现有的主题模型文本表示方法,由于没有考虑词语之间的语义关系造成了语义信息的丢失,从而影响了文本表示的效果。论文提出了融合句义成分间关系的长文本表示方法,该方法使用句义成分间关系到词语语义关系的映射,将文本中的词语表示成词语本身和与其相关的语义关系词语对,打破主题模型的词袋假设理论,在文本生成过程中考虑并利用了词语之间的语义关系信息。基于Sogou文本分类语料库分别进行了困惑度、文本分类和文本聚类实验,结果表明,困惑度值为480.319,文本分类精确度为0.907,文本聚类ARI值为0.4537。通过引入句义结构模型中句义成分间关系,使用语义信息指导主题模型的词语生成过程,充分利用了文本语义信息,有效提升了长文本分类和聚类的效果。3.提出了一种利用句义成分的短文本表示方法,通过利用句义结构模型的话题和述题构建主题选择判定规则,选择语义相关词语扩充到短文本中,缓解了短文本表示的特征稀疏问题,有效提升了短文本分类和聚类的效果。文本表示方法研究中,短文本表示的特征稀疏问题影响了短文本的分类和聚类效果。论文提出利用句义成分的短文本表示方法,该方法在保证特征空间维度不变的同时,结合利用句义成分和主题模型构建语义相关词语,再利用句义结构模型的话题和述题构建主题选择判定规则,选择语义相关词语扩充到短文本中,减少了短文本表示向量中的0值特征,有效缓解了短文本表示的特征稀疏问题。基于Sogou文本分类语料库分别进行了文本分类和聚类实验,结果表明,短文本分类精确度为0.8031,聚类ARI值为0.2728。利用语义相关词语丰富短文本的语义信息,缓解了短文本特征稀疏问题,有效提升了短文本分类和聚类的效果。4.构建了一个汉语句义结构分析及应用研究平台,实现句义结构分析和句义结构语料标注共享功能,易于扩展多种基于汉语句义结构模型的应用基础及应用研究。为了更广泛和深入地推动汉语句义结构模型的研究,采用LNMP架构,依靠远程过程调用协议进行模块化开发,研发了一个汉语句义结构分析及应用研究平台。该平台的主要功能包括汉语句义结构自动分析和汉语句义结构语料库标注共享等。此外,该平台稳定可靠、易于维护、易于扩展,为推进汉语句义结构的广泛研究奠定了基础。
【学位授予单位】:北京理工大学
【学位级别】:博士
【学位授予年份】:2016
【分类号】:TP391.1
【相似文献】
中国期刊全文数据库 前10条
1 李盛瑜;何文;;一种对聊天文本进行特征选取的方法研究[J];计算机科学;2007年05期
2 蒋志方;祝翠玲;吴强;;一个对不带类别标记文本进行分类的方法[J];计算机工程;2007年12期
3 赵钢;;从复杂文本中导入数据的方法[J];中国审计;2007年18期
4 易树鸿;张为群;;一种基于粗集的文本数据特征信息的挖掘方法[J];计算机科学;2002年08期
5 李建中,杨艳,张艳秋;并行文本管理原型系统PDoc的功能与总体框架[J];哈尔滨工业大学学报;2004年09期
6 覃晓;元昌安;彭昱忠;丁超;;基于基因表达式编程的Web文本分类研究[J];网络安全技术与应用;2009年03期
7 谌志群;;文本趋势挖掘综述[J];情报科学;2010年02期
8 王亚民;刘洋;;含附件文本的分类算法研究[J];情报杂志;2012年08期
9 江伟;潘昊;;基于优化的多核学习方法的Web文本分类的研究[J];计算机技术与发展;2013年10期
10 陈福海;C++中用>>和<<重载实现文本文件的方便存取[J];现代计算机;1997年05期
中国重要会议论文全文数据库 前10条
1 许君;王朝坤;刘立超;王建民;刘璋;;云环境中的近似复制文本检测[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年
2 易天元;叶春生;;工业锅炉图纸输入的文本数据处理[A];1997中国控制与决策学术年会论文集[C];1997年
3 胡蓉;唐常杰;陈敏敏;栾江;;关联规则制导的遗传算法在文本分类中的应用[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
4 李文波;孙乐;黄瑞红;冯元勇;张大鲲;;基于Labeled-LDA模型的文本分类新算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 黄云平;孙乐;李文波;;基于上下文图模型文本表示的文本分类研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
6 蒋勇;陈晓静;;一种多方向手写文本行提取方法[A];第二十七届中国控制会议论文集[C];2008年
7 李瑞;王朝坤;郑伟;王建民;王伟平;;基于MapReduce框架的近似复制文本检测[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
8 胡俊;黄厚宽;;一种基于SVM的可视化文本分类的方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
9 劳锦明;韦岗;;文本压缩技术研究的新进展[A];开创新世纪的通信技术——第七届全国青年通信学术会议论文集[C];2001年
10 江荻;;藏语文本信息处理的历程与进展[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
中国重要报纸全文数据库 前1条
1 戴洪玲;向Excel中快速输入相同文本[N];中国电脑教育报;2004年
中国博士学位论文全文数据库 前10条
1 宋歌;基于聚类森林的文本流分类方法研究[D];哈尔滨工业大学;2014年
2 韩开旭;基于支持向量机的文本情感分析研究[D];东北石油大学;2014年
3 郑立洲;短文本信息抽取若干技术研究[D];中国科学技术大学;2016年
4 韩磊;汉语句义结构模型分析及其文本表示方法研究[D];北京理工大学;2016年
5 胡明涵;面向领域的文本分类与挖掘关键技术研究[D];东北大学 ;2009年
6 孙晓华;基于聚类的文本机会发现关键问题研究[D];哈尔滨工程大学;2010年
7 尚文倩;文本分类及其相关技术研究[D];北京交通大学;2007年
8 霍跃红;典籍英译译者文体分析与文本的译者识别[D];大连理工大学;2010年
9 熊云波;文本信息处理的若干关键技术研究[D];复旦大学;2006年
10 李自强;大规模文本分类的若干问题研究[D];电子科技大学;2013年
中国硕士学位论文全文数据库 前10条
1 王轶霞;基于半监督递归自编码的情感分类研究[D];内蒙古大学;2015年
2 金传鑫;气象文本分类特征选择方法及其在MapReduce上的实现[D];南京信息工程大学;2015年
3 李少卿;不良文本及其变体信息的检测过滤技术研究[D];复旦大学;2014年
4 董秦涛;基于文本的个人情感状态分析研究[D];兰州大学;2015年
5 钟文波;搜索引擎中关键词分类方法评估及推荐应用[D];华南理工大学;2015年
6 黄晨;基于新词识别和时间跨度的微博热点研究[D];上海交通大学;2015年
7 陈红阳;中文微博话题发现技术研究[D];重庆理工大学;2015年
8 王s,
本文编号:1286418
本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/1286418.html