基于神经网络和语句特征融合的汉语复句关系词自动识别
发布时间:2021-04-16 05:38
关系词是复句在语表形式上的标记,是复句中标示关系的一个重要构件,它在很大程度上影响着分句的语义和复句层次关系的识别。关系词的自动识别有助于划清句子的语法成分,弄清复句表达的语义,从而有利于提高机器翻译的准确度。同时,复句是连接篇章的桥梁,关系词的识别对促进篇章研究有十分重要的意义。目前,汉语复句关系词识别方法有基于规则的方法与基于统计的方法,这些方法过度依赖于人工总结的规则。本文探讨使用深度学习的方法进行关系词识别。针对复句关系词识别方法都依赖于人工提取的语句特征的问题,提出了将神经网络引入关系词自动识别的方法。该方法将复句语料库中提取的特征融合到词向量中,将词向量输入到构建的神经网络模型中进行训练。为了探究神经网络模型中不同语句特征组合和不同词向量对关系词识别的影响,利用哈尔滨工业大学语言平台(LTP)对现代汉语复句语料库(CCCS)中的复句进行语句分析,提取出四种常见的语句特征建立语句特征库;再从语句特征库抽取特征并将特征进行组合,将组合后的语句特征分别与CBOW和BERT词向量矩阵进行语句特征融合,并输入到神经网络模型中训练;最终通过分析不同的训练模型测试结果来挖掘彼此的联系,获...
【文章来源】:华中师范大学湖北省 211工程院校 教育部直属院校
【文章页数】:55 页
【学位级别】:硕士
【部分图文】:
图2.2?BERT模型结构(左)Transformer结构(右)图??为了使得模型更加有效,还添加了两项新的预训练任务目标:遮盖语言模型??(MLM)和预测下一个句子
Zi^§|k\项士学位论文??MASTER'S?THESIS??CBOW模型,以此作为初级模型;然后将CCCS语料库放入该初级模型进行再训??练,获得最终的CBOW词向量模型。该模型不仅涵盖了搜狗语料库大量语句的范??围,能表示更多词的语义,同时又兼具CCCS复句语料库的特点,更加适合关系词??自动识别任务。其词向量训练效果如图2.3所示。??与"计篝机"?相似的前icH'-?与"男生■?思相似的前1奸词??£6??0.7699730396270752?女生?0.9045362472S3418??软件?0.66S833S924148S6?女同学?0.7064820528030396??微机?0.6428780555725098?女孩子?0.686104953289032??0.6325061321258545?同学?0.6693482398986816??交换机?0.62187802791?S9546?女孩?0.66S3SS066SS88379??系统软件?0.6123274564743042?女老师?0.638964176177978S??打印机?0.5991623401641846?学生?0.6232960820198059??芯片?0.S93342661857605?男孩?0.6147264838218689??电子?0.S904868245124817?高中生?0.6108670234680176??因特网?0.5882048606872SS9?初中生?0.S8209SS038070679??图2.3词向量的训练效果检验示例??由图2.3可知,“计算机”最相近的词是“电脑”,对应词向量的余弦相似度为??0.77,
以句子??的语义角度出发,挖掘出句子中每个语言单位之间即词与词之间的语义关联,不受??语法框架所束缚,同样也不需要去抽象描述每个词汇所在句中的扮演的角色。通过??以语法框架的角度来描绘词汇,不受论元数目所影响,对词的刻画更为细致,突破??了句子表层句法结构的束缚,能获得句子的深层语义。??复句和复句关系词在语义上是相互制约,通过语义依存关系角度,可以更加深??刻的认识到词在复句中扮演的语义角色,进而为判断关系词提供有力的支撑。分析??例(3.3)和例(3.4)的语义依存关系,结果如图3.5和图3.6所示。????.??—??......一一??f?4?i?W?i?%?t?f?r?'、.?★广?,?,?r?'t??Root?7- ̄9_?一?s?7-A?ss?a?Wa?il*?=1S?生?1??图3.5例句(3.3)的语义依存图???-??bSocc???—????、、、??''、、、?一?二咖?','?’”_、?、、、'??,-伽|^?,?’?M3rf!MarBV、,mPnnc?-^r〇?nPm,?'?.?^nnc??r?t?/?????t?*???f?f?l_?’?’?’?零?t?T??Root?itB?^???-S?藝子辟管2?-?市场????图3.6例句(3.4)的语义依存图??由图3.5可知,例句(3.3)的准关系词“一面/—面”与其支配词“积压”的语义??依存关系分别为“mTime(时间标记)”,“eSucc(顺承关系)”,其中时间标记一般不作??为句子成分,是常见关系词和支配词之间语
【参考文献】:
期刊论文
[1]基于神经网络的关系词非充盈态复句层次的自动识别[J]. 杨进才,杨璐璐,汪燕燕,沈显君. 计算机科学. 2019(S2)
[2]一种结构和语义兼顾的综合分析思想在复句依存句法分析中的运用[J]. 李源,黄文灿,胡金柱. 计算机与数字工程. 2019(03)
[3]汉语复句关系词的依存树特征分析[J]. 杨进才,罗越群,陈忠忠,胡金柱. 计算机与数字工程. 2017(08)
[4]基于依存关系规则的汉语复句关系词自动识别[J]. 杨进才,涂馨丹,沈显君,胡金柱. 计算机应用研究. 2018(06)
[5]面向自然语言处理的深度学习研究[J]. 奚雪峰,周国栋. 自动化学报. 2016(10)
[6]基于贝叶斯模型的复句关系词自动识别与规则挖掘[J]. 杨进才,郭凯凯,沈显君,胡金柱. 计算机科学. 2015(07)
[7]汉语复句关系词自动识别中规则的约束条件研究[J]. 胡金柱,舒江波,胡泉,杨进才,谢芳,李源. 语言文字应用. 2015(01)
[8]基于规则的复句关系词的自动标识[J]. 贾遂民,雷利利,胡明生. 中文信息学报. 2015(01)
[9]复句关系词自动识别中规则的表示方法研究[J]. 胡金柱,舒江波,胡泉,李源,杨进才,谢芳. 计算机工程与应用. 2016(01)
[10]人工神经网络原理、分类及应用[J]. 王磊. 科技资讯. 2014(03)
博士论文
[1]面向中文信息处理的复句关系词自动标识研究[D]. 舒江波.华中师范大学 2011
[2]复句关系标记的搭配研究与相关解释[D]. 姚双云.华中师范大学 2006
[3]中文信息处理中若干关键技术的研究[D]. 王建会.复旦大学 2004
硕士论文
[1]基于决策树方法的汉语复句关系词自动识别[D]. 邹艳军.华中师范大学 2018
[2]基于搭配强度的复句关系词自动标识方法研究[D]. 宋林森.华中师范大学 2014
[3]复句关系词自动标识系统中规则库及其维护方法研究[D]. 陈江曼.华中师范大学 2012
[4]复句关系词自动标识系统中规则解析器的研究[D]. 雷利利.华中师范大学 2012
本文编号:3140848
【文章来源】:华中师范大学湖北省 211工程院校 教育部直属院校
【文章页数】:55 页
【学位级别】:硕士
【部分图文】:
图2.2?BERT模型结构(左)Transformer结构(右)图??为了使得模型更加有效,还添加了两项新的预训练任务目标:遮盖语言模型??(MLM)和预测下一个句子
Zi^§|k\项士学位论文??MASTER'S?THESIS??CBOW模型,以此作为初级模型;然后将CCCS语料库放入该初级模型进行再训??练,获得最终的CBOW词向量模型。该模型不仅涵盖了搜狗语料库大量语句的范??围,能表示更多词的语义,同时又兼具CCCS复句语料库的特点,更加适合关系词??自动识别任务。其词向量训练效果如图2.3所示。??与"计篝机"?相似的前icH'-?与"男生■?思相似的前1奸词??£6??0.7699730396270752?女生?0.9045362472S3418??软件?0.66S833S924148S6?女同学?0.7064820528030396??微机?0.6428780555725098?女孩子?0.686104953289032??0.6325061321258545?同学?0.6693482398986816??交换机?0.62187802791?S9546?女孩?0.66S3SS066SS88379??系统软件?0.6123274564743042?女老师?0.638964176177978S??打印机?0.5991623401641846?学生?0.6232960820198059??芯片?0.S93342661857605?男孩?0.6147264838218689??电子?0.S904868245124817?高中生?0.6108670234680176??因特网?0.5882048606872SS9?初中生?0.S8209SS038070679??图2.3词向量的训练效果检验示例??由图2.3可知,“计算机”最相近的词是“电脑”,对应词向量的余弦相似度为??0.77,
以句子??的语义角度出发,挖掘出句子中每个语言单位之间即词与词之间的语义关联,不受??语法框架所束缚,同样也不需要去抽象描述每个词汇所在句中的扮演的角色。通过??以语法框架的角度来描绘词汇,不受论元数目所影响,对词的刻画更为细致,突破??了句子表层句法结构的束缚,能获得句子的深层语义。??复句和复句关系词在语义上是相互制约,通过语义依存关系角度,可以更加深??刻的认识到词在复句中扮演的语义角色,进而为判断关系词提供有力的支撑。分析??例(3.3)和例(3.4)的语义依存关系,结果如图3.5和图3.6所示。????.??—??......一一??f?4?i?W?i?%?t?f?r?'、.?★广?,?,?r?'t??Root?7- ̄9_?一?s?7-A?ss?a?Wa?il*?=1S?生?1??图3.5例句(3.3)的语义依存图???-??bSocc???—????、、、??''、、、?一?二咖?','?’”_、?、、、'??,-伽|^?,?’?M3rf!MarBV、,mPnnc?-^r〇?nPm,?'?.?^nnc??r?t?/?????t?*???f?f?l_?’?’?’?零?t?T??Root?itB?^???-S?藝子辟管2?-?市场????图3.6例句(3.4)的语义依存图??由图3.5可知,例句(3.3)的准关系词“一面/—面”与其支配词“积压”的语义??依存关系分别为“mTime(时间标记)”,“eSucc(顺承关系)”,其中时间标记一般不作??为句子成分,是常见关系词和支配词之间语
【参考文献】:
期刊论文
[1]基于神经网络的关系词非充盈态复句层次的自动识别[J]. 杨进才,杨璐璐,汪燕燕,沈显君. 计算机科学. 2019(S2)
[2]一种结构和语义兼顾的综合分析思想在复句依存句法分析中的运用[J]. 李源,黄文灿,胡金柱. 计算机与数字工程. 2019(03)
[3]汉语复句关系词的依存树特征分析[J]. 杨进才,罗越群,陈忠忠,胡金柱. 计算机与数字工程. 2017(08)
[4]基于依存关系规则的汉语复句关系词自动识别[J]. 杨进才,涂馨丹,沈显君,胡金柱. 计算机应用研究. 2018(06)
[5]面向自然语言处理的深度学习研究[J]. 奚雪峰,周国栋. 自动化学报. 2016(10)
[6]基于贝叶斯模型的复句关系词自动识别与规则挖掘[J]. 杨进才,郭凯凯,沈显君,胡金柱. 计算机科学. 2015(07)
[7]汉语复句关系词自动识别中规则的约束条件研究[J]. 胡金柱,舒江波,胡泉,杨进才,谢芳,李源. 语言文字应用. 2015(01)
[8]基于规则的复句关系词的自动标识[J]. 贾遂民,雷利利,胡明生. 中文信息学报. 2015(01)
[9]复句关系词自动识别中规则的表示方法研究[J]. 胡金柱,舒江波,胡泉,李源,杨进才,谢芳. 计算机工程与应用. 2016(01)
[10]人工神经网络原理、分类及应用[J]. 王磊. 科技资讯. 2014(03)
博士论文
[1]面向中文信息处理的复句关系词自动标识研究[D]. 舒江波.华中师范大学 2011
[2]复句关系标记的搭配研究与相关解释[D]. 姚双云.华中师范大学 2006
[3]中文信息处理中若干关键技术的研究[D]. 王建会.复旦大学 2004
硕士论文
[1]基于决策树方法的汉语复句关系词自动识别[D]. 邹艳军.华中师范大学 2018
[2]基于搭配强度的复句关系词自动标识方法研究[D]. 宋林森.华中师范大学 2014
[3]复句关系词自动标识系统中规则库及其维护方法研究[D]. 陈江曼.华中师范大学 2012
[4]复句关系词自动标识系统中规则解析器的研究[D]. 雷利利.华中师范大学 2012
本文编号:3140848
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3140848.html