基于多模型的中文分词方法研究
发布时间:2021-11-01 18:03
字标注分词方法借助于优秀的学习算法成为当前中文分词领域中一种较为有效的分词方法。但由于汉字具有不同语言功能与含义这一特点,造成每个字的构词规律存在差异。因此,基于字进行多模型分词建模成为一种分词策略。然而,现有分词方法存在两点现象:(1)基于字进行分词建模,尽管可以学习出每个字特殊的构词规律,却忽略构词规律中的共性问题,造成模型冗余;(2)自神经网络的表示学习方法兴起,使得自动学习特征成为可能。利用神经网络进行自动表征学习成为分词领域中的自然选择。本文针对上述分词领域所存在的现象,提出相应的方法:针对现象一,本文提出了基于字簇的多模型中文分词方法。该方法借助聚类算法试图发掘构词规律分布结构,以此作为分词建模依据,重新进行特征抽取与模型训练。实验结果证明,本文所提出的方法在提高分词性能的同时,大幅度减少模型数量,避免模型冗余。针对现象二,本文提出了基于字的多Bi-LSTM模型的中文分词方法。该方法基于字进行分词建模,并借助Bi-LSTM神经网络特有的优势进行自动特征学习,避免特征工程对分词性能的影响。与此同时,为了避免模型冗余问题,引入聚类思想,提出了基于字簇的多Bi-LSTM模型的中文...
【文章来源】:沈阳航空航天大学辽宁省
【文章页数】:69 页
【学位级别】:硕士
【部分图文】:
词位标注集
沈阳航空航天大学硕士学位论文法是指利用某种标记集合来记录每个字在构词过程中的位置信息用 2 种标记状态进行词位信息记录,分别为 S 和 C 标签。其中 S个字处于分离状态(Separation),即以当前字符开始一个新的词;前一个字处于结合状态(Combination),即与前一个字组成一个词4 词位标记方法采用 4 种标记状态,分别为 S、B、M、E 四种标该字单独构成一个词(Single);B 标签表示该字位于词的开始位置字位于词的中间位置(Middle);E 标签表示该字位于词的结束位 词位标记方法中规定每个字最多有 6 种构词位置,即 S(独立成多字词中第一个字符位置)、M2(多字词中第二个字符位置)、M3位置)、E(词尾)。以“首都各界群众和劳动模范。”为例,具体、2.2、2.3 所示。
用 2 种标记状态进行词位信息记录,分别为 S 和 C 标签。其中 S个字处于分离状态(Separation),即以当前字符开始一个新的词;前一个字处于结合状态(Combination),即与前一个字组成一个词4 词位标记方法采用 4 种标记状态,分别为 S、B、M、E 四种标该字单独构成一个词(Single);B 标签表示该字位于词的开始位置字位于词的中间位置(Middle);E 标签表示该字位于词的结束位 词位标记方法中规定每个字最多有 6 种构词位置,即 S(独立成多字词中第一个字符位置)、M2(多字词中第二个字符位置)、M3位置)、E(词尾)。以“首都各界群众和劳动模范。”为例,具体、2.2、2.3 所示。图 2.1 2 词位标注集
【参考文献】:
期刊论文
[1]一种基于字的多模型中文分词方法[J]. 张少阳,王裴岩,蔡东风. 沈阳航空航天大学学报. 2017(01)
[2]基于LSTM网络的序列标注中文分词法[J]. 任智慧,徐浩煜,封松林,周晗,施俊. 计算机应用研究. 2017(05)
[3]基于Hash结构词典的双向最大匹配分词法[J]. 陈之彦,李晓杰,朱淑华,付丹龙,邢诒海. 计算机科学. 2015(S2)
[4]基于表示学习的中文分词算法探索[J]. 来斯惟,徐立恒,陈玉博,刘康,赵军. 中文信息学报. 2013(05)
[5]基于最大间隔马尔可夫网模型的汉语分词方法[J]. 李月伦,常宝宝. 中文信息学报. 2010(01)
[6]一种基于字词联合解码的中文分词方法[J]. 宋彦,蔡东风,张桂平,赵海. 软件学报. 2009(09)
[7]基于反序词典的中文分词技术研究[J]. 罗桂琼,费洪晓,戴弋. 计算机技术与发展. 2008(01)
[8]基于有效子串标注的中文分词[J]. 赵海,揭春雨. 中文信息学报. 2007(05)
[9]中文分词十年回顾[J]. 黄昌宁,赵海. 中文信息学报. 2007(03)
[10]基于反序词典的中文逆向最大匹配分词系统设计[J]. 张李义,李亚子. 现代图书情报技术. 2006(08)
本文编号:3470555
【文章来源】:沈阳航空航天大学辽宁省
【文章页数】:69 页
【学位级别】:硕士
【部分图文】:
词位标注集
沈阳航空航天大学硕士学位论文法是指利用某种标记集合来记录每个字在构词过程中的位置信息用 2 种标记状态进行词位信息记录,分别为 S 和 C 标签。其中 S个字处于分离状态(Separation),即以当前字符开始一个新的词;前一个字处于结合状态(Combination),即与前一个字组成一个词4 词位标记方法采用 4 种标记状态,分别为 S、B、M、E 四种标该字单独构成一个词(Single);B 标签表示该字位于词的开始位置字位于词的中间位置(Middle);E 标签表示该字位于词的结束位 词位标记方法中规定每个字最多有 6 种构词位置,即 S(独立成多字词中第一个字符位置)、M2(多字词中第二个字符位置)、M3位置)、E(词尾)。以“首都各界群众和劳动模范。”为例,具体、2.2、2.3 所示。
用 2 种标记状态进行词位信息记录,分别为 S 和 C 标签。其中 S个字处于分离状态(Separation),即以当前字符开始一个新的词;前一个字处于结合状态(Combination),即与前一个字组成一个词4 词位标记方法采用 4 种标记状态,分别为 S、B、M、E 四种标该字单独构成一个词(Single);B 标签表示该字位于词的开始位置字位于词的中间位置(Middle);E 标签表示该字位于词的结束位 词位标记方法中规定每个字最多有 6 种构词位置,即 S(独立成多字词中第一个字符位置)、M2(多字词中第二个字符位置)、M3位置)、E(词尾)。以“首都各界群众和劳动模范。”为例,具体、2.2、2.3 所示。图 2.1 2 词位标注集
【参考文献】:
期刊论文
[1]一种基于字的多模型中文分词方法[J]. 张少阳,王裴岩,蔡东风. 沈阳航空航天大学学报. 2017(01)
[2]基于LSTM网络的序列标注中文分词法[J]. 任智慧,徐浩煜,封松林,周晗,施俊. 计算机应用研究. 2017(05)
[3]基于Hash结构词典的双向最大匹配分词法[J]. 陈之彦,李晓杰,朱淑华,付丹龙,邢诒海. 计算机科学. 2015(S2)
[4]基于表示学习的中文分词算法探索[J]. 来斯惟,徐立恒,陈玉博,刘康,赵军. 中文信息学报. 2013(05)
[5]基于最大间隔马尔可夫网模型的汉语分词方法[J]. 李月伦,常宝宝. 中文信息学报. 2010(01)
[6]一种基于字词联合解码的中文分词方法[J]. 宋彦,蔡东风,张桂平,赵海. 软件学报. 2009(09)
[7]基于反序词典的中文分词技术研究[J]. 罗桂琼,费洪晓,戴弋. 计算机技术与发展. 2008(01)
[8]基于有效子串标注的中文分词[J]. 赵海,揭春雨. 中文信息学报. 2007(05)
[9]中文分词十年回顾[J]. 黄昌宁,赵海. 中文信息学报. 2007(03)
[10]基于反序词典的中文逆向最大匹配分词系统设计[J]. 张李义,李亚子. 现代图书情报技术. 2006(08)
本文编号:3470555
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3470555.html
最近更新
教材专著