基于序列标注的中文语义组块分析系统设计与实现
发布时间:2021-08-07 05:07
中文语义分析是使计算机理解汉语句子并实现人机中文对话的非常重要的一步,它能将中文句子转化为机器可以理解的一种表达方式。依据中文语法特点设计中文语义组块序列标注方式,并使用深度学习方法设计与实现中文语义组块分析系统,完成对中文句子语义成分的划分。为了得到准确率较高的中文语义组块分析器,将输入数据进行了清洗,过滤其中的非句子成分,并利用标点符号切分出单句;训练了中文分词和词性标注模型,使用训练好的模型对清洗后的数据进行分词和词性的预测;使用word2vec的方式预训练出中文词向量与随机初始化的词性向量进行拼接作为神经网络模型的输入;设计并实现了多个中文语义组块识别模型,首先根据CRF算法进行了实现,设计了用来提取分词和词性特征的特征模板,并根据句中出现的短语增加短语内词的特征,结合词特征和状态转移矩阵对中文语义组块进行识别;然后实现了使用BiLSTM嵌入CRF中状态转移矩阵的模型,接着在该模型基础上设计增加了网络层数,实现了双层BiLSTM+CRF模型,最后在双层BiLSTM+CRF模型基础上引入Attention机制,实现了新的双层BiLSTM+Attention+CRF模型。通过对实现...
【文章来源】:华中科技大学湖北省 211工程院校 985工程院校 教育部直属院校
【文章页数】:71 页
【学位级别】:硕士
【部分图文】:
语义组块数据示例图
按照设计的语义组块规则对分词结果进开头第一个词标记为 B(Begin),剩下的词统一标注加上该主谓宾等组块类别,最终得到人工标注数据。2.6 所示。其中第一列为句子分词结果,第二列为词性语义组块类别。图 2.6 语义组块数据示例图件对该类数据进行标注时操作复杂且容易出错,所以自主开发的一套数据标注平台对序列标注数据进行标
在预处理模块详细设计中,我们将对数据获取及清洗实现、中文句子分词实现性标注实现分别进行说明。.1.1 数据获取及清洗详细设计与实现通过第二章中对数据清洗流程的介绍,可以知道训练时该部分需要对从网络中数据并进行处理得到不含特殊字符的单句。该部分对于中文语义组块分析系统来关重要,其结果将直接影响后续每个操作的效果。从网络中获取数据时,使用了 python 算法库中的 BeautifulSoup 和 requests。使equests.get(url)方法对网页 url 发起请求,并获取网页返回的 HTML 页面内容,由分网站设置了反爬虫,反爬虫的机制主要是根据用户请求标头判断发起请求的是爬虫程序,所以在调用 requests.get(url)时使用 key-value 的方式模拟请求头,并作数一同传入。网页请求头示例如图 3.1 所示。
【参考文献】:
期刊论文
[1]基于GloVe模型的词向量改进方法[J]. 陈珍锐,丁治明. 计算机系统应用. 2019(01)
[2]基于卷积神经网络的随机梯度下降算法[J]. 王功鹏,段萌,牛常勇. 计算机工程与设计. 2018(02)
[3]深度学习进展及其在图像处理领域的应用[J]. 刘涵,贺霖,李军. 中兴通讯技术. 2017(04)
[4]深度学习及其在图像物体分类与检测中的应用综述[J]. 刘栋,李素,曹志冬. 计算机科学. 2016(12)
[5]基于表示学习的中文分词[J]. 刘春丽,李晓戈,刘睿,范贤,杜丽萍. 计算机应用. 2016(10)
[6]Word2vec的工作原理及应用探究[J]. 周练. 科技情报开发与经济. 2015(02)
[7]最大熵和HMM在中文词性标注中的应用[J]. 余昕聪,李红莲,吕学强. 无线互联科技. 2014(11)
[8]大数据下的机器学习算法综述[J]. 何清,李宁,罗文娟,史忠植. 模式识别与人工智能. 2014(04)
[9]深度学习的昨天、今天和明天[J]. 余凯,贾磊,陈雨强,徐伟. 计算机研究与发展. 2013(09)
[10]基于浅层句法分析的中文语义角色标注研究[J]. 王鑫,孙薇薇,穗志方. 中文信息学报. 2011(01)
博士论文
[1]自然语言处理中序列标注模型的研究[D]. 计峰.复旦大学 2012
硕士论文
[1]汉语语义组块识别研究[D]. 常若愚.杭州电子科技大学 2015
[2]机器学习算法及其应用研究[D]. 徐艺.湖南大学 2014
本文编号:3327140
【文章来源】:华中科技大学湖北省 211工程院校 985工程院校 教育部直属院校
【文章页数】:71 页
【学位级别】:硕士
【部分图文】:
语义组块数据示例图
按照设计的语义组块规则对分词结果进开头第一个词标记为 B(Begin),剩下的词统一标注加上该主谓宾等组块类别,最终得到人工标注数据。2.6 所示。其中第一列为句子分词结果,第二列为词性语义组块类别。图 2.6 语义组块数据示例图件对该类数据进行标注时操作复杂且容易出错,所以自主开发的一套数据标注平台对序列标注数据进行标
在预处理模块详细设计中,我们将对数据获取及清洗实现、中文句子分词实现性标注实现分别进行说明。.1.1 数据获取及清洗详细设计与实现通过第二章中对数据清洗流程的介绍,可以知道训练时该部分需要对从网络中数据并进行处理得到不含特殊字符的单句。该部分对于中文语义组块分析系统来关重要,其结果将直接影响后续每个操作的效果。从网络中获取数据时,使用了 python 算法库中的 BeautifulSoup 和 requests。使equests.get(url)方法对网页 url 发起请求,并获取网页返回的 HTML 页面内容,由分网站设置了反爬虫,反爬虫的机制主要是根据用户请求标头判断发起请求的是爬虫程序,所以在调用 requests.get(url)时使用 key-value 的方式模拟请求头,并作数一同传入。网页请求头示例如图 3.1 所示。
【参考文献】:
期刊论文
[1]基于GloVe模型的词向量改进方法[J]. 陈珍锐,丁治明. 计算机系统应用. 2019(01)
[2]基于卷积神经网络的随机梯度下降算法[J]. 王功鹏,段萌,牛常勇. 计算机工程与设计. 2018(02)
[3]深度学习进展及其在图像处理领域的应用[J]. 刘涵,贺霖,李军. 中兴通讯技术. 2017(04)
[4]深度学习及其在图像物体分类与检测中的应用综述[J]. 刘栋,李素,曹志冬. 计算机科学. 2016(12)
[5]基于表示学习的中文分词[J]. 刘春丽,李晓戈,刘睿,范贤,杜丽萍. 计算机应用. 2016(10)
[6]Word2vec的工作原理及应用探究[J]. 周练. 科技情报开发与经济. 2015(02)
[7]最大熵和HMM在中文词性标注中的应用[J]. 余昕聪,李红莲,吕学强. 无线互联科技. 2014(11)
[8]大数据下的机器学习算法综述[J]. 何清,李宁,罗文娟,史忠植. 模式识别与人工智能. 2014(04)
[9]深度学习的昨天、今天和明天[J]. 余凯,贾磊,陈雨强,徐伟. 计算机研究与发展. 2013(09)
[10]基于浅层句法分析的中文语义角色标注研究[J]. 王鑫,孙薇薇,穗志方. 中文信息学报. 2011(01)
博士论文
[1]自然语言处理中序列标注模型的研究[D]. 计峰.复旦大学 2012
硕士论文
[1]汉语语义组块识别研究[D]. 常若愚.杭州电子科技大学 2015
[2]机器学习算法及其应用研究[D]. 徐艺.湖南大学 2014
本文编号:3327140
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3327140.html
最近更新
教材专著