基于深度学习的文本处理系统设计与实现
发布时间:2020-03-20 22:46
【摘要】:随着人工智能技术的发展,法律、医疗和安全等行业都受到深远的影响。在这些行业中,大部分的数据都能够以文本形式存在,文本处理的目的是更好地管理这些文本并且从文本中获取用户需要的信息,具体是对目标文本进行分类、信息抽取等处理。深度学习已经在语音识别、计算机视觉和机器翻译等领域取得良好的应用效果,同样深度学习也能应用在文本分类等文本处理任务中。文本分类是文本处理中的核心部分,主要任务是学习给定文本的内容和标签,将这种映射关系生成分类器,利用分类器对未知类别的文本进行分类。本文主要研究工作如下:1、利用神经网络模型学习文本中的特征映射,实现文本特征的自动提取。分模块介绍了基于深度学习的文本分类算法原理,深度学习模型主要采用的是卷积神经网络和分层注意力网络。2、在两种深度学习模型的研究前提下,融合多个深度学习模型以提升文本分类的准确率,并且利用公开的中文文本分类数据集进行对比实验。根据实验结论进行分析,卷积神经网络模型分类准确率最低,采用分层注意力网络能在此基础上提升3%,而融合两个模型之后,分类准确率比卷积神经网络提升6%。3、针对法律行业的文本处理研究,设计并且实现了一个基于深度学习的法律文本处理系统。该系统的实现主要是基于深度学习框架TensorFlow,数据集来源于网络上采集的合同模板,采用卷积神经网络和分层注意力网络的融合模型构建分类器,在处理合同文件的同时也能对用户输入需求进行信息抽取,并且匹配到用户需要的合同模板。本文在深度学习和自然语言处理技术的研究基础上,主要进行法律行业的文本处理研究。法律行业的文书,比如裁决文书、合同文本、法律法规等,一般数量庞大、内容复杂,人工处理的方法效率低下,本文基于深度学习算法对法律合同文书进行文本分类、用户需求匹配等文本处理工作,能够提高办公效率和用户体验。
【图文】:
图 3-1 用于文本分类的文本数据示例在图 3-1 中,前一列是文本的内容,而后一列是该段文本对应的标签,本文合同文件中的文本内容为例,三行示例都是从公开的合同模板文本中摘取应的是租赁合同、劳务合同和专利实施合同。建立基于深度学习的文本分首先对文本进行数据预处理,在完成去除文本中的标点、数字、特殊字符作之后。中文文本的预处理主要包含的步骤如下:① 分词:不同于英文等语言,在中文的文本处理任务中需要对文本进行分具体的原因是因为基于字粒度的特征选择会损失比较多的“n-gram”信息一般算法是直接忽略文本中的词序信息,,因此特征粒度采用基于词粒度比好。英文中每个单词之间会有间隔,而中文是连续性的,所以有必要进行词处理。本文采用结巴分词[55]对文本进行分词处理。
图 3-2 某份合同文件中的词频统计图表示的原理,其主要作用是将文本转化为数无视文本语序等信息,利用相互独立的词汇方面忽略了文本的上下文关系,另一方面具用分布式表示方法,原理已在前一章提及。ord2vec 方法[21],实际应用中还有 GloVe 等预训练的 Word2vec 模型作为词向量。利用 W本转化为数字向量。仍然以合同文件中的文图 3-3 所示,矩阵的每行表示一个词语,而向量的维度通常记为 embedding_size,是训
【学位授予单位】:华中科技大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP391.1;TP18
本文编号:2592312
【图文】:
图 3-1 用于文本分类的文本数据示例在图 3-1 中,前一列是文本的内容,而后一列是该段文本对应的标签,本文合同文件中的文本内容为例,三行示例都是从公开的合同模板文本中摘取应的是租赁合同、劳务合同和专利实施合同。建立基于深度学习的文本分首先对文本进行数据预处理,在完成去除文本中的标点、数字、特殊字符作之后。中文文本的预处理主要包含的步骤如下:① 分词:不同于英文等语言,在中文的文本处理任务中需要对文本进行分具体的原因是因为基于字粒度的特征选择会损失比较多的“n-gram”信息一般算法是直接忽略文本中的词序信息,,因此特征粒度采用基于词粒度比好。英文中每个单词之间会有间隔,而中文是连续性的,所以有必要进行词处理。本文采用结巴分词[55]对文本进行分词处理。
图 3-2 某份合同文件中的词频统计图表示的原理,其主要作用是将文本转化为数无视文本语序等信息,利用相互独立的词汇方面忽略了文本的上下文关系,另一方面具用分布式表示方法,原理已在前一章提及。ord2vec 方法[21],实际应用中还有 GloVe 等预训练的 Word2vec 模型作为词向量。利用 W本转化为数字向量。仍然以合同文件中的文图 3-3 所示,矩阵的每行表示一个词语,而向量的维度通常记为 embedding_size,是训
【学位授予单位】:华中科技大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP391.1;TP18
【参考文献】
相关期刊论文 前1条
1 余凯;贾磊;陈雨强;徐伟;;深度学习的昨天、今天和明天[J];计算机研究与发展;2013年09期
本文编号:2592312
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2592312.html