基于神经网络的文本特征表示关键技术研究
发布时间:2021-03-14 19:45
随着互联网时代的到来,文本类型的数据量有了爆发式的增长。面对海量文本数据,如何从其中提取出有意义的信息是自然语言处理的研究重点。近年来,随着深度学习的发展,神经网络在图像、语音等方面的研究均取得了较好的成果,在部分实际任务中,甚至可以达到或超越人类水平。然而在自然语言处理方面,由于语言的复杂性和抽象性,对语言的理解一直是人工智能领域较难突破的一部分。文本表示是大部分自然语言处理任务的基础。文本表示的核心是将自然语言转变为计算机可处理的形式,并保留文本对应的语义等信息,以便将其运用在具体的实际任务中。本文以神经网络为基础模型,以文本的特征表示为研究重点,针对不同层级和粒度的文本单元,提出基于神经网络的文本特征表示方法,对文本内部的特征进行提取,其主要的研究内容和创新点如下。1.基于字形结构的中文繁体字向量模型研究。本文针对中文繁体字,提出了一种基于文字图形特征的低于字符级别的字向量表示方式。通过对象形文字的字形特征学习,得到字形所表示的语义结构等信息,丰富了字向量的含义。在模型方面,首先提取中文繁体字的偏旁信息,使用连续词袋模型作为基础,将偏旁信息作为输入信息的一部分参与模型运算,根据上...
【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校
【文章页数】:117 页
【学位级别】:博士
【部分图文】:
图1-1?2018年各大网站每分钟产生的电子数据[2]??以Google搜索引擎为例,2018年平均每分钟用户在Google搜索引擎下搜??索次数达到3877140次
图2-1语言模型结构图W??图中最下方的w表示输入字符的索引,这里可以理解为是字符w的单热表示??形式,需要通过前n?-?1字测下一w
图2-2神经网络发展时间表[u】??神经网络的基本结构分为三部分,分别是输?
【参考文献】:
期刊论文
[1]语言·认知·隐喻[J]. 胡壮麟. 现代外语. 1997(04)
[2]论汉字简化的必然趋势及其优化的原则——纪念《汉字简化方案》公布35周年[J]. 王宁. 语文建设. 1991(02)
本文编号:3082840
【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校
【文章页数】:117 页
【学位级别】:博士
【部分图文】:
图1-1?2018年各大网站每分钟产生的电子数据[2]??以Google搜索引擎为例,2018年平均每分钟用户在Google搜索引擎下搜??索次数达到3877140次
图2-1语言模型结构图W??图中最下方的w表示输入字符的索引,这里可以理解为是字符w的单热表示??形式,需要通过前n?-?1字测下一w
图2-2神经网络发展时间表[u】??神经网络的基本结构分为三部分,分别是输?
【参考文献】:
期刊论文
[1]语言·认知·隐喻[J]. 胡壮麟. 现代外语. 1997(04)
[2]论汉字简化的必然趋势及其优化的原则——纪念《汉字简化方案》公布35周年[J]. 王宁. 语文建设. 1991(02)
本文编号:3082840
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3082840.html