基于深度学习的《辞海》分词方法
发布时间:2022-02-15 00:24
《辞海》是中国文化重要资产之一,具有重大研究价值。分词是数字《辞海》的研究基础,而《辞海》内容比较复杂,具有古文类型广和知识领域广等特点,给分词任务带来一定挑战。针对《辞海》内容的特点,提出基于深度学习的分词方法,首先对《辞海》内容进行预处理,去除包括文言文、诗、歌等古文内容;其次,选择《新华字典》,并利用CBOW模型训练字向量;最后,选择BI-LSTM-CRF模型执行《辞海》分词任务。实验结果显示,提出的分词方法,准确率、召回率和F1值到分别达到94.18%、94.09%和94.13%,具有较好的分词表现。
【文章来源】:现代计算机. 2020,(16)
【文章页数】:6 页
【部分图文】:
图1 分词框架
字向量训练,本文选择目前主流的CBOW模型,训练框架如图2所示。字向量训练主要工作包括:利用结巴分词工具对《新华字典》分词,然后利用CBOW模型训练字向量,最后输出字向量矩阵。
CBOW是Mikolov等人提出的Word2Vec[14]分布式表示的一种实现。Word2Vec具有效率高和表示效果好的优势,已经成为主流的词向量和字向量训练模型。Word2Vec模型提供两种实现CBOW和SkipGram,文献[15]提到CBOW比较适合常见词,在本研究中,主要为常见词,故选择CBOW实现。CBOW模型核心思想是通过目标词wt的上下文词Context(wt)预测目标词:。其中,c为窗口,图3为c=2的CBOW模型结构。在CBOW中,训练之前需要进行相关初始化,包括利用语料库建立词典W={w1,…,wN}、基于词典和词频建立哈夫曼树、随机初始化词向量Wword={v1,…,vN}和哈夫曼树内部节点Wnode={θ1,…,θN-1}等,其中,N为词典长度,wi、vi分别为第i词和词向量,θi为第i节点向量参数。
【参考文献】:
期刊论文
[1]《辞海》的创新之路[J]. 张敏. 出版与印刷. 2019(01)
[2]基于领域词典的动态规划分词算法[J]. 蒋卫丽,陈振华,邵党国,马磊,相艳,郑娜,余正涛. 南京理工大学学报. 2019(01)
[3]循环神经网络研究综述[J]. 杨丽,吴雨茜,王俊丽,刘义理. 计算机应用. 2018(S2)
[4]中文分词技术综述[J]. 冯俐. 现代计算机(专业版). 2018(34)
[5]基于双向LSTM神经网络模型的中文分词[J]. 金宸,李维华,姬晨,金绪泽,郭延哺. 中文信息学报. 2018(02)
[6]基于双向长短时记忆模型的中文分词方法[J]. 张洪刚,李焕. 华南理工大学学报(自然科学版). 2017(03)
硕士论文
[1]基于深度学习中文分词的研究[D]. 王梦鸽.西安邮电大学 2018
[2]基于深度学习的中文分词方法研究[D]. 刘玉德.华南理工大学 2018
[3]基于双向LSTMN神经网络的中文分词研究分析[D]. 黄积杨.南京大学 2016
[4]基于词典的中文分词算法改进与实现[D]. 顾剑云.湖南大学 2016
[5]基于统计学习的中文分词方法的研究[D]. 王威.东北大学 2015
本文编号:3625537
【文章来源】:现代计算机. 2020,(16)
【文章页数】:6 页
【部分图文】:
图1 分词框架
字向量训练,本文选择目前主流的CBOW模型,训练框架如图2所示。字向量训练主要工作包括:利用结巴分词工具对《新华字典》分词,然后利用CBOW模型训练字向量,最后输出字向量矩阵。
CBOW是Mikolov等人提出的Word2Vec[14]分布式表示的一种实现。Word2Vec具有效率高和表示效果好的优势,已经成为主流的词向量和字向量训练模型。Word2Vec模型提供两种实现CBOW和SkipGram,文献[15]提到CBOW比较适合常见词,在本研究中,主要为常见词,故选择CBOW实现。CBOW模型核心思想是通过目标词wt的上下文词Context(wt)预测目标词:。其中,c为窗口,图3为c=2的CBOW模型结构。在CBOW中,训练之前需要进行相关初始化,包括利用语料库建立词典W={w1,…,wN}、基于词典和词频建立哈夫曼树、随机初始化词向量Wword={v1,…,vN}和哈夫曼树内部节点Wnode={θ1,…,θN-1}等,其中,N为词典长度,wi、vi分别为第i词和词向量,θi为第i节点向量参数。
【参考文献】:
期刊论文
[1]《辞海》的创新之路[J]. 张敏. 出版与印刷. 2019(01)
[2]基于领域词典的动态规划分词算法[J]. 蒋卫丽,陈振华,邵党国,马磊,相艳,郑娜,余正涛. 南京理工大学学报. 2019(01)
[3]循环神经网络研究综述[J]. 杨丽,吴雨茜,王俊丽,刘义理. 计算机应用. 2018(S2)
[4]中文分词技术综述[J]. 冯俐. 现代计算机(专业版). 2018(34)
[5]基于双向LSTM神经网络模型的中文分词[J]. 金宸,李维华,姬晨,金绪泽,郭延哺. 中文信息学报. 2018(02)
[6]基于双向长短时记忆模型的中文分词方法[J]. 张洪刚,李焕. 华南理工大学学报(自然科学版). 2017(03)
硕士论文
[1]基于深度学习中文分词的研究[D]. 王梦鸽.西安邮电大学 2018
[2]基于深度学习的中文分词方法研究[D]. 刘玉德.华南理工大学 2018
[3]基于双向LSTMN神经网络的中文分词研究分析[D]. 黄积杨.南京大学 2016
[4]基于词典的中文分词算法改进与实现[D]. 顾剑云.湖南大学 2016
[5]基于统计学习的中文分词方法的研究[D]. 王威.东北大学 2015
本文编号:3625537
本文链接:https://www.wllwen.com/wenyilunwen/hanyulw/3625537.html