基于深度学习的中文影视剧本命名实体识别研究

发布时间:2021-07-08 09:08
  随着互联网的迅速发展,人们已经形成随时随地浏览信息和观看影视的习惯。影视行业的快速发展,激发了剧本创作者的创作热情,而剧本的增多,给剧本审核人员带来了巨大的挑战。准确识别中文影视剧本的命名实体帮助筛选出剧本中具体的人名、地名和机构名,为审核人员审核剧本提供了便捷。中文影视剧本人物对话较多,而大部分人物对话冒号前都为人名,本文根据中文影视剧本的写作特点,提出了基于规则的中文影视剧本的人名识别方法。通过基于规则的方法识别出冒号前的文本,并分析是否为人名,在《士兵突击》剧本上进行实验,得到97.47%的准确率,55.49%的召回率,70.72%的F值。中文影视剧本人物之间的对白偏向生活化以及口语化,使用较多的停止词。根据此特点,作者提出了融合去停止词的Bi-LSTM-CRF中文影视剧本的命名实体识别方法。首先去除剧本中的停止词,其次使用Bi-LSTM-CRF的方法识别命名实体。在“士兵突击”语料上的实验结果表明,融合去停止词的Bi-LSTM-CRF方法相比基于规则的方法在人名识别方面F值提升了26.67%,相比基于字级别的Bi-LSTM方法在人名,地名和机构名整体方面F值提升了19.04%。... 

【文章来源】:西安建筑科技大学陕西省

【文章页数】:60 页

【学位级别】:硕士

【部分图文】:

基于深度学习的中文影视剧本命名实体识别研究


MEM模型概率图分布

模型图,概率,模型,有向图


西安建筑科技大学硕士论文10xZ是规范化因子,其求和是在所有可能的输出序列上求和,k和lu为转移函数和状态函数对应的权值。使用CRF做命名实体识别时,目标是求xyPy|maxarg,与HMM一样采用Viterbi算法。2.2.4三种模型比较如图2.2所示,MEM模型是一个有向图模型,可以使用任何复杂的相关特征,但是,每个词都是分开分类的,并且不能充分利用标签之间的关系。图2.2MEM模型概率图分布并且具有马尔可夫链的HMM模型可以建立标记之间的马尔科夫相关性,如图所示:图2.3HMM模型概率图分布从图2.3可以看出HMM是一个有向图,而线性链CRF是一个无向图,如图2.4所示。因此HMM在处理的时候,每个状态取决于先前状态,并且线性链CRF取决于当前状态的周围结点的状态。

模型图,概率,模型,词语


西安建筑科技大学硕士论文11图2.4CRF模型概率图分布应用于中文命名实体识别的CRF模型定义了各种特征模板。它为命名实体识别提供了灵活且全局最优的标注框架。CRF模型在相同特征集下具有比其他概率模型更好的性能。但是,存在收敛速度慢且训练时间长的问题。同样,通常HMM模型在训练和识别时方面更快,主要是因为使用Viterbi算法解决命名实体类别序列的效率更高。但是实体标注主要面临未知词标注的问题,传统HMM不易整合新的特征。MEM模型结构紧凑,具有较好的通用性,它的每个状态都有一个概率模型,状态转移时要归一化这个概率模型。如果只有一个后续状态,则从此状态跳转到后续状态的概率为1。而CRF在所有的状态上建立了统一的概率模型,即使某个状态只有一个后续状态,在进行归一化时,该状态到后续状态的转移概率也不为1,从而解决了标签偏置问题。因此,从理论上讲,CRF比MEM和HMM更适用于中文命名实体识别。2.2.5统计学模型的瓶颈与困难分析基于统计学的方法主要使用标注的语料库来训练字或者词作为命名实体组成部分的概率,并使用它们来计算候选字段作为命名实体的概率值。对于HMM,CRF等统计学模型,都是假设当前的状态只与前面的状态相关,而与更前面或者后面的状态无关,这种假设不符合实际的句子序列。例如:“吴哲开始利索地操作通讯设备和他的臂携电脑”,“他”表示的是“吴哲”,但是由于“他”与“吴哲”距离较远,用HMM和CRF模型并不一定能对该句子进行有效的描述。传统的统计学模型预测当前缺失的词语时,只会考虑到该词语之前的词语,而不会考虑到之后的词语,但是在实际应用中,预测句子中缺失的词语时,则需

【参考文献】:
期刊论文
[1]Research of Clinical Named Entity Recognition Based on Bi-LSTM-CRF[J]. 秦颖,曾颖菲.  Journal of Shanghai Jiaotong University(Science). 2018(03)
[2]基于深度学习的渔业领域命名实体识别[J]. 孙娟娟,于红,冯艳红,彭松,程名,卢晓黎,董婉婷,崔榛.  大连海洋大学学报. 2018(02)
[3]基于jieba分词搜索与SSM框架的电子商城购物系统[J]. 邢彪,根绒切机多吉.  信息与电脑(理论版). 2018(07)
[4]基于神经网络的片段级中文命名实体识别[J]. 王蕾,谢云,周俊生,顾彦慧,曲维光.  中文信息学报. 2018(03)
[5]基于CNN-BLSTM-CRF模型的生物医学命名实体识别[J]. 李丽双,郭元凯.  中文信息学报. 2018(01)
[6]基于深度神经网络的命名实体识别方法研究[J]. GUL Khan Safi Qamas,尹继泽,潘丽敏,罗森林.  信息网络安全. 2017(10)
[7]基于深度神经网络的中文命名实体识别[J]. 张海楠,伍大勇,刘悦,程学旗.  中文信息学报. 2017(04)
[8]Short-term wind power forecasting using hybrid method based on enhanced boosting algorithm[J]. Yu JIANG,Xingying CHEN,Kun YU,Yingchen LIAO.  Journal of Modern Power Systems and Clean Energy. 2017(01)
[9]基于字符串匹配的中文分词算法的研究[J]. 常建秋,沈炜.  工业控制计算机. 2016(02)
[10]基于CRF和规则相结合的地理命名实体识别方法[J]. 何炎祥,罗楚威,胡彬尧.  计算机应用与软件. 2015(01)

博士论文
[1]大规模软件可信性度量分析原理及其方法的研究[D]. 刘铮.东北大学 2010

硕士论文
[1]基于神经网络的中文命名实体识别研究[D]. 王蕾.南京师范大学 2017
[2]基于深度学习的中文命名实体识别研究[D]. 王国昱.北京工业大学 2015
[3]中文分词歧义消解技术的研究[D]. 李伟.青岛科技大学 2014
[4]基于理解的汉语分词系统的设计与实现[D]. 苏勇.电子科技大学 2011
[5]基于规则的命名实体识别研究[D]. 周昆.合肥工业大学 2010
[6]中文分词关键技术研究[D]. 曹卫峰.南京理工大学 2009
[7]基于统计的生物命名实体识别研究[D]. 邱莎.四川大学 2006
[8]基于统计的机器学习的中文命名实体识别[D]. 孟迎.昆明理工大学 2004



本文编号:3271277

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3271277.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户2dab1***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com