基于改进TF-IDF算法的信息抽取系统设计与实现
发布时间:2021-11-25 07:06
互联网技术的高速发展带来信息的爆发式式增长,同时这些网络信息中夹杂大量冗余、干扰信息,如何快速有效地对大量网络噪音信息进行过滤并对目标信息进行有效抽取成为研究的焦点之一。自然语言处理技术能够通过对篇章、段落、句子、词语进行基于词向量、句向量的处理过程,提取文本的主题、语义等信息,识别相似语义信息,消除反义等噪音干扰,达到对特定文档实现信息抽取的目的。基于词频与逆文档频率的关键字提取算法(term frequency-inverse document frequency,TF-IDF)作为经典的文本关键字提取算法之一已经得到了非常广泛的应用,其获取文档关键字的方法是对词频(Term Frequency,TF)进行统计,某个词语出现次数越多,则文章可能与这个词语有正向关联性,同时通过逆文档频率(Inverse Document Frequency,IDF)减少常见词的权重。然而传统TF-IDF算法在实际应用中还存在很多待改进问题,例如没有考虑文档中词语不完整分类、忽略特征词之间的分布信息等缺点。尽管有研究学者对传统TF-IDF算法进行了改进,但仍简单将词频和权重挂钩,未考虑词语在不同文档的...
【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校
【文章页数】:73 页
【学位级别】:硕士
【部分图文】:
图3-1?TFIDF-BOIT算法流程图??改进算法流程如下:??步骤1:载入文本文档数据集,计算待处理文档集中的每个词语的词频、平??均词频并保存
隐马尔可夫模型(HiddenMarkovModel,HMM)设计的分词模块对于未登录词??具有很好的识别效果。本模块的输入数据为原始网页文本数据,经过本模块的处??理,实现将原始字符序列切分为独立的中文词该模块的流程图如图4-4所示。???i???HMM模麵[练???I???保拥K4M鹤??输入待分词文本??维特比靜臟???I???保存分词结果??T??(结束)??图4-4分词模块流程图??分词模块流程如下:??步骤1:利用标注语料训练二阶HMM模型。??步骤2:保存训练好的二阶HMM模型,供后续使用。??步骤3:将待分词语句输入到模块。??步骤4:载入之前训练好的二阶HMM模型。??步骤5:利用维特比算法进行序列标注解码,生成分词器,并完成分词。??步骤6:将分词结果保存为.txt格式。??根据需求分析及分词模块流程图,利用Java语言开发完成了分词模块的各??个组件,下面给出该模块的相关类图,如图4-5所示??31??
用复杂、有重叠性和非独立的特征进行训练和推理,为兼类词的标注提供了更多??的特征信息,同时根据汉语的构词特点使用词的后缀信息作为特征,在标注未登??录词时起到了很好的效果。词性标注模块的流程图如图4-6所示。??(开始)??CRF模型训练???i???保細F模型???i???输入待标注酌??I??分词??加载CRF模型?? ̄r ̄??麟比解码???j???保存标注^果??▼??(结束)??图4-6词性标注模块流程图??词性标注模块流程如下:??步骤1:利用标注语料训练CRF模型。??步骤2:保存训练好的CRF模型,供后续使用。??步骤3:将待标注语句输入模块。??步骤4:利用分词模块对语句分词。??步骤5:将之前训练好的CRF模型载入系统。??步骤6:利用维特比算法对词语进行词性标注。??步骤7:将标注结果保存为.txt格式。??利用java语言开发完成该模块的各个组件,下面给出该模块的类图,如图??4-7所示。??33??
【参考文献】:
期刊论文
[1]基于位置敏感Embedding的中文命名实体识别[J]. 鲁亚楠,孙锐,姬东鸿. 计算机应用研究. 2017(02)
[2]统计与词典相结合的领域自适应中文分词[J]. 张梅山,邓知龙,车万翔,刘挺. 中文信息学报. 2012(02)
[3]命名实体识别研究进展综述[J]. 孙镇,王惠临. 现代图书情报技术. 2010(06)
[4]《知网》在命名实体识别中的应用研究[J]. 郑逢强,林磊,刘秉权,孙承杰. 中文信息学报. 2008(05)
[5]基于句法结构特征分析及分类技术的答案提取算法[J]. 胡宝顺,王大玲,于戈,马婷. 计算机学报. 2008(04)
[6]基于层叠隐马尔可夫模型的中文命名实体识别[J]. 俞鸿魁,张华平,刘群,吕学强,施水才. 通信学报. 2006(02)
[7]书面汉语的自动分词与一个自动分词系统—CDWS[J]. 梁南元. 北京航空学院学报. 1984(04)
硕士论文
[1]半结构化中文简历的信息抽取[D]. 晏文坛.华南理工大学 2018
[2]中文词汇语义相似度计算研究[D]. 裴家欢.大连理工大学 2017
[3]基于神经网络的Web信息抽取系统的研究与实现[D]. 明廷波.电子科技大学 2006
本文编号:3517643
【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校
【文章页数】:73 页
【学位级别】:硕士
【部分图文】:
图3-1?TFIDF-BOIT算法流程图??改进算法流程如下:??步骤1:载入文本文档数据集,计算待处理文档集中的每个词语的词频、平??均词频并保存
隐马尔可夫模型(HiddenMarkovModel,HMM)设计的分词模块对于未登录词??具有很好的识别效果。本模块的输入数据为原始网页文本数据,经过本模块的处??理,实现将原始字符序列切分为独立的中文词该模块的流程图如图4-4所示。???i???HMM模麵[练???I???保拥K4M鹤??输入待分词文本??维特比靜臟???I???保存分词结果??T??(结束)??图4-4分词模块流程图??分词模块流程如下:??步骤1:利用标注语料训练二阶HMM模型。??步骤2:保存训练好的二阶HMM模型,供后续使用。??步骤3:将待分词语句输入到模块。??步骤4:载入之前训练好的二阶HMM模型。??步骤5:利用维特比算法进行序列标注解码,生成分词器,并完成分词。??步骤6:将分词结果保存为.txt格式。??根据需求分析及分词模块流程图,利用Java语言开发完成了分词模块的各??个组件,下面给出该模块的相关类图,如图4-5所示??31??
用复杂、有重叠性和非独立的特征进行训练和推理,为兼类词的标注提供了更多??的特征信息,同时根据汉语的构词特点使用词的后缀信息作为特征,在标注未登??录词时起到了很好的效果。词性标注模块的流程图如图4-6所示。??(开始)??CRF模型训练???i???保細F模型???i???输入待标注酌??I??分词??加载CRF模型?? ̄r ̄??麟比解码???j???保存标注^果??▼??(结束)??图4-6词性标注模块流程图??词性标注模块流程如下:??步骤1:利用标注语料训练CRF模型。??步骤2:保存训练好的CRF模型,供后续使用。??步骤3:将待标注语句输入模块。??步骤4:利用分词模块对语句分词。??步骤5:将之前训练好的CRF模型载入系统。??步骤6:利用维特比算法对词语进行词性标注。??步骤7:将标注结果保存为.txt格式。??利用java语言开发完成该模块的各个组件,下面给出该模块的类图,如图??4-7所示。??33??
【参考文献】:
期刊论文
[1]基于位置敏感Embedding的中文命名实体识别[J]. 鲁亚楠,孙锐,姬东鸿. 计算机应用研究. 2017(02)
[2]统计与词典相结合的领域自适应中文分词[J]. 张梅山,邓知龙,车万翔,刘挺. 中文信息学报. 2012(02)
[3]命名实体识别研究进展综述[J]. 孙镇,王惠临. 现代图书情报技术. 2010(06)
[4]《知网》在命名实体识别中的应用研究[J]. 郑逢强,林磊,刘秉权,孙承杰. 中文信息学报. 2008(05)
[5]基于句法结构特征分析及分类技术的答案提取算法[J]. 胡宝顺,王大玲,于戈,马婷. 计算机学报. 2008(04)
[6]基于层叠隐马尔可夫模型的中文命名实体识别[J]. 俞鸿魁,张华平,刘群,吕学强,施水才. 通信学报. 2006(02)
[7]书面汉语的自动分词与一个自动分词系统—CDWS[J]. 梁南元. 北京航空学院学报. 1984(04)
硕士论文
[1]半结构化中文简历的信息抽取[D]. 晏文坛.华南理工大学 2018
[2]中文词汇语义相似度计算研究[D]. 裴家欢.大连理工大学 2017
[3]基于神经网络的Web信息抽取系统的研究与实现[D]. 明廷波.电子科技大学 2006
本文编号:3517643
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3517643.html