中文民航安全信息关键词提取关键技术研究
发布时间:2018-04-18 11:38
本文选题:民航安全信息 + 关键词提取 ; 参考:《中国民航大学》2017年硕士论文
【摘要】:民航业的快速发展使得民航安全信息呈爆炸性增长,民航从业人员在安全信息挖掘与处理工作方面也因此捉襟见肘,人工处理民航安全信息效率较低,而且容易被个人的主观认识干扰到,将关键词自动提取等数据挖掘技术应用于民航业乃当务之急。为了方便安全信息工作的顺利展开,需要设计与开发一种能有效进行文本挖掘的民航安全信息处理系统。在文本预处理方面,采用更加先进的分词技术,另外建立专业民航词典进行辅助分词,使得分词的准确率大大提高,降低了分词过程对信息处理工作的干扰。在研究关键词提取及相关技术的基础上,针对民航安全信息这一特定对象进行了研究分析与对比,结合民航领域词特征,提出了一种以朴素贝叶斯模型为基础的关键词提取模型,性能实验中所提方法与传统算法相比,准确率与民航词汇识别率都有了显著提升,关键词提取数实验中,提取数设置为5比提取数设置为3时的提取效果要好。随后对关键词提取技术在民航安全信息分类以及在主题相似性计算方面的应用进行研究,实验中以关键词作为特征项能有效降低特征空间维度,简化了特征计算的同时能够保持提取性能;提出的改进权重计算方法与传统算法相比分类性能得到了大幅度提升,针对民航安全信息的各个类别分类效果良好。最后,提出了改进的基于VSM模型的民航安全信息主题相似度计算方法,有效避免传统方法特征项较多、计算复杂、特征信息冗余等缺陷,能够高效快速的计算民航安全信息的主题相似度,为民航安全信息管理工作提供了新的思路和方法。
[Abstract]:The rapid development of civil aviation industry makes civil aviation safety information explosive growth, civil aviation practitioners in the safety information mining and processing work is also overstretched, manual processing of civil aviation safety information efficiency is low.Moreover, it is easy to be interfered by personal subjective knowledge. It is urgent to apply data mining technology such as keyword automatic extraction to civil aviation industry.In order to facilitate the smooth development of security information work, it is necessary to design and develop a civil aviation security information processing system which can effectively carry out text mining.In the aspect of text preprocessing, using more advanced word segmentation technology and establishing professional civil aviation dictionary to assist word segmentation, the accuracy of word segmentation is greatly improved, and the interference of word segmentation process to information processing is reduced.Based on the research of keyword extraction and related technology, this paper analyzes and compares the specific object of civil aviation security information, combining with the features of civil aviation word.A keyword extraction model based on naive Bayesian model is proposed. Compared with the traditional algorithm, the accuracy and the recognition rate of civil aviation vocabulary are improved significantly in the performance experiment.The extraction effect is better when the number of extraction is set to 5 than when the number of extraction is set to 3.Then, the application of keyword extraction technology in civil aviation security information classification and topic similarity calculation is studied. In the experiment, using keywords as feature items can effectively reduce the dimension of feature space.It simplifies the feature calculation and can maintain the extraction performance. Compared with the traditional algorithm, the proposed improved weight calculation method can greatly improve the classification performance, and the classification effect of each category of civil aviation security information is good.Finally, an improved method for calculating the similarity of civil aviation safety information based on VSM model is proposed, which effectively avoids the shortcomings of traditional methods, such as more feature items, complex computation, redundancy of feature information, and so on.It can efficiently and quickly calculate the subject similarity of civil aviation security information, and provide a new way of thinking and method for civil aviation security information management.
【学位授予单位】:中国民航大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:V328;TP391.1
【参考文献】
相关期刊论文 前10条
1 曹晓;;文本聚类研究综述[J];情报探索;2016年01期
2 李建中;;前学科与后现代:关键词研究的前世今生[J];长江学术;2015年04期
3 章志华;陆海良;郁钢;;基于TFIDF算法的关键词提取方法[J];信息技术与信息化;2015年08期
4 李强;白建荣;李振林;张黎明;;基于Python的数据批处理技术探讨及实现[J];地理空间信息;2015年02期
5 刘端阳;王良芳;;结合语义扩展度和词汇链的关键词提取算法[J];计算机科学;2013年12期
6 王立霞;淮晓永;;基于语义的中文文本关键词提取算法[J];计算机工程;2012年01期
7 史亚杰;陈艳秋;;航空安全信息管理的问题与对策[J];中国安全生产科学技术;2010年03期
8 王海鹃;韩立新;甄志龙;;基于索引项权重的文本特征选择方法[J];计算机工程与设计;2010年05期
9 孙铁利;刘延吉;;中文分词技术的研究现状与困难[J];信息技术;2009年07期
10 刘群;;机器翻译研究新进展[J];当代语言学;2009年02期
相关硕士学位论文 前2条
1 孟繁超;基于Python的嵌入式开发工具的设计与实现[D];郑州大学;2014年
2 荆路;基于本体的文本相似度研究与实现[D];沈阳工业大学;2009年
,本文编号:1768248
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/1768248.html
最近更新
教材专著