舆情分析中维吾尔文关键词提取研究
发布时间:2017-04-19 20:32
本文关键词:舆情分析中维吾尔文关键词提取研究,由笔耕文化传播整理发布。
【摘要】:随着网络信息化的高速发展,在全球信息量爆炸式增长的同时,新疆地区的数字信息化和网络化也在稳步推进,信息量的日益倍增,已使得传统手工筛选信息主旨和主题词的功效力不能及,在海量数据面前,如何快速、高效地帮助用户获得想要的信息,一直是人们探索的方向。文本挖掘中的关键词提取,无疑可以帮助人们达到事半功倍的效果。由于地域差异和技术的落后,成熟、公开而又实用的维吾尔文关键词提取方法一直未能成形,而这一方法的实现将对信息检索、舆情监控、搜索引擎等领域和政府、医疗、教育等部门的发展和服务起到重要的推动作用,因而维吾尔文关键词提取方法的实现具有重要的少数民族语言代表性和示范性。通过统计词序,并进一步进行词语组合,各影响因子的权重计算,对候选词进行综合权重计算和排序,过滤停用词、低频词,组合词过滤,并提取关键词。在进行多次过滤和加权之后,得到的关键词能够使读者通过这些词来识别文章主题和主要内容。把中文方法移植到维吾尔文单文本关键词提取过程中,并加入维吾尔文词干提取和停用词过滤等要素,在去除基于文本集的TFIDF算法而最大限度地降低对准确率的影响的同时,实现了基于综合特征加权的统计方法,成功地提取出了单文本维吾尔文关键词,由于摒弃了TFIDF算法,其效率也得到了大大的提升。实验表明,该方法对中文文本识别的准确率能保持在65%以上,对维吾尔文的提取的准确率在56%以上,同时对未标注的新词在一定程度上具有反馈意义。
【关键词】:权重 关键词 单文本 词语组合 维吾尔文
【学位授予单位】:新疆大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.1
【目录】:
- 摘要2-3
- Abstract3-7
- 第一章 绪论7-15
- 1.1 研究背景与意义7-8
- 1.2 关键词提取现状8-12
- 1.2.1 国内外研究历史与现状10-11
- 1.2.2 维吾尔文关键词提取现状11-12
- 1.3 本文研究内容12-13
- 1.4 论文章节组织结构13-15
- 第二章 关键词提取的相关技术15-19
- 2.1 TFIDF算法15-16
- 2.2 TextRank算法16-17
- 2.3 SVM算法17-18
- 2.4 综合特征法18
- 2.5 本章小结18-19
- 第三章 中文与维吾尔文关键词提取19-43
- 3.1 Myeclipse与ICTCLAS19-20
- 3.1.1 Myeclipse10特点19
- 3.1.2 ICTCLAS简介19-20
- 3.2 中文关键词提取20-36
- 3.2.1 文关键词提取系统流程20
- 3.2.2 中文停用词库20-21
- 3.2.3 文本预处理21-22
- 3.2.4 词性组合表22-23
- 3.2.5 特征加权23-27
- 3.2.5.1 TFIDF特点23-24
- 3.2.5.2 词频加权24-25
- 3.2.5.3 词性加权25
- 3.2.5.4 位置加权25-26
- 3.2.5.5 词长加权26
- 3.2.5.6 词跨度加权26-27
- 3.2.5.7 最终权重计算27
- 3.2.6 组合词算法27-29
- 3.2.7 分词接.类定义29-32
- 3.2.8 排序算法32-33
- 3.2.9 二次过滤33-34
- 3.2.10 子串过滤34-36
- 3.3 维吾尔文关键词提取36-42
- 3.3.1 维吾尔文特点36-37
- 3.3.2 维吾尔文停用词库37-38
- 3.3.3 维吾尔文词干提取与词性标注38-39
- 3.3.4 维吾尔文文本预处理39-40
- 3.3.5 分词接.类定义40-41
- 3.3.6 维吾尔文系统流程41-42
- 3.4 移植改动项说明42
- 3.5 本章小结42-43
- 第四章 系统实现及测试43-50
- 4.1 环境搭建43-44
- 4.2 界面设计44-45
- 4.3 中文系统实现及测试45-48
- 4.4 维吾尔文系统实现及测试48-49
- 4.5 本章小结49-50
- 第五章 总结与展望50-51
- 5.1 总结50
- 5.2 展望50-51
- 参考文献51-54
- 研究生期间发表论文54-55
- 致谢55-56
【参考文献】
中国期刊全文数据库 前4条
1 蒋昌金;彭宏;陈建超;马千里;严桂夺;;基于组合词和同义词集的关键词提取算法[J];计算机应用研究;2010年08期
2 袁津生;毛新武;;基于组合特征的中文新闻网页关键词提取方法[J];计算机工程与应用;2014年19期
3 杨颖;戴彬;;基于多特征的中文关键词抽取方法[J];计算机应用与软件;2014年11期
4 张红鹰;;中文文本关键词提取算法[J];计算机系统应用;2009年08期
本文关键词:舆情分析中维吾尔文关键词提取研究,,由笔耕文化传播整理发布。
本文编号:317098
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/317098.html