基于图模型的关键词抽取研究
发布时间:2021-05-14 18:13
目前互联网上文本数量飞快增长,检索导某个用户有关的信息非常复杂。目前研究人员已经做了许多与信息检索和文本分析有关的工作来克服这类问题,这是一项关于关键字提取的热门研究课题。用于观察和分析的数据可能有很多类型,如图片和其他形式。用户还可能通过社交媒体、维基百科或其他途径来产生数据。大多数人在推特平台上产生导本人有关的数据(推特是一个社交媒体平台,是最流行的短文本获取平台之一,因为每条推特消息最多包含140个字符)。关键字提取是一个向计算机输入文本,然后计算机根据文本内容返回一组相关的关键字和短语的过程。关键字提取有助于读者在不阅读整个文档的情况下理解文档的大概内容或至少是核心思想。这样潜在的读者就不会浪费宝贵的时间去认真阅读不感兴趣的文档。通常,用户可以通过搜索关键字找到与特定事件相关的文章。关键词提取方法在许多领域得到了广泛的应用,尤其是在信息检索领域中提取关键词时。这是一个特别有潜力的应用,因为人们会根据关键字检索重要的信息。在这篇论文中,我们在从推特上收集来的四个不同主题的数据集上使用了一个基于图的关键字提取算法。通过NLTK对数据集进行预处理,我们可以得到优化后的数据,并由此生成...
【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校
【文章页数】:58 页
【学位级别】:硕士
【文章目录】:
ACKNOWLEDGEMENT
ABSTRACT
摘要
Chapter 1 Introduction
1.1 Overview
1.2 Problem Definition
1.3 Scope of Proposed Work
1.4 Thesis Outline
Chapter 2 Preliminaries
2.1 Introduction
Chapter 3 Literature Review
Chapter 4 Keyword Extraction Using a Graph-Based Approach
4.1 Introduction
4.2 Why Graph-based approach?
4.3 Co-occurrence Graph
4.4 TextRank Algorithm
4.5 Generating Graph-based Data
4.5.1 Crawling Data from Twitter
4.5.2 Pre-Processing of Tweets
4.5.3 Construction of Co-occurrence Graph
4.5.4 Normalization of Matrix
4.5.5 Keyword Extraction
4.5.6 Calculating Precision
4.5.7 Constructing Word-Cloud
Chapter 5 Experimental Setup and Results
5.1 Introduction
5.2 Creating Dataset
5.3 Implementation of TextRank Algorithm
5.4 Precision
5.5 Word Cloud
Chapter 6 Conclusion and Future Work
References
【参考文献】:
期刊论文
[1]词语位置加权TextRank的关键词抽取研究[J]. 夏天. 现代图书情报技术. 2013(09)
[2]Tag-TextRank:一种基于Tag的网页关键词抽取方法[J]. 李鹏,王斌,石志伟,崔雅超,李恒训. 计算机研究与发展. 2012(11)
本文编号:3186100
【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校
【文章页数】:58 页
【学位级别】:硕士
【文章目录】:
ACKNOWLEDGEMENT
ABSTRACT
摘要
Chapter 1 Introduction
1.1 Overview
1.2 Problem Definition
1.3 Scope of Proposed Work
1.4 Thesis Outline
Chapter 2 Preliminaries
2.1 Introduction
Chapter 3 Literature Review
Chapter 4 Keyword Extraction Using a Graph-Based Approach
4.1 Introduction
4.2 Why Graph-based approach?
4.3 Co-occurrence Graph
4.4 TextRank Algorithm
4.5 Generating Graph-based Data
4.5.1 Crawling Data from Twitter
4.5.2 Pre-Processing of Tweets
4.5.3 Construction of Co-occurrence Graph
4.5.4 Normalization of Matrix
4.5.5 Keyword Extraction
4.5.6 Calculating Precision
4.5.7 Constructing Word-Cloud
Chapter 5 Experimental Setup and Results
5.1 Introduction
5.2 Creating Dataset
5.3 Implementation of TextRank Algorithm
5.4 Precision
5.5 Word Cloud
Chapter 6 Conclusion and Future Work
References
【参考文献】:
期刊论文
[1]词语位置加权TextRank的关键词抽取研究[J]. 夏天. 现代图书情报技术. 2013(09)
[2]Tag-TextRank:一种基于Tag的网页关键词抽取方法[J]. 李鹏,王斌,石志伟,崔雅超,李恒训. 计算机研究与发展. 2012(11)
本文编号:3186100
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3186100.html
最近更新
教材专著