基于TextRank与Log-Likelihood的Chrome浏览器中文词云插件的设计与开发
本文关键词:基于TextRank与Log-Likelihood的Chrome浏览器中文词云插件的设计与开发
更多相关文章: 关键词提取 TextRank Log-Likelihood 词云 Chrome插件
【摘要】:在互联网技术迅速发展的今天,人们通过网络获取信息日益便捷。但同时也引起了信息冗杂、超量等问题。在这样的条件下,通过挖掘文本来获取关键信息成为改善互联网用户体验、提高工作与阅读效率的重要手段,关键词抽取即信息获取的重要实践之一。 本文基于TextRank和Log-Likelihood (对数似然比)算法,设计并实现了一款谷歌Chrome浏览器中文关键词抽取插件。该插件可获取到用户当前浏览页面,并通过适当的业务逻辑,生成网页内容的关键词云。 TextRank算法基于图论和图模型,对图中的点计算权重,并以权重值作为排序算法。本文针对文本应用场景,应用TextRank算法,抽取关键词并返回用户;而Log-Likelihood算法则根据频数与对照语料库,通过计算对数似然比来确定关键词并返回。词云是一种关键词显示方式,通过字体大小与相对位置关系以清晰、直接地向用户展示文章关键词。在得到两种算法的计算结果后,为所有关键词赋权,并将关键词与权重用于生成词云。 网络架构上,本文采用了以Nginx为基础服务架构的服务器,采用事件驱动的编程模型,搭建了服务器端,并使用Node.js作为后端网络逻辑层。通过有效、轻量的通信机制,完成数据的传递。在文本处理与关键词提取算法的实现上,本文采用服务器端运行Python脚本的方式,完成了文本清洁、转码、分词、关键词提取等工作。插件采用异步方式,保证了服务器响应速度,同时减轻了负载。此外,插件的设计与开发过程中,本文还对数据安全性和程序稳定性、扩展性等进行了论证。 经过设计与开发,本文基本达到了预期目标,完成了一个能为用户提供词云的浏览器插件。对插件进行的测试表明,插件可返回准确率较高的关键词列表。但是插件在功能的丰富程度、美观性、性能等方面依然有改进空间。 作为语料库语言学研究的扩展和应用,本文的设计与开发的插件能够通过关键词的抽取,帮助用户快速了解网页内容和重点,方便他们的网络生活。此外,本文还希望插件成为语料库语言学研究与网络技术紧密结合的案例,并看到未来更多类似的研究出现。
【关键词】:关键词提取 TextRank Log-Likelihood 词云 Chrome插件
【学位授予单位】:北京外国语大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP393.092;TP391.1
【目录】:
- 提要4-6
- Abstract6-8
- 致谢8-11
- 第一章 前言11-14
- 1.1 引言11-12
- 1.2 目标描述和设计开发原则12
- 1.3 研究意义12-13
- 1.4 论文结构13-14
- 第二章 关键词抽取相关研究及成果述评14-17
- 2.1 非汉语关键词抽取相关研究14-15
- 2.2 汉语关键词抽取相关研究15-16
- 2.3 本文的设计16-17
- 第三章 Chrome插件的网络架构与通信机制17-25
- 3.1 Chrome插件网络架构概述17-18
- 3.2 事件驱动模型与Node.js18-21
- 3.3 客户端与服务端的通信机制21-23
- 3.4 Node.js与服务端脚本的通信机制23-25
- 第四章 文本处理与关键词抽取逻辑25-35
- 4.1 获取HTML文本与清洁26-28
- 4.2 分词28-29
- 4.3 关键词抽取——TextRank算法29-31
- 4.4 关键词抽取——Log-Likelihood算法31-32
- 4.5 算法返回结果的合并32-33
- 4.6 小结33-35
- 第五章 实例演示与验证35-41
- 5.1 实例演示35-38
- 5.2 结果验证38-41
- 第六章 总结与展望41-45
- 6.1 本次开发的架构特点41
- 6.2 核心技术总结41-42
- 6.3 后续重构与开发展望42-44
- 6.4 基本结论44-45
- 参引文献45-47
【共引文献】
中国期刊全文数据库 前10条
1 钟晓旭;;层次聚类方法在关键词提取上的研究应用[J];电脑知识与技术;2009年06期
2 高学东;吴玲玉;;基于高维聚类技术的中文关键词提取算法[J];中国管理信息化;2011年09期
3 尹倩;胡学钢;谢飞;吴信东;;基于密度聚类模式的中文新闻网页关键词提取[J];广西师范大学学报(自然科学版);2009年01期
4 刘喜文;郑昌兴;王文龙;汤刚强;;构建数据仓库过程中的数据清洗研究[J];图书与情报;2013年05期
5 潘善亮;茅琴娇;韩露;;一种基于虚拟社交化的Web服务发现方法研究[J];电信科学;2013年12期
6 顾益军;解易;张培晶;;面向有组织犯罪分析的人际关系网络节点重要性评价研究[J];中国人民公安大学学报(自然科学版);2013年04期
7 郑晶;;基于云计算的Pagerank算法的改进[J];福州大学学报(自然科学版);2014年01期
8 "基于大数据的互联网化存量经营"项目组;"基于用户感知的运维转型"项目组;;运营商存量经营大数据平台及其关键技术研究[J];电信科学;2014年06期
9 张喜平;李永树;刘刚;王蕾;;节点重要度贡献的复杂网络节点重要度评估方法[J];复杂系统与复杂性科学;2014年03期
10 龚卫华;郭伟鹏;杨良怀;;信任网络中多维信任序列模式挖掘方法研究[J];电子与信息学报;2014年08期
中国博士学位论文全文数据库 前10条
1 刘馨月;Web挖掘中的链接分析与话题检测研究[D];大连理工大学;2012年
2 朱朝勇;基于本体的知识库分类研究[D];中国科学技术大学;2013年
3 马飞;云数据中心中虚拟机放置和实时迁移研究[D];北京交通大学;2013年
4 乐承毅;企业知识与员工知识贡献度集成评价方法及应用研究[D];浙江大学;2013年
5 孙甲申;基于主题模型和随机游走的标签技术研究[D];北京邮电大学;2013年
6 张鹏;数据中心网络的流量管理和优化问题研究[D];北京邮电大学;2013年
7 龚书;抽取式多文档文摘的文本表示研究[D];北京交通大学;2013年
8 尹莉;基础数学领域作者合作网络实证分析[D];西北大学;2013年
9 李朋;异构信息网络分析模型及其应用研究[D];重庆大学;2013年
10 程辉;网络用户偏好分析及话题趋势预测方法研究[D];北京交通大学;2013年
中国硕士学位论文全文数据库 前10条
1 赵莲;大规模中英可比较语料库构建[D];大连理工大学;2010年
2 王浩成;基于细菌觅食优化的k-medoids文本聚类方法[D];河北大学;2011年
3 贾洪强;面向海量短文本的舆情系统实现[D];北京邮电大学;2012年
4 李悛;基于移动代理的分布式数据挖掘研究[D];浙江工业大学;2005年
5 李星华;中英文新闻网页关键词抽取技术研究[D];合肥工业大学;2009年
6 尹倩;基于聚类分析的中文新闻网页关键词提取方法研究[D];合肥工业大学;2009年
7 邱萌;基于内容的多源新闻聚合关键技术研究与实现[D];华东师范大学;2010年
8 姚健;问答系统中文问句分析关键问题研究[D];哈尔滨工业大学;2009年
9 冯佳佳;基于序列模式挖掘的关键词抽取问题研究[D];合肥工业大学;2012年
10 韩雪娇;英语试题关键词抽取算法研究[D];北方工业大学;2013年
,本文编号:639477
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/639477.html