基于组合特征的中文新闻网页关键词提取研究
本文关键词: 关键词提取 组合特征 组合词 有向图 新闻网页 出处:《北京林业大学》2013年硕士论文 论文类型:学位论文
【摘要】:随着互联网的迅速发展,网络信息正在呈爆炸式增长,新闻网页已经成为人们获取信息的一个重要途径。如何快速有效地获取新闻网页中的信息并进行处理已经成为一个重要的研究工作。在搜索引擎领域,网页内容及关键词提取是有关文本自动处理的基础工作。网页关键词反映了网页的主要内容,能够有效地对网页进行标识,从而便于进一步处理。 本文首先介绍了关键词提取相关的理论知识,包括关键词提取的概念、自然语言处理、网页内容提取等。接着介绍了组合词以及组合词生成的方法。然后提出了基于组合特征的新闻网页关键词提取方法。在对网页文本进行分词的基础上,通过计算文本特征的权重得到候选关键词,并利用基于有向图的组合词生成算法得到组合词,经过去重合并得到最终关键词。最后对新闻网页进行实验,实验结果表明本文方法能够有效地提取出新闻网页的关键词。
[Abstract]:With the rapid development of the Internet, the network information is explosive growth. News pages have become an important way for people to obtain information. How to quickly and effectively access information in news pages and deal with them has become an important research work in the field of search engines. Web page content and keyword extraction are the basic work of automatic text processing. Web keywords reflect the main content of the page and can effectively identify the page, thus facilitating further processing. This paper first introduces the relevant theoretical knowledge of keyword extraction, including the concept of keyword extraction, natural language processing. Then introduced the combination words and the combination word generation method. Then proposed the news page keyword extraction method based on the combination characteristic. On the basis of the word segmentation to the web page text. The candidate keywords are obtained by calculating the weight of the text features, and the combinational words are obtained by using the combinatorial word generation algorithm based on directed graph, then the final keywords are obtained by de-coincidence. Finally, the experiment of news pages is carried out. Experimental results show that this method can effectively extract the keywords of news pages.
【学位授予单位】:北京林业大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP391.1
【相似文献】
相关期刊论文 前10条
1 钟世通;;C++Builder编程访问网页信息的方法[J];科技资讯;2007年19期
2 徐明;;轻松破解网页右键屏蔽六招[J];电脑校园;2002年12期
3 杜翠茹;;浅析网页布局方法在教学中的优化[J];大众科技;2010年05期
4 孟涛,闫宏飞,王继民;Web网页信息变化的时间局部性规律及其验证[J];情报学报;2005年04期
5 ;和朋友看同一个网页的幸福生活[J];计算机与网络;2005年18期
6 张晓彦;张晓明;;一种基于表格属性的网页信息隐藏算法[J];北京石油化工学院学报;2009年01期
7 郭利伟;王家兵;;Web信息自动标引方法比较[J];内蒙古科技与经济;2009年07期
8 胡少荣;孟嗣仪;刘云;张彦超;丁飞;;网页信息自动抽取技术的研究[J];铁路计算机应用;2010年09期
9 汪鹏,刘加,刘润生;基于离散HMM的非特定人关键词提取语音识别系统[J];吉林大学学报(理学版);2003年03期
10 陈康,奚伟鹏,蒋凯,武港山;Web智能信息服务系统的设计与实现[J];计算机应用研究;2004年06期
相关会议论文 前10条
1 韩近强;赵静;杨冬青;唐世渭;姚小波;;基于领域知识的网页筛选系统[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
2 王晓峰;刘惟一;;从用户需求到网页集团的模糊变换[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
3 张贯虹;乌达巴拉;巩政;;基于向量空间模型的网页文本句子对齐方法研究[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
4 吴倩;杨逍;张兆心;;基于视觉特征的网页信息提取[A];第六届全国信息检索学术会议论文集[C];2010年
5 罗阳;季铎;张桂平;王莹莹;;面向单一网页的双语资源挖掘方法[A];第六届全国信息检索学术会议论文集[C];2010年
6 秦鹏;李恒训;张华平;刘金刚;;基于关键词提取的搜索结果聚类研究[A];第五届全国信息检索学术会议论文集[C];2009年
7 章成志;;基于集成学习的自动标引方法研究[A];中国索引学会第三次全国会员代表大会暨学术论坛论文集[C];2008年
8 罗准辰;刘伍颖;王挺;;关键词提取中的分离模型和特征设计[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
9 马亮;何婷婷;陈劲光;李芳;邵伟;;一种利用关键词提取的面向查询多文档文摘技术[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
10 沙芸;周俊武;张国英;;基于主题关键词的新闻去重算法[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
相关重要报纸文章 前10条
1 壮壮;批量保存网页信息[N];电脑报;2004年
2 东方早报记者 李伟;要名还是要利,这是个问题[N];东方早报;2011年
3 金山软件副总裁 杨桓;着力“三大系统” 构筑网络安全屏障[N];中国电子报;2009年
4 郭京霞;枫叶之都状告百度恶意排名一审败诉[N];中国知识产权报;2007年
5 中国人民大学法学院教授 莫纪宏;从宪法文本看公民概念的百年发展[N];北京日报;2010年
6 陆建松;“诊疗”博物馆展览工程管理之展览文本[N];中国文物报;2005年
7 刘福旺;让文本动起来[N];中国电脑教育报;2002年
8 詹斌;解构的欢愉[N];青海日报;2003年
9 宋成剑;文本、对话、实践的有机统一[N];社会科学报;2001年
10 刘戈;文本的价值与意义[N];文艺报;2001年
相关博士学位论文 前10条
1 焦斌星;用于搜索的网页可视化摘要技术研究[D];中国科学技术大学;2012年
2 蒋昌金;基于关键词提取的中文网页自动文摘方法研究[D];华南理工大学;2010年
3 孙越恒;基于统计的NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
4 王一川;基于内容的海量文本探索式查询导引中若干关键技术的研究[D];北京邮电大学;2011年
5 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
6 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
7 姜静清;最小二乘支持向量机算法及应用研究[D];吉林大学;2007年
8 黄河;农业复杂自适应搜索模型研究及实现[D];中国科学技术大学;2010年
9 余利华;分布式数据存储和处理的若干技术研究[D];浙江大学;2008年
10 王昤璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年
相关硕士学位论文 前10条
1 毛新武;基于组合特征的中文新闻网页关键词提取研究[D];北京林业大学;2013年
2 于洪波;中文网页自动采集与分类系统设计与实现[D];北京邮电大学;2010年
3 钟鸿鹏;基于时态信息的网页排序系统的研究与实现[D];华南理工大学;2010年
4 张航;主题爬虫的实现及其关键技术研究[D];武汉理工大学;2010年
5 冯明远;深度网络信息爬取关键技术研究与实现[D];浙江大学;2010年
6 邓科;智能搜索中的中文网页分类研究[D];兰州理工大学;2011年
7 党春辉;网页消重和聚类算法在高校搜索引擎中的研究与应用[D];东华大学;2010年
8 马伟瑜;基于改进的PageRank的网页信息可信度评估方法研究[D];河北大学;2011年
9 任兰鹏;基于代表样本的中文网页分类研究[D];山东大学;2010年
10 任斌;基于本体的主动学习主题爬行的研究与实现[D];吉林大学;2010年
,本文编号:1448324
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1448324.html