当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于关键词提取的娱乐新闻文档去重算法

发布时间:2018-12-17 13:22
【摘要】:去除内容相同或相近的新闻是提高搜索引擎的关键技术之一。提出一种基于关键词提取的新闻去重算法,通过以标题为种子点构建词汇链的方法,能够找到对主题贡献大的非高频词,从而抽取出完整文档关键词集合,该方法能够基于小规模语料库识别新词;为了提高网页去重速度和质量,基于关键词建立去重倒排文档。实验结果显示,该方法与传统方法相比排斥错误率降低了5%,去重时间缩短了20%-30%。
[Abstract]:Removing news with the same or similar content is one of the key techniques for improving search engines. In this paper, we propose a new algorithm of news reduplication based on keyword extraction. By using the title as the seed point to construct the lexical chain, we can find the non-high-frequency words that contribute a lot to the topic, and then extract the complete document keyword set. This method can recognize new words based on small corpus. In order to improve the speed and quality of webpage deduplication, the key words are used to set up the de-reversion document. The experimental results show that compared with the traditional method, the rejection error rate of this method is reduced by 5%, and the time of removing heavy weight is shortened by 20%-30%.
【作者单位】: 北京石油化工学院计算机系 北京石油化工学院计算机系 北京石油化工学院计算机系
【基金】:国家部委预研项目(10405033) 北京市教育委员会资助项目(KM200610017007)
【分类号】:TP391.1

【参考文献】

相关期刊论文 前4条

1 昝红英,俞士汶;CCD及其应用[J];广西师范大学学报(自然科学版);2003年01期

2 赵欣欣;索红光;刘玉树;;基于改进汉宁窗的信息检索模型[J];广西师范大学学报(自然科学版);2006年04期

3 施水才;俞鸿魁;吕学强;李渝勤;;基于大规模语料的新词语识别方法[J];山东大学学报(理学版);2006年03期

4 高凯;王永成;肖君;;网页去重策略[J];上海交通大学学报;2006年05期

【共引文献】

相关期刊论文 前10条

1 孟时;王彦;;larbin网络爬虫的体系结构[J];电脑学习;2010年04期

2 肖丁;万里;吴斌;陈平;;社群网络中基于链接分类的研究与应用[J];广西师范大学学报(自然科学版);2006年04期

3 卢春燕;雷景生;;基于模糊关联的交互式Web信息检索技术[J];广西师范大学学报(自然科学版);2007年02期

4 于江德;樊孝忠;尹继豪;;基于Ultra Search的桌面搜索设计与实现[J];广西师范大学学报(自然科学版);2007年02期

5 吴丽华;罗云锋;符海艳;;不确定知识的相似度量方法及应用[J];广西师范大学学报(自然科学版);2007年04期

6 徐建民;唐万生;;基于查询术语同义词的扩展信念网络检索模型[J];计算机工程;2007年10期

7 曹传东;郭理;;一种基于文本抽取的网页正文去重算法[J];科技信息;2009年01期

8 昝红英,苏玉梅,孙斌,俞士汶;名人网页的相关度评价[J];中文信息学报;2003年05期

9 刘书一;;基于文本相似度的网页消重策略[J];计算机应用与软件;2011年11期

10 徐建民;陈振亚;白彦霞;;利用查询术语同义词关系扩展信念网络检索模型[J];情报学报;2008年03期

相关会议论文 前1条

1 昝红英;苏玉梅;孙斌;俞士汶;;基于浅层分析的网页相关度研究[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年

相关博士学位论文 前2条

1 杨瑞龙;基于短语特征的Web文档聚类方法研究[D];重庆大学;2010年

2 徐建民;基于术语关系的贝叶斯网络信息检索模型扩展研究[D];天津大学;2007年

相关硕士学位论文 前10条

1 魏一帆;分布式信息采集系统Web划分技术研究[D];哈尔滨工业大学;2010年

2 贾玉祥;基于概率模型的名人网页相关度评价研究[D];郑州大学;2006年

3 段国成;基于CCD的术语抽取研究[D];郑州大学;2007年

4 张恒;基于军事应用的网络情报智能搜索技术[D];第四军医大学;2007年

5 范小源;搜索引擎系统网页消重的研究与实现[D];中南民族大学;2007年

6 王强;基于Web结构挖掘的敏感社团发现[D];解放军信息工程大学;2007年

7 刘冠军;Web对象提取检索系统的设计与实现[D];北京大学;2008年

8 刘利刚;中文名实体识别与新词发现技术研究[D];哈尔滨工业大学;2007年

9 魏丽霞;基于文本结构的近似镜像网页去重[D];山西大学;2008年

10 徐静秋;面向搜索引擎的智能个性化研究[D];重庆大学;2008年

【二级参考文献】

相关期刊论文 前7条

1 张云涛,龚玲,王永成;面向自然语言提问的检索技术[J];广西师范大学学报(自然科学版);2003年01期

2 韩立新 ,阳雪林 ,谢立 ,陈道蓄;一种提高WEB信息检索系统查准率的新方法[J];情报学报;2002年05期

3 邓珞华;概念空间——定义、意义和局限[J];情报学报;2003年04期

4 李晓明,凤旺森;两种对URL的散列效果很好的函数[J];软件学报;2004年02期

5 孙茂松;关于词汇使用度的初步研究[J];语言文字应用;2000年01期

6 董振东;语义关系的表达和知识系统的建造[J];语言文字应用;1998年03期

7 张普;关于大规模真实文本语料库的几点理论思考[J];语言文字应用;1999年01期

相关会议论文 前1条

1 刘扬;俞士汶;;CCD构造模型及VACOL辅助软件的设计与实现[A];第一届学生计算语言学研讨会论文集[C];2002年

【相似文献】

相关期刊论文 前10条

1 王晓艳;梁晋春;郭晓霞;姚颖颖;汪瑛;;基于互联网的数字媒体内容舆情分析系统[J];计算机系统应用;2011年08期

2 许琦;;一种基于知网的文档语义模型构建方法[J];中国科技资源导刊;2010年04期

3 曹玉娟;牛振东;赵X;彭学平;;基于概念和语义网络的近似网页检测算法[J];软件学报;2011年08期

4 周鑫;郝志峰;蔡瑞初;温雯;;带噪声的文本聚类及其在反垃圾邮件中的应用[J];广西师范大学学报(自然科学版);2011年02期

5 孙凯;;面向古建动画自动生成的中文自然语言处理[J];网络安全技术与应用;2011年09期

6 王鹏;;垂直搜索引擎及其个性化推荐研究[J];潍坊学院学报;2011年04期

7 ;[J];;年期

8 ;[J];;年期

9 ;[J];;年期

10 ;[J];;年期

相关会议论文 前10条

1 沙芸;周俊武;张国英;;基于主题关键词的新闻去重算法[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年

2 雷庆;吴扬扬;;一种基于语义信息计算XML文档相似度的新方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年

3 秦鹏;李恒训;张华平;刘金刚;;基于关键词提取的搜索结果聚类研究[A];第五届全国信息检索学术会议论文集[C];2009年

4 王洪俊;施水才;俞士汶;肖诗斌;;跨语言文档对齐[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年

5 章成志;;基于集成学习的自动标引方法研究[A];中国索引学会第三次全国会员代表大会暨学术论坛论文集[C];2008年

6 罗准辰;刘伍颖;王挺;;关键词提取中的分离模型和特征设计[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年

7 马亮;何婷婷;陈劲光;李芳;邵伟;;一种利用关键词提取的面向查询多文档文摘技术[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年

8 薛征;廖闻剑;;基于位置权重和实体识别的关键词提取[A];中国电子学会第十六届信息论学术年会论文集[C];2009年

9 徐斌;顾宏斌;;一种基于模糊分类的多分类文档查找方法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

10 廉鑫;林伟坚;张海威;袁晓洁;;基于双向路径约束模型的XML文档结构相似性度量[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年

相关重要报纸文章 前1条

1 钟赫;练好十大绝招做好企业微博营销[N];中国高新技术产业导报;2011年

相关博士学位论文 前10条

1 蒋昌金;基于关键词提取的中文网页自动文摘方法研究[D];华南理工大学;2010年

2 孙越恒;基于统计的NLP技术在中文信息检索中的应用研究[D];天津大学;2005年

3 高红;基于统计语言模型的汉语浅层分析研究[D];大连理工大学;2007年

4 王一川;基于内容的海量文本探索式查询导引中若干关键技术的研究[D];北京邮电大学;2011年

5 姜静清;最小二乘支持向量机算法及应用研究[D];吉林大学;2007年

6 余利华;分布式数据存储和处理的若干技术研究[D];浙江大学;2008年

7 金博;面向专利和零部件的设计知识检索方法[D];大连理工大学;2009年

8 魏建香;学科交叉知识发现及其可视化研究[D];南京大学;2010年

9 林古立;互联网信息检索中的多样化排序研究及应用[D];华南理工大学;2011年

10 缪嘉嘉;异构数据映射技术研究[D];国防科学技术大学;2008年

相关硕士学位论文 前10条

1 梁伟明;中文关键词提取技术[D];上海交通大学;2010年

2 管瑞霞;基于基因表达式编程的中文文本关键词提取算法研究[D];杭州电子科技大学;2009年

3 谢凤宏;基于复杂网络理论的文本聚类和关键词提取方法研究[D];辽宁师范大学;2011年

4 江慧娜;中文搜索引擎的关键技术研究[D];北京化工大学;2007年

5 薛征;基于改进TF-IDF的文本信息热点话题发现[D];武汉邮电科学研究院;2009年

6 刘治华;面向主题的文档摘要技术研究[D];北方工业大学;2011年

7 尹倩;基于聚类分析的中文新闻网页关键词提取方法研究[D];合肥工业大学;2009年

8 赵嫣;信息检索中结构化文档相关度计算方法的研究[D];山东大学;2007年

9 吕红良;基于大规模语料库的中文新词识别[D];大连理工大学;2008年

10 何金艳;基于内容分析的Blog话题检测方法研究[D];哈尔滨工业大学;2010年



本文编号:2384255

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2384255.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户8c4ba***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com