基于概念和语义网络的近似网页检测算法
本文选题:网页去重算法 切入点:小世界网络 出处:《软件学报》2011年08期
【摘要】:在搜索引擎的检索结果页面中,用户经常会得到内容近似的网页.为了提高检索整体性能和用户满意度,提出了一种基于概念和语义网络的近似网页检测算法DWDCS(near-duplicate webpages detection based on concept and semantic network).改进了经典基于小世界理论提取文档关键词的算法.首先对文档概念进行抽取和归并,不但解决了"表达差异"问题,而且有效降低了语义网络的复杂度;从网络结构的几何特征对其进行分析,同时利用网页的语法和结构信息构建特征向量进行文档相似度的计算,由于无须使用语料库,使得算法天生具有领域无关的优点.实验结果表明,与经典的网页去重算法(I-Match)和单纯依赖词汇共现小世界模型的算法相比,DWDCS具有很好的抵抗噪声的能力,在大规模实验中获得了准确率90%和召回率85%的良好测试结果.良好的时空间复杂度及算法性能不依赖于语料库的优点,使其在大规模网页去重实际应用中获得了良好的效果.
[Abstract]:In search engine search results pages, users often get pages with similar content. In order to improve the overall performance and user satisfaction, In this paper, an approximate web page detection algorithm based on concept and semantic network, DWDCS(near-duplicate webpages detection based on concept and semantic network, is proposed. The classical algorithm for extracting document keywords based on small-world theory is improved. Firstly, the concept of document is extracted and merged. It not only solves the problem of "expression difference", but also reduces the complexity of semantic network effectively. At the same time, using the syntax and structure information of web pages to construct feature vectors to calculate document similarity, the algorithm has the advantage of domain independence because it does not need to use corpus. The experimental results show that, Compared with the classical webpage de-duplication algorithm (I-Match) and the algorithm based on lexical co-occurrence small-world model, DWDCS has a good ability to resist noise. A good test result of 90% accuracy and 85% recall rate is obtained in the large-scale experiment. The good time space complexity and the performance of the algorithm are independent of the advantages of the corpus, which makes it obtain good results in the practical application of the large-scale web page de-emphasis.
【作者单位】: 北京理工大学计算机科学技术学院;北京航天飞行控制中心;
【基金】:国家自然科学基金(60803050,60705022) 新世纪优秀人才计划(NCET-06-0161)
【分类号】:TP393.092
【参考文献】
相关期刊论文 前2条
1 吴平博,陈群秀,马亮;基于特征串的大规模中文网页快速去重算法研究[J];中文信息学报;2003年02期
2 鲍军鹏,沈钧毅,刘晓东,宋擒豹;自然语言文档复制检测研究综述[J];软件学报;2003年10期
【共引文献】
相关期刊论文 前10条
1 金博;史彦军;滕弘飞;;基于篇章结构相似度的复制检测算法[J];大连理工大学学报;2007年01期
2 王雯;廖祥忠;;数字图像作品抄袭鉴定研究[J];大连理工大学学报;2011年S1期
3 刘双明;彭新光;;源程序与文档复制检测系统的研究[J];电脑知识与技术;2010年13期
4 孔素然;;基于散列思想的网页去重系统[J];硅谷;2010年22期
5 申文明;黄家裕;刘连芳;;平行语料库的相似语句去重算法[J];广西科学院学报;2009年04期
6 周小平;黄家裕;刘连芳;梁一平;申文明;;基于网页正文主题和摘要的网页去重算法[J];广西科学院学报;2009年04期
7 刘韬;李向军;邱桃荣;龚科华;郭传俊;;一种基于相容粒计算模型的文章相似度计算方法[J];广西师范大学学报(自然科学版);2010年03期
8 赵俊杰;谢飞;;基于段落相似度的论文抄袭判定[J];电脑与电信;2008年08期
9 卢小康;王小华;王荣波;;一种句子级别的中文文本复制检测方法[J];杭州电子科技大学学报;2009年06期
10 罗永莲;张永奎;;基于发布时间的新闻网页去重方法研究[J];计算机工程与应用;2007年06期
相关会议论文 前3条
1 曹玉娟;牛振东;彭学平;江鹏;;一个基于特征向量的近似网页去重算法[A];中国索引学会第三次全国会员代表大会暨学术论坛论文集[C];2008年
2 连浩;刘悦;许洪波;王斌;程学旗;;一种改进的基于内容的快速网页查重算法[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
3 沙芸;周俊武;张国英;;基于主题关键词的新闻去重算法[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
相关博士学位论文 前7条
1 董建设;协作式垃圾邮件过滤关键技术研究[D];兰州理工大学;2009年
2 侯锋;中文报业出版的文字质量智能辅助控制技术研究[D];国防科学技术大学;2010年
3 金博;面向专利和零部件的设计知识检索方法[D];大连理工大学;2009年
4 李旭;基于指纹和语义知识表示的中文文档复制检测方法[D];燕山大学;2010年
5 于宝琴;成套电器企业异构数据整合及其物流系统的研究[D];天津大学;2006年
6 龚才春;短文本语言计算的关键技术研究[D];中国科学院研究生院(计算技术研究所);2008年
7 李卫;领域知识的获取[D];北京邮电大学;2008年
相关硕士学位论文 前10条
1 卢小康;中文文本复制检测技术研究[D];杭州电子科技大学;2009年
2 朱凤芳;搜索引擎中网页净化与消重技术研究[D];东北大学;2008年
3 徐德玉;中文文档内容相似度检测方法研究[D];长春工业大学;2010年
4 李继中;基于相似性判定的密码算法识别技术研究[D];解放军信息工程大学;2009年
5 陈林;基于指令词的软件特征技术研究[D];解放军信息工程大学;2010年
6 梁浩;网络新闻相似度检测系统[D];吉林大学;2011年
7 颜振祥;互联网双语资源挖掘关键技术研究[D];苏州大学;2010年
8 马U,
本文编号:1678999
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1678999.html