基于傅立叶变换的网页去重算法
本文选题:网页去重 + K-L展开 ; 参考:《计算机应用》2008年04期
【摘要】:去除重复网页可以提高搜索引擎的搜索精度,减少数据存储空间。目前文本去重算法以关键词去重、语义指纹去重为主,用上述算法进行网页去重时容易发生误判。通过对字符关系矩阵进行K-L展开,将每个字符映射成为一个数值,然后对这个数值序列做离散傅立叶变换,得到每个网页的傅立叶系数向量,通过比较傅立叶系数向量差异实现对网页的相似度判断。实验结果表明该方法可对网页实现较好的去重。
[Abstract]:The removal of repeated web pages can improve the search precision of search engines and reduce the storage space of the data. At present, the text deweighting method is weighted by keywords, semantic fingerprint is heavy, and it is easy to misjudge when using the above algorithm to carry out web pages. By K-L expansion of the character relation matrix, each character is mapped into a numeric value, and then, This numerical sequence is made by discrete Fu Liye transform, and the Fu Liye coefficient vector of each web page is obtained. By comparing the difference of the Fu Liye coefficient vector, the similarity of the web page is judged. The experimental results show that the method can achieve better weight removal for the web pages.
【作者单位】: 天津大学计算机科学与技术学院 天津大学计算机科学与技术学院 天津大学计算机科学与技术学院
【分类号】:TP301.6
【共引文献】
相关期刊论文 前10条
1 苑进,刘雪美,江涛;遥感图像中多分类问题的树型RBF神经网络方法[J];农业工程学报;2004年05期
2 张根耀,李竹林,赵宗涛;遮挡情况下运动目标的跟踪[J];安徽大学学报(自然科学版);2003年03期
3 张贵,乔春生;应用支持向量机回归确定岩体强度指标[J];北方交通大学学报;2004年01期
4 李翠霞,于剑;一种模糊聚类算法归类的研究[J];北京交通大学学报;2005年02期
5 谢纪刚;裘正定;;非平衡数据集Fisher线性判别模型[J];北京交通大学学报;2006年05期
6 余鹏,封举富;基于多分辨率小波和高斯混合模型的纹理图像分割[J];北京大学学报(自然科学版);2005年03期
7 韩武鹏,陈文楷,刘正耀;模糊小波算法在纺织品瑕点检测中的应用[J];北京工业大学学报;2002年01期
8 张虹,陈文楷;一种基于小波矩的图像识别方法[J];北京工业大学学报;2004年04期
9 苏惠敏,高剑宏,陈哲;BP网络实时图像自动选取算法研究[J];北京航空航天大学学报;2002年02期
10 张吉堂,路宏年;树分类器在多界面粘接质量图像诊断中的应用[J];北京航空航天大学学报;2003年08期
相关会议论文 前10条
1 Xu ZhangSui Lei ZhengWei Mi Dong Liu MeiQuan Yang WenFei Department of Control Engineering,Mechanical Engineering College,Shijiazhuang, 050003 China;Intelligence Recognition of Reconnaissance Objective Based on INN Pattern Recognition[A];Proceedings of the 5th International Symposium on Test and Measurement(Volume 1)[C];2003年
2 张韵;张燕;苗艳华;蒲金霞;;提升小波在笔迹鉴别中的应用[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
3 罗仁泽;王汝言;冉瑞生;;二维PCA法策略及证明[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
4 郭锋;刘丽丽;吕凝;;基于LLE和SVM的人像识别方法[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
5 蒋琦;庄毅;谢东;;基于SVM分类器的SYN Flood攻击检测规则生成方法的研究[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
6 郭相科;刘进忙;曹学斌;张玉鹏;;子类独立分量分析在声目标识别中的应用[A];中国声学学会2007年青年学术会议论文集(上)[C];2007年
7 寇凌岳;艾欣;邓慧琼;;基于FCM算法的连锁故障评价及路径划分方法研究[A];第十一届全国电工数学学术年会论文集[C];2007年
8 赵伟;李丽娟;;基于数学形态学的手写体汉字识别[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年
9 叶政春;林宏基;;基于小波不变矩和SCNN的多姿态人脸检测[A];中国仪器仪表学会第九届青年学术会议论文集[C];2007年
10 毛罕平;徐贵力;李萍萍;;番茄缺素叶片的图像特征提取和优化选择研究[A];2002农业工程青年科技论坛论文集[C];2002年
相关博士学位论文 前10条
1 吕铁军;通信信号调制识别研究[D];电子科技大学;2000年
2 凌杰;公路动态称重系统的设计理论研究[D];长安大学;2001年
3 李剑;局部放电灰度图象识别特征提取与分形压缩方法的研究[D];重庆大学;2001年
4 孙涛;基于数据融合技术的两相流流型辨识与流量测量方法研究[D];浙江大学;2002年
5 郭满才;群体遗传变异的信息学模型研究[D];西北农林科技大学;2002年
6 李新;面向神经计算的视觉信息处理研究[D];西北工业大学;2002年
7 郑江滨;视频监视方法研究[D];西北工业大学;2002年
8 马艳;基于小波变换的畸变信道检测和目标特征提取研究[D];西北工业大学;2002年
9 田景文;地下油藏的仿真与预测[D];哈尔滨工程大学;2001年
10 王崇文;自动指纹识别方法研究[D];重庆大学;2002年
相关硕士学位论文 前10条
1 沈世e,
本文编号:2014253
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2014253.html