基于Low-IDF-SIG的句子重复检测
本文关键词: 近似重复检测 特征抽取 Low-IDF-SIG 出处:《中文信息学报》2011年01期 论文类型:期刊论文
【摘要】:随着互联网上数据的爆炸式增长,互联网上产生了大量的重复数据。这些重复数据给搜索引擎、观点挖掘等许多Web应用带来了严峻的问题。目前绝大部分的重复检测的算法均着重考虑文档级别,不能有效地检测出两个文档中只有一部分互为拷贝的情况。而句子级别的重复检测正是解决这类问题的一个必要步骤。该文提出了一种快速有效的句子级别的特征抽取方法——Low-IDF-Sig算法,算法依据选定的先行词从句子中抽取出改进的Shingle特征以表示句子内容。真实语料库上的实验结果证明该文提出的算法能有效地提高句子级别重复检测任务的效率和精度。
[Abstract]:With the explosive growth of data on the Internet, there is a lot of duplicate data on the Internet. Many Web applications, such as viewpoint mining, bring serious problems. At present, most of the algorithms for duplicate detection focus on document level. Only one part of the two documents can not be detected to copy each other effectively. Sentence level repetition detection is a necessary step to solve this kind of problem. This paper proposes a fast and effective special sentence level. Low-IDF-Sig algorithm, Based on the selected antecedents, the improved Shingle feature is extracted from the sentence to represent the sentence content. The experimental results on the real corpus show that the proposed algorithm can effectively improve the efficiency and accuracy of sentence level repetition detection.
【作者单位】: 复旦大学计算机科学与技术学院;
【基金】:国家自然科学基金资助项目(61073069,61003092) 国家高技术研究发展计划(863计划)资助项目(2009AA01A346)
【分类号】:TP391.1
【相似文献】
相关期刊论文 前10条
1 宋涛;刘刚;;一种基于内容的文档图像检索方法[J];郑州大学学报(工学版);2010年01期
2 郑辉;;基于KPCA组合核函数SVM的网络危险因素识别[J];信息网络安全;2010年02期
3 范燕;郑宇杰;吴小俊;杨静宇;;对称LDA及其在人脸识别中的应用[J];计算机工程;2010年01期
4 牛长锋;刘玉树;;融合多特征的粒子滤波目标跟踪算法[J];华中科技大学学报(自然科学版);2010年01期
5 刘洞波;刘国荣;喻妙华;;基于单目视觉的机器人Monte Carlo自定位方法[J];控制与决策;2010年02期
6 崔建新;徐永红;洪文学;高海波;;基于多元数据图表示的类别可分性研究[J];微计算机信息;2010年03期
7 雷雪梅;王大亮;田中贵秋;曾广平;;基于深层特征抽取的日文词义消歧系统[J];北京科技大学学报;2010年02期
8 黄鑫;朱巧明;钱龙华;刘梅梅;;基于特征组合的中文实体关系抽取[J];微电子学与计算机;2010年04期
9 刘苗苗;张永生;;文本分类技术在搜索引擎中的应用[J];中国新技术新产品;2010年04期
10 卫丽芬;李仰军;姚学林;王雷;;细化指纹图像中伪特征点的去除算法[J];机械工程与自动化;2010年02期
相关会议论文 前10条
1 王韶卿;;基于31P磁共振波谱图的肝脏数据分类[A];2010中华医学会影像技术分会第十八次全国学术大会论文集[C];2010年
2 蒋利勇;卢振泰;冯前进;陈武凡;;基于投影梯度的NMF相关反馈医学图像检索算法[A];广东省生物医学工程学会成立30周年纪念大会暨2010广州(国际)生物医学工程学术大会论文集[C];2010年
3 俞昊e,
本文编号:1506444
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1506444.html