当前位置:主页 > 论文百科 > 论文查重 >

面向论文相似性检测的数据预处理研究

发布时间:2018-04-23 06:46

  本文选题:相似性检测 + 抄袭检测 ; 参考:《现代图书情报技术》2015年05期


【摘要】:【目的】探究论文相似性检测中数据预处理的数据问题及相关方法。【方法】对数据进行细致的分析,采用基于规则的方法、基于统计的方法、基于语义的方法进行预处理。【结果】揭示论文相似性检测中原始数据存在的数据质量问题,并在此基础上给出数据预处理模型。【局限】语料规模有限,且暂未考虑对语料中图表内容的预处理。【结论】数据预处理有助于提高论文相似性检测结果的准确性;有效结合基于规则、统计、语义的三种方法有助于提高数据预处理效果。
[Abstract]:[objective] to explore the data preprocessing problems and related methods in similarity detection. [methods] to analyze the data carefully, adopt the method based on rules and statistics, The method based on semantics is used to preprocess. [results] the data quality problems in the original data in similarity detection are revealed, and the model of data preprocessing is given on the basis of which the data preprocessing model is given. [limited] the size of the corpus is limited. [conclusion] data preprocessing is helpful to improve the accuracy of similarity detection results. The three semantic methods are helpful to improve the effect of data preprocessing.
【作者单位】: 南京大学信息管理学院;江苏省数据工程与知识服务重点实验室;南京农业大学信息科学技术学院;
【基金】:国家自然科学基金管理学部青年项目“基于CSSCI的句法级汉英平行语料库构建及知识挖掘研究”(项目编号:71303120) 江苏省社会科学基金项目“大数据环境下汉英短语级平行语料标注及知识挖掘研究”(项目编号:13XWC017)的研究成果之一
【分类号】:TP391.1

【参考文献】

相关期刊论文 前10条

1 金博;史彦军;滕弘飞;;基于篇章结构相似度的复制检测算法[J];大连理工大学学报;2007年01期

2 高燕;;关键词自动标引方法综述[J];电子世界;2012年06期

3 赵俊杰;汪丽;王平水;;基于自动文摘的论文抄袭检测研究(英文)[J];电脑与电信;2010年02期

4 刘明吉;王秀峰;黄亚楼;;数据挖掘中的数据预处理[J];计算机科学;2000年04期

5 陆丽娜,杨怡玲,管旭东,魏恒义;Web日志挖掘中的数据预处理的研究[J];计算机工程;2000年04期

6 秦玉平;冷强奎;王秀坤;王春立;;基于局部词频指纹的论文抄袭检测算法[J];计算机工程;2011年06期

7 郭志懋,周傲英;数据质量和数据清洗研究综述[J];软件学报;2002年11期

8 赵俊杰;胡学钢;;一种基于段落词频统计的论文抄袭判定算法[J];计算机技术与发展;2009年04期

9 耿崇;薛德军;;中文文档复制检测方法研究[J];现代图书情报技术;2007年06期

10 王森;王宇;;基于文本结构树的论文复制检测算法[J];现代图书情报技术;2009年10期

【共引文献】

相关期刊论文 前10条

1 王涛;樊孝忠;林培光;陈康;;基于复杂特征集的剽窃检测[J];北京理工大学学报;2008年02期

2 王恩德,刘国斌;基于经济景气分析数据仓库的设计与实现[J];吉林大学学报(信息科学版);2005年04期

3 王恩德;刘畅;;面向对象技术在构建数据仓库中的应用研究[J];吉林大学学报(信息科学版);2007年05期

4 孙铁民;于杰;尚程;田大新;张丽华;;基于无监督学习的数据清洗算法[J];吉林大学学报(信息科学版);2008年06期

5 洪梅;;Web日志挖掘在电子商务中的应用[J];长春大学学报;2008年10期

6 夏葵;基于数据挖掘的三层入侵检测模型研究及应用[J];重庆职业技术学院学报;2005年02期

7 周宏广,周继承,刘长生;基于策略模式的缺损数据处理方法[J];长沙航空职业技术学院学报;2004年02期

8 王霞俊;;基于Web使用挖掘的实时推荐技术[J];常州轻工职业技术学院学报;2006年01期

9 林华;;现代医院病案统计分析存在的问题与对策[J];当代经济;2009年24期

10 赵文忠;张长利;房俊龙;;Web日志挖掘在农业网站的应用[J];东北农业大学学报;2010年08期

相关会议论文 前10条

1 刘琛玺;彭传薇;;提高医疗指标效能是新形势下医院管理的迫切需要[A];中国医院协会病案管理专业委员会第十七届学术会议论文集[C];2008年

2 王皓;曹永锋;孙洪;;基于流域变换的聚类分析[A];第十二届全国信号处理学术年会(CCSP-2005)论文集[C];2005年

3 高斯;徐德华;;保险业CRM平台ETL应用研究[A];第十届中国不确定系统年会、第十四届中国青年信息与管理学者大会论文集[C];2012年

4 蒋勇青;杨奕虹;杨贺;;论数据清洗对信息检索质量的影响及清洗方法[A];2011年中国索引学会年会暨成立二十周年庆典论文集[C];2011年

5 陈X;李心科;;基于可扩展数据清理框架的元数据的研究[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年

6 刘晨;周惠民;;基于空间数据仓库的气象信息共享的应用研究[A];数据库技术在气象领域的应用学术会议论文集[C];2001年

7 魏新;廖闻剑;彭艳兵;;基于数据挖掘的校园网络行为分析[A];第十届中国科协年会信息化与社会发展学术讨论会分会场论文集[C];2008年

8 耿崇;宋丹;薛德军;张灿;;基于词位置与同现特征的中文自动文摘研究[A];第五届全国信息检索学术会议论文集[C];2009年

9 彭玉青;何华;顾军华;;基于粗集理论的归纳依赖关系的研究[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年

10 李晓荣;张伟斌;施伯乐;;一类数据实例质量的量化研究[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年

相关博士学位论文 前10条

1 刘杰;面向数据集成的数据清理关键技术研究[D];中国科学技术大学;2010年

2 高遐;“军民结合”战略实施的制度环境与组织变革研究[D];电子科技大学;2011年

3 黄莉;基于语义关联的重复数据清理技术研究[D];华中科技大学;2011年

4 张崇明;无线传感器网络中的数据异常检测和数据质量问题研究[D];复旦大学;2010年

5 赵楠;基于机器学习的供应链绩效智能分析方法研究[D];天津大学;2010年

6 寇月;Deep Web实体搜索的关键技术研究[D];东北大学;2009年

7 张小刚;关联规则挖掘及其在复杂工业过程控制中的应用研究[D];湖南大学;2002年

8 刘勇国;基于数据挖掘的网络入侵检测研究[D];重庆大学;2003年

9 许涛;电力系统安全稳定的智能挖掘[D];华北电力大学(北京);2004年

10 陈伟;数据清理关键技术及其软件平台的研究与应用[D];南京航空航天大学;2005年

相关硕士学位论文 前10条

1 王森;基于主题树的自上而下文本复制检测研究[D];大连理工大学;2010年

2 孙伟;基于文档复制检测技术的研究与实现[D];辽宁工程技术大学;2010年

3 高龙;天津港数据集成平台关键技术应用研究[D];大连海事大学;2010年

4 纪雅楠;数据挖掘技术在高校成人教育学生成绩分析中的应用研究[D];中国海洋大学;2010年

5 黄学辉;数据挖掘分类技术在企业人才招聘中的应用研究[D];中国海洋大学;2010年

6 陈凤萍;寿光人才求职招聘网站中资源检索算法的研究[D];中国海洋大学;2010年

7 王飞;基于蚁群优化的模糊文本聚类算法研究[D];河南工业大学;2010年

8 张峰;基于数据挖掘技术的教学管理应用研究[D];合肥工业大学;2010年

9 王英翔;天津港数据集成处理平台的设计与实现[D];大连海事大学;2010年

10 高新;银行客户信息数据仓库的实现与应用[D];华南理工大学;2010年

【二级参考文献】

相关期刊论文 前10条

1 吕学强,任飞亮,黄志丹,姚天顺;句子相似模型和最相似句子查找算法[J];东北大学学报;2003年06期

2 史彦军,滕弘飞,金博;抄袭论文识别研究与进展[J];大连理工大学学报;2005年01期

3 金博;史彦军;滕弘飞;;基于篇章结构相似度的复制检测算法[J];大连理工大学学报;2007年01期

4 宋擒豹,沈钧毅;数字商品非法复制和扩散的监测机制[J];计算机研究与发展;2001年01期

5 王继成 ,武港山 ,周源远 ,张福炎;一种篇章结构指导的中文Web文档自动摘要方法[J];计算机研究与发展;2003年03期

6 马颖华,王永成,苏贵洋,张宇萌;一种基于字同现频率的汉语文本主题抽取方法[J];计算机研究与发展;2003年06期

7 俞荣华;田增平;周傲英;;一种检测多语言文本相似重复记录的综合方法[J];计算机科学;2002年01期

8 金博,史彦军,滕弘飞;中文文档复制检测系统研究[J];计算机工程;2005年19期

9 聂规划;付志超;陈冬林;刘平峰;;基于本体的论文复制检测系统[J];计算机工程;2009年06期

10 邱越峰,田增平,季文,

本文编号:1790882


资料下载
论文发表

本文链接:https://www.wllwen.com/wenshubaike/gzzj/1790882.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户81be3***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com