网络环境下的中文查重系统的研究与实现
发布时间:2022-08-10 19:56
随着信息化的不断发展,用户已经习惯通过互联网来获取信息。互联网给我们带来方便与快捷的同时,也带来了很多需要解决的问题。针对网络中信息筛选和检索问题,以及互联网的内容抄袭问题,本文结合了信息检索与文本挖掘技术,完成了基于网络环境下的中文查重系统的构建。本系统立足于网络环境下,从互联网中收集网页数据,作为文本查重的对比库。并且在对数据挖掘算法研究的基础上,借助遗传算法思想对算法做了优化之后,应用到了文本挖掘中。本文的研究内容可以分为以下几个方面:1)结合了网络信息检索系统与查重系统,构建了系统架构,把查重系统的不限制查询字数的特点与互联网中大规模的实时文档数据结合在一起,以此构建了系统。2)提出了相似性对比模型,明确完善了文档相似性对比的流程。模型中首先通过分词得到文本特征项,然后将把文本表示成空间向量的形式,通过计算向量夹角余弦的方式计算文本相似度。并且将对比过程分为了初步对比与详细对比两步,初步对比得到相似文档,然后对相似文档进行详细对比,可以处理一对多的相似情况。3)把数据挖掘算法应用到了文本领域,对数据库中的文本进行了文本挖掘。在经过了特征提取和文本表示后,运用文本挖掘算法和技术对...
【文章页数】:70 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第一章 绪论
1.1 研究背景、意义
1.2 国内外研究现状
1.3 研究内容
1.4 论文组织结构
第二章 网络检索概述
2.1 网络信息采集技术
2.2 索引的构建
2.3 PageRank
2.4 本章小结
第三章 相似性对比模型
3.1 引言
3.2 分词处理
3.2.1 词典查找算法
3.2.2 基于最长匹配中文分词
3.2.3 新词判定
3.3 中文相似度计算
3.3.1 向量空间模型
3.3.2 余弦相似性计算
3.3.3 同义词处理
3.4 相似性比对模型
3.5 本章小结
第四章 基于遗传算法的文本挖掘算法改进
4.1 文本挖掘
4.2 遗传算法
4.3 使用遗传算法对文本聚类进行优化
4.3.1 文本特征提取
4.3.2 文本聚类的优化
4.3.3 交叉算子确定
4.3.4 变异算子的实现
4.3.5 其它细节设计
4.3.6 文本聚类算法性能测试
4.4 使用遗传算法对文本分类进行优化
4.4.1 基于遗传算法的语义挖掘
4.4.2 分类算法的优化
4.4.3 实验分析
4.5 本章小结
第五章 网络环境下的中文查重系统实现
5.1 引言
5.2 系统架构
5.3 索引的构建
5.4 检索模型
5.5 交互页面设计
5.6 本章小结
第六章 总结与展望
6.1 全文总结
6.2 研究展望
参考文献
攻读学位期间的研究成果
致谢
【参考文献】:
期刊论文
[1]基于Lucene全文检索技术的优化探讨[J]. 胡杰,郭乔进,陈彬. 计算机时代. 2017(11)
[2]一种改进的文本分类算法[J]. 任朋启,王芳,黄树成. 电子设计工程. 2017(18)
[3]自然语言处理在信息检索中的应用研究[J]. 关白,才让叁智,才华. 信息与电脑(理论版). 2017(11)
[4]面向中文搜索的垂直搜索引擎的研究[J]. 刘清,齐洪彦,谢彦海. 科技广场. 2017(05)
[5]人工智能技术发展概述[J]. 俞祝良. 南京信息工程大学学报(自然科学版). 2017(03)
[6]同行评审造假 欠缺的是学术底气[J]. 王功孝. 公关世界. 2017(09)
[7]搜索引擎中的信息抽取技术[J]. 林炫. 电子技术与软件工程. 2017(08)
[8]网络爬虫技术的研究与实现[J]. 朱莉娜,李泽平. 黑龙江科技信息. 2017(10)
[9]基于搜索引擎的慢查询优化系统[J]. 陈伦跃,殷峰. 现代计算机(专业版). 2017(08)
[10]人工智能技术在移动互联网发展中的应用[J]. 贺倩. 电信网技术. 2017(02)
博士论文
[1]搜索引擎中查询处理及结果缓存技术研究[D]. 钱立兵.哈尔滨工业大学 2016
[2]基于遗传算法优化的中文分词研究[D]. 何嘉.电子科技大学 2012
硕士论文
[1]分布式网络爬虫的研究与实现[D]. 王敏.东南大学 2017
[2]云环境下搜索引擎系统关键技术研究[D]. 于建坤.南京邮电大学 2016
[3]分布式智能网络爬虫的设计与实现[D]. 何国正.中国科学院大学(工程管理与信息技术学院) 2016
[4]搜索引擎的研究分析与实现[D]. 汤东东.苏州大学 2016
[5]基于向量空间模型的主题爬虫算法研究[D]. 姚荣宝.山东师范大学 2016
[6]基于倒排索引的增量更新关联挖掘算法的研究[D]. 徐春.广西师范学院 2016
[7]基于Lucene的垂直搜索引擎研究与实现[D]. 胡博.北京工业大学 2016
[8]基于神经网络的文本向量表示与建模研究[D]. 牛力强.南京大学 2016
[9]基于Spark的Web文本挖掘系统的研究与实现[D]. 张馨允.吉林大学 2016
[10]基于Hadoop的分布式网络爬虫系统的设计与实现[D]. 薛超.郑州大学 2016
本文编号:3674265
【文章页数】:70 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第一章 绪论
1.1 研究背景、意义
1.2 国内外研究现状
1.3 研究内容
1.4 论文组织结构
第二章 网络检索概述
2.1 网络信息采集技术
2.2 索引的构建
2.3 PageRank
2.4 本章小结
第三章 相似性对比模型
3.1 引言
3.2 分词处理
3.2.1 词典查找算法
3.2.2 基于最长匹配中文分词
3.2.3 新词判定
3.3 中文相似度计算
3.3.1 向量空间模型
3.3.2 余弦相似性计算
3.3.3 同义词处理
3.4 相似性比对模型
3.5 本章小结
第四章 基于遗传算法的文本挖掘算法改进
4.1 文本挖掘
4.2 遗传算法
4.3 使用遗传算法对文本聚类进行优化
4.3.1 文本特征提取
4.3.2 文本聚类的优化
4.3.3 交叉算子确定
4.3.4 变异算子的实现
4.3.5 其它细节设计
4.3.6 文本聚类算法性能测试
4.4 使用遗传算法对文本分类进行优化
4.4.1 基于遗传算法的语义挖掘
4.4.2 分类算法的优化
4.4.3 实验分析
4.5 本章小结
第五章 网络环境下的中文查重系统实现
5.1 引言
5.2 系统架构
5.3 索引的构建
5.4 检索模型
5.5 交互页面设计
5.6 本章小结
第六章 总结与展望
6.1 全文总结
6.2 研究展望
参考文献
攻读学位期间的研究成果
致谢
【参考文献】:
期刊论文
[1]基于Lucene全文检索技术的优化探讨[J]. 胡杰,郭乔进,陈彬. 计算机时代. 2017(11)
[2]一种改进的文本分类算法[J]. 任朋启,王芳,黄树成. 电子设计工程. 2017(18)
[3]自然语言处理在信息检索中的应用研究[J]. 关白,才让叁智,才华. 信息与电脑(理论版). 2017(11)
[4]面向中文搜索的垂直搜索引擎的研究[J]. 刘清,齐洪彦,谢彦海. 科技广场. 2017(05)
[5]人工智能技术发展概述[J]. 俞祝良. 南京信息工程大学学报(自然科学版). 2017(03)
[6]同行评审造假 欠缺的是学术底气[J]. 王功孝. 公关世界. 2017(09)
[7]搜索引擎中的信息抽取技术[J]. 林炫. 电子技术与软件工程. 2017(08)
[8]网络爬虫技术的研究与实现[J]. 朱莉娜,李泽平. 黑龙江科技信息. 2017(10)
[9]基于搜索引擎的慢查询优化系统[J]. 陈伦跃,殷峰. 现代计算机(专业版). 2017(08)
[10]人工智能技术在移动互联网发展中的应用[J]. 贺倩. 电信网技术. 2017(02)
博士论文
[1]搜索引擎中查询处理及结果缓存技术研究[D]. 钱立兵.哈尔滨工业大学 2016
[2]基于遗传算法优化的中文分词研究[D]. 何嘉.电子科技大学 2012
硕士论文
[1]分布式网络爬虫的研究与实现[D]. 王敏.东南大学 2017
[2]云环境下搜索引擎系统关键技术研究[D]. 于建坤.南京邮电大学 2016
[3]分布式智能网络爬虫的设计与实现[D]. 何国正.中国科学院大学(工程管理与信息技术学院) 2016
[4]搜索引擎的研究分析与实现[D]. 汤东东.苏州大学 2016
[5]基于向量空间模型的主题爬虫算法研究[D]. 姚荣宝.山东师范大学 2016
[6]基于倒排索引的增量更新关联挖掘算法的研究[D]. 徐春.广西师范学院 2016
[7]基于Lucene的垂直搜索引擎研究与实现[D]. 胡博.北京工业大学 2016
[8]基于神经网络的文本向量表示与建模研究[D]. 牛力强.南京大学 2016
[9]基于Spark的Web文本挖掘系统的研究与实现[D]. 张馨允.吉林大学 2016
[10]基于Hadoop的分布式网络爬虫系统的设计与实现[D]. 薛超.郑州大学 2016
本文编号:3674265
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3674265.html