搜索结果智能处理技术研究
发布时间:2017-09-10 21:25
本文关键词:搜索结果智能处理技术研究
【摘要】:伴随着互联网技术的不断发展成熟,网络信息量与日俱增,从网络中检索需要的信息早已成为许多人生活中不可或缺的一部分。其中最常用的信息检索手段是搜索引擎,但丰富的网络信息使得搜索引擎返回结果数量极为庞大。因此,为减少查询搜索结果信息而产生的搜索结果智能处理技术就变得十分重要。本文通过对搜索结果智能处理的整个步骤环节进行了研究,提出了结合数据采集、自然语言处理与数据挖掘的解决方案。 对搜索引擎数据采集方法,本文采用网页内容抓取方法避免了搜索引擎以及相关API对访问量和访问频率的限制。 对搜索条目的自然语言处理,在分词环节中本文提出了一种基于统计学概率算法的分词字典扩充方法,从而弥补了传统字典分词算法对新生网络语言处理方面的不足。并能够应用分词字典扩充方法挖掘语料中的新生词汇;在文本向量空间模型建立环节本文提出了基于句子中词语间关系的文本向量化算法,通过句中词语之间相邻、修饰、指代等关系进行PageRank迭代来计算文本向量,在分类准确率方面优于传统的基于统计量的文本向量化算法,而且更加适用于类似搜索引擎结果条目这样的较短文本。 对搜索结果的处理,本文考虑到搜索结果条目重要程度差异极大的情况提出了先对关键元素进行聚类,再对次要元素分类归入的方法,保证了最终类别形成符合实际情况。并通过建立聚类结果评估机制来确保归类数目的准确性,对有歧义搜索关键字搜索结果的处理产生了良好的效果。在最终返回结果之前,本文还通过计算不同搜索引擎的权重分配、搜索条目的重复状况以及搜索条目内容的重要程度来对搜索结果条目信息进行排序。 本文提出的搜索结果智能处理方法具有良好的可扩展性,且兼具元搜索功能,能够有效支持多个搜索引擎作为数据来源。实验中通过选取一些典型的有歧义的搜索关键词进行聚类-分类处理,,从结果中可以看出形成的类别数目符合人们的正常理解,条目分类的准确率使用F1-Measure衡量为81.818%,符合预期,表明本文提出的搜索结果智能处理方法能够较好地应用。
【关键词】:搜索结果 分词 数据挖掘 向量化 聚类
【学位授予单位】:上海交通大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.3
【目录】:
- 摘要3-5
- ABSTRACT5-9
- 第一章 绪论9-13
- 1.1. 研究背景和意义9-10
- 1.2. 相关的研究现状10-11
- 1.3. 论文的主要工作11
- 1.4. 论文的结构安排11-13
- 第二章 搜索引擎内容抓取方法研究13-20
- 2.1. 搜索引擎 API 的功能与使用方式13-15
- 2.1.1. 搜索引擎 API 的介绍13
- 2.1.2. Google 搜索 API 的功能与使用方式13-15
- 2.1.3. 搜索引擎 API 的不足15
- 2.2. 针对网页的内容抓取方法15-19
- 2.2.1. 搜索结果网页页面结构15-17
- 2.2.2. 网页结果的获取17-18
- 2.2.3. 通过网页内容抓取条目的优劣分析18-19
- 2.3. 本章小结19-20
- 第三章 分词与热点新词挖掘算法研究20-27
- 3.1. 分词算法20-23
- 3.1.1. 分词算法解决的主要问题20-21
- 3.1.2. 基于字典的分词算法21-22
- 3.1.3. 无字典分词算法22-23
- 3.2. 分词字典的扩充23-24
- 3.3. 新词挖掘算法24-26
- 3.4. 本章小结26-27
- 第四章 文本向量化算法研究27-36
- 4.1. 传统的文本向量化方法27-28
- 4.2. PageRank 算法概述28-30
- 4.3. 基于句中词语间关系的文本表示方法30-35
- 4.3.1. 概念说明30-31
- 4.3.2. 算法初始化(建立图模型)31-32
- 4.3.3. 算法迭代过程32
- 4.3.4. 算法详细说明32-34
- 4.3.5. 迭代可行性的证明34-35
- 4.4. 本章小结35-36
- 第五章 搜索结果的数据挖掘36-48
- 5.1. 结果条目的重复删除36-38
- 5.1.1. 针对 URL 的重复删除36-37
- 5.1.2. 针对内容的重复删除37-38
- 5.2. 搜索结果类别发现38-41
- 5.2.1. 聚类算法38
- 5.2.2. 搜索条目聚类特点38-39
- 5.2.3. 聚类方法选择39-40
- 5.2.4. 聚类结果的评价40-41
- 5.3. 次要条目分类过程41-43
- 5.4. 结果排序推荐算法43-47
- 5.4.1. 搜索引擎权重计算43-47
- 5.4.2. 结果条目排序方法47
- 5.5. 本章小结47-48
- 第六章 实验与测试48-61
- 6.1. 测试集说明49
- 6.2. 内容抓取测试49-50
- 6.3. 文本向量化实验50-52
- 6.4. 数据挖掘实验52-56
- 6.5. 搜索引擎权重实验56-60
- 6.6. 本章小结60-61
- 第七章 总结与展望61-63
- 7.1. 本文工作总结61-62
- 7.2. 研究展望62-63
- 参考文献63-66
- 致谢66-67
- 攻读硕士学位期间已发表或录用的论文67
- 攻读硕士学位期间参加的课题与项目67-69
【参考文献】
中国期刊全文数据库 前10条
1 徐泽水,达庆利;衡量判断矩阵相容性的一个通用指标[J];东南大学学报(自然科学版);2001年06期
2 龙树全;赵正文;唐华;;中文分词算法概述[J];电脑知识与技术;2009年10期
3 梁j,盛昭翰,徐南荣;一种改进的层次分析法[J];系统工程;1989年03期
4 胡佳妮,徐蔚然,郭军,邓伟洪;中文文本分类中的特征选择算法研究[J];光通信研究;2005年03期
5 李静梅,孙丽华,张巧荣,张春生;一种文本处理中的朴素贝叶斯分类器[J];哈尔滨工程大学学报;2003年01期
6 张惟皎,刘春煌,李芳玉;聚类质量的评价方法[J];计算机工程;2005年20期
7 黄承慧;印鉴;侯f ;;一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J];计算机学报;2011年05期
8 周程远;朱敏;杨云;;基于词典的中文分词算法研究[J];计算机与数字工程;2009年03期
9 贺玲;吴玲达;蔡益朝;;数据挖掘中的聚类算法综述[J];计算机应用研究;2007年01期
10 程陈;齐开悦;陈剑波;;基于Web2.0的综合搜索引擎[J];计算机应用与软件;2010年01期
本文编号:826736
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/826736.html