面向特殊主题的排序与检索算法研究
【图文】:
[9],那么文档集合的向量空间模型矩阵表示如图2.2所示。图 2.2 文档集合的向量空间模型设文档集合中有文档 ( )1 2, , ,i i i i nD w w … w和文档 ( )1 2, , ,j j j jnD w w … w,为了度量Di与Dj的相似程度,向量空间理论提出了“距离”的概念,距离是指两个向量空间之间的数学差距,距离用( ,)i jsim d d 表示,两个文档越相似则相似度越高。问题的关键就在于如何计算两个向量空间之间的相似度,常用的相似度计算公式有内积函数、Jaccard系数、余弦距离函数,其中文献[10]的实验编码余弦距离公式是评测效果最好的相似度计算公式。设文档di和dj向量为:1 2( , , , )i i i ind = t t … t,1 2( , , )j j j jnd = t t … t,余弦距离如公式(2.1)所示:12 21 1( , )mki kjki jm mki kjk kt tsim d dt t== == ∑∑ ∑公式(2.1)通过相似度的公式化计算
15图2.8 索引器工作原理首先,Lucene通过不同的解析器来解析不同类型的文档,解析得到的结果为普通文本,再通过Lucene的分词器把普通文本切割成能够建立索引的词项(Term),并计算词的TD与DF信息,再把这些信息写入索引文件中。Lucene索引的存储结构是由多个段(Segment)构成,Segment再由多个文档(Document)构成,,Document再由多个域(Field)构成,Field再由多个Term构成
【学位授予单位】:江西理工大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP391.3
【参考文献】
相关期刊论文 前7条
1 张岭,马范援;加速评估算法:一种提高Web结构挖掘质量的新方法[J];计算机研究与发展;2004年01期
2 王钟斐;王彪;;基于锚文本相似度的PageRank改进算法[J];计算机工程;2010年24期
3 李绍华;高文宇;;搜索引擎页面排序算法研究综述[J];计算机应用研究;2007年06期
4 黄名选;严小卫;张师超;;查询扩展技术进展与展望[J];计算机应用与软件;2007年11期
5 丁国栋;白硕;王斌;;一种基于局部共现的查询扩展方法[J];中文信息学报;2006年03期
6 宋聚平,王永成,尹中航,滕伟;对网页PageRank算法的改进[J];上海交通大学学报;2003年03期
7 彭松行;;基于描述优先算法的Web搜索结果聚类系统研究[J];心智与计算;2010年04期
相关硕士学位论文 前10条
1 梁萍;搜索引擎中网络爬虫及结果聚类的研究与实现[D];中国科学技术大学;2011年
2 翁金象;中文文本分类研究[D];山东大学;2007年
3 张建辉;K-means聚类算法研究及应用[D];武汉理工大学;2007年
4 吴虎子;中文网页获取及自动分类技术研究[D];武汉理工大学;2007年
5 尹辉;基于Nutch的搜索系统的研究[D];电子科技大学;2008年
6 胡长春;基于Lucene的中文自然语言搜索引擎[D];上海交通大学;2009年
7 邵晶晶;基于PageRank排序算法改进的若干研究[D];华中师范大学;2009年
8 余静;基于Nutch的面向特定主题的爬虫研究[D];辽宁工程技术大学;2008年
9 李新友;信息检索中的查询扩展技术研究[D];广西师范大学;2010年
10 刘先明;基于链接分析的PageRank排序算法的改进研究[D];湖北工业大学;2010年
本文编号:2523218
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2523218.html