当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于聚类算法的垂直搜索引擎技术研究

发布时间:2018-06-24 22:57

  本文选题:搜索引擎 + 爬虫 ; 参考:《北京信息科技大学学报(自然科学版)》2013年01期


【摘要】:设计并实现了一个基于相似聚类算法的垂直搜索引擎。利用网络爬虫NWebCrawler,通过定制正则表达式,高效爬取所需的URL;通过解析爬取的URL信息,提取结构化数据;利用正向最大匹配算法,对搜索关键字分词;利用向量空间模型,根据相似度值对搜索结果聚类;基于Lucene建立索引,检索所需信息。实验结果表明,基于相似聚类算法的垂直搜索引擎,比通用搜索引擎的准确率和召回率高,与普通的垂直搜索引擎相比,具备了相似产品查询功能。
[Abstract]:A vertical search engine based on similar clustering algorithm is designed and implemented. Using the network crawler NWebCrawler, the required URL is crawled efficiently by customizing the regular expression. By parsing the crawling URL information, the structured data is extracted, and the search keyword is divided by the positive maximum matching algorithm, and the vector space model is used for the similarity. The results show that the vertical search engine based on the similar clustering algorithm has higher accuracy and recall than the general search engine, and has the similar product query function compared with the common vertical search engine, compared with the common vertical search engine. The results show that the vertical search engine based on the similar clustering algorithm has higher accuracy and recall than the general search engine, and has the similar product query function compared with the common vertical search engine. The results show that the Lucene based on the similarity clustering algorithm is higher than the general search engine.
【作者单位】: 北京信息科技大学计算机学院;
【基金】:国家自然科学基金资助项目(60873013,61070119) 北京大学计算语言学教育部重点实验室开放课题基金资助项目(KLCL-1005) 北京市属市管高等学校人才强教计划资助项目(PHR201007131)
【分类号】:TP391.3

【参考文献】

相关期刊论文 前4条

1 郎小伟;王申康;;基于Lucene的全文检索系统研究与开发[J];计算机工程;2006年04期

2 庞剑锋,卜东波,白硕;基于向量空间模型的文本自动分类系统的研究与实现[J];计算机应用研究;2001年09期

3 罗丽姗;;垂直搜索引擎发展概述[J];图书馆学研究;2006年12期

4 张磊;;搜索引擎综述[J];泰州科技;2008年08期

【共引文献】

相关期刊论文 前10条

1 洪颖;;基于改进VSM算法的智能个性化信息检索系统研究[J];北京服装学院学报(自然科学版);2010年01期

2 宋昊苏;李宁;张伟;;VSM模型在文档结构识别中的应用[J];北京信息科技大学学报(自然科学版);2011年06期

3 战守义,井新;加入时间因素的个性化信息过滤技术[J];北京理工大学学报;2005年09期

4 何元娇;张国英;;基于本体语义的简单向量距离分类方法[J];北京石油化工学院学报;2007年03期

5 代劲;胡峰;王国胤;;基于不完备信息系统的文本分类研究与应用[J];重庆邮电学院学报(自然科学版);2006年03期

6 郑凯明;;垂直搜索引擎应用研究[J];赤峰学院学报(自然科学版);2011年02期

7 陶镇威;周雨程;;基于Compass框架的高级搜索系统的设计与实现[J];重庆理工大学学报(自然科学);2011年08期

8 赵京桥;;中国雅虎经营模式转型原因分析[J];财贸经济;2008年10期

9 蔡兵;胡敏;;基于Lucene2.0的书目搜索引擎设计[J];重庆图情研究;2009年01期

10 马建斌;李滢;滕桂法;王芳;赵洋;;KNN和SVM算法在中文文本自动分类技术上的比较研究[J];河北农业大学学报;2008年03期

相关会议论文 前10条

1 张娟;王慧锋;;文本分类技术在海量金融信息处理中的应用[A];第二十四届中国控制会议论文集(下册)[C];2005年

2 牛强;王志晓;陈岱;夏士雄;;基于支持向量机的Web文本分类方法[A];2006年全国开放式分布与并行计算学术会议论文集(一)[C];2006年

3 陈庆轩;郑德权;郑博文;赵铁军;李生;;中文文本分类中基于文档频度分布的特征选择方法[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年

4 王秀娟;郭军;郑康锋;;基于互信息可信度的特征选择方法[A];2006通信理论与技术新进展——第十一届全国青年通信学术会议论文集[C];2006年

5 王丹;蔡红柳;王斌;;基于混沌序列的数字水印算法[A];第一届中国高校通信类院系学术研讨会论文集[C];2007年

6 石艳荣;孙丹宁;贺永强;;一种基于内容的邮件过滤模型的研究与性能分析[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(上册)[C];2007年

7 张璐;王景中;;基于HNC语境框架的文本相似度计算[A];2008通信理论与技术新进展——第十三届全国青年通信学术会议论文集(上)[C];2008年

8 陈庆轩;郑德权;赵铁军;;多分类器融合的文本分类技术研究[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年

9 程新荣;杨仁刚;;网页自动分类在搜索引擎上的应用研究[A];2007'中国仪器仪表与测控技术交流大会论文集(二)[C];2007年

10 王秀娟;郑康锋;杨星海;;线性鉴别分析在中文文本分类中的应用[A];2005通信理论与技术新进展——第十届全国青年通信学术会议论文集[C];2005年

相关博士学位论文 前10条

1 杨抒;基于WEB的林产品信息资源整合方法研究[D];北京林业大学;2011年

2 代劲;云模型在文本挖掘应用中的关键问题研究[D];重庆大学;2011年

3 朱振方;基于微粒群和遗传优化的文本过滤关键技术研究[D];山东师范大学;2012年

4 刘华;基于关键短语的文本内容标引研究[D];北京语言大学;2005年

5 王秀娟;文本检索中若干问题研究[D];北京邮电大学;2006年

6 刘涛;现代信息检索中的文本分类及图像恢复研究[D];北京邮电大学;2006年

7 周瑛;神经网络作为分类器的算法研究及在信息检索中的应用[D];安徽大学;2006年

8 张亮;面向开放域的中文问答系统问句处理相关技术研究[D];南京理工大学;2006年

9 杜卫锋;粗糙集理论在中文文本分类中的应用[D];西南交通大学;2006年

10 王永恒;海量短语信息挖掘技术的研究与实现[D];国防科学技术大学;2006年

相关硕士学位论文 前10条

1 郭明;基于文本分类技术的文本情感倾向性研究[D];郑州大学;2010年

2 左维松;规则和统计相结合的篇章情感倾向性分析研究[D];郑州大学;2010年

3 汪永伟;搜索引擎中网页排序算法的研究与实现[D];哈尔滨工程大学;2010年

4 刘辉;基于KNN算法的中文Web文本分类技术研究[D];辽宁工程技术大学;2010年

5 冯效栋;垂直搜索引擎技术在网络舆情巡控中的研究与应用[D];中国海洋大学;2010年

6 刘伟丽;基于粒子群算法和支持向量机的中文文本分类研究[D];河南工业大学;2010年

7 于飞;基于搜索引擎的个性化推荐研究[D];哈尔滨理工大学;2010年

8 苏麒匀;基于概率的潜在语义分析模型在搜索引擎商业文本分类系统中的应用研究[D];北京交通大学;2011年

9 张庐颖;基于粗糙集的K-means研究[D];北京交通大学;2011年

10 樊春雷;基于语义分析的糖尿病健康教育系统研究与实现[D];华东理工大学;2011年

【二级参考文献】

相关期刊论文 前2条

1 张晓宁;;走近垂直搜索[J];电子商务世界;2006年Z1期

2 赵志荣;垂直网站与垂直搜索引擎[J];中国信息导报;2000年11期

相关硕士学位论文 前1条

1 寿周翔;专业搜索引擎的研究与设计[D];浙江大学;2005年

【相似文献】

相关期刊论文 前10条

1 周彩兰;冯斌;;Web数据挖掘在搜索引擎中的应用[J];软件导刊;2007年17期

2 江婕;李建民;曾R挽,

本文编号:2063351


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2063351.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户dbab4***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com