当前位置:主页 > 科技论文 > 软件论文 >

基于后缀树聚类的主题搜索引擎研究

发布时间:2018-04-26 02:36

  本文选题:主题过滤 + 后缀树聚类 ; 参考:《情报理论与实践》2017年12期


【摘要】:[目的/意义]一个好的主题搜索引擎能够更好地满足专业领域用户的信息需求。[方法/过程]在爬取阶段采用锚文本正则表达式匹配进行主题过滤、加入IKAnalyzer中文分词器,结合TF-IDF、OPIC和Topic-PageRank算法对检索结果排序进行改进并通过STC算法对检索结果实时聚类。[结果/结论]以"图书情报"为主题进行实验测试,每增加一个分布式计算节点爬取速率提高20%,查准率优于未排序优化23%,检索结果可以实时聚类并以可视化展示,且检索结果项多为相关论文。[局限]系统对网页中繁多的数据格式解析度不够,未解析的部分可能包含主题内容。
[Abstract]:Objective / meaning: a good subject search engine can better meet the information needs of users in specialized fields. [method / process] in the crawling phase, anchor text regular expression matching is used for topic filtering, IKAnalyzer Chinese word segmenter is added, and TF-IDF IKAnalyzer OPIC and Topic-PageRank algorithms are combined to improve the ranking of retrieval results. The retrieval results are clustered in real time by STC algorithm. [results / conclusion] with the theme of "Library and Information" as the theme of the experimental test, each additional distributed computing node crawled and fetched speed increased by 20%, the precision rate was better than that of unsorted optimization 23th, and the retrieval results could be clustered in real time and displayed visually. And the retrieval results are mostly related papers. The system does not have enough resolution for the wide range of data formats in the web page, and the unparsed part may contain the subject matter.
【作者单位】: 西安电子科技大学经济与管理学院;
【分类号】:TP391.3

【参考文献】

相关期刊论文 前10条

1 陈一;冉从敬;;中外图书情报学近十五年学术聚焦演化对比研究——以《情报学报》和《美国信息科学与技术学会会志》为例[J];情报杂志;2015年03期

2 任树怀;;LUCENE搜索算法剖析及优化研究[J];图书馆杂志;2014年12期

3 王晓琴;李书琴;景旭;王蒙;;基于Nutch的农业垂直搜索引擎研究[J];计算机工程与设计;2014年06期

4 袁恩阁;吴向前;杨文忠;;基于Nutch的医疗搜索引擎的研究与开发[J];新疆大学学报(自然科学版);2014年02期

5 朱潜;吴辰铌;朱志良;刘洪娟;;Hadoop云平台下Nutch中文分词的研究与实现[J];小型微型计算机系统;2013年12期

6 陈建峡;黄日;马忠宝;;基于PageRank的Lucene排序算法优化与实现[J];计算机工程与科学;2012年10期

7 刘兴邦;赵晓娇;;基于Nutch的物流信息平台网页资源定向采集系统[J];物流技术;2012年13期

8 赵蓉英;陈必坤;;基于Nutch的图情博客搜索引擎的设计与实现[J];情报科学;2012年04期

9 周博;刘奕群;张敏;金奕江;马少平;;锚文本检索有效性分析[J];软件学报;2011年08期

10 邵秀丽;刘彬;张涛;;基于Nutch的垂直搜索引擎的设计和实现[J];计算机工程与设计;2011年02期

【共引文献】

相关期刊论文 前10条

1 韦美峰;王亚民;;基于后缀树聚类的主题搜索引擎研究[J];情报理论与实践;2017年12期

2 罗东锋;李芳;郝汪洋;吴仲城;;基于Docker的大规模日志采集与分析系统[J];计算机系统应用;2017年10期

3 李慧;闫琰;;基于组合模型的农业信息情景感知推荐系统研究[J];江苏农业科学;2017年17期

4 白菊;何聚厚;;应用于问答系统的Lucene相似度检索算法改进[J];计算机技术与发展;2017年11期

5 许宇华;黄倩云;;统一智能搜索处理技术的研究与应用[J];自动化与仪器仪表;2017年05期

6 赵新苗;冯向萍;赵涛;;农业信息分类中K-means与SVM的混合算法研究[J];计算机技术与发展;2017年06期

7 郑纪业;封文杰;刘延忠;王风云;孙传仁;阮怀军;;水产数据获取系统设计与实现[J];农业网络信息;2017年04期

8 李全;林松;田俊;刘兴红;;面向MOOC的垂直搜索引擎[J];计算机与现代化;2017年04期

9 程杜新;傅魁;;基于Nutch的Web论坛分块采集系统[J];图书馆学研究;2017年07期

10 陈利燕;林鸿;张新长;;一种改进的Lucene算法及在空间数据融合中的应用[J];测绘通报;2016年10期

【二级参考文献】

相关期刊论文 前10条

1 白培发;王成良;徐玲;;一种融合词语位置特征的Lucene相似度评分算法[J];计算机工程与应用;2014年02期

2 王超;李书琴;肖红;;基于本体的旱区农业垂直搜索引擎研究[J];农机化研究;2013年08期

3 李凌;左常睿;;城市居民健康遭遇几宗“罪”?[J];今日科苑;2013年12期

4 赵彦荣;王伟平;孟丹;张书彬;李均;;基于Hadoop的高效连接查询处理算法CHMJ[J];软件学报;2012年08期

5 李明涛;罗军勇;尹美娟;路林;;结合词义的文本特征词权重计算方法[J];计算机应用;2012年05期

6 吴伟;陈建峡;;基于Heritrix的web信息抽取优化与实现[J];湖北工业大学学报;2012年02期

7 窦天芳;姜爱蓉;;资源发现系统功能分析及应用前景[J];图书情报工作;2012年07期

8 黄承慧;印鉴;陆寄远;;一种改进的Lucene语义相似度检索算法[J];中山大学学报(自然科学版);2011年02期

9 邵秀丽;刘彬;张涛;;基于Nutch的垂直搜索引擎的设计和实现[J];计算机工程与设计;2011年02期

10 肖明;李国俊;袁浩;杨皓东;杨楠;陈志艳;;国外情报学研究前沿可视化分析:基于JASIS&T(2000-2009年)的引文耦合分析[J];图书情报工作网刊;2011年02期

【相似文献】

相关期刊论文 前10条

1 曾本胜,,廉玉忠,李世取;后缀树的平均高度[J];运筹与管理;1996年04期

2 黄影;;一种有效的后缀树建立方法[J];电子科技;2013年10期

3 赵杰文;原娇杰;;数据挖掘中后缀树算法的应用研究[J];焦作大学学报;2007年03期

4 黄影;;一种有效的后缀树建立方法[J];中国电子教育;2013年03期

5 乔百友,葛健,王国仁,韩东红;并行后缀树的构造及查询算法[J];东北大学学报;2004年03期

6 彭静;翟英;冯爽;;后缀树算法在舆情聚类中的应用[J];河北科技大学学报;2012年01期

7 葛健;王国仁;于戈;;后缀树的并行构造算法[J];计算机科学;2004年05期

8 曲文龙;杨炳儒;张克君;;基于广义后缀树的事件序列频繁情节挖掘算法[J];北京科技大学学报;2006年05期

9 王建亚;;移动搜索现状及发展策略[J];合作经济与科技;2014年11期

10 王秉政;苏晓珂;张素智;;一种基于后缀树的简洁关联规则挖掘有效剪枝方法[J];郑州轻工业学院学报(自然科学版);2011年03期

相关博士学位论文 前1条

1 钱立兵;搜索引擎中查询处理及结果缓存技术研究[D];哈尔滨工业大学;2016年

相关硕士学位论文 前10条

1 曲伸;一款可定制的桌面集成搜索工具的设计与实现[D];天津大学;2016年

2 杨加玉;基于检索词扩展和文本表示的文库搜索引擎[D];长安大学;2017年

3 唐倩;基于社交关系的web搜索研究[D];杭州电子科技大学;2017年

4 张腾;搜索引擎用户满意度多维分析方法的研究[D];东北师范大学;2017年

5 李双江;基于压缩后缀数组的空间高效短读比对算法[D];西安电子科技大学;2014年

6 陈智达;支持字符串局部比对的内存及外存优化方法[D];东北大学;2013年

7 郭海涛;用加强的后缀数组查找MUM[D];西安电子科技大学;2007年

8 王学;基因组中最大唯一匹配的查找算法研究[D];西安电子科技大学;2009年

9 王坚;基于后缀数组的滑动窗口匹配压缩改进算法研究[D];华中科技大学;2012年

10 荣元媛;改进后缀树的中文检索结果聚类系统[D];北京林业大学;2013年



本文编号:1804120

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1804120.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户e47bf***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com