基于元搜索的信息采集平台设计与实现
【图文】:
保证信息采集更新的及时性和全面性;然后是对信息做多元化处理并发现热点的信息聚成模块,对已有海量信息做到多元化的汇总和统计,最大化挖掘出有效信息;最终是对用户提供统计信息的发布模块,融合多种呈现效果的动态图表和高效的信息列表,以及海量数据的全文检索,将处理过的二次数据展示给最终用户。2.1功能模块及工作流程首先是采集模块通过配置的焦点采集到信息,再对信息进行去重、热点计算等处理后存入数据库和文件系统中,最终发布模块使用户看到丰富的经过二次处理的数据和信息。它整个的功能模块及其流程如图1所示。图1采集平台功能模块及其流程(1)分时启动采集线程多引擎多焦点的采集任务量耗时且繁重,,单线程队列式采集模式不能在特定时间段内有效的完成,所以需要采用以焦点为切入口发起多线程采集机制对任务进行分解采集,将采集任务分给多个线程来完成,这种模式可以使若干个焦点在一定时间内完成采集。由于采集任务是采用周期性运行的模式,考虑到每次采集启动时,初期所有线程会同时启动,需要消耗大量的硬件资源和网络资源,后期大部分线程退出后资源又不能有效利用,可以将线程划分到不同的时间段中发起,使采集高效有序地进行。对于n个焦点,以现有设定的4个搜索引擎(百度谷歌单页完成特定条数采集,奇虎搜索需分10页采集),采集任务启动后会发生最多n×22次对搜索引擎的访问,最多解析到n×400条最新信息,去重、热点分析、统计信息更新,目标页面主体获取等操作会造成对网络和数据库的频繁访问,如果一个时点同时启动各个搜索引擎的采集线程,会对服务器硬件和网络环境造成过大的压力,对搜索引擎频繁的访问也容易被列入非正常访问黑名单,所以采用分时启动采集线程的模式执行采集任务。在采集前先根据当前
【作者单位】: 军工思波信息科技产业有限公司;
【分类号】:TP311.52
【共引文献】
相关期刊论文 前6条
1 魏玖长,赵定涛;基于元搜索引擎的危机信息监控系统的研究与实现[J];管理科学;2005年05期
2 鲍宗泛,曹永生,孔繁胜;广域网数据库查询系统及其实现[J];计算机工程与应用;2004年07期
3 马家宇,阳小华,刘振宇,陶滔,谭敏生;基于弱实时系统的元搜索引擎合成策略[J];计算技术与自动化;2004年02期
4 王雁杰;元搜索引擎的发展悖论及建议[J];情报杂志;2004年07期
5 王敏,杨炳儒;基于主题的个性化元搜索引擎的设计与实现[J];情报杂志;2005年07期
6 魏玖长;赵定涛;;危机事件社会影响的评估与分析[J];中国软科学;2006年06期
相关博士学位论文 前2条
1 魏玖长;危机事件社会影响的分析与评估研究[D];中国科学技术大学;2006年
2 吴丽辉;个性化的Web信息采集技术研究[D];中国科学院研究生院(计算技术研究所);2005年
相关硕士学位论文 前9条
1 鲍宗泛;广域网数据库查询系统的研究与开发[D];浙江大学;2004年
2 张磊;基于P2P的信息共享Agent研究[D];浙江大学;2005年
3 陈默;基于神经网络的元搜索引擎[D];浙江大学;2006年
4 许又泉;一种网络学习系统的研究与设计[D];湖南大学;2006年
5 江涛;元搜索引擎及网页分析器的设计与实现[D];吉林大学;2006年
6 邓忠京;基于多线程与代理模式的企业网络机器人研究[D];暨南大学;2006年
7 王艳芬;基于本体技术的元搜索引擎XXYJ系统的设计与实现[D];苏州大学;2007年
8 侯凡;文本分类技术在综合风险元搜索引擎中的研究与实现[D];西北大学;2008年
9 种梅;元搜索引擎中的关键技术研究[D];山东师范大学;2008年
【二级参考文献】
相关期刊论文 前2条
1 张魁麟,邵春福,王力劭;基于分布式并行算法的动态交通流分配研究[J];北方交通大学学报;2002年05期
2 李广建,黄];元搜索引擎及其主要技术[J];情报科学;2002年02期
【相似文献】
相关期刊论文 前10条
1 李培;;元搜索引擎资源选择融合方法的研究[J];图书馆工作与研究;2011年08期
2 陈永平;杨思春;毛万胜;苏新;刘俞;;中文问答系统中基于主题和焦点的问题理解[J];计算机系统应用;2011年06期
3 宋立军;;浅论网络数学搜索中的数学查询语言与索引的研究[J];科技创新导报;2011年21期
4 熊晶;王爱民;徐建良;;基于领域本体的信息检索优化策略[J];计算机工程与设计;2011年08期
5 ;掌中资源站[J];电脑迷;2011年11期
6 崇芬;;模拟暗房操作,让照片呈现奥顿效果[J];电脑爱好者;2011年11期
7 齐书阳;;平板神话[J];电脑爱好者;2011年09期
8 成剑英;;网络环境下高校教师个性化教学资源库的构建[J];江西行政学院学报;2011年03期
9 何光虹;赵英凯;李彦文;;网络信息监测采集技术在中医药情报研究中的应用[J];医学信息(上旬刊);2011年09期
10 潘加宇;;CMMI1.3[J];程序员;2010年11期
相关会议论文 前10条
1 阳小华;刘振宇;谭敏生;刘杰;左贵启;;元搜索引擎查询结果的合成方法[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
2 李慧;张民;宋源清;;网络搜索引擎[A];2009全国计算机网络与通信学术会议论文集[C];2009年
3 孟奇奎;;一种基于数据库和用户反馈信息的元搜索引擎数据库选择算法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
4 余晋;邓志鸿;田敬;唐世渭;;PinkySearch:基于聚类的元搜索引擎[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
5 吴冷冬;童云海;唐世渭;;面向在线音乐视频的元搜索引擎VMS[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
6 夏小玲;祁博民;廖顺和;;基于Web服务和元搜索引擎的数字图书馆中元数据互操作框架[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
7 陈伟雄;马少平;步建华;;基于元搜索引擎的多关键词检索技术[A];广东省电机工程学会2003-2004年度优秀论文集[C];2005年
8 梁伟贤;;网络搜索引擎发展现状的探讨[A];2007中国科协年会——通信与信息发展高层论坛论文集[C];2007年
9 周小平;梁一平;邓左祥;;元搜索引擎研究[A];2009年中国高校通信类院系学术研讨会论文集[C];2009年
10 吴远红;徐妙君;范银琛;;元搜索引擎中基于OWA算子的查询结果合成研究[A];2007年全国开放式分布与并行计算机学术会议论文集(上册)[C];2007年
相关重要报纸文章 前10条
1 武萍;CAD应用的下一个焦点[N];中华建筑报;2008年
2 朱玲;协同:国产CAD的突破口[N];科技日报;2007年
3 本报记者 郑昊 徐颖;网络地址资源:中小企业争夺的新焦点[N];陕西日报;2006年
4 张琳;安全电子商务成为新焦点[N];网络世界;2007年
5 李佳师;虚拟化、商业智能 微软下一代平台的焦点[N];中国电子报;2008年
6 周童;SolidWorks 2008为设计注入灵感[N];计算机世界;2008年
7 加宝;U盘杀毒技术成行业竞争新焦点[N];通信信息报;2007年
8 雷颖;中小企业实施ERP的成功因素[N];财会信报;2007年
9 高雪娟;未来竞争有三个焦点[N];中国计算机报;2006年
10 IDC中国软件与服务研究部研究主管经理 韩国华;软件外包和中小企业市场被看好[N];计算机世界;2007年
相关博士学位论文 前3条
1 李红梅;智能元搜索引擎关键技术研究[D];西安电子科技大学;2009年
2 李强;基于本体论的个性化和社会化元搜索引擎的研究[D];浙江大学;2006年
3 刘炜;智能元搜索引擎中个性化模式库的研究[D];太原理工大学;2007年
相关硕士学位论文 前10条
1 王金栋;元搜索引擎调度策略及结果排序算法的研究[D];燕山大学;2010年
2 王新;一种垂直元搜索引擎的研究[D];西北大学;2010年
3 冯冰洁;后缀树算法在元搜索引擎中的应用[D];暨南大学;2010年
4 张鑫;基于本体论的领域元搜索引擎的研究与设计[D];兰州大学;2010年
5 蔡宇虹;基于主题的元搜索引擎关键技术研究[D];哈尔滨工程大学;2010年
6 刘林;基于语义的元搜索引擎关键技术研究[D];河南工业大学;2010年
7 程宾;基于用户兴趣模型的元搜索引擎的研究[D];山东科技大学;2010年
8 王春艳;元搜索引擎的研究与实现[D];吉林大学;2011年
9 刘海;建立基于元搜索引擎的语音库查询收集系统[D];淮北师范大学;2011年
10 李亚;元搜索引擎的个性化技术研究[D];燕山大学;2011年
本文编号:2522798
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2522798.html