基于遗传算法的主题爬虫策略
本文选题:主题爬虫 切入点:遗传算法 出处:《计算机应用》2007年S2期 论文类型:期刊论文
【摘要】:针对目前主题搜索策略的不足,通过改进遗传算子提出了一种新的主题爬虫策略,即通过变异操作引入新的URL扩大搜索范围;通过交叉操作产生大量的URL;通过选择操作选出适应度高的个体作为下一代的种子。实验结果表明,基于遗传算法的主体搜索策略GA与BFS和OPS相比,爬虫策略取网页中的主体相关网页数量多,在合理选择种子集合时,能抓取大量的主体相关度高的网页。
[Abstract]:Aiming at the deficiency of the current topic search strategy, this paper proposes a new topic crawler strategy by improving the genetic operator, that is, introducing a new URL to expand the search range through mutation operation. A large number of URLs are generated by crossover operations, and individuals with high fitness are selected as seeds of the next generation. The experimental results show that GA, the agent search strategy based on genetic algorithm, is compared with BFS and OPS. The crawler strategy has a large number of web pages related to the subject, which can grab a large number of web pages with high correlation when the seed set is selected reasonably.
【作者单位】: 中国农业大学信息与电气工程学院 中国农业大学信息与电气工程学院 北京市农林科学院农业科技信息研究所
【基金】:北京市自然科学基金(4062013)
【分类号】:TP18
【参考文献】
相关期刊论文 前2条
1 曾春,邢春晓,周立柱;基于内容过滤的个性化搜索算法[J];软件学报;2003年05期
2 吴安清;张颖江;涂军;;主题搜索ROBOT综合爬行策略的研究[J];武汉理工大学学报;2006年02期
【共引文献】
相关期刊论文 前10条
1 姚克娟,李晋宏;应用Agent技术实现个性化信息服务[J];北方工业大学学报;2004年03期
2 高磊;徐东平;;启发式算法在搜索引擎的应用[J];电脑知识与技术(学术交流);2007年02期
3 李彦刚;魏海平;侯兴华;;基于HTMLParser的Web信息抽取系统的设计与实现[J];辽宁石油化工大学学报;2006年02期
4 陈基漓;基于数据立方体的用户兴趣模型[J];桂林工学院学报;2005年01期
5 高凤荣;邢春晓;杜小勇;王珊;;基于矩阵聚类的协作过滤算法[J];华中科技大学学报(自然科学版);2005年S1期
6 宗校军;沈轶;廖晓昕;;定题Web信息采集中的元数据处理[J];华中科技大学学报(自然科学版);2006年10期
7 原福永,杨桂芝,程玉良;基于Agent的个性化信息服务系统的开发与设计[J];计算机工程与应用;2004年33期
8 邱科宁,郭清顺,张小波;基于Agent的个性化分类邮件系统研究[J];计算机工程与应用;2005年07期
9 张辉,吴辉;用户协作式智能搜索模型的研究[J];计算机工程与应用;2005年11期
10 唐灿;朱征宇;;基于模糊兴趣模型的个性化推荐算法[J];计算机工程与应用;2006年09期
相关会议论文 前1条
1 周晓滨;;基于WEB的远程教育中搜索的研究与实现[A];全国第16届计算机科学与技术应用(CACIS)学术会议论文集[C];2004年
相关博士学位论文 前8条
1 张晓刚;面向软件过程改进的知识管理技术研究[D];中国科学院研究生院(软件研究所);2004年
2 张树人;从社会性软件、Web2.0到复杂适应信息系统研究[D];中国人民大学;2006年
3 张丙奇;个性化需求的描述、获取与推断—案例研究[D];中国科学院研究生院(计算技术研究所);2005年
4 赵鹏;复杂网络与互联网个性化信息服务的研究[D];中国科学技术大学;2006年
5 周斌;面向公众服务的电子政务研究[D];同济大学;2007年
6 张磊;基于本体的主动式知识系统及其若干关键技术研究[D];南京航空航天大学;2006年
7 董宝力;Web制造资源的语义发现关键技术研究[D];浙江大学;2007年
8 臧铖;个性化搜索中隐私保护的关键问题研究[D];浙江大学;2008年
相关硕士学位论文 前10条
1 张砦;现代电子技术网络集成教学系统研究与实现[D];南京航空航天大学;2004年
2 郝彦彬;基于agent的信息融合与信息过滤机制的研究与实现[D];西北工业大学;2003年
3 檀林;模糊知识处理在中文文本自动分类中的应用研究[D];山西大学;2004年
4 李东艳;互联网信息内容安全过滤方法研究[D];山西大学;2004年
5 刘建国;教学资源个性化服务模型及实现技术研究[D];西南师范大学;2004年
6 陈晋川;基于CoP建模的信息过滤技术研究[D];中国科学院研究生院(软件研究所);2004年
7 许彦彬;基于Java技术的生物资源专业搜索引擎的研究与开发[D];昆明理工大学;2004年
8 赖静;非法互联网网站及服务实时监管取证系统[D];四川大学;2004年
9 王斐;基于增量反馈和自适应机制的主题爬虫系统的设计与实现[D];南京理工大学;2005年
10 欧歌;专题式Web信息获取技术研究[D];北京化工大学;2005年
【二级参考文献】
相关期刊论文 前1条
1 曾春,邢春晓,周立柱;基于内容过滤的个性化搜索算法[J];软件学报;2003年05期
【相似文献】
相关期刊论文 前10条
1 吴轶华;集成学习[J];计算机研究与发展;1991年09期
2 洪家荣;;机器学习——回顾与展望[J];计算机科学;1991年02期
3 雷鸣,杨叔子,吴雅;遗传搜索优化算法[J];华中科技大学学报(自然科学版);1992年S1期
4 尚奕;唐志敏;;一种用于求解TSP问题的遗传交换操作[J];计算机研究与发展;1992年09期
5 羊国光;用于衍射光学元件优化设计的遗传算法及其与模拟退火算法的比较[J];光学学报;1993年07期
6 方建安,邵世煌;采用遗传算法学习的神经网络控制器[J];控制与决策;1993年03期
7 刘晓;竞赛算法:随机寻优的一种新途径[J];微电子学与计算机;1993年12期
8 颜廷虎;钟秉林;黄仁;;一种基于基因遗传算法的诊断问题求解方法[J];东南大学学报(自然科学版);1993年05期
9 刘晓;;遗传算法[J];航空计算技术;1993年04期
10 刘晓;;模拟进化[J];航空计算技术;1993年04期
相关会议论文 前10条
1 石耀霖;MarceloAssumpcao;;巴西构造应力场的遗传算法——有限单元法反演[A];1999年中国地球物理学会年刊——中国地球物理学会第十五届年会论文集[C];1999年
2 汪洋;;应用小波多尺度分解与遗传算法联合进行势场反演[A];1999年中国地球物理学会年刊——中国地球物理学会第十五届年会论文集[C];1999年
3 葛芳;李志恒;关伟;;遗传算法在班车行程问题中的应用[A];全国青年管理科学与系统科学论文集第5卷[C];1999年
4 祝明光;李南;;用遗传算法优化双目标Job-shop作业计划问题[A];全国青年管理科学与系统科学论文集第5卷[C];1999年
5 朱烁;赵道致;;装配线平衡设计中节拍优化的遗传算法[A];全国青年管理科学与系统科学论文集第5卷[C];1999年
6 徐博艺;刘刚;李敏强;;遗传算法在非线性优化问题中的应用[A];复杂巨系统理论·方法·应用——中国系统工程学会第八届学术年会论文集[C];1994年
7 王众托;孙艳丰;;遗传算法用于0-1规划的新途径[A];复杂巨系统理论·方法·应用——中国系统工程学会第八届学术年会论文集[C];1994年
8 刘昶;涂凍生;;用遗传算法解生产线存储器配置问题[A];复杂巨系统理论·方法·应用——中国系统工程学会第八届学术年会论文集[C];1994年
9 李大伟;戴建设;李敉安;;遗传算法及其在神经网络学习算法中的应用[A];复杂巨系统理论·方法·应用——中国系统工程学会第八届学术年会论文集[C];1994年
10 王彤;刘相华;王国栋;邹天来;李洪斌;;改进的快速付立叶变换及其应用[A];1999中国钢铁年会论文集(下)[C];1999年
相关重要报纸文章 前10条
1 高澜庆;矿山企盼智能化[N];中国矿业报;2000年
2 记者 彭德建 通讯员 赵如江;全球智能控制与自动化大会召开[N];科学时报;2000年
3 郭明波;来自蝙蝠的启发[N];北京科技报;2001年
4 特约记者 包国俊;我军“神鹰一号”空战智能仿真系统通过技术鉴定[N];光明日报;2001年
5 易必特;数据仓库与电信行业决策支持(上)[N];人民邮电;2001年
6 程爱娟;旅行推销员问题(TSP)的人工智能解法及其应用[N];新疆科技报(汉);2001年
7 林京;《神经网络和遗传算法在水科学领域的应用》将面市[N];中国水利报;2002年
8 本报记者 温新红;霍兰:寻找隐在秩序[N];科学时报;2002年
9 秋云;科学社进入财经出版领域[N];中国图书商报;2002年
10 包家庆;IDS五大发展趋势[N];网络世界;2002年
相关博士学位论文 前10条
1 侯格贤;遗传算法及其在跟踪系统中的应用研究[D];西安电子科技大学;1998年
2 马国田;遗传算法及其在电磁工程中的应用[D];西安电子科技大学;1998年
3 李海民;遗传算法性能及其在聚类分析中应用的研究[D];西安电子科技大学;1999年
4 赵天绪;集成电路缺陷分布模型和容错技术研究[D];西安电子科技大学;1999年
5 李红艳;图像低信噪比小目标检测与跟踪算法研究[D];西安电子科技大学;2000年
6 姚纪欢;粗糙海面的电磁散射研究[D];西安电子科技大学;2000年
7 刘莹;计算机网络中的多播路由算法[D];西安电子科技大学;2000年
8 黄辉先;城市交通信号优化控制方法的研究[D];西北工业大学;2000年
9 曲建岭;人工嗅觉系统中的信息处理技术[D];西北工业大学;2000年
10 施群;分布化与智能技术在制造系统中的应用研究[D];西北工业大学;2000年
相关硕士学位论文 前10条
1 曾珞亚;模糊神经网络的应用与研究[D];广西师范大学;2000年
2 高红梅;一类复杂图象目标识别研究及智能化方法的应用[D];西安理工大学;2000年
3 徐前锋;多模型优化模糊控制算法的应用研究[D];西安理工大学;2000年
4 潘伟;计算机视觉在农产品自动检测与分级中的研究——番茄的自动检测与分级[D];东北农业大学;2000年
5 陈浩;小卫星软件测试的系统设计[D];中国科学院上海冶金研究所;2000年
6 韩乾国;模糊控制技术在绿色食品保鲜方面的应用研究[D];电子科技大学;2000年
7 高建英;基于遗传算法设计模糊RBF神经网络控制器[D];大连理工大学;2000年
8 孙宏涛;智能控制及其工程应用[D];北京工业大学;2000年
9 徐璐;改进遗传算法(IGA)及其在图像处理中的应用[D];北京工业大学;2000年
10 周凯汀;基于遗传算法的最优化控制研究[D];华侨大学;2000年
,本文编号:1638631
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1638631.html