基于强化学习的垂直搜索引擎网络爬虫的研究与实现
本文关键词:基于强化学习的垂直搜索引擎网络爬虫的研究与实现,由笔耕文化传播整理发布。
《苏州大学》 2008年
基于强化学习的垂直搜索引擎网络爬虫的研究与实现
刘忠
【摘要】: 本文将强化学习方法引入到垂直搜索引擎网络爬虫中,设计实现了面向餐饮业的基于强化学习的垂直搜索引擎网络爬虫RL-Spider(Reinforcement Learning Spider)。建立了RL-Spider的流程架构,并设计实现了面向餐饮业的垂直搜索引擎RL-Searcher(Reinforcement Learning Searcher)原型系统。本文主要包括以下几方面内容: (1)针对传统搜索引擎爬虫程序抓取信息全但不够细化的特点,设计了一个面向餐饮业领域的聚焦爬虫。提出了基于强化学习的网络爬虫算法,并应用于餐饮类站点的发现中。实验表明,该系统在信息查全率、查准率等方面都有较大的提高。 (2)针对网络爬虫在URL提取过程中,采用深度、宽度搜索策略等方法,容易使网络爬虫陷入“维数灾”问题,在研究逻辑程序设计与强化学习方法结合的基础上,提出了基于逻辑强化学习的网络自主搜索方法,并在RL-Spider中得到了应用。实验表明,系统在大规模网络爬虫中,可大幅度提高网络自主搜索效率。 (3)针对在RL-Spider中,“主题网页发现”等方面的问题,根据强化学习的自身策略,实现了强化学习在“主题网页发现”中的应用,并提出Detail页的URL识别算法。实验表明,该算法能够大幅度地提高“主题网页发现”的准确率。 (4)在RL-Spider架构的Detail模块中,对Detail页面的关键信息进行提取,如Title、Meta、文本信息等,并建立索引、去除无关信息、建立网页快照,采用Lucene建立索引,供查询系统调用。 (5)设计实现了一个面向餐饮业的垂直搜索引擎原型系统RL-Searcher,并利用该系统对RL-Spider的抓取效果进行了验证和实验数据分析。
【关键词】:
【学位授予单位】:苏州大学
【学位级别】:硕士
【学位授予年份】:2008
【分类号】:TP393.092
【目录】:
下载全文 更多同类文献
CAJ全文下载
(如何获取全文? 欢迎:购买知网充值卡、在线充值、在线咨询)
CAJViewer阅读器支持CAJ、PDF文件格式
【引证文献】
中国硕士学位论文全文数据库 前2条
1 薛萍;基于教育领域的垂直搜索引擎的研究与实现[D];天津师范大学;2011年
2 崔金国;基于蚁群算法的主题爬虫技术研究与实现[D];成都理工大学;2010年
【参考文献】
中国期刊全文数据库 前8条
1 欧阳柳波,李学勇,李国徽,王鑫;专业搜索引擎搜索策略综述[J];计算机工程;2004年13期
2 周立柱,林玲;聚焦爬虫技术研究综述[J];计算机应用;2005年09期
3 张汝波,顾国昌,刘照德,王醒策;强化学习理论、算法及应用[J];控制理论与应用;2000年05期
4 邓顺国;试论搜索引擎的发展趋势[J];图书馆理论与实践;2003年05期
5 高阳,陈世福,陆鑫;强化学习研究综述[J];自动化学报;2004年01期
6 蒋国飞,吴沧浦;基于Q学习算法和BP神经网络的倒立摆控制[J];自动化学报;1998年05期
7 高志奎,曹锦丹;对中文网站信息分类体系的调查与比较[J];图书馆学研究;2003年12期
8 阎平凡;;再励学习——原理、算法及其在智能控制中的应用[J];信息与控制;1996年01期
中国硕士学位论文全文数据库 前2条
1 李学勇;基于巩固学习的网络蜘蛛搜索策略研究[D];湖南大学;2003年
2 高岭;Deep Web分类搜索引擎关键技术研究[D];苏州大学;2007年
【共引文献】
中国期刊全文数据库 前10条
1 孙素芬;罗长寿;张峻峰;于峰;张树亮;;农业信息资源整合系统研究与应用[J];安徽农业科学;2007年22期
2 汪斌;张云伟;刘健;陈晶;;一种面向农业信息主题网络爬虫的设计[J];安徽农业科学;2009年20期
3 陈文;基于决策树的入侵检测的实现[J];安徽技术师范学院学报;2005年05期
4 彭莉芬;陈俊生;胡学钢;;基于粗糙集决策树算法的研究[J];安庆师范学院学报(自然科学版);2012年01期
5 张峰;王金超;陈雪波;;机器人队形控制中的二叉树方法[J];辽宁科技大学学报;2010年05期
6 赵玉鹏;;论机器学习[J];安阳工学院学报;2011年04期
7 胡玉新,李宇成;模糊控制系统的模拟调试[J];北方工业大学学报;1999年03期
8 孙雪;李昆仑;胡夕坤;赵瑞;;基于半监督K-means的K值全局寻优算法[J];北京交通大学学报;2009年06期
9 张冬梅;刘强;;一种基于强化学习的传感器网络应用重构决策方法[J];北京交通大学学报;2010年03期
10 廉捷;刘云;;网络舆情中的信息预处理与自动摘要算法[J];北京交通大学学报;2010年05期
中国重要会议论文全文数据库 前10条
1 刘智勇;马凤伟;;城市交通信号的在线强化学习控制[A];第二十六届中国控制会议论文集[C];2007年
2 王红;周越;;移动机器人的分层式运动规划方法研究[A];第二十七届中国控制会议论文集[C];2008年
3 仲朝亮;刘士荣;吕强;;RobSim:一种多移动机器人仿真系统[A];第二十七届中国控制会议论文集[C];2008年
4 付佳;王美玲;杨毅;周培德;;基于计算几何算法的多智能体快速编队[A];第二十九届中国控制会议论文集[C];2010年
5 ;Sample-Based Potentials Estimation for the Optimal Control of Stochastic System[A];中国自动化学会控制理论专业委员会D卷[C];2011年
6 张超;王少萍;;自动导航模块控制系统设计[A];第五届全国流体传动与控制学术会议暨2008年中国航空学会液压与气动学术会议论文集[C];2008年
7 张敏;陆向艳;周敏;潘林琳;农冬冬;王彬彬;陈晓江;;数据挖掘在智能题库系统中的应用[A];广西计算机学会2004年学术年会论文集[C];2004年
8 唐昊;周雷;陆阳;袁继彬;;SMDP基于TD(λ)学习的统一神经元动态规划优化方法[A];2005中国控制与决策学术年会论文集(上)[C];2005年
9 李鑫;井元伟;;基于强化学习方法的ATM拥塞控制器的设计[A];2007中国控制与决策学术年会论文集[C];2007年
10 林岳松;王俊宏;薛安克;;二级倒立摆的简易多PD控制算法[A];第二十一届中国控制会议论文集[C];2002年
中国博士学位论文全文数据库 前10条
1 张子迎;多机器人协作及环境建模技术研究[D];哈尔滨工程大学;2009年
2 王作为;具有认知能力的智能机器人行为学习方法研究[D];哈尔滨工程大学;2010年
3 全惠敏;电能质量相关信号的S变换检测算法及应用研究[D];湖南大学;2010年
4 高山;蛋白质点突变效果预测与突变数据库研究[D];南开大学;2010年
5 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年
6 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
7 田建伟;面向领域的高质量Deep Web数据集成技术研究[D];武汉大学;2010年
8 曹葵康;支持向量机加速方法及应用研究[D];浙江大学;2010年
9 林龙信;仿生水下机器人的增强学习控制方法研究[D];国防科学技术大学;2010年
10 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
中国硕士学位论文全文数据库 前10条
1 何慧娟;基于多传感器的移动机器人障碍物检测与定位研究[D];安徽工程大学;2010年
2 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
3 吕芳芳;基于查询扩展的垂直搜索研究[D];山东科技大学;2010年
4 韩晓峰;高斯混合模型及在探测网络社区结构中的应用[D];山东科技大学;2010年
5 杨勇;基于SOA的浙江永康某小家电企业应用系统集成平台开发与应用[D];浙江理工大学;2010年
6 王利明;一种基于PMIPv6的智能辅助高效切换方案[D];郑州大学;2010年
7 沈扬;协商僵局消解优化问题研究[D];郑州大学;2010年
8 左维松;规则和统计相结合的篇章情感倾向性分析研究[D];郑州大学;2010年
9 张家飞;机器人群体协同任务规划与协调避碰[D];哈尔滨工程大学;2010年
10 姜辉;二级倒立摆控制方法研究[D];哈尔滨工程大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 曹元大,贺海军,涂哲明;中文Web文档全文检索系统的设计及实现[J];北京理工大学学报;2002年01期
2 刘德仿;王斌;;面向教学领域的智能搜索引擎的研究与开发[J];电化教育研究;2007年05期
3 赵喜乐;陈光;;垂直搜索引擎的抓取系统——基于网络蜘蛛技术[J];电脑知识与技术;2009年19期
4 王琦;张戈;何婧;;基于Lucene与Heritrix的图书垂直搜索引擎的研究与实现[J];计算机时代;2010年02期
5 白坤;耿国华;;基于Lucene/Heritrix的垂直搜索引擎的研究与应用[J];计算机应用与软件;2009年01期
6 李广丽;张红斌;;面向计算机教育资源的垂直搜索引擎系统的设计[J];情报理论与实践;2010年05期
7 孙庚;冯艳红;于红;史鹏辉;;一种基于Heritrix的网络定题爬虫算法——以渔业信息网络为例[J];软件导刊;2010年05期
8 王冬;雷景生;李壮;;基于PageRank的页面排序改进算法[J];计算机工程与设计;2008年22期
9 段淮川;胡平;;基于主题特征和时间因子的改进PageRank算法[J];计算机工程与设计;2010年04期
10 王春花;朱俊平;;改进的非平均传递权值PageRank算法[J];计算机工程与设计;2010年10期
中国硕士学位论文全文数据库 前10条
1 张校乾;基于Lucene的全文检索系统的研究与应用[D];大连理工大学;2005年
2 刘平冰;基于Lucene的Web站内信息搜索系统[D];电子科技大学;2005年
3 谢琴;蚁群算法在Web日志挖掘中的研究与应用[D];重庆大学;2006年
4 黄峰;基础教育搜索引擎中的网页文档特征提取研究[D];南京师范大学;2006年
5 陈宁;Lucene全文检索在网络教学平台中的应用研究[D];大连海事大学;2007年
6 薛建春;垂直搜索引擎中网络蜘蛛的设计与实现[D];中国地质大学(北京);2007年
7 潘亭沥;基于Lucene的面向商业应用的搜索引擎研究与实现[D];电子科技大学;2007年
8 吕昊;面向垂直搜索的聚焦爬虫研究及应用[D];浙江大学;2008年
9 张宏松;基于Lucene的web站内英文PDF文档全文检索研究[D];辽宁工程技术大学;2007年
10 李沛环;基于Lucene的搜索引擎的设计和优化[D];吉林大学;2008年
【二级引证文献】
中国硕士学位论文全文数据库 前4条
1 陈永彬;基于聚焦爬虫技术的教学资源搜集与自动整理方法研究[D];东北师范大学;2011年
2 张倩;弓形虫Rhomboid基因重组卡介苗的研制[D];吉林大学;2012年
3 张倩;教育信息垂直搜索引擎的研究[D];吉林大学;2012年
4 董晨曦;基于网站内容框架的聚焦爬虫算法的优化和实现[D];北京交通大学;2012年
【二级参考文献】
中国期刊全文数据库 前10条
1 苏瑞竹,吴英姿;论网络信息资源的组织[J];广西民族学院学报(自然科学版);2001年04期
2 柳晓春,左少凝;知识组织与网络资源分类的现状与展望[J];高校图书馆工作;2001年04期
3 杨璐,洪家荣,黄梯云;用加强学习方法解决基于神经网络的时序实时建模问题[J];哈尔滨工业大学学报;1996年04期
4 高阳,周志华,何佳洲,陈世福;基于Markov对策的多Agent强化学习模型及算法研究[J];计算机研究与发展;2000年03期
5 李宁,高阳,陆鑫,陈世福;一种基于强化学习的学习Agent[J];计算机研究与发展;2001年09期
6 张汝波,周宁,顾国昌,张国印;基于强化学习的智能机器人避碰方法研究[J];机器人;1999年03期
7 余芳;一个基于朴素贝叶斯方法的web文本分类系统:WebCAT[J];计算机工程与应用;2004年13期
8 郭茂祖;陈彬;王晓龙;洪家荣;;加强学习[J];计算机科学;1998年03期
9 许建潮,胡明;中文Web文本的特征获取与分类[J];计算机工程;2005年08期
10 樊兴华;孙茂松;;一种高性能的两类中文文本分类方法[J];计算机学报;2006年01期
【相似文献】
中国期刊全文数据库 前10条
1 庄芯;;风投押宝垂直搜索 各方巨头介入又添疑点[J];IT时代周刊;2008年01期
2 顾鹏尧;;让搜索引擎更好地服务于教育教学[J];科学24小时;2003年Z1期
3 陈新颜;垂直搜索引擎辨析[J];现代情报;2004年09期
4 胡文胜;;垂直搜索助号码百事通与商务领航[J];每周电脑报;2006年32期
5 胡洁;丁宁;关静;曹福年;张磊;;基于“PUBMED+PDF”的医学垂直搜索引擎的实践[J];信息系统工程;2009年05期
6 一林;;垂直搜索:前进路上的喜与忧[J];互联网天地;2010年02期
7 牟思;;基于垂直搜索引擎的学校网站的研究与建设[J];中国教育技术装备;2011年21期
8 田野;垂直搜索火热为哪般[J];中国计算机用户;2005年37期
9 胡文胜;;垂直搜索助号码百事通与商务领航[J];每周电脑报;2006年31期
10 边凯;;你会搜索吗?[J];中国计算机用户;2007年23期
中国重要会议论文全文数据库 前10条
1 王旭;杜军平;;质检总局互联网舆情监控系统中聚焦爬虫的研究[A];中国电子学会第十七届信息论学术年会论文集[C];2010年
2 文锋;陈宗海;陈春林;;基于RLS-TD和值梯度的强化学习方法用于LQR控制问题[A];’2004系统仿真技术及其应用学术交流会论文集[C];2004年
3 卓睿;陈宗海;陈春林;;强化学习在移动机器人导航上的应用[A];’2004系统仿真技术及其应用学术交流会论文集[C];2004年
4 王上;于海;王钲旋;;Deep Web垂直搜索引擎设计与实现[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
5 张伟;李建更;张家旺;;多智能体强化学习在机器人足球比赛中的应用[A];2005年中国智能自动化会议论文集[C];2005年
6 陈春林;陈宗海;卓睿;;分层式强化学习的定性空间表达[A];’2004系统仿真技术及其应用学术交流会论文集[C];2004年
7 张家旺;韩光胜;张伟;;基于ASPL模型的多智能体强化学习在RoboCup中的应用[A];2005中国机器人大赛论文集[C];2005年
8 敬斌;田野;;Robocup中的传球策略[A];2005中国机器人大赛论文集[C];2005年
9 林欢欢;王文杰;史忠植;;移动环境下垂直搜索引擎[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
10 涂自然;王维;梁以业;禹建丽;;基于强化学习的自适应变步长机器人路径规划算法[A];2003年中国智能自动化会议论文集(上册)[C];2003年
中国重要报纸全文数据库 前10条
1 孙佳宇;[N];人民公安报;2009年
2 首席记者 朱丽华;[N];盘锦日报;2009年
3 王良豪 记者 刘伟 龙先华;[N];六盘水日报;2008年
4 书分;[N];焦作日报;2006年
5 记者 刘琰;[N];周口日报;2009年
6 电子工业出版社 董娅 工业和信息化部电子科学技术情报研究所 周峻松;[N];计算机世界;2010年
7 王艳;[N];中国旅游报;2000年
8 赛迪网 方刚;[N];中国计算机报;2000年
9 王靖;[N];人民日报海外版;2000年
10 谭育才;[N];赤峰日报;2008年
中国博士学位论文全文数据库 前10条
1 王晔;垂直搜索引擎若干问题研究[D];复旦大学;2011年
2 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年
3 胡宜敏;农业垂直搜索引擎语义化若干问题的研究与实现[D];中国科学技术大学;2012年
4 金钊;加速强化学习方法研究[D];云南大学;2010年
5 徐明亮;强化学习及其应用研究[D];江南大学;2010年
6 陈学松;强化学习及其在机器人系统中的应用研究[D];广东工业大学;2011年
7 仲宇;分布式强化学习理论及在多机器人中的应用研究[D];哈尔滨工程大学;2003年
8 李誌;基于视觉听觉语义相干性的强化学习系统的研究[D];太原理工大学;2012年
9 郭庆;多Agent系统协商中若干关键技术的研究[D];浙江大学;2003年
10 戴朝晖;基于混合抽象机制的多智能体系统动态分层强化学习算法研究[D];中南大学;2012年
中国硕士学位论文全文数据库 前10条
1 刘忠;基于强化学习的垂直搜索引擎网络爬虫的研究与实现[D];苏州大学;2008年
2 尹晓虎;多Agent协同的强化学习方法研究[D];国防科学技术大学;2003年
3 宋梅萍;多移动机器人协作任务的分布式决策控制系统[D];哈尔滨工程大学;2003年
4 卢方国;强化学习在个性化信息Agent的应用研究[D];广东工业大学;2004年
5 郭一明;基于强化学习的劣化系统维修策略研究[D];合肥工业大学;2011年
6 钱征;基于强化学习的倒立摆控制研究[D];北京工业大学;2005年
7 王瑞霞;基于强化学习的倒立摆控制[D];北京工业大学;2005年
8 顾鑫;个性化智能信息检索系统研究[D];哈尔滨工程大学;2004年
9 张驰;基于ROBOCUP的多智能体系统设计与实现[D];北京工业大学;2004年
10 袁继彬;大规模Markov系统基于性能势学习的NDP优化方法研究[D];合肥工业大学;2005年
本文关键词:基于强化学习的垂直搜索引擎网络爬虫的研究与实现,,由笔耕文化传播整理发布。
本文编号:51947
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/51947.html