基于HMM的主题垂直搜索引擎技术研究
本文关键词:基于HMM的主题垂直搜索引擎技术研究
【摘要】:计算机网络技术的飞速发展,对于搜索引擎技术也提出了更高的要求。文章主要以垂直搜索引擎的主题网页抓取策略为研究内容,从提高主题网页抓取的准确度和效率出发,引入隐马尔科夫模型,并重点讨论了该模型具体应用策略和过程,该模型的应用方法不仅分析了网页内容,还考虑网页上下文链接距离结构,在一定程度上提高了主题页面抓取的精度。
【作者单位】: 陕西国防工业职业技术学院;
【关键词】: HMM 垂直搜索引擎 主题页面
【基金】:网编课程项目教学应用平台开发(编号Gfy11-05)
【分类号】:TP391.3
【正文快照】: 1引言1.1网络爬虫体系结构网络爬行是指搜索引擎从网络上查找并搜集网页的过程,其目标是尽可能快速、有效,多量的搜集与用户需求相关的有用网页及网页间的链接结构。网络爬虫,是在HTTP协议访问标准下,跟随网络链接遍历网络空间信息的程序[1]。一个典型网络爬虫体系结构主要由
【参考文献】
中国期刊全文数据库 前2条
1 刘金红;陆余良;;主题网络爬虫研究综述[J];计算机应用研究;2007年10期
2 杜世平;;多观测序列HMM2的Baum-Welch算法[J];生物数学学报;2007年04期
【共引文献】
中国期刊全文数据库 前10条
1 王正;陆余良;刘金红;施凡;;基于Lucene的互联网文献信息检索系统的研究[J];安徽大学学报(自然科学版);2009年05期
2 毛晓蛟;;搜索引擎中网络蜘蛛的研究与实现[J];电脑编程技巧与维护;2010年18期
3 唐波;;网络爬虫的设计与实现[J];电脑知识与技术;2009年11期
4 周民;邱雅;王华彬;;网络舆情分析中智能爬虫的设计[J];电脑知识与技术;2011年33期
5 王岩;;搜索引擎中网络爬虫技术的发展[J];电信快报;2008年10期
6 黄敏;;网络舆情热点挖掘算法研究与实现[J];安徽大学学报(自然科学版);2012年06期
7 屠要峰;钱煜明;;一种基于海量数据的信息云系统及其关键技术研究[J];电信科学;2012年12期
8 赵前东;叶猛;;微博热点话题检测系统的设计与实现[J];电视技术;2013年03期
9 严磊;马勇男;丁宾;郑涛;;垂直搜索引擎之主题网络爬虫[J];福建电脑;2013年03期
10 翟东海;CUI Jing-jing;NIE Hong-yu;DU Jia;;New event detection based on sorted subtopic matching algorithm[J];Journal of Chongqing University(English Edition);2013年04期
中国重要会议论文全文数据库 前2条
1 吴晨生;刘彦君;张鲁冀;董晓晴;;科普搜索的研究与实现[A];数字博物馆研究与实践(2009)[C];2010年
2 单铁城;张安妮;马德辉;;基于爬虫改进算法的个性化搜索引擎应用研究[A];战略性新兴产业与科技支撑——2012年山东省科协学术年会论文集[C];2012年
中国博士学位论文全文数据库 前3条
1 田俊华;基于本体知识库的教学资源自动采集技术研究[D];南京师范大学;2011年
2 万源;基于语义统计分析的网络舆情挖掘技术研究[D];武汉理工大学;2012年
3 叶飞;高阶隐马氏模型算法理论若干问题的研究[D];上海大学;2012年
中国硕士学位论文全文数据库 前10条
1 陈可钦;基于垂直搜索引擎的主题爬虫算法的研究[D];中南林业科技大学;2009年
2 华大年;手机产品信息垂直搜索引擎系统设计与开发[D];武汉理工大学;2011年
3 乔宇;一种基于主题数据的存取调度模型的研究[D];北京邮电大学;2011年
4 郭艳芬;林业主题搜索引擎的设计与实现[D];北京林业大学;2011年
5 连惠杰;基于主题的教育信息定向采集系统[D];南京理工大学;2011年
6 陈宗利;面向SNS的社会网络数据抓取与经验性分析[D];长安大学;2011年
7 卢凡;基于领域本体的主题爬虫系统研究与实现[D];电子科技大学;2011年
8 任晓霞;BBS舆情智能分析系统研究与实现[D];沈阳理工大学;2011年
9 杨哲;基于Groovy的分布式网络爬虫系统的设计与实现[D];西南交通大学;2010年
10 王燕;网站敏感信息监视系统设计与实现[D];解放军信息工程大学;2008年
【二级参考文献】
中国期刊全文数据库 前7条
1 何强,毛士艺,张有为;多观察序列连续隐含马尔柯夫模型的无溢出参数重估[J];电子学报;2000年10期
2 李盛韬,赵章界,余智华;基于主题的Web信息采集系统的设计与实现[J];计算机工程;2003年17期
3 李卫;刘建毅;何华灿;王枞;;基于主题的智能Web信息采集系统的研究与实现[J];计算机应用研究;2006年02期
4 杜世平,李海;二阶隐马尔可夫模型及其在计算语言学中的应用[J];四川大学学报(自然科学版);2004年02期
5 杨静化,张琪;马尔可夫药物动力学模型B[J];生物数学学报;1998年02期
6 石峰,莫忠息,张楚瑜;隐马尔可夫模型—改进的预测蛋白质二级结构方法[J];生物数学学报;2004年02期
7 傅向华,冯博琴,马兆丰,何明;可在线增量自学习的聚焦爬行方法[J];西安交通大学学报;2004年06期
【相似文献】
中国期刊全文数据库 前10条
1 胡华梁;何进;钟元生;;图书垂直搜索引擎的设计[J];计算机与现代化;2007年08期
2 郑凯明;李义杰;;垂直搜索引擎及其应用价值[J];信息技术;2008年04期
3 许鑫;黄仲清;;垂直搜索引擎应用中的若干策略探讨——以12580餐饮垂直搜索为例[J];现代图书情报技术;2009年02期
4 祝奕;;垂直搜索引擎的构建与应用[J];信息与电脑(理论版);2010年01期
5 张美芳;张迎春;;浅议垂直搜索引擎服务市场的商业模式[J];现代商业;2010年06期
6 焦龙;;垂直搜索引擎在旅游企业中应用的探索[J];商场现代化;2010年08期
7 赵宏中;李亚;;垂直搜索引擎应用研究[J];现代商贸工业;2010年04期
8 陈高维;邓天权;曾云磊;王维国;张龙;;基于垂直搜索引擎的旅游线路评价模型的设计[J];科技创新导报;2010年18期
9 刘小强;;二手转让及房产租售垂直搜索引擎的设计与实现[J];三门峡职业技术学院学报;2010年03期
10 郑凯明;;垂直搜索引擎应用研究[J];赤峰学院学报(自然科学版);2011年02期
中国重要会议论文全文数据库 前4条
1 褚蓓蓓;刘丹;;垂直搜索引擎:搜索引擎发展方向[A];2007年河北省电子学会、河北省计算机学会、河北省自动化学会、河北省人工智能学会、河北省计算机辅助设计研究会、河北省软件行业协会联合学术年会论文集[C];2007年
2 林欢欢;王文杰;史忠植;;移动环境下垂直搜索引擎[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
3 王上;于海;王钲旋;;Deep Web垂直搜索引擎设计与实现[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
4 毛华扬;刘卫;;会计信息搜索方法研究[A];第十届全国会计信息化年会论文集[C];2011年
中国重要报纸全文数据库 前1条
1 电子工业出版社 董娅 工业和信息化部电子科学技术情报研究所 周峻松;用开源软件建垂直搜索引擎[N];计算机世界;2010年
中国博士学位论文全文数据库 前3条
1 王晔;垂直搜索引擎若干问题研究[D];复旦大学;2011年
2 胡宜敏;农业垂直搜索引擎语义化若干问题的研究与实现[D];中国科学技术大学;2012年
3 王桂红;农产品市场价格web信息分析方法研究[D];沈阳农业大学;2013年
中国硕士学位论文全文数据库 前10条
1 崔诗远;基于垂直搜索引擎的旅行社网络营销[D];青岛大学;2009年
2 翟晓玲;面向学科的基础教育资源垂直搜索引擎的研究与实现[D];东北师范大学;2009年
3 王嘉杰;面向博客领域的垂直搜索引擎的研究与实现[D];北京邮电大学;2009年
4 刘明君;垂直搜索引擎传播学特征及应用研究[D];华中科技大学;2008年
5 黎斌;可扩展分布式垂直搜索引擎设计与实现研究[D];国防科学技术大学;2008年
6 李春燕;企业信息垂直搜索引擎的研究与实现[D];中国地质大学(北京);2010年
7 石占伟;垃圾页面检测及其在垂直搜索引擎中的应用[D];燕山大学;2010年
8 张楠;面向汽车主题的垂直搜索引擎研究与实现[D];西南交通大学;2010年
9 陈向东;宠物用品垂直搜索引擎研究与设计[D];西北农林科技大学;2010年
10 周佳庆;实时垂直搜索引擎数据抓取调度研究[D];浙江大学;2010年
,本文编号:938037
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/938037.html