百度百科景点信息爬取及组织研究
发布时间:2017-08-21 14:29
本文关键词:百度百科景点信息爬取及组织研究
【摘要】:百度百科是百度公司推出的一部内容开放、免费的网络百科全书平台,百度公司已在它的基础上开发了百度搜索引擎和百度知道等功能十分强大的应用。为满足"景点达人"移动应用开发的需要,研究了从百度百科爬取景点信息网页、解析网页以及组织全国范围内将近6000个景点信息的技术和方法。收集的数据使景点达人APP顺利上线,对开发旅游相关的其他大数据应用具有十分重要的价值。
【作者单位】: 湖南农业大学信息科学技术学院;湖南农业大学东方科技学院;
【关键词】: 网络爬虫 搜索引擎 百度百科 景点大数据
【分类号】:TP393.092;TP391.3
【正文快照】: 1相关技术介绍1.1网络爬虫网络爬虫(又称网页蜘蛛,网络机器人),它是按一定规则自动抓取网页信息的程序,它可以用来检查站点链接的有效性,若是能把网页中的相关数据保存下来,就成了搜索引擎。1.2 Html UnitHtml Unit是一款开源的JAVA页面分析工具,读取页面后,可以有效的使Html
【相似文献】
中国期刊全文数据库 前2条
1 胡婕茹;杨小平;黄都培;;从百度百科挖掘领域知识相关度[J];广西师范大学学报(自然科学版);2011年04期
2 ;[J];;年期
中国硕士学位论文全文数据库 前1条
1 张佳佳;基于百度百科的隐性语义知识挖掘研究[D];河南师范大学;2014年
,本文编号:713443
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/713443.html