面向新闻网的智能抓取技术
本文选题:主题提取 + 网络爬虫 ; 参考:《控制工程》2013年04期
【摘要】:随着新闻网信息的急剧增加,研究面向新闻网的智能抓取技术变得十分必要。在基于主题网络爬虫的基础上,改进了网页与主题的相关度算法,设计出面向新闻网的智能抓取技术。按照预先确定的主题,分析超链接和刚刚抓取的网页内容,获取下一个要爬行的URL。有选择的访问新闻网上的网页和相关的链接,尽可能保证多爬行与主题相关的网页。实验结果表明,改进后的抓取技术比以往的新闻网抓取技术在性能上有较大提升,抓取准确率显著提高。
[Abstract]:With the rapid increase of news network information, it is necessary to study the intelligent capture technology for news network. On the basis of topic crawler, the correlation algorithm between web page and topic is improved, and the intelligent crawling technology to news network is designed. According to the predefined theme, analyze the hyperlink and the content of the page you just crawled to get the next URLL to crawl. Choose to access web pages and related links on the news network to ensure that as many web pages as possible are crawled related to the topic. The experimental results show that the performance of the improved grabbing technique is much higher than that of the previous news network grabbing technology, and the accuracy rate is improved significantly.
【作者单位】: 东北大学计算中心;
【基金】:国家自然科学基金(61272179) 中央高校基本科研业务费专项资金资助(N110316001) 辽宁省自然科学基金(20092005)
【分类号】:TP393.092
【参考文献】
相关期刊论文 前10条
1 杨爱民;肖健;文福拴;;计及非发电权容量出力调整的发电权阻塞调度[J];电力系统自动化;2009年20期
2 刘昊;;搜索引擎优化策略在新闻网站中的应用[J];电脑知识与技术;2009年08期
3 丁鹏;朱莉;;以节能降耗为目标的发电权交易模型[J];华中电力;2011年05期
4 陈燕娜,邵志清;基于全文搜索的中文搜索引擎设计技术[J];计算机工程与应用;2002年17期
5 汪涛,樊孝忠;链接分析对主题爬虫的改进[J];计算机应用;2004年S2期
6 宋海洋;刘晓然;钱海俊;;一种新的主题网络爬虫爬行策略[J];计算机应用与软件;2011年11期
7 魏晶晶;杨定达;廖祥文;;基于网页内容相似度改进算法的主题网络爬虫[J];计算机与现代化;2011年09期
8 曹军;Google的PageRank技术剖析[J];情报杂志;2002年10期
9 刘嘉佳;刘俊勇;;CVaR风险度量模型在单期发电权交易中的应用[J];四川大学学报(工程科学版);2007年01期
10 张森林;;水电参与电力市场竞争若干问题研究(二)[J];水电能源科学;2006年03期
【共引文献】
相关期刊论文 前10条
1 汪涛,樊孝忠,顾益军,刘林;基于概念分析的主题爬虫设计[J];北京理工大学学报;2004年10期
2 徐金雷;杨晓江;;基础教育资源搜索引擎的排序算法研究[J];电化教育研究;2007年02期
3 钟斌青;刘湘南;;基于空间化PageRank算法的人口流动空间集聚性分析[J];地理与地理信息科学;2011年05期
4 盛方正;季建华;;基于发电期权交易的发电公司决策[J];电力系统自动化;2007年23期
5 张粒子;韩冰;舒隽;;考虑不确定性的小水电代理竞争市场均衡分析[J];电力系统自动化;2008年11期
6 肖健;文福拴;;发电权交易的阻塞调度[J];电力系统自动化;2008年18期
7 郑欣;蒋传文;李磊;赵岩;;基于能耗和效益最优的发电权节能降耗分析[J];电力系统自动化;2008年24期
8 杨爱民;肖健;文福拴;;计及非发电权容量出力调整的发电权阻塞调度[J];电力系统自动化;2009年20期
9 王雅娟;王先甲;;一种激励相容的发电权交易双边拍卖机制[J];电力系统自动化;2009年22期
10 舒隽;韩冰;张粒子;;市场环境下梯级水电资源有效配置的代理机制[J];电力系统自动化;2010年07期
相关会议论文 前1条
1 陆勇;侯汉清;;基于词典注释的汉语同义词自动识别[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
相关博士学位论文 前10条
1 艾东平;电力市场发电权交易及相关问题的研究[D];华北电力大学(北京);2011年
2 王楠;发电调度优化模型与方法研究[D];华北电力大学(北京);2011年
3 张森林;电力市场双边交易若干问题研究[D];华南理工大学;2011年
4 王金凤;CVaR在电力市场风险管理中的应用研究[D];上海大学;2012年
5 常春;Ontology在农业信息管理中的构建和转化[D];中国农业科学院;2004年
6 刘嘉佳;电力市场环境下水电的优化调度和风险分析[D];四川大学;2007年
7 宗校军;中文网页定题采集及分类研究[D];华中科技大学;2006年
8 韩冰;水电站参与市场竞争的代理机制设计[D];华北电力大学(北京);2008年
9 张格伟;基于工艺知识网格的可重构CAPP系统关键技术研究[D];南京航空航天大学;2008年
10 关勇;提高电能效率目的下电网企业购售电风险度量与控制模型[D];华北电力大学(北京);2009年
相关硕士学位论文 前10条
1 徐财应;基于Lucene的搜索引擎技术的研究与改进[D];长春理工大学;2010年
2 汪永伟;搜索引擎中网页排序算法的研究与实现[D];哈尔滨工程大学;2010年
3 于飞;基于搜索引擎的个性化推荐研究[D];哈尔滨理工大学;2010年
4 陈可钦;基于垂直搜索引擎的主题爬虫算法的研究[D];中南林业科技大学;2009年
5 陈潇;油脂企业故障信息管理与诊断系统设计与实现[D];西安电子科技大学;2009年
6 陈志刚;网络Flash资源爬行器的设计与实现[D];山东师范大学;2011年
7 姜博;基于聚焦爬虫的web信息采集技术研究[D];北方工业大学;2011年
8 曹仲伟;FTP搜索引擎的关键技术研究[D];湖北工业大学;2011年
9 周源;基于本体的语义垂直搜索引擎研究[D];北京交通大学;2011年
10 崔顷顷;基于个性化搜索的系统研究与设计[D];北京交通大学;2011年
【二级参考文献】
相关期刊论文 前10条
1 汪涛,樊孝忠,顾益军,刘林;基于概念分析的主题爬虫设计[J];北京理工大学学报;2004年10期
2 张玉山,李继清,纪昌明,王丽萍;市场环境下水电运营方式的探讨[J];水电自动化与大坝监测;2003年05期
3 任震,黄福全,黄雯莹,吴杰康;电力市场中的发电厂投标组合策略[J];电力系统自动化;2002年02期
4 黎灿兵,康重庆,夏清,黄永皓,尚金成,孟远景,丁军威,沈瑜;发电权交易及其机理分析[J];电力系统自动化;2003年06期
5 刘亚安,薛禹胜,管晓宏;Price-taker在两个电力市场中的交易决策 (二)发电商的策略[J];电力系统自动化;2004年17期
6 王壬,尚金成,冯e,
本文编号:1956718
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1956718.html