基于TF-IDF改进算法的聚焦主题网络爬虫
发布时间:2017-11-29 16:29
本文关键词:基于TF-IDF改进算法的聚焦主题网络爬虫
更多相关文章: 网络爬虫 语义分析 搜索引擎 TF-IDF 主题爬虫 文档相似度
【摘要】:针对传统的TF-IDF算法、K-means算法、自适应遗传算法在网络检索结果中含有大量不相关数据、语义检索准确性不高的问题,研究了TF-IDF算法的改进及其在语义检索中的应用。将正则表达式和语义分析技术相结合,从而实现对TF-IDF算法的改进。利用语义库对搜索主题进行描述,根据正则原子语义的重要性和在网页标签中的不同位置进行加权计算,得到正则原子在文档中的相似度。通过空间向量模型对文档相似度和主题模型进行余弦运算,从而获取最终的搜索结果。最后,将改进的TF-IDF算法、传统的TF-IDF算法、K-means算法和自适应遗传算法运用于聚焦主题网络爬虫中,对其检索结果进行了对比分析。计算结果表明,在聚焦主题网络爬虫语义分析的垂直搜索中,改进TF-IDF算法的相似度准确率比传统的TF-IDF算法检索准确率提高了17.1个百分点,遗漏率降低了7.76个百分点;比K-means算法检索准确率提高6个百分点;比自适应遗传算法检索准确率提高了8.1个百分点。总之,改进的TF-IDF算法可以有效地提高文档相似度检测的准确率,很好地改善聚焦主题网络爬虫在语义分析中的缺陷。
【作者单位】: 北方工业大学计算机学院;
【基金】:国家自然科学基金资助项目(61371142) 北京市创新团队建设提升计划项目(ID HT20130502)
【分类号】:TP391.1
【正文快照】: 0引言随着互联网的高速发展,网络上的数据资源每天都在成千上亿兆的增长。其中涵盖了当今社会各个方面,例如教育、新闻、财经等[1]。网络共享资源已经成为了当今世界上最大规模的网络公共共享资源。但是人的能力是有限的,面对如此庞大的资源数量,要从中找出所需要的数据是一件
【参考文献】
中国期刊全文数据库 前9条
1 陈悦;陈运;杨义先;胡迪;;基于遗传算法的聚焦爬虫搜索策略设计与研究[J];成都信息工程学院学报;2011年05期
2 代宽;赵辉;韩冬;宋天勇;;基于向量空间模型的中文网页主题特征项抽取[J];吉林大学学报(信息科学版);2014年01期
3 贺飞艳;何炎祥;刘楠;刘健博;彭敏;;面向微博短文本的细粒度情感特征抽取方法[J];北京大学学报(自然科学版);2014年01期
4 孙志军;郑p,
本文编号:1237401
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1237401.html