基于T-Graph算法的主题爬虫研究
本文关键词:基于T-Graph算法的主题爬虫研究
更多相关文章: 主题爬虫 T-Graph 维基百科 相似度计算 权重
【摘要】:为解决传统主题爬虫抓取特定领域的网页信息效率低下问题,在分析主题爬虫算法T-Graph的基础上,提出一种改进的T-Graph主题爬虫算法。利用维基百科的相关知识,采用语义分析的特征项提取算法提取特征项,在词的语义层次上对文本进行相似度计算,且综合考虑了网页中不同位置文本的权重问题。将改进前后的算法进行实验对比,实验结果表明,在提高主题爬行质量方面,改进后的算法效果更好。
【作者单位】: 山东师范大学信息科学与工程学院;
【基金】:山东省教育科学规划攻关课题基金项目(ZK1037123C023)
【分类号】:TP393.092;TP391.1
【正文快照】: 0引言针对通用网络爬虫查准率低、信息冗余大等缺点,主题网络爬虫应运而生。主题爬行算法主要分为基于内容分析的主题相关性算法和基于链接结构的主题相关性算法两大类。基于内容分析的主题相关性算法有Best FirstSearch、Fish Search以及Shark Search等算法,这类算法只注重文
【相似文献】
中国期刊全文数据库 前10条
1 李欢,宋麦玲,杨捷;基于内容的图像检索系统[J];自动化博览;2005年04期
2 王煜;白石;王正欧;;用于Web文本分类的快速KNN算法[J];情报学报;2007年01期
3 赵俊杰;胡学钢;;基于文本分类的文档相似度计算[J];微型电脑应用;2008年12期
4 郝祥根;杨思春;高远飙;张伟;;基于向量空间模型的中文问答系统研究与实现[J];苏州科技学院学报(自然科学版);2009年01期
5 王波;薛媛媚;;网上销售常问问答系统的构建[J];软件导刊;2009年02期
6 袁正午;李玉森;张雪英;;基于属性的文本相似度计算算法改进[J];计算机工程;2009年17期
7 缪勇;宋斌;;基于Web日志的典型匿名用户路径挖掘研究[J];计算机应用;2009年10期
8 张爱琦;左万利;王英;梁浩;;基于多个领域本体的文本层次被定义聚类方法[J];计算机科学;2010年03期
9 江耿豪;;基于VisualProlog的自动答疑系统设计与实现[J];现代教育技术;2010年07期
10 苏慧群;;XML文档数对序列模型与结构相似度算法研究[J];湖南广播电视大学学报;2010年03期
中国重要会议论文全文数据库 前10条
1 陈立;宋自林;郑世明;张英;;基于本体的概念相似度计算研究[A];江苏省系统工程学会第十一届学术年会论文集[C];2009年
2 车万翔;刘挺;秦兵;李生;;面向双语句对检索的汉语句子相似度计算[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
3 张奇;黄萱菁;吴立德;;一种新的句子相似度度量及其在文本自动摘要中的应用[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
4 林民;宋柔;;基于结构描述的汉字字形相似度计算[A];第三届学生计算语言学研讨会论文集[C];2006年
5 邓锦辉;余正涛;章程;毛存礼;郭剑毅;;汉语语言处理接口的集成与应用[A];2007年中国智能自动化会议论文集[C];2007年
6 朱嫣岚;闵锦;周雅倩;黄萱菁;吴立德;;基于HowNet的词汇语义倾向计算[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
7 刘宝艳;林鸿飞;杨志豪;;基于改进编辑距离和依存结构的句子相似度计算[A];第三届学生计算语言学研讨会论文集[C];2006年
8 张学;黄德根;;EBMT中翻译模板的抽取与匹配[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
9 朱丽丽;郑家恒;;一种基于实例学习的人名识别方法[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
10 王振宇;谭红叶;郑家恒;;基于Bootstrapping的交通工具名识别[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
中国博士学位论文全文数据库 前10条
1 宋万鹏;短文本相似度计算在用户交互式问答系统中的应用[D];中国科学技术大学;2010年
2 王秀红;文本相似度计算核函数的构造及其在分布式信息检索中的应用研究[D];江苏大学;2012年
3 李辉;移动商务导购系统的研究[D];大连理工大学;2008年
4 王吉华;基于特征函数的产品造型进化设计研究[D];山东师范大学;2009年
5 卢湖川;人脸识别中几个关键算法研究[D];大连理工大学;2008年
6 朱朝勇;基于本体的知识库分类研究[D];中国科学技术大学;2013年
7 冯晓宁;基于本体的语义Petri网研究及其在系统建模中的应用[D];哈尔滨工程大学;2009年
8 王刚;基于本体的服务模型及方法研究[D];西南大学;2008年
9 杨云;中药指纹图谱数据处理技术的研究及应用[D];华南理工大学;2007年
10 江少锋;医学图像的特征自动提取及基于模糊特征的图像检索研究[D];南方医科大学;2008年
中国硕士学位论文全文数据库 前10条
1 王德刚;智能答疑系统的设计[D];内蒙古大学;2008年
2 张宇;关系数据库中基于元组的关键词查询研究[D];燕山大学;2009年
3 张猛;基于话题的事件相似度计算[D];河北大学;2014年
4 郭竞;三维地形模型检索系统设计与实现[D];西北大学;2007年
5 王婷;OWL本体之间概念相似度计算研究[D];河海大学;2007年
6 蔡元哲;本体实例学习关键技术的研究[D];中国人民大学;2008年
7 刘岩;基于概念图的中文语义分析系统的研究与实现[D];西北大学;2008年
8 王利局;基于语义分析树核的句子相似度计算[D];大连理工大学;2008年
9 赵火军;基于引文链的知识元挖掘方法研究[D];西安电子科技大学;2009年
10 陈锐;基于概念图的信息检索查询扩展模型研究与实现[D];西北大学;2009年
,本文编号:1253884
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1253884.html