当前位置:主页 > 科技论文 > 搜索引擎论文 >

面向分层结构的网页分类与抓取

发布时间:2018-08-29 14:42
【摘要】:传统网络爬虫为基于关键字检索的通用搜索引擎服务,无法抓取网页类别信息,给文本聚类和话题检测带来计算效率和准确度问题。本文提出基于站点分层结构的网页分类与抽取,通过构建虚拟站点层次分类树并抽取真实站点分层结构,设计并实现了面向分层结构的网页抓取;对于无分类信息的站点,给出了基于标题的网页分类技术,包括领域知识库构建和基于《知网》的词语语义相似度计算。实验结果表明,该方法具有良好的分类效果。
[Abstract]:The traditional web crawler is a general search engine service based on keyword retrieval, which can not capture the information of Web page category, which brings the problem of computing efficiency and accuracy to text clustering and topic detection. This paper proposes a web page classification and extraction based on site hierarchical structure. By constructing virtual site hierarchical classification tree and extracting real site hierarchical structure, we design and implement the hierarchical structure oriented web crawling. This paper presents the technology of web page classification based on title, including the construction of domain knowledge base and the calculation of semantic similarity of words based on Web. The experimental results show that this method has good classification effect.
【作者单位】: 华南理工大学软件学院;华南理工大学计算机科学与工程学院;
【基金】:广东省科技计划基金资助项目(2010B010600017)
【分类号】:TP391.1

【参考文献】

相关期刊论文 前3条

1 代六玲,黄河燕,陈肇雄;中文文本分类中特征抽取方法的比较研究[J];中文信息学报;2004年01期

2 李凡,鲁明羽,陆玉昌;关于文本特征抽取新方法的研究[J];清华大学学报(自然科学版);2001年07期

3 刘卫红;方卫东;董守斌;张凌;;基于内容与链接特征的中文垃圾网页分类[J];微计算机信息;2010年09期

相关硕士学位论文 前1条

1 董静;中文网页形式自动分类[D];大连理工大学;2006年

【共引文献】

相关期刊论文 前10条

1 李玉擰;周兰珍;操卫平;;基于DF和CHI的联合特征提取方法及其应用[J];北京工业大学学报;2008年09期

2 杨勇涛;;文本自动摘要提取算法[J];成都大学学报(自然科学版);2009年02期

3 袁晓峰;;一种基于主题的Web文本聚类算法[J];成都大学学报(自然科学版);2010年03期

4 殷宏威;赵伟;杨志伟;;蚁群算法在KNN文本分类中的应用[J];长春理工大学学报(自然科学版);2010年01期

5 吕佳;;基于改进分类模型的文本分类系统实现[J];重庆师范大学学报(自然科学版);2009年02期

6 李小平;任恩恩;;异构数据库相似语义属性聚类过程研究[J];铁道科学与工程学报;2012年02期

7 李家兵;;基于交叉覆盖算法的文本分类研究[J];滁州学院学报;2008年05期

8 李艳玲;戴冠中;覃森;;快速的文本倾向性分类方法(英文)[J];电子科技大学学报;2007年06期

9 赵俊杰;盛剑锋;陶新民;;一种基于特征加权的KNN文本分类算法[J];电脑学习;2010年02期

10 孙铁利;张妍;李晓微;;文本挖掘中特征降维方法比较研究[J];电脑知识与技术;2008年02期

相关会议论文 前10条

1 韩露;余正涛;邓锦辉;章程;毛存礼;郭剑毅;;领域知识关系对领域文本分类的影响[A];第二十七届中国控制会议论文集[C];2008年

2 张仰森;黄改娟;苏文杰;;基于隐最大熵原理的汉语词义消歧方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

3 侯松;周斌;贾焰;;分词结果的再搭配对文本分类效果的增强[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年

4 张娟;王慧锋;;文本分类技术在海量金融信息处理中的应用[A];第二十四届中国控制会议论文集(下册)[C];2005年

5 朱祥玉;侯德文;陈希;;基于双重评估函数的文本特征提取方法[A];山东省计算机学会2005年信息技术与信息化研讨会论文集(二)[C];2005年

6 曹玉娟;牛振东;彭学平;江鹏;;一个基于特征向量的近似网页去重算法[A];中国索引学会第三次全国会员代表大会暨学术论坛论文集[C];2008年

7 陈庆轩;郑德权;郑博文;赵铁军;李生;;中文文本分类中基于文档频度分布的特征选择方法[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年

8 门洪;武玉杰;李小英;高艳春;;基于支持向量机的分类算法研究[A];第六届全国信息获取与处理学术会议论文集(3)[C];2008年

9 郎加云;胡学钢;;电子邮件内容过滤的相关特征研究[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年

10 王秀娟;郑康锋;杨星海;;线性鉴别分析在中文文本分类中的应用[A];2005通信理论与技术新进展——第十届全国青年通信学术会议论文集[C];2005年

相关博士学位论文 前10条

1 杨抒;基于WEB的林产品信息资源整合方法研究[D];北京林业大学;2011年

2 代劲;云模型在文本挖掘应用中的关键问题研究[D];重庆大学;2011年

3 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年

4 徐建锁;知识管理和文本挖掘的若干问题研究[D];天津大学;2004年

5 杨尔弘;突发事件信息提取研究[D];北京语言大学;2005年

6 詹川;反垃圾邮件技术的研究[D];电子科技大学;2005年

7 张友华;面向智能服务的Web内容计算研究与应用[D];中国科学技术大学;2006年

8 王秀娟;文本检索中若干问题研究[D];北京邮电大学;2006年

9 刘涛;现代信息检索中的文本分类及图像恢复研究[D];北京邮电大学;2006年

10 谢学敏;基于动态流通语料库(DCC)的流行语释义信息自动提取研究[D];北京语言大学;2006年

相关硕士学位论文 前10条

1 张燕丽;基于Winnow算法和CAPTCHA的垃圾短信过滤研究[D];郑州大学;2010年

2 汪政;基于支持向量机的改进的密度聚类算法研究[D];辽宁工程技术大学;2010年

3 刘伟丽;基于粒子群算法和支持向量机的中文文本分类研究[D];河南工业大学;2010年

4 姜伦;模糊聚类算法及其在中文文本聚类中的研究与实现[D];哈尔滨理工大学;2010年

5 韩露;领域知识对领域问答系统答案抽取影响研究[D];昆明理工大学;2008年

6 王林平;基于内容的电子邮件过滤系统的研究[D];电子科技大学;2010年

7 李琼琼;网络文本自动分类器的设计与实现[D];电子科技大学;2010年

8 张春炉;LSA与SOM相结合的文本聚类算法应用研究[D];解放军信息工程大学;2010年

9 甄涛;基于社团发现的Blog信息收集原型系统的研究[D];解放军信息工程大学;2009年

10 周杰;网络舆情话题情感倾向性分析技术研究[D];解放军信息工程大学;2010年

【二级参考文献】

相关期刊论文 前10条

1 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期

2 朱寰,阮彤,于庆喜;文本分割算法对中文信息过滤影响研究[J];计算机工程与应用;2002年13期

3 刘贵龙,宋柔,王慧玲;模糊聚类分析在文本分类中的应用[J];计算机工程与应用;2003年09期

4 高波,张忠能,查志琴;基于文字链接比的网页分类的研究[J];计算机工程与应用;2004年27期

5 萧嵘;王继成;张福炎;;支持向量机理论综述[J];计算机科学;2000年03期

6 刘贵龙,王慧玲,宋柔;矩阵的奇异值分解在文本分类研究中的应用[J];计算机工程;2002年12期

7 方鸷飞;林鸿飞;杨志豪;赵晶;;中文文本体裁的自动分类机制[J];中文信息学报;2006年02期

8 何新贵,彭甫阳;中文文本的关键词自动抽取和模糊分类[J];中文信息学报;1999年01期

9 何劲松,郑浩然,王煦法;从熵均值决策到样本分布决策[J];软件学报;2003年03期

10 董琳;网络信息分类组织的发展趋势与标准化[J];图书情报知识;2004年02期

相关会议论文 前1条

1 王慧玲;宋柔;戴伟长;;汉语文本按语体分类的研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年

【相似文献】

相关期刊论文 前10条

1 刘炜;张红云;熊前兴;;基于语义分析的网络爬虫模型的研究[J];科技信息;2008年35期

2 孙玲芳;黎维良;;基于定题爬虫的网页分类的多级判定算法[J];科学技术与工程;2009年18期

3 张越;曹文君;;基于SVM的大容量网页的分类研究[J];计算机应用与软件;2008年09期

4 李明杰;;特征抽取方法在网页分类中的应用[J];常熟理工学院学报;2005年04期

5 齐宏卓;;浅谈网页模糊归类的应用[J];价值工程;2010年27期

6 郑力明;易平;;基于HTMLParser信息提取的网络爬虫设计[J];微计算机信息;2009年15期

7 陈丽君;;深层网网络爬虫设计[J];计算机与信息技术;2009年Z2期

8 陈哲;;垂直搜索中网页抓取技术的研究[J];科技信息;2009年22期

9 王立建;尹四清;;基于Web页面有效信息抽取的分类方法[J];电脑开发与应用;2010年06期

10 韩培培;付博;;基于有限状态机的URL解析[J];微处理机;2010年05期

相关会议论文 前10条

1 李立宇;唐世渭;杨冬青;叶恒强;王腾蛟;;COMMIX-Classifier—自动网页分类系统[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年

2 彭涛;左万利;赫枫龄;张长利;;基于粒子群优化算法的网页分类技术[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年

3 李楠;谷利泽;钮心忻;;用于XSS扫描的网络爬虫的设计与实现[A];2010年全国通信安全学术会议论文集[C];2010年

4 郝长伶;董强;;知网知识库描述语言[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年

5 程静;邱玉辉;;Web Mining中的网页分类[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年

6 于楠;朱靖波;陈文亮;;领域知识库的构建机制[A];第二届全国学生计算语言学研讨会论文集[C];2004年

7 彭亮;卓新建;黄玮;范文庆;;基于网络爬虫的XSS漏洞扫描系统的设计与实现[A];第十三届中国科协年会第11分会场-中国智慧城市论坛论文集[C];2011年

8 徐剑;柯贵明;;网络爬虫技术在搜索引擎中的应用[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年

9 董强;董振东;;基于知网的相关概念场的构建[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年

10 万中英;王明文;廖海波;左家莉;;维数约简在网页分类中的应用[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年

相关重要报纸文章 前10条

1 记者 陈磊;中国知网率先推出优先数字出版[N];科技日报;2010年

2 见习记者 廖小珊;中国知网推出优先数字出版 读者可多种数字渠道获取[N];中国新闻出版报;2010年

3 本报记者 杨杨;投资、创业两不误:李童的“新孩子”恒知网[N];21世纪经济报道;2011年

4 记者 王秀萍;“中国知网”集约化印刷华北基地在并建成[N];山西经济日报;2010年

5 程晓龙;中国知网联姻施普林格[N];中国新闻出版报;2008年

6 陈;思科用无线感知网络[N];中国计算机报;2003年

7 李大庆;中国知网与施普林格全面合作[N];科技日报;2008年

8 路华;中华行知网(www.sotrip.com)文化与旅游的契合[N];中国旅游报;2000年

9 高向东;千家数字图书馆对接“中国知网”数字出版平台[N];山西日报;2007年

10 计亚男;中国知网数据库携手施普林格[N];光明日报;2008年

相关博士学位论文 前10条

1 孙建涛;Web挖掘中的降维和分类方法研究[D];清华大学;2005年

2 刘楠;面向微博短文本的情感分析研究[D];武汉大学;2013年

3 徐晴阳;基于关系子群发现算法的聚焦爬行技术[D];吉林大学;2008年

4 周,

本文编号:2211520


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2211520.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户48b95***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com