面向增量同生主题的维吾尔文爬虫的研究
本文关键词:面向增量同生主题的维吾尔文爬虫的研究
更多相关文章: 网络爬虫 网页分类 IC主题模型 锚文本 维吾尔文
【摘要】:针对传统的主题爬虫对网页信息缺乏在知识层面上的处理和理解的问题进行了研究,提出了一种面向增量同生主题的维吾尔文爬虫,通过建立一个增量主题词库优化传统的主题模型,来描述维吾尔文关键词的应用语境及场景,提高了计算网页相关度的准确率。用改进的IC主题敏感算法来预测子页面优先级,过滤无关的网页地址。依据上述方法编写爬虫系统,用构建的维吾尔文语料库进行实验,表明了基于此模型的爬虫具有更好的稳定性和准确度。
【作者单位】: 新疆大学电气工程学院;
【关键词】: 网络爬虫 网页分类 IC主题模型 锚文本 维吾尔文
【基金】:国家自然科学基金资助项目(61163026,60865001)
【分类号】:TP393.092
【正文快照】: 新疆互联网的起源可以追溯到1993年X.25网络的成功建设。经过近二十年的发展,新疆互联网网络规模迅速扩大,新疆少数民族语言的Web网页数量呈现指数级的增长。如何在浩瀚的信息海洋中准确、方便、快速地找到用户所需信息变得至关重要。针对特定领域的搜索技术便应运而生,并且越
【参考文献】
中国期刊全文数据库 前7条
1 王辉;左万利;王晖昱;宁爱军;孙志伟;满春雷;;基于质心向量的增量式主题爬行[J];计算机研究与发展;2009年02期
2 阿力木江·艾沙;吐尔根·依布拉音;艾山·吾买尔;马尔哈巴·艾力;;基于机器学习的维吾尔文文本分类研究[J];计算机工程与应用;2012年05期
3 王钟斐;王彪;;基于锚文本相似度的PageRank改进算法[J];计算机工程;2010年24期
4 熊忠阳;史艳;张玉芳;;基于维基百科和网页分块的主题爬行策略[J];计算机应用;2011年12期
5 黄仁;王良伟;;基于主题相关概念和网页分块的主题爬虫研究[J];计算机应用研究;2013年08期
6 郑健珍;林坤辉;周昌乐;康恺;;基于本体语义的定题爬虫[J];山东大学学报(理学版);2006年03期
7 张裕钦;李振坤;吴永杰;;基于规则模型的网页主题文本提取方法[J];计算机工程与设计;2009年20期
【共引文献】
中国期刊全文数据库 前10条
1 田雪筠;;网络竞争情报主题采集技术研究[J];图书与情报;2014年05期
2 陈方;谭爱平;成亚玲;文益民;;主题爬虫技术研究综述[J];湖南工业职业技术学院学报;2008年05期
3 黄健斌;孙鹤立;;基于链接路径预测的聚焦Web实体搜索[J];计算机研究与发展;2010年12期
4 张乃洲;李石君;余伟;张卓;;使用联合链接相似度评估爬取Web资源[J];计算机学报;2010年12期
5 金明珠;丁岳伟;;基于动态主题库的主题爬虫[J];计算机应用;2009年S2期
6 关慧芬;师军;马继红;;基于遗传算法的主题爬行技术研究[J];计算机与数字工程;2008年10期
7 吐尔地·托合提;维尼拉·木沙江;艾斯卡尔·艾木都拉;;基于频繁模式挖掘的维吾尔文智能组词方法[J];计算机应用;2012年10期
8 阿力木江·艾沙;吐尔根·依布拉音;库尔班·吾布力;李哲;;基于短语的维吾尔文文本分类[J];计算机应用;2012年10期
9 马艳红;胡学钢;吴共庆;;基于链接路径搜索的URL属性集成方法[J];计算机工程;2013年01期
10 陈战胜;钮文良;王辉;孙浩;;一种适用于大规模的改进PageRank算法[J];科学技术与工程;2012年34期
中国重要会议论文全文数据库 前1条
1 张素智;李宝燕;樊得强;;面向用户和领域本体的Web信息采集系统[A];计算机研究新进展(2010)——河南省计算机学会2010年学术年会论文集[C];2010年
中国博士学位论文全文数据库 前5条
1 田俊华;基于本体知识库的教学资源自动采集技术研究[D];南京师范大学;2011年
2 张乃洲;实体搜索爬虫和信息抽取研究[D];武汉大学;2011年
3 梁浩;Deep Web信息集成架构及相关问题研究[D];吉林大学;2010年
4 史斌;面向语义网的语义搜索引擎关键技术研究[D];北京工业大学;2010年
5 李春山;面向社会化媒体内容的若干聚类算法研究[D];哈尔滨工业大学;2014年
中国硕士学位论文全文数据库 前10条
1 郭艳芬;林业主题搜索引擎的设计与实现[D];北京林业大学;2011年
2 马燕;基于快速相似度的Web结构挖掘的研究[D];南京信息工程大学;2011年
3 史丛;网络搜索引擎的相关技术研究[D];山东科技大学;2011年
4 代旭峰;基于用户兴趣模型的搜索引擎结果推荐系统[D];复旦大学;2011年
5 袁方;基于改进PageRank算法的个性化搜索的研究[D];北京邮电大学;2012年
6 杜光芹;效用驱动的主题Web挖掘算法研究[D];山东师范大学;2007年
7 边杰;一种基于Jena的语义检索模型研究与实现[D];西安电子科技大学;2008年
8 吴聪聪;基于本体的专业搜索引擎的研究[D];天津大学;2007年
9 孙逸飞;半自动本体构建方法研究[D];吉林大学;2009年
10 卜永忠;面向金融信息的主题爬虫研究与应用[D];哈尔滨工业大学;2008年
【二级参考文献】
中国期刊全文数据库 前10条
1 刘林,汪涛,樊孝忠;主题爬虫的解决方案[J];华南理工大学学报(自然科学版);2004年S1期
2 王琦,唐世渭,杨冬青,王腾蛟;基于DOM的网页主题信息自动提取[J];计算机研究与发展;2004年10期
3 李凯,赫枫龄,左万利;PageRank-Pro——一种改进的网页排序算法[J];吉林大学学报(理学版);2003年02期
4 黄秀丽;王蔚;;一种改进的文本分类特征选择方法[J];计算机工程与应用;2009年36期
5 周源远,王继成,郑刚,张福炎;Web页面清洗技术的研究与实现[J];计算机工程;2002年09期
6 张宁,贾自艳,史忠植;使用KNN算法的文本分类[J];计算机工程;2005年08期
7 黄德才;戚华春;;PageRank算法研究[J];计算机工程;2006年04期
8 陈再良;凌力;周强;;dPageRank——一种改进的分布式PageRank算法[J];计算机应用;2006年01期
9 王敬普;林亚平;周顺先;岳文;;基于包装器模型的文本信息抽取[J];计算机应用;2006年03期
10 赵佳鹤;王秀坤;刘亚欣;;基于语义分析的主题信息采集系统的设计与实现[J];计算机应用;2007年02期
中国博士学位论文全文数据库 前1条
1 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年
中国硕士学位论文全文数据库 前1条
1 药成刚;基于链接结构的中文网页排序算法研究[D];哈尔滨工业大学;2006年
【相似文献】
中国期刊全文数据库 前10条
1 松涛;“吸”尽网络中有用的网页信息[J];电脑知识与技术;2004年13期
2 朱精南,赵明生;网页版面信息分析[J];计算机工程;2004年12期
3 梁邦勇,李涓子,王克宏;基于语义Web的网页推荐模型[J];清华大学学报(自然科学版);2004年09期
4 王海燕;张正凯;任建浩;;从审美角度浅谈网页艺术设计[J];中国电化教育;2004年09期
5 贾海龙,任玉珍;网页艺术设计[J];新乡师范高等专科学校学报;2005年05期
6 刘肖冰;浅谈网页艺术设计[J];安阳师范学院学报;2005年05期
7 孙迎春;;网页设计研究[J];南平师专学报;2005年03期
8 文涛;网页的视觉传达设计与分析[J];沈阳教育学院学报;2005年01期
9 宋春晖;网页设计中的美学应用分析[J];海南师范学院学报(自然科学版);2005年01期
10 张秀虎;;浅谈网页的访问权限[J];教育信息化;2005年17期
中国重要会议论文全文数据库 前10条
1 韩近强;赵静;杨冬青;唐世渭;姚小波;;基于领域知识的网页筛选系统[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
2 昝红英;苏玉梅;孙斌;俞士汶;;基于浅层分析的网页相关度研究[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
3 孙静;刘正捷;奚小玲;王慧;;帮助盲人理解网页信息的一种网页结构划分方法[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
4 曹淮;晁丁丁;;3D元素在网页信息传达中的应用研究[A];2006年中国机械工程学会年会暨中国工程院机械与运载工程学部首届年会论文集[C];2006年
5 吴建军;;谈网页设计的艺术性表现[A];经天纬地——全国测绘科技信息网中南分网第十九次学术交流会优秀论文选编[C];2005年
6 唐超;刘辰;杨正球;;使用多层迭代分析和分类网页文档的方法[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
7 马骁;王晓龙;王轩;卜永忠;;基于网页信息结构的网页体裁聚类分析[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
8 罗阳;季铎;张桂平;王莹莹;;面向单一网页的双语资源挖掘方法[A];第六届全国信息检索学术会议论文集[C];2010年
9 于满泉;谭松波;许洪波;;网页内部结构挖掘技术研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
10 王宇;黄炜;肖艳芹;任建立;李天柱;;ORBASE用于基于内容的Web查询[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
中国重要报纸全文数据库 前10条
1 本报记者 曾居仁 通讯员 郝金荣;贵州“万村千乡”网页工程开辟为农服务新渠道[N];中国气象报;2012年
2 壮壮;批量保存网页信息[N];电脑报;2004年
3 罗震宇 严小斌;一种新型WEB开发技术的探讨[N];中国冶金报;2011年
4 钱鹏;网尽Web页中的好东东[N];电脑报;2004年
5 星之海洋;迈出网页制作的第一步[N];电脑报;2004年
6 河南 张金贵;FrontPage2000组件详解(四)[N];电脑报;2001年
7 飘零剑客;网络监控利器——AnyView[N];中国电脑教育报;2004年
8 枫尔;网站浏览提速的五大秘方[N];中国证券报;2004年
9 八戒;眨眼之间 答案立现[N];电脑报;2013年
10 ;网络应用 天龙八“步” 申请上网账号[N];电脑报;2002年
中国博士学位论文全文数据库 前10条
1 陈洁;基于概念融合的网页筛选技术研究[D];北京邮电大学;2013年
2 孙建涛;Web挖掘中的降维和分类方法研究[D];清华大学;2005年
3 黄华军;网页信息隐藏与隐秘信息检测研究[D];湖南大学;2007年
4 徐晴阳;基于关系子群发现算法的聚焦爬行技术[D];吉林大学;2008年
5 曹鲁慧;Web个人信息集成问题研究[D];山东大学;2012年
6 刘馨月;Web挖掘中的链接分析与话题检测研究[D];大连理工大学;2012年
7 罗娜;基于本体的主题爬行技术研究[D];吉林大学;2009年
8 宗校军;中文网页定题采集及分类研究[D];华中科技大学;2006年
9 余伟;基于用户个性挖掘的Web社区营销研究[D];武汉大学;2011年
10 张勇实;基于链接相似性分析的WEB结构挖掘方法研究[D];哈尔滨工程大学;2012年
中国硕士学位论文全文数据库 前10条
1 高文梁;改进的基于历史信息分析的网页排序算法[D];大连理工大学;2009年
2 刘辉;网页信息过滤系统的研究与设计[D];苏州大学;2009年
3 赵胤;海量网页搜集系统的设计[D];东北大学 ;2009年
4 罗永莲;突发事件语料噪声排除与网页去重方法研究[D];山西大学;2005年
5 黄永光;基于网页挖掘的搜索引擎若干技术的研究[D];哈尔滨工业大学;2006年
6 张超群;基于网页分块技术的主题爬行[D];吉林大学;2007年
7 张雅洁;网页视觉基础设计与应用研究[D];东北师范大学;2007年
8 黄文蓓;基于网页分割和摘要的小屏幕设备网页自适应技术研究与实现[D];华东师范大学;2008年
9 刘华晖;需求概念图导引下的网页检索结果分析[D];上海交通大学;2011年
10 程欢;网页中动态色彩及其情感可视化研究[D];哈尔滨工业大学;2011年
,本文编号:595871
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/595871.html