当前位置:主页 > 管理论文 > 移动网络论文 >

一种基于改进向量空间模型的藏文主题网页采集方法

发布时间:2017-09-17 06:21

  本文关键词:一种基于改进向量空间模型的藏文主题网页采集方法


  更多相关文章: 搜索引擎 藏文主题爬虫 向量空间模型 导向词库 Heritrix


【摘要】:鉴于目前通用搜索引擎对藏文网页主题信息判断不够理想的现状,设计了一种基于改进向量空间模型的藏文主题网页采集算法。相比传统方法,该算法考虑了网页页面的不同标记内容对主题的影响,利用页面各个标记对藏文导向词进行分类,并通过实验确定了算法"导向词个数"和"主题相关度"的合理阈值,最后,通过运算结果判断网页主题的相关度。通过对Heritrix爬虫关键模块的改进,以中国西藏网(藏文版)为例对该算法进行测试,共采集藏文网页550个,主题相关准确度为62%。
【作者单位】: 西藏民族学院图书馆;西藏民族学院信息工程学院;
【关键词】搜索引擎 藏文主题爬虫 向量空间模型 导向词库 Heritrix
【基金】:2014年国家社会科学基金西部项目“藏学文献数字化管理与共享服务策略研究”(项目编号:14xtq001) 2013年教育部人文社科西藏青年基金“网络环境下特定主题的藏文信息发现与采集方法研究”(项目编号:13XZJC870001) 2012年西藏民族学院青年基金“网络环境下藏文文献数据搜集方法研究”(项目编号:12myq18)的阶段性成果之一
【分类号】:TP393.092
【正文快照】: 1引言藏学文献是中国少数民族宝贵的文化财富,是西藏经济文化建设不可缺少的重要组成部分[1]。受语言、地理位置等因素的影响,Baidu、Google等通用的搜索引擎对藏文主题信息判断并不理想,网络上的藏文信息呈现“孤立状态”,不利于藏学文献的分类加工和信息组织,因此需要开发分

【相似文献】

中国期刊全文数据库 前10条

1 田正军;张鸿彦;;基于自动分类的邮件过滤系统[J];河南科学;2007年02期

2 张荐硕;方钰;;基于向量空间模型的Web服务发现方法[J];计算机工程;2011年03期

3 陈鑫;基于VSM的中文网页自动分类模型[J];晋东南师范专科学校学报;2004年02期

4 何静,刘海燕;基于向量空间模型的实时内容过滤[J];计算机工程;2004年15期

5 张铭锋,李云春,李巍;垃圾邮件过滤的贝叶斯方法综述[J];计算机应用研究;2005年08期

6 李东艳;;基于向量空间的垃圾邮件过滤方法研究[J];仪器仪表用户;2007年01期

7 康平波,王文杰;基于自动分类的搜索引擎过滤系统[J];计算机工程;2004年02期

8 肖e,

本文编号:867759


资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/867759.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户95e28***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com