多点民族志的探索与实践——对少数民族文学资源的网络调查及保护
【部分图文】:
通用爬虫是通用搜索引擎(如谷歌、百度、雅虎、360搜索等)的关键组成部分,其程序结构如图1所示,主要分为URL(Uniform Resource Locator,统一资源定位器,俗称网址)种子、网页下载模块、网页解析模块、数据库几个部分。通用爬虫从一个或若干个种子URL作为起始访问点,调用下载模块获得当前URL对应的网页,再调用解析模块提取网页上所包含的超链接(即新的URL)并加入“待访问URL列表”,同时提取网页内容并加入数据库,供搜索引擎使用。然后爬虫程序继续访问列表中的新URL并进一步扩充列表,如此循环往复直至程序满足某种停止准则。互联网网页之间的链接结构非常复杂,URL访问策略直接影响着爬虫结果的质量。由于通用搜索引擎的目标是获得尽可能高的网页覆盖率,通用爬虫通常采用广度优先策略来访问网页。广度优先策略的基本思想是,将新下载网页中的链接插入待访问URL列表的末尾,即网络爬虫会先访问起始网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓取在此网页中链接的所有网页。通用爬虫以及基于通用爬虫的通用搜索引擎在“通用性”方面的极度追求,不可避免地带来了其他方面的局限性,例如:1.通用爬虫对网页内容缺乏细致的分析,通用搜索引擎返回的查询结果通常包含大量的与用户诉求不相关的网页,用户不得不对查询结果再加以人工筛选。2.通用搜索引擎大多提供基于关键字的检索,难以支持根据语义信息提出的查询,无法准确理解用户的具体需求。3.不同背景、不同领域的用户的查询目的不尽相同,而通用搜索引擎返回无差别的查询结果,无法满足用户的个性化需求。4.通用爬虫的运行需要占用大量的网络带宽和计算资源,另外储存抓取到的网页信息也需要大量的服务器资源。中小型企业、科研机构和个人往往无力承担相关花费,并且对于特定用户而言也没有必要建立通用数据库。另外,通用爬虫的运行效率较低,通常需要几天甚至几周时间才能完成一次更新。
针对上述不足,主体爬虫技术更为适合承担少数民族网络文献的搜集工作。不同于通用爬虫,聚焦爬虫不追求广泛的网页覆盖,它专注于抓取和某一主题内容相关的网页,从而满足用户的定制需求。主题爬虫具有较高的运行效率。此外,由于主题爬虫的专题性,许多特定的语言处理和语义理解技术得以应用其中,从而进一步提高了查询质量。主题爬虫的程序结构如图2所示,它与通用爬虫的主要区别是在网页解析模块之后增加了主题分析模块。该模块的功能可细分为链接主题评估和网页主题辨识,前者用于引导后续的URL访问,避免像通用爬虫那样陷入大量与主题无关的网页,后者用于筛选与主题相关的网页内容并存入数据库。以下对链接主题评估和网页主题辨识的工作原理做一个概述。首先是链接主题评估。相比于通用爬虫宽泛的访问策略,主题爬虫的访问限于特定的话题,因此链接主题评估通常采用同时考虑网页链接结构和文本内容的综合策略,确保待访问的URL列表与设定的主题高度相关。链接结构评估是根据当前的网页来评价对与其有直接或间接链接关系的URL。典型的链接结构评估方法有PageRank算法和HITS算法。PageRank算法由谷歌的两人创始人拉里·佩奇(Larry Page)和谢尔盖·布林(Sergey Brin)提出,其基本思想是假定重要的网页往往被更多地被其他网页所引用,即一个被很多网页的所链接的网页具有较高的重要性。每个网页的具体PageRank评分可以由数学迭代获得。HITS(Hyperlink-Induced Topic Search)算法由康奈尔大学的乔恩·克莱因伯格(Jon Kleinberg)提出,该算法以authority属性和hub属性和衡量某个网页的价值,authority值高表示该网页与某个领域高度相关,hub值高表示该网页包含了很多指向高authority值的网页。HITS算法通过迭代计算找到与用户查询主题相关的高Authority值网页。可以看到,PageRank算法不依赖于用户查询主题、需要全局信息、计算量较大,更适合于服务器端采用,HITS算法依赖于用户查询主题、只需要网络局部信息、计算量较低,更适合用户端,即本文所开展的少数民族文学网络文本搜集所采用。
本文采取主题爬虫技术对于少数民族文学网络文本进行搜集的示范案例。在微信公众号平台中,利用八爪鱼数据采集器(一款常用爬虫软件,支持主题爬虫模式)进行以“壮族小说”为主题的网络爬虫。图3为爬虫过程中的软件界面截图,爬虫程序正在循环搜寻与“壮族小说”相关的网页,并自动抓取网页中的标题、作者、公众号名称、发布时间和正文内容。其平均采集速度高达每分钟13个网页。四、数据库技术与少数民族数字文化资源的可视化呈现
【相似文献】
相关期刊论文 前10条
1 多洛肯;;晚近古代少数民族文学研究的新趋向[J];西南民族大学学报(人文社科版);2020年02期
2 孙纪文;;清代“少数民族文学”的形成、阅读与阐释[J];西南民族大学学报(人文社科版);2019年03期
3 卢玺媛;;跨文明研究视域下少数民族文学的困境与前景[J];贵州民族研究;2019年01期
4 杨永明;;少数民族文学的文化价值建构[J];中国民族博览;2019年05期
5 张永刚;李雨君;;当代少数民族文学“价值研究”的主要取向[J];曲靖师范学院学报;2019年05期
6 李晓伟;;2017年度少数民族文学出版盘点[J];中国图书评论;2018年02期
7 陈平原;;编一册少数民族文学读本,如何?[J];读书;2017年08期
8 王莎;;新时代茶文化背景下少数民族文学的创新性研究[J];福建茶叶;2018年09期
9 迪丽努尔·阿布都克热木;;浅析当前少数民族文学的民族性和现代性[J];中国民族博览;2016年10期
10 赛娜·伊尔斯拜克;;少数民族文学与全球视野——以柯尔克孜族文学为例[J];新疆艺术(汉文);2016年05期
相关博士学位论文 前10条
1 王志彬;当代台湾少数民族文学研究[D];山东师范大学;2011年
2 吕豪爽;文化超越与审美创新[D];山东师范大学;2007年
3 陈祖君;论汉语文学期刊影响下的中国当代少数民族文学[D];四川大学;2007年
4 陈珏;鄂温克文学的话语转型和建构[D];浙江大学;2013年
5 王敏;论新世纪少数民族汉语小说的现代性反思[D];中央民族大学;2015年
6 罗四鸰;当代少数民族作家的身份建构与小说创作[D];复旦大学;2011年
7 魏巍;少数民族视野下的沈从文与老舍比较研究[D];陕西师范大学;2012年
8 吴哈斯塔娜;玛拉沁夫文学观研究[D];中央民族大学;2010年
9 林瑞艳;新时期少数民族汉语小说与宗教关系研究[D];福建师范大学;2015年
10 张雪艳;中国当代汉族作家的“少数民族文学创作”研究[D];陕西师范大学;2010年
相关硕士学位论文 前10条
1 陈媛;文学制度与“十七年”时期中国少数民族文学创作[D];西南大学;2018年
2 孙阿木;阿库乌雾《混血时代》意象研究[D];西南民族大学;2018年
3 张超;新时期中国少数民族文学作品选集(小说部分)研究[D];湖南大学;2017年
4 魏小惠;晚清至1980年代文学观念中“民族性”的话语演变[D];福建师范大学;2017年
5 陈燕;80年代以来内蒙古少数民族文学中的萨满教女性观研究[D];温州大学;2011年
6 杨凡佳;云南少数民族文学的当代形态[D];云南大学;2010年
7 冯超;关纪新的少数民族文学研究[D];重庆师范大学;2013年
8 李志磊;栗原小荻诗学思想研究[D];新疆师范大学;2013年
9 李翠香;新时期“中国少数民族文学”发展与文学思潮演进的关系研究[D];福建师范大学;2011年
10 赵妍;民族性的追寻与诉求[D];广西民族大学;2007年
本文编号:2874133
本文链接:https://www.wllwen.com/gudaiwenxuelunwen/2874133.html