基于Web检索的小型学习资源语料库的建设
本文关键词:基于Web检索的小型学习资源语料库的建设,由笔耕文化传播整理发布。
【摘要】:经过几十年的建设和发展,语料库已经成为语言学和信息技术研究的重要领域。语料库与学习资源有着相辅相成的关系,语料库是用统计语言模型方法处理自然语言的基础资源,而利用教育技术学的学科优势和特点,发挥语料库在建设学习资源的方面优势作用,对资源的共享必将有很多的帮助。 本文在分析了语料库的背景及发展现状,学习资源建设理论基础和主要内容后,提出了一种基于Web检索的小型学习资源语料库系统模型。开发了基于Java的专用型学习资源语料库系统,实现了数据收集、多种文档处理、最终能够实现了语料检索和语料提取。 首先,介绍了计算机语料库的理论基础和发展现状,详细论述了学习资源的定义、内容等,接着分析了语料库在学习资源库建设中的可借鉴之处,,简单描述了搜索引擎的发展现状和工作原理。其次,介绍了自然语言处理的理论基础以及现阶段应用比较广泛的中文分词器,分析了网页消重和网页净化的相关技术现状。最后,提出了基于Lucene/Heritrix的小型学习资源语料库的系统模型。使用Heritix实现了网页抓取、分析以及利用Lucene对学习资源语料库的检索。
【关键词】:语料库 学习资源 Heritrix Lucene
【学位授予单位】:西安电子科技大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP391.1;G434
【目录】:
- 摘要3-4
- Abstract4-7
- 第一章 绪论7-11
- 1.1 课题的背景及意义7-8
- 1.2 国内外研究现状8-9
- 1.3 本文的主要研究工作9-11
- 第二章 语料库在学习资源建设中的应用11-21
- 2.1 语料库理论基础11-13
- 2.1.1 语料库的定义11
- 2.1.2 语料库的分类11-12
- 2.1.3 语料库的类型12-13
- 2.2 学习资源理论基础13-16
- 2.2.1 学习资源理论概述13-14
- 2.2.2 学习资源的组成14-15
- 2.2.3 学习资源建设的内容15
- 2.2.4 语料库在学习资源建设中的启示15-16
- 2.3 搜索引擎理论基础16-19
- 2.3.1 搜索引擎发展概述16-17
- 2.3.2 搜索引擎原理17-19
- 2.3.3 网页权限与更新周期19
- 2.4 本章小结19-21
- 第三章 自然语言处理21-31
- 3.1 自然语言处理过程21-24
- 3.1.1 自然语言处理概述21
- 3.1.2 中文文本的分类21-23
- 3.1.3 中文分词器23-24
- 3.2 网页消重24-27
- 3.2.1 文本表示模型24
- 3.2.2 文本特征的抽取24-25
- 3.2.3 相似距离25-26
- 3.2.4 网页消重的算法26-27
- 3.3 网页净化27-29
- 3.3.1 单一页面的网页净化27-28
- 3.3.2 基于视觉特征的净化方法28
- 3.3.3 同一模板网页净化28-29
- 3.4 本章小结29-31
- 第四章 小型学习资源语料库的系统设计31-43
- 4.1 小型学习资源语料库系统模型31-33
- 4.1.1 资源语料库需求分析31
- 4.1.2 小型学习资源语料库的流程31-32
- 4.1.3 资源语料库功能模块32-33
- 4.2 功能模块实现的技术原理33-39
- 4.2.1 平台软硬件环境33-34
- 4.2.2 主题网页抓取34
- 4.2.3 Heritrix 架构简述34-37
- 4.2.4 Lucene 功能原理简述37-39
- 4.3 多线程优化 Heritrix 爬虫性能39-41
- 4.4 本章小结41-43
- 第五章 资源语料库核心模块实现43-55
- 5.1 主题网页的抓取43-46
- 5.1.1 利用 Heritrix 实现主题网页抓取43-45
- 5.1.2 实际抓取效果图45-46
- 5.2 网页消重算法实现46-47
- 5.2.1 算法实现46-47
- 5.2.2 性能测试47
- 5.3 文档预处理47-49
- 5.3.1 Lucene 对文档的处理过程47-49
- 5.3.2 运行效果49
- 5.4 语料检索的实现49-53
- 5.4.1 建立索引49-50
- 5.4.2 检索目标文档50-51
- 5.4.3 高亮处理51-53
- 5.4.4 运行效果53
- 5.5 本章小结53-55
- 第六章 总结与展望55-57
- 致谢57-59
- 参考文献59-63
- 攻读学位期间的主要成果63-64
【参考文献】
中国期刊全文数据库 前9条
1 邢富坤;;语料库:值得教育技术学关注的新型学习资源[J];解放军外国语学院学报;2006年02期
2 胡长春;刘功申;;面向搜索引擎Lucene的中文分析器[J];计算机工程与应用;2009年12期
3 张文进;文本信息检索中的概率模型[J];情报杂志;2005年03期
4 欧健文,董守斌,蔡斌;模板化网页主题信息的提取方法[J];清华大学学报(自然科学版);2005年S1期
5 胡燕;吴韦;;IUC算法及其在Web编码中的应用研究[J];武汉理工大学学报;2009年03期
6 李文中;语料库、学习者语料库与外语教学[J];外语界;1999年01期
7 谢华;刘卫国;;基于局部语义的网页净化算法[J];计算机系统应用;2007年05期
8 沈书生;;资源是媒体的延伸[J];中国电化教育;2000年07期
9 曹梅;张增荣;;学习资源的内涵及其深化[J];中国电化教育;2002年04期
中国硕士学位论文全文数据库 前6条
1 李亚洲;文本分类语料库自动构建系统的研究与改进[D];武汉理工大学;2011年
2 朱钦隽;计算机汉语理解的初步实践[D];电子科技大学;2001年
3 郭鹏;汉语语法语料库系统的基础设计[D];天津师范大学;2006年
4 冯斌;基于Lucene小型搜索引擎的研究与实现[D];武汉理工大学;2008年
5 毛许光;网页查重算法研究[D];武汉理工大学;2009年
6 李亮;基于Lucene和Heritrix的职位垂直搜索引擎的设计与实现[D];中国地质大学(北京);2010年
本文关键词:基于Web检索的小型学习资源语料库的建设,由笔耕文化传播整理发布。
本文编号:299340
本文链接:https://www.wllwen.com/jiaoyulunwen/wangluojiaoyulunwen/299340.html