农业文本信息检索可视化平台研究
本文关键词:农业文本信息检索可视化平台研究
更多相关文章: 农业垂直搜索引擎 Web信息抽取 K-means层次聚类算法 信息可视化
【摘要】:随着我国农业信息化进程的快速推进,越来越多的农业用户希望能够快速且有效地找到自己所需要的农业信息。通用搜索引擎无法满足农业用户在信息检索时对查准率的要求,现有的农业搜索引擎根据用户输入的检索关键字为用户提供检索结果,然而由于自然语言中的词语往往存在二义性,用户所输入的检索词概念相对模糊,导致搜索结果范围相对分散,用户需要花费一定时间才能找到自己真正感兴趣的主题。针对这些问题,本文以万方数据知识服务平台上的农业科技类期刊为信息源,在本实验室研究的旱区农业垂直搜索引擎的基础上对检索结果进行改进和增强,主要完成了以下工作:(1)农业领域概念获取方法研究。本文基于Web农业文献资源,通过数据抽取、中文分词、数据清洗技术获得候选领域概念。实验表明,使用基于包装器的信息抽取方法查准率保持在95%以上,信息抽取F-指标保持在85%左右,采用失败重试机制后,抽取成功率提高了9%;同时使用本章改进的正向最大匹配分词方法提高了农业词语的正确识别率,能够达到87.03%。(2)农业文本信息可视化模型研究。首先参考信息可视化模型,构建出农业文本信息的可视化模型,包括信息实体、信息实体间的关联和信息实体网络结构三个主体要素;其次通过可视化数据预处理、Web数据挖掘相关技术获取到信息实体及实体间的关联关系;最后利用基于Java的Prefuse插件包完成信息的可视化显示。实验表明,与原始的凝聚层次聚类算法相比,本文改进的文本聚类算法提高了概念间关系聚类效果的同时降低了聚类总耗时,F度量平均值由原来的0.675提升至0.751,算法平均运行时间由原来的52.893s缩短至16.342s。(3)构建农业文本信息检索可视化平台。采用面向对象编程方法设计并实现了农业文本信息检索可视化平台,实现了动态获取农业领域概念、农业文本信息检索及检索结果可视化等功能,优化检索过程、减少用户的检索时间。经过系统测试表明,该平台具有良好的可用性、达到了设计的预期目标。
【关键词】:农业垂直搜索引擎 Web信息抽取 K-means层次聚类算法 信息可视化
【学位授予单位】:西北农林科技大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.1
【目录】:
- 摘要5-6
- ABSTRACT6-10
- 第一章 绪论10-14
- 1.1 研究目的与意义10
- 1.2 国内外研究现状10-12
- 1.3 研究的主要内容12-13
- 1.4 论文的组织结构13-14
- 第二章 相关理论与技术概况14-22
- 2.1 垂直搜索引擎14-18
- 2.1.1 垂直搜索引擎的系统架构14
- 2.1.2 垂直搜索引擎的关键技术14-18
- 2.2 信息可视化技术18-21
- 2.2.1 信息可视化的参考模型18-19
- 2.2.2 信息可视化技术分类19-20
- 2.2.3 信息可视化平台与开发工具20-21
- 2.3 本章小结21-22
- 第三章 农业领域概念动态获取22-31
- 3.1 信息抽取技术22-26
- 3.1.1 基于包装器的信息抽取方法22-23
- 3.1.2 基于XML文件的失败重试机制23-26
- 3.2 获取领域概念26-29
- 3.2.1 中文分词26-28
- 3.2.2 数据清洗28-29
- 3.3 性能测试与结果分析29-30
- 3.3.1 Web信息抽取性能测试29-30
- 3.3.2 中文分词性能测试30
- 3.4 本章小结30-31
- 第四章 农业文本信息可视化模型31-43
- 4.1 农业文本信息可视化模型框架31
- 4.2 可视化数据预处理31-35
- 4.2.1 关联分析技术32-33
- 4.2.2 聚类分析技术33-35
- 4.3 可视化实现35-38
- 4.4 性能评价与结果分析38-42
- 4.4.1 数据预处理性能测试38-40
- 4.4.2 可视化概念检索测试40-42
- 4.5 本章小结42-43
- 第五章 农业文本信息检索可视化平台43-49
- 5.1 系统设计43-44
- 5.1.1 系统结构43-44
- 5.1.2 系统功能44
- 5.2 系统测试及分析44-48
- 5.2.1 系统测试44-47
- 5.2.2 系统评价47-48
- 5.3 本章小结48-49
- 第六章 总结与展望49-51
- 6.1 总结49
- 6.2 展望49-51
- 参考文献51-54
- 致谢54-55
- 作者简介55
【参考文献】
中国期刊全文数据库 前10条
1 王超;李书琴;肖红;;基于文献的农业领域本体自动构建方法研究[J];计算机应用与软件;2014年08期
2 王晓琴;李书琴;景旭;王蒙;;基于Nutch的农业垂直搜索引擎研究[J];计算机工程与设计;2014年06期
3 周俊;郑中华;张炜;;基于改进最大匹配算法的中文分词粗分方法[J];计算机工程与应用;2014年02期
4 翟东海;鱼江;高飞;于磊;丁锋;;最大距离法选取初始簇中心的K-means文本聚类算法的研究[J];计算机应用研究;2014年03期
5 王超;李书琴;肖红;;基于本体的旱区农业垂直搜索引擎研究[J];农机化研究;2013年08期
6 冯硕;李书琴;杨会君;;基于Web挖掘的化学物质信息提取应用研究[J];计算机工程与设计;2012年08期
7 肖明;栗文超;夏秋菊;;基于Prefuse和层次聚类的信息检索主题知识图谱研究[J];现代图书情报技术;2012年04期
8 黄承慧;印鉴;侯f ;;一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J];计算机学报;2011年05期
9 赵华军;钟才明;李文;王睿智;苗夺谦;;网页搜索结果聚类与可视化[J];南京大学学报(自然科学版);2010年05期
10 彭玉容;杨捧;高媛;;农业搜索引擎的发展现状及关键技术研究[J];安徽农业科学;2010年20期
中国博士学位论文全文数据库 前1条
1 吴佳鑫;Web环境下信息可视化模型研究[D];武汉大学;2009年
中国硕士学位论文全文数据库 前10条
1 王超;基于本体的旱区农业垂直搜索引擎研究[D];西北农林科技大学;2013年
2 肖红;农业科技信息服务个性化推送模型与系统[D];西北农林科技大学;2013年
3 冯颖;医学本体融合与可视化系统的设计与实现[D];华中科技大学;2012年
4 林冬盛;中文分词算法的研究与实现[D];西北大学;2011年
5 于洪波;中文网页自动采集与分类系统设计与实现[D];北京邮电大学;2010年
6 张阳;农业搜索可视化平台的研究[D];中国科学技术大学;2010年
7 崔金国;基于蚁群算法的主题爬虫技术研究与实现[D];成都理工大学;2010年
8 陈可钦;基于垂直搜索引擎的主题爬虫算法的研究[D];中南林业科技大学;2009年
9 李知颖;基于包装器模型的信息抽取算法研究[D];东北师范大学;2009年
10 陈颖;基于摘要信息的中文信息检索可视化系统研究与实现[D];黑龙江大学;2007年
,本文编号:895795
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/895795.html