网络生物医学信息自动分类系统的研究与实现
发布时间:2017-09-14 01:53
本文关键词:网络生物医学信息自动分类系统的研究与实现
更多相关文章: 文本自动分类 特征选择 分类算法 TF-IDF IG KNN
【摘要】:目的:随着计算机和网络技术的发展,互联网上积聚了越来越多的生物医学信息,呈现出数量巨大、分布广泛、种类繁多等特点,并随时间以指数形式增长。要从网上获取有效信息变得越来越困难。如何处理和组织这些信息并从中查找、提取出人们想要的内容,是目前亟待解决的一个问题。基于此,本文在研究了中文文本自动分类技术的基础上,研究设计了一套中文文本自动分类系统,来对网络上海量的生物医学信息进行自动的分类和整理,以求最终能够为生物医学信息需求者主动、及时、全面地提供最新的生物医学信息,使其更加准确和快捷地获取想要的信息,提高工作效率并为决策提供情报依据和参考。方法:系统研发过程中,文本表示模型采用了目前最为流行的VSM模型;系统开发采用Visual studio2010作为开发平台;编程语言采用C++语言;界面设计采用Qt来完成。原型系统的构建中分词系统采用中科院的ICTCLAS分词系统,词的权重计算采用最常用的TF-IDF公式,特征选择方法选用信息增益(IG),分类方法选用K-最近邻(KNN)来进行设计并实现。分类效果用MacroP、MacroR、MacroF1和MicroF1四个指标进行评估。系统各部分的功能实现先按照各种算法的思想原型进行编写,然后针对算法的缺陷与不足做相应的改进。最后对比原型和各种算法改进后系统分类的效果,并进行相应的讨论。另外,由于目前并没有现成的中文生物医学相关的语料库可以直接使用,分类系统训练和测试时所使用的语料库为自建语料库。结果:本研究在系统编写过程中对TF-IDF特征权重计算公式和KNN分类算法做了部分调整和改进。另外,本研究提出了一种新的基于TF-IDF思想的特征选择方法——TF-IDF-DF方法。结论:经试验测试验证本研究所做的调整和改进以及提出的新的特征选择方法是有效的,可提高分类系统的分类效果。可以准确的对生物医学信息进行归类,可为网络生物医学信息的组织和检索提供帮助。将本分类系统和搜索引擎的应用相结合可为生物医学信息需求者提供快速、准确、及时的信息服务。
【关键词】:文本自动分类 特征选择 分类算法 TF-IDF IG KNN
【学位授予单位】:新疆医科大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.1;R-05
【目录】:
- 中英文缩略词对照表5-8
- 摘要8-9
- ABSTRACT9-11
- 前言11-15
- 1 研究背景11-12
- 2 国内外研究现状12-13
- 3 研究目的及意义13
- 4 课题来源13-15
- 研究内容与方法15-36
- 1 开发工具15-17
- 1.1 Microsoft visual studio 201015
- 1.2 C++编程语言15-16
- 1.3 Qt16-17
- 1.4 ICTCLAS中文分词系统17
- 2 系统架构17-19
- 2.1 整体系统架构17-18
- 2.2 自动分类系统架构18-19
- 3 分类系统的分类流程19-20
- 4 系统性能评估指标20-23
- 5 分类体系的建立23-24
- 6 数据来源24-26
- 6.1 语料库样本语料来源24-26
- 6.2 待分类信息来源26
- 7 分类系统的实现26-36
- 7.1 文本表示模型27-28
- 7.2 中文分词28
- 7.3 词的权重计算28-30
- 7.4 特征选择方法30-33
- 7.5 分类方法33-36
- 结果36-43
- 1 确定阈值的测试36-40
- 1.1 固定FN数量的测试36-38
- 1.2 固定K值的测试38-40
- 2 原型和新系统分类效果对比40-43
- 讨论43-45
- 1 阈值的确定43
- 2 系统研发过程中的难题与解决方法43-45
- 小结45-46
- 1 研究中的创新工作45
- 2 将来的工作45-46
- 致谢46-47
- 参考文献47-50
- 综述50-66
- 参考文献64-66
- 攻读硕士学位期间发表的学位论文66-67
- 导师评阅表67
【参考文献】
中国期刊全文数据库 前10条
1 康岚兰;董丹丹;;常用特征选择方法的比较研究[J];电脑知识与技术;2009年34期
2 赵小华;马建芬;;文本分类算法中词语权重计算方法的改进[J];电脑知识与技术;2009年36期
3 周晏;桑书娟;;浅谈基于云计算的数据挖掘技术[J];电脑知识与技术;2010年34期
4 王维娜;康耀红;伍小芹;;文本分类中特征选择方法研究[J];信息技术;2008年12期
5 徐燕;李锦涛;王斌;孙春明;张森;;文本分类中特征选择的约束研究[J];计算机研究与发展;2008年04期
6 郝秀兰;陶晓鹏;徐和祥;胡运发;;kNN文本分类器类偏斜问题的一种处理对策[J];计算机研究与发展;2009年01期
7 郭秀娟;数据挖掘方法综述[J];吉林建筑工程学院学报;2004年01期
8 单松巍,冯是聪,李晓明;几种典型特征选取方法在中文网页分类上的效果比较[J];计算机工程与应用;2003年22期
9 徐凤亚,罗振声;文本自动分类中特征权重算法的改进研究[J];计算机工程与应用;2005年01期
10 石志伟,刘涛,吴功宜;一种快速高效的文本分类方法[J];计算机工程与应用;2005年29期
,本文编号:847189
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/847189.html