医患问答社区文本挖掘研究
发布时间:2017-06-09 01:05
本文关键词:医患问答社区文本挖掘研究,由笔耕文化传播整理发布。
【摘要】:随着互联网的快速发展,越来越多的人们参与其中交流信息。医患问答社区是医生和患者可以在线交流的网络健康社区,社区中保留了大量的问答信息,其中包括病例信息、医学常识和用药健康等丰富的知识,对其深入挖掘可以为医学研究,商业运作等提供有价值的参考资料。传统的方法多是通过问卷调查或人工分析方式来进行探索研究,但当面对日益增长的海量信息时,传统方法的缺陷日益凸显。本文对医患问答社区中的药名实体识别和情感分析两个主题进行研究,构建了基于机器学习的层次结构多策略方法进行知识挖掘。针对中文网络健康社区中的文本口语化和药名实体不规范等问题,本文采用条件随机场模型结合改进的最大匹配算法对药名实体进行抽取,并补充模糊匹配和搜索引擎的方法对其中的不规范药名实体规范化。本文接下来对识别出的医药文本进行情感分析研究,首先采取二次二分类的方法进行情感分析,使用支持向量机模型对主客观文本分类,分别选取了N元特征,文体特征和情感词特征等。然后用情感词典匹配的方法对主观文本极性分类,其中对于情感词典没有收录领域情感词的问题,本文利用情感新词发现的方法补充领域情感词。最后对真实数据进行实验,验证了本文方法的可行性和合理性。目前对中文网络健康社区的研究还处于初步阶段,本文结合药名实体识别和情感分析两种方法对中文网络健康社区中的医药信息抽取研究,挖掘出的内容为网络健康社区中的用药状况和病症差异等研究提供了重要的帮助,同时为大数据时代的医药信息化挖掘管理提供了新思路。
【关键词】:网络健康社区 药名实体识别 情感分析
【学位授予单位】:辽宁科技大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.1
【目录】:
- 中文摘要5-6
- ABSTRACT6-9
- 1. 绪论9-15
- 1.1. 研究背景9-10
- 1.2. 研究现状10-13
- 1.2.1 命名实体识别11-12
- 1.2.2 情感分析12-13
- 1.3. 研究内容13-14
- 1.4. 本文结构14-15
- 2. 相关理论与资源15-23
- 2.1. 条件随机场15-17
- 2.1.1. 简介15
- 2.1.2. 形式化描述15-16
- 2.1.3. 参数化估计16-17
- 2.2. 支持向量机17-20
- 2.2.1. 线性可分支持向量机18
- 2.2.2. 函数间隔与几何间隔18-20
- 2.2.3. 间隔最大化20
- 2.3. 评测方法20-21
- 2.4. 数据资源21-23
- 2.4.1. 数据集资源21
- 2.4.2. 词典资源21-23
- 3. 药物实体识别及标准化23-34
- 3.1. 问题引出23
- 3.2. 系统流程23-30
- 3.2.1. 数据集24
- 3.2.2. 药名实体识别24-27
- 3.2.3. 标准化及扩充药名词典27-30
- 3.3. 实验结果与分析30-33
- 3.3.1. 药名实体识别实验30-31
- 3.3.2. 标准化及扩充药名词典实验结果31-33
- 3.4. 本章总结33-34
- 4. 医患问答社区情感分析34-49
- 4.1. 问题引出34
- 4.2. 系统流程34-42
- 4.2.1. 数据集35
- 4.2.2. 基于支持向量机的主客观文本分类35-37
- 4.2.3. 基于情感词典的情感极性分析37-42
- 4.3. 实验结果与分析42-48
- 4.3.1. 特征选择评价42-48
- 4.4. 本章总结48-49
- 5.结论49-51
- 参考文献51-55
- 攻读硕士学位期间发表学术论文情况55-56
- 致谢56-57
- 作者简介57-58
【参考文献】
中国期刊全文数据库 前1条
1 孙镇;王惠临;;命名实体识别研究进展综述[J];现代图书情报技术;2010年06期
中国硕士学位论文全文数据库 前1条
1 邱莎;基于统计的生物命名实体识别研究[D];四川大学;2006年
本文关键词:医患问答社区文本挖掘研究,由笔耕文化传播整理发布。
,本文编号:434106
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/434106.html