当前位置:主页 > 硕博论文 > 社科博士论文 >

网络健康社区中的文本挖掘方法研究

发布时间:2017-05-10 05:12

  本文关键词:网络健康社区中的文本挖掘方法研究,由笔耕文化传播整理发布。


【摘要】:随着人们对自身健康关注程度的日益提高,对医疗保健的观念也正逐渐发生改变,主张从过去被动的疾病治疗到积极的健康自我管理。病人要想积极的参与到自身疾病的诊疗决策以及日常的健康自我管理,没有一个良好的信息交流平台是无法实现的。近年来网络健康社区的快速发展为人们交流医疗健康信息提供了可能,大量用户参与到网络健康社区中寻求和分享个人健康保健和疾病诊疗经验、对各健康话题提出自己的观点,同时网络健康社区也为病人及其家属进行情感交流与寻求情感支持创造了良好的沟通平台。深入地了解和分析网络健康社区是一个非常有意义的研究课题,一方面可以帮助社区网站优化人机交互界面,提供更个性化的工具和功能来便于社区成员更好地参与到社区讨论中,提高其参与的积极性;另一方面对参与网络健康社区的广大用户来说,对网络健康社区的深入研究可以帮助他们更快的了解这一新兴的在线交流形式,帮助他们快速的发现其感兴趣的话题或者寻找他们希望与之交流的社区成员,使他们更好的融入到网络健康社区平台中。 正因为网络健康社区在人们日常生活中发挥着越来越重要的作用,因此也成为众多研究者关注的热点。许多研究已经从不同角度和侧面展开,例如分析不同人群在社区中的参与特点,探索社区中健康相关的热点主题以及分析成员在社区中的情感表达与交流等几个方面。但目前大部分研究采用的是基于调查问卷的方法,或者依靠人工标注的内容分析方法,随着网络健康社区的快速发展,当面对日益增长的海量的社区文本时,这些传统的人工分析方法不但效率低下,而且缺乏科学性和客观性,无法对网络健康社区进行更有效的分析。因此本文探索利用机器学习和文本挖掘等智能化处理方法,对目前网络健康社区研究中的主要热点问题进行全面系统的分析,主要研究内容包括以下三个方面:健康热点主题的识别、社区成员角色的识别以及社区成员的情感表达分析等。 (1)健康热点主题识别。社区成员在网络健康社区中可以对感兴趣的话题进行自由的交流,但研究发现由于社区信息组织的无序导致用户难以快速的查找到所需要的信息,社区网站和相关研究者也很难从中发现用户对各类健康主题的兴趣和需求,由此我们提出了健康热点主题的自动识别方法。通过借助于UMLS等外部医疗知识源,我们从社区论坛的发帖文本中抽取了n-gram特征、领域相关特征以及情感特征等能有效表示健康主题的特征集合,然后通过文本聚类技术对社区发帖文本按其主题划分为不同的簇,每一个结果簇代表一类健康热点主题,最后通过对簇中关键词抽取的方式实现对健康热点主题的有效识别。在实验的测试和评估中,以国际知名网络健康社区Medhelp为实验数据来源,选择其中的肺癌、乳腺癌和糖尿病三种典型疾病为研究对象搜集样本数据,在对模型的各项参数进行确定后,我们分别得到了7个结果簇,通过关键词抽取,我们最终定义了7个健康热点主题,分别是个人详细介绍、情感支持、症状、检查、并发症、用药和治疗,随后验证了方法的有效性。最后通过进一步讨论,我们发现在不同类型疾病论坛中健康热点主题的分布也有明显差异,比如肺癌论坛中的症状、乳腺癌论坛中的检查、糖尿病论坛中的用药等主题的分布都明显高于其他主题。 (2)社区成员角色识别。网络健康社区中有不同类型的参与人群,他们有着不同的参与目的和需求,表现出不同的角色特征。对不同角色成员的有效识别便于网站提供差异化服务来满足不同成员的需求,也便于社区成员之间增强相互理解和信任。然而出于隐私保护等原因使得个人有效信息相对缺乏,这给有效识别社区成员的角色造成了很大困难,为此我们引入了基于文体学的文本作者角色识别理论,提出了网络健康社区中的成员角色识别方法,通过对社区成员发帖文本的文体写作特征来判断社区成员的不同角色类型,提取的文体特征包括词汇特征、句法特征和结构特征,并结合内容相关的特征构成特征集,然后采用文本聚类方法将所有发帖按其不同的文体写作特征进行划分,最终实现对社区成员角色的有效识别。在实验中我们仍然以Medhelp健康社区三种疾病论坛中的发帖文本作为实验语料,对病人、护理者和医疗专家等三类主要角色进行了有效识别,并通过进一步讨论对三类人群的差异化进行了分析。 (3)社区成员的情感表达分析。网络健康社区作为一个用户广泛参与交流的平台,社区成员的发帖都包含了他们丰富的情感表达,因此我们探索建立了一套面向网络健康社区的情感分析方法来有效地识别这些包含情感表达的发帖文本,并分析其中的情感倾向性。首先,我们介绍了对网络文本的情感分析技术,并分别根据基于机器学习的情感分析方法和基于情感词典的情感分析方法来设计研究框架,对健康社区中的发帖文本进行主客观分类和情感极性分类。在基于机器学习的方法中通过选取领域特征、词性特征、文体特征等有效区分文本情感的特征构成特征集,并采用SVM分类算法实现对文本的情感分类。在基于情感词典的分析方法中,探索如何引入外部情感知识源来抽取文本中的情感词并计算其情感表达强度,设定合理的情感极性区分标准来判别文本的情感倾向性。通过实验测试,发现两种情感分析方法各有优劣,最终我们将两种方法进行有效的融合,并通过科学的度量验证了融合两种方法的情感分析综合模型的有效性。在进一步深入的分析讨论中,我们针对不同的疾病类型,不同的健康主题和不同类型的成员角色等从多个角度对社区成员的情感表达特点进行了分析和总结。 本文的创新工作主要体现在以下三个方面: (1)提出了基于文本聚类的网络健康社区热点主题识别方法。由于目前对网络健康社区热点主题的研究多采用基于人工统计标注的方法,处理效率低下且缺乏科学性,本文提出将文本聚类的方法运用到网络社区的健康主题识别中,在传统的文本表示方法的基础上,本文提出引入外部医疗健康知识源从文本中抽取出区分健康主题的领域相关特征,并进一步提出加入情感特征来提高聚类效果,最后通过实验验证我们构建的健康主题识别模型的有效性。 (2)提出了基于文体学的网络健康社区成员角色识别方法。有效地识别不同的社区成员角色是分析研究网络健康社区的主要基础和前提,而由于个人资料的缺乏和隐私保护的需要使得我们难以识别成员的角色,因此相关角度的研究也非常少。本文创新性的提出了基于文体学的角色识别方法,从网络文本中提取词汇特征、语法特征和结构特征等能区分不同类型社区成员的发帖风格特征来判断成员的角色,并通过实验验证了该方法的有效性。 (3)提出了适用于网络健康社区中情感分析综合模型。由于基于机器学习的情感分析方法和基于情感词典的情感分析方法在应用于网络健康社区的文本情感分析中各有利弊,,我们提出了将两者相结合的情感分析综合模型,首先在文本的主客观分类上,我们采用机器学习的方法,选取领域特征、词性特征、文体特征等特征集,实现对文本的主客观分类。然后在对主观性文本的情感极性分析中,我们采用基于情感词典的方法,利用外部情感词典SentiWordNet来抽取文本中的情感极性词,实现对文本整体的极性判断。实验结果也表明我们提出的模型在网络健康社区的情感分析中具有很好的效果。
【关键词】:网络健康社区 健康主题识别 角色识别 情感分析
【学位授予单位】:上海交通大学
【学位级别】:博士
【学位授予年份】:2013
【分类号】:C912.8
【目录】:
  • 摘要5-8
  • ABSTRACT8-11
  • 目录11-14
  • 表格目录14-15
  • Index of Table15-16
  • 图表目录16-17
  • Index of Figure17-18
  • 第1章 绪论18-30
  • 1.1 研究背景18-22
  • 1.1.1 网络健康社区简介18-20
  • 1.1.2 国内外网络健康社区的发展现状20-21
  • 1.1.3 网络健康社区的特点和功能21-22
  • 1.2 研究意义22-23
  • 1.3 国内外研究述评23-26
  • 1.3.1 网络健康社区的研究角度23-25
  • 1.3.2 网络健康社区的研究方法25-26
  • 1.4 研究问题的提出26-27
  • 1.5 课题研究内容27-29
  • 1.6 主要创新点29-30
  • 第2章 网络健康社区中的热点主题识别研究30-46
  • 2.1 引言30
  • 2.2 主题识别的相关研究30-33
  • 2.2.1 基于统计方法的健康热点主题分析30-32
  • 2.2.2 基于文本挖掘的健康热点主题分析32
  • 2.2.3 主题识别技术32-33
  • 2.3 网络健康社区中热点主题识别框架33-34
  • 2.4 数据搜集和注释34-35
  • 2.5 特征集产生35-42
  • 2.5.1 n-gram 特征35-36
  • 2.5.2 领域相关的特征36-41
  • 2.5.3 情感特征41-42
  • 2.6 特征抽取42
  • 2.7 聚类和聚类结果识别42-43
  • 2.8 聚类结果评估43-45
  • 2.9 本章小结45-46
  • 第3章 网络健康社区中热点主题识别的实验与评估46-68
  • 3.1 实验语料46-48
  • 3.2 数据总体统计特征48-51
  • 3.3 参数的确定51-53
  • 3.4 结果分析53-63
  • 3.5 聚类方法评价63-65
  • 3.6 不同疾病社区论坛中热点主题的差异化分析65-67
  • 3.7 本章小结67-68
  • 第4章 网络健康社区中的成员角色识别研究68-98
  • 4.1 背景介绍68-70
  • 4.2 研究意义70-72
  • 4.3 网络文本作者角色识别的相关研究72-74
  • 4.3.1 文体学72
  • 4.3.2 文体学相关研究72-73
  • 4.3.3 基于文体学的网络文本作者角色识别研究73-74
  • 4.4 网络健康社区中的成员角色识别框架74-75
  • 4.5 数据搜集和注释75-77
  • 4.6 特征集产生77-84
  • 4.6.1 词汇特征77-80
  • 4.6.2 句法特征80-83
  • 4.6.3 结构特征83
  • 4.6.4 内容相关的特征83-84
  • 4.7 特征抽取、聚类识别和评估84-86
  • 4.8 实验86-97
  • 4.8.1 参数确定86-88
  • 4.8.2 结果分析88-92
  • 4.8.3 方法评价92-94
  • 4.8.4 不同疾病论坛的成员角色构成分析94-97
  • 4.9 本章小结97-98
  • 第5章 网络健康社区中的情感分析研究98-120
  • 5.1 背景介绍98-101
  • 5.2 网络文本的情感分析技术101-102
  • 5.2.1 网络文本的情感分类101-102
  • 5.2.2 情感分类粒度及方法102
  • 5.3 基于机器学习的健康社区文本情感分析102-106
  • 5.4 基于情感词典的健康社区文本情感分析106-110
  • 5.5 实验110-113
  • 5.5.1 特征选择评价110-112
  • 5.5.2 研究方法评价112-113
  • 5.6 情感分析综合模型113-115
  • 5.7 进一步讨论115-119
  • 5.7.1 主客观文本的分布115-116
  • 5.7.2 不同类型社区成员的情感表达116-117
  • 5.7.3 不同主题的情感表达117-119
  • 5.8 本章小结119-120
  • 第6章 总结与展望120-126
  • 6.1 全文回顾120-122
  • 6.2 研究不足122-123
  • 6.3 研究展望123-126
  • 参考文献126-132
  • 致谢132-134
  • 攻读博士学位期间的学术论文、科研课题和资助134

【参考文献】

中国期刊全文数据库 前9条

1 张凯;张明允;;基于SVM的《红楼梦》写作风格研究[J];贵阳学院学报(自然科学版);2011年01期

2 丁媛;;中国病人参与治疗决策影响因素论述研究[J];东方企业文化;2011年22期

3 张晨逸;孙建伶;丁轶群;;基于MB-LDA模型的微博主题挖掘[J];计算机研究与发展;2011年10期

4 张运良;朱礼军;乔晓东;张全;;基于句类特征的作者写作风格分类研究[J];计算机工程与应用;2009年22期

5 石晶;范猛;李万龙;;基于LDA模型的主题分析[J];自动化学报;2009年12期

6 沈光宝;Internet上药学信息资源的开发利用及评价[J];情报科学;2002年09期

7 周慧;葛荣霞;冯顺利;冯帅;;医学图书馆数字信息资源用户分析[J];情报科学;2009年07期

8 徐敏娜;;我国公共医疗健康信息公益性增值利用研究[J];情报资料工作;2011年01期

9 杨星;李保利;金明举;;基于LDA模型的研究领域热点及趋势分析[J];计算机技术与发展;2012年10期


  本文关键词:网络健康社区中的文本挖掘方法研究,由笔耕文化传播整理发布。



本文编号:354084

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/sklbs/354084.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户34249***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com