当前位置:主页 > 管理论文 > 社区管理论文 >

文本聚类及其在电子病历分析中的应用研究

发布时间:2022-01-06 16:17
  在文本聚类算法研究领域中,面对大规模、高维的文本集合,如何建立精度高、可扩展的聚类算法一直是研究者们努力的方向。传统文本聚类算法仍然存在着如下问题:一是数据的高维问题,传统基于向量空间模型VSM(vector space model)的文本表示方法造成文本表示的维度过高,影响聚类的效率和精度;二是聚类算法在大规模文本集上聚类效果的问题,即聚类算法需要良好的精度和可扩展性;三是聚类结果簇的描述问题,一个好的类簇描述能够让人们直观的了解到每个类簇所代表的主题。解决以上三个问题一直是文本聚类领域的研究重点。同时随着医学信息化的发展,电子病历EMR(electronic medical record)已经成为帮助患者诊疗的宝贵资源。相对于传统纸质病历的组织形式,电子病历提供了全新的病历管理模式,使查询、分析功能成为可能。但随着数字化医院的发展,电子病历的数量成指数级增长,如何组织海量的电子病历并对病历数据根据病种进行归类以及如何从中发掘有价值的信息或知识成为目前电子病历分析研究的一个热点问题。文本聚类作为一种无监督算法,它的应用之一就是在无标签信息的情况下将无组织的文本自动归类。针对以上文本聚... 

【文章来源】:北京交通大学北京市 211工程院校 教育部直属院校

【文章页数】:65 页

【学位级别】:硕士

【部分图文】:

文本聚类及其在电子病历分析中的应用研究


图2-1?CBOW模型??Figure?2-1?CBOW?model??

概率分布,算法模型,主题


LDA方法会首先选定一个主题向量0,确定每一个主题会被选择的概率,然??后在生成单词时,从向量0中选择出一个主题z,按主题z的词概率分布生成一个??单词。它的图模型如图2-1所示:??a?〇?z?N?M??图2-3?LDA算法模型图??Figure?2-3?Model?of?LDA??其中参数《和;0定义了模型中的文档集层,向量《刻画了文本集中潜在隐含主题??间的强弱,矩阵/?表示的是潜在主题在文本集中的概率分布情况。从图2-1可知??LDA的联合概率为:??14??

算法流程图


和社区划分的方法,使得聚类算法更加灵活。??3.2算法架构??HC算法的总体架构如图3-1所示,其中的主要步骤为:数据预处理、特征选??择、频繁词集挖掘、文本表示模型、文本网络构建、社区划分和主题词挖掘。该??算法以整个待聚类的文本集合作为输入数据,对于英文数据集,数据预处理阶段??只需进行停用词的过滤,对于中文本还需中文切词的步骤。特征选择过程是为了??过进一步过滤那些对文本类别区别力不大的特征词,从而能够进一步减小文本表??示的维度,同时避免无关词对文本归档的扰动。然后对处理完的数据进行频繁词??集的挖掘,考虑到频繁词挖掘的效率问题,本文采用Fp-Growth算法进行挖掘,??将用频繁词集表示的文本构建成文本网络之后进行社区划分,每个社区即为文本??聚类中的一个类簇,簇中的节点即为文本,再对划分好的簇进行主题描述。下面??将具体介绍算法中的关键步骤。??22??

【参考文献】:
期刊论文
[1]Semi-supervised Document Clustering Based on Latent Dirichlet Allocation (LDA)[J]. 秦永彬,李解,黄瑞章,李晶.  Journal of Donghua University(English Edition). 2016(05)
[2]基于频繁项集的海量短文本聚类与主题抽取[J]. 彭敏,黄佳佳,朱佳晖,黄济民,刘纪平.  计算机研究与发展. 2015(09)
[3]电子病历命名实体识别和实体关系抽取研究综述[J]. 杨锦锋,于秋滨,关毅,蒋志鹏.  自动化学报. 2014(08)
[4]电子病历中命名实体的智能识别[J]. 叶枫,陈莺莺,周根贵,李昊旻,李莹.  中国生物医学工程学报. 2011(02)
[5]国外电子病历的发展现状及其对我国的启示[J]. 李明.  医学信息(上旬刊). 2011(03)
[6]极大熵球面K均值文本聚类分析[J]. 修宇,王士同,朱林,宗成庆.  计算机科学与探索. 2007(03)
[7]An improved TF-IDF approach for text classification[J]. 张云涛,龚玲,王永成.  Journal of Zhejiang University Science A(Science in Engineering). 2005(01)
[8]数字化医院建设思路与实践[J]. 李书章,刘国祥,吴昊,李刚荣.  解放军医院管理杂志. 2004(02)
[9]向量空间法中单词权重函数的分析和构造[J]. 陆玉昌,鲁明羽,李凡,周立柱.  计算机研究与发展. 2002(10)



本文编号:3572772

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/shequguanli/3572772.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户5e60a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com