社交媒体文本数据的知识发现模型与实证研究
发布时间:2021-08-28 20:45
目前,随着大数据(Big Data)概念的提出及大数据时代的到来,社交媒体以其数据传输速度快、应用范围广、更新频率快等特征,已经成为大数据时代数据仓库的重要组成部分,蕴含大量数据、形式复杂多样、价值深埋有待挖掘的社交媒体数据,为数据挖掘及知识发现奠定坚实的数据基础,吸引了众多的数学、计算机、图书情报领域的科研工作者的充分关注。对由用户生成的、数量众多的社交媒体数据进行采集、清洗和结构化,进而进行统计、信息分析与数据挖据,探寻领域的研究热点、研究前沿和研究趋势,发现某一领域的特殊个案,揭示事件的相关性等等,能够为科学研究与实践应用提供新信息、新线索、新知识,因而成为当前具有一定现实意义的工作。而且与文献数据、科研数据等结构化数据相比,社交媒体文本数据具有不规范特性,主要表现在:数据在社交媒体上以自由的、非结构化的文本数据的形式展现;文本中概念描述用词口语化、习惯用语程度高、存在大量字符缺失、单复数混用等现象;数据中实体语义关系通过语境来体现,并未给予直观的抽象文本;社交媒体作为表达个人感受的平台,文本数据中客观事件的描述夹杂着情感表达,使得事件陈述更加模糊;与此同时大量的知识隐含在事件中...
【文章来源】:吉林大学吉林省 211工程院校 985工程院校 教育部直属院校
【文章页数】:208 页
【学位级别】:博士
【部分图文】:
图2.?2?KDD处理过程模型??①任务理解:了解KDD相关领域的研宄状况,包括实际应用中的储备知??
⑵文本挖掘理论??①文本挖掘含义和过程??文本挖掘是一个从非结构化文本信息中获取用户感兴趣或者有用的模式,??对具有丰富语义的文本进行分析从而理解其所包含的内容和意义的过程。其中??被普遍认可的文本挖掘定义如下文本挖掘是指从大量文本数据中抽取事先未知??的、可理解的、最终可用的知识的过程,同时运用这些知识更好地组织信息以??便将来参考[171]。??文本挖掘的基本思想是首先利用文本切分技术、抽取文本特征,将非结构??化的文本数据转化为描述文本内容的结构化数据;然后利用分类、聚类和关联??分析等数据挖掘技术,形成结构化文本,并根据该结构发现新的概念和获取相??应的关系,因此,文本挖掘同时也被成为文本知识发现[172]。??文本挖掘的过程一般可分为文本预处理、特征提取和表示、模式挖掘和结??果评价与可视等,其过程如图2.3所示。??
中语义关系,除了“is-a”等级关系外,还定义了一组非等级关系,非等级关系主??要为“locationof’相关关系,包括:“物理相关”、“空间相关”、“时间相关”、“功??能相关”、“概念相关”。图3.3展示并显示了语义网络中的层次与关联。??图3.3?UMLS语义网络中的层次与关联[219】??图书情报领域的研宄者对实体的语义关系进行了大量研宄,目前主要的技??术主要集中在语义相似度计算、聚类技术、基于关联规则、计量分析方法和语??法规则。尤其在相似度计算,聚类技术的研宄中已经积累了大量的成果。而基??[219]医学一体化语言系统.[EB/OL].?[2015-12-12].?www.cintcm.com/yuyan/content/word/UMLS.ppt.??74??
【参考文献】:
期刊论文
[1]利用实体与依存句法结构特征的病历短文本分类方法[J]. 吕愿愿,邓永莉,刘明亮,崔宇佳,陆起涌. 中国医疗器械杂志. 2016(04)
[2]三种数据挖掘算法在电子病历知识发现中的比较[J]. 牟冬梅,任珂. 现代图书情报技术. 2016(06)
[3]建立基于供给侧改革的协同育人平台运行机制[J]. 詹勇,王文婷. 中国高等教育. 2016(10)
[4]社交媒体环境下的档案信息资源建设探讨[J]. 朱兰兰,裴佳勇. 档案学研究. 2015(05)
[5]基于微博文本数据分析的社会群体情感可视计算方法研究[J]. 刘翠娟,刘箴,柴艳杰,方昊,刘良平. 北京大学学报(自然科学版). 2016(01)
[6]社交媒体在高校图书馆知识服务中的应用[J]. 蓝冬梅. 图书馆学刊. 2015(06)
[7]社交媒体在儿童先天性心脏病解剖学教学中的应用[J]. 陈盛,文川,李慧繁,蔡娜,沈蕾蕾. 局解手术学杂志. 2015(03)
[8]世界主要国家大数据战略的新发展及对我国的启示——基于PV-GPG框架的比较研究[J]. 李一男. 图书与情报. 2015(02)
[9]关于社交媒体对赴日旅游影响的几点思考[J]. 李昭霞,杨波,于桂芹. 新闻研究导刊. 2015(07)
[10]试论社交媒体对档案工作的影响[J]. 于华. 山西档案. 2015(02)
博士论文
[1]虚拟社区信息运动互动机理与规律研究[D]. 贯君.吉林大学 2015
[2]特定事件情境下中文微博用户情感挖掘与传播研究[D]. 纪雪梅.南开大学 2014
[3]微博用户及其信息传播影响因素研究[D]. 刘行军.华中师范大学 2013
[4]基于概率生成模型的社区发现和网络数据分类方法研究[D]. 王桢文.国防科学技术大学 2013
[5]虚拟社区信息质量建模及感知差异性比较研究[D]. 李晶.武汉大学 2013
[6]语义万维网中本体与规则上的非经典推理[D]. 黄莎莎.湖南大学 2012
[7]非功能需求交互的语义建模和自动化推理[D]. 胡海波.重庆大学 2012
[8]虚拟社区知识共享可持续行为研究[D]. 赵文军.华中师范大学 2012
[9]虚拟团队知识共享机理与实证研究[D]. 王学东.武汉大学 2011
[10]在线社会网络信任计算与挖掘分析中若干模型与算法研究[D]. 张宇.浙江大学 2009
硕士论文
[1]基于微博的网络舆情信息扩散及其预警机制研究[D]. 杜松源.西南科技大学 2015
[2]基于数据挖掘的金融时间序列预测研究与应用[D]. 戴阳阳.江南大学 2015
[3]面向命名实体抽取的大规模中医临床病历语料库构建方法研究[D]. 冯丽芝.北京交通大学 2015
[4]复杂社会网络中舆情传播模型及影响因素分析[D]. 黄格.湘潭大学 2015
[5]基于现代临床文献的针灸治疗不孕症文献特征及取穴规律研究[D]. 夏春玲.广州中医药大学 2015
[6]社交网站的个性化知识服务研究[D]. 宋承蕾.黑龙江大学 2015
[7]微博实体与百科条目链接的多策略研究[D]. 郭云龙.西南大学 2015
[8]旅游虚拟社区隐性知识转移影响因素研究[D]. 孙天舒.黑龙江大学 2015
[9]半监督学习及其在社交媒体分析中的应用[D]. 杜俊.华北电力大学 2015
[10]基于丰富语言特征的中文社交媒体事件发掘[D]. 景悦诚.上海交通大学 2015
本文编号:3369216
【文章来源】:吉林大学吉林省 211工程院校 985工程院校 教育部直属院校
【文章页数】:208 页
【学位级别】:博士
【部分图文】:
图2.?2?KDD处理过程模型??①任务理解:了解KDD相关领域的研宄状况,包括实际应用中的储备知??
⑵文本挖掘理论??①文本挖掘含义和过程??文本挖掘是一个从非结构化文本信息中获取用户感兴趣或者有用的模式,??对具有丰富语义的文本进行分析从而理解其所包含的内容和意义的过程。其中??被普遍认可的文本挖掘定义如下文本挖掘是指从大量文本数据中抽取事先未知??的、可理解的、最终可用的知识的过程,同时运用这些知识更好地组织信息以??便将来参考[171]。??文本挖掘的基本思想是首先利用文本切分技术、抽取文本特征,将非结构??化的文本数据转化为描述文本内容的结构化数据;然后利用分类、聚类和关联??分析等数据挖掘技术,形成结构化文本,并根据该结构发现新的概念和获取相??应的关系,因此,文本挖掘同时也被成为文本知识发现[172]。??文本挖掘的过程一般可分为文本预处理、特征提取和表示、模式挖掘和结??果评价与可视等,其过程如图2.3所示。??
中语义关系,除了“is-a”等级关系外,还定义了一组非等级关系,非等级关系主??要为“locationof’相关关系,包括:“物理相关”、“空间相关”、“时间相关”、“功??能相关”、“概念相关”。图3.3展示并显示了语义网络中的层次与关联。??图3.3?UMLS语义网络中的层次与关联[219】??图书情报领域的研宄者对实体的语义关系进行了大量研宄,目前主要的技??术主要集中在语义相似度计算、聚类技术、基于关联规则、计量分析方法和语??法规则。尤其在相似度计算,聚类技术的研宄中已经积累了大量的成果。而基??[219]医学一体化语言系统.[EB/OL].?[2015-12-12].?www.cintcm.com/yuyan/content/word/UMLS.ppt.??74??
【参考文献】:
期刊论文
[1]利用实体与依存句法结构特征的病历短文本分类方法[J]. 吕愿愿,邓永莉,刘明亮,崔宇佳,陆起涌. 中国医疗器械杂志. 2016(04)
[2]三种数据挖掘算法在电子病历知识发现中的比较[J]. 牟冬梅,任珂. 现代图书情报技术. 2016(06)
[3]建立基于供给侧改革的协同育人平台运行机制[J]. 詹勇,王文婷. 中国高等教育. 2016(10)
[4]社交媒体环境下的档案信息资源建设探讨[J]. 朱兰兰,裴佳勇. 档案学研究. 2015(05)
[5]基于微博文本数据分析的社会群体情感可视计算方法研究[J]. 刘翠娟,刘箴,柴艳杰,方昊,刘良平. 北京大学学报(自然科学版). 2016(01)
[6]社交媒体在高校图书馆知识服务中的应用[J]. 蓝冬梅. 图书馆学刊. 2015(06)
[7]社交媒体在儿童先天性心脏病解剖学教学中的应用[J]. 陈盛,文川,李慧繁,蔡娜,沈蕾蕾. 局解手术学杂志. 2015(03)
[8]世界主要国家大数据战略的新发展及对我国的启示——基于PV-GPG框架的比较研究[J]. 李一男. 图书与情报. 2015(02)
[9]关于社交媒体对赴日旅游影响的几点思考[J]. 李昭霞,杨波,于桂芹. 新闻研究导刊. 2015(07)
[10]试论社交媒体对档案工作的影响[J]. 于华. 山西档案. 2015(02)
博士论文
[1]虚拟社区信息运动互动机理与规律研究[D]. 贯君.吉林大学 2015
[2]特定事件情境下中文微博用户情感挖掘与传播研究[D]. 纪雪梅.南开大学 2014
[3]微博用户及其信息传播影响因素研究[D]. 刘行军.华中师范大学 2013
[4]基于概率生成模型的社区发现和网络数据分类方法研究[D]. 王桢文.国防科学技术大学 2013
[5]虚拟社区信息质量建模及感知差异性比较研究[D]. 李晶.武汉大学 2013
[6]语义万维网中本体与规则上的非经典推理[D]. 黄莎莎.湖南大学 2012
[7]非功能需求交互的语义建模和自动化推理[D]. 胡海波.重庆大学 2012
[8]虚拟社区知识共享可持续行为研究[D]. 赵文军.华中师范大学 2012
[9]虚拟团队知识共享机理与实证研究[D]. 王学东.武汉大学 2011
[10]在线社会网络信任计算与挖掘分析中若干模型与算法研究[D]. 张宇.浙江大学 2009
硕士论文
[1]基于微博的网络舆情信息扩散及其预警机制研究[D]. 杜松源.西南科技大学 2015
[2]基于数据挖掘的金融时间序列预测研究与应用[D]. 戴阳阳.江南大学 2015
[3]面向命名实体抽取的大规模中医临床病历语料库构建方法研究[D]. 冯丽芝.北京交通大学 2015
[4]复杂社会网络中舆情传播模型及影响因素分析[D]. 黄格.湘潭大学 2015
[5]基于现代临床文献的针灸治疗不孕症文献特征及取穴规律研究[D]. 夏春玲.广州中医药大学 2015
[6]社交网站的个性化知识服务研究[D]. 宋承蕾.黑龙江大学 2015
[7]微博实体与百科条目链接的多策略研究[D]. 郭云龙.西南大学 2015
[8]旅游虚拟社区隐性知识转移影响因素研究[D]. 孙天舒.黑龙江大学 2015
[9]半监督学习及其在社交媒体分析中的应用[D]. 杜俊.华北电力大学 2015
[10]基于丰富语言特征的中文社交媒体事件发掘[D]. 景悦诚.上海交通大学 2015
本文编号:3369216
本文链接:https://www.wllwen.com/yixuelunwen/yiyuanguanlilunwen/3369216.html