当前位置:主页 > 社科论文 > 图书档案论文 >

基于中文UGC信息源的半自动应用本体构建研究

发布时间:2020-07-12 10:49
【摘要】:在社会化媒体成为最受欢迎的信息传播和网络互动方式的今天,UGC信息也如洪水般泛滥。UGC的信息爆炸与价值利用间的矛盾已经成为了社会化媒体亟待解决的问题。UGC信息源中知识的管理和利用,既是情报学发展的机遇,亦是对情报学的挑战,因此对UGC信息源中知识的高效组织就显得尤为重要。本体作为知识组织的方法和技术,不但可以有效的实现对UGC信息源中知识的组织,更能为社会化媒体的语义检索提供基础支持。传统的领域本体是针对学科领域知识进行构建的,因而无法良好的支持基于用户知识的社会化媒体;与此同时,由于UGC信息的独特性质,传统的本体构建方法也无法直接的应用到对UGC信息源中知识的组织,因此需要利用UGC信息源进行主题知识的应用本体构建,以满足社会化媒体语义检索的需要。本文在对现有本体构建方法比较分析的基础上,针对UGC信息源的分类和特征,对部分本体构建方法进行了改进和扩展,提出了一套结合UGC信息源中半结构化的维基百科信息和UGC信息源中非结构化的文本资源信息为基础的本体构建方法体系并实现其原型系统,不仅为构建支持社会化媒体语义检索的应用本体一般方法提供了一定的参考价值,而且对后来的本体研究者具有一定的指导意义。 本论文的基本思路是围绕UGC信息源的特点,找到适合进行应用本体构建的UGC信息源,通过对多种本体构建方法在UGC信息源中的应用进行比较,找到适合于UGC信息源的应用本体构建方法,并对部分方法进行改进,来实现基于UGC信息源的应用本体构建。关键内容包括UGC信息源的特征分析与选择、基于UGC信息源的本体概念获取方法、基于UGC信息源的本体关系获取方法、基于UGC信息源的本体维护方法等。文中附有图56副,表33个。全文约16万字,共分为7个部分,主要内容如下: 第1部分探讨本体及本体构建的相关理论基础。首先对信息科学领域中的本体论进行了讨论,描述和界定了本体的概念,阐述了本体在知识描述、知识共享方面具备的特征,介绍本体的类型以及本体的基本元素;详细论述了XML、RDF和OWL三种本体描述语言的规范;讨论了本体构建的原则、方法和工具。然后针对本体的构建方法,阐述了在本体构建中概念抽取、关系抽取和本体维护方法中所涉及的语言学、逻辑学和耗散结构理论的基础知识。 第2部分主要讨论了UGC信息源的概念和界定,分析了UGC信息源的内容形式和发布形式,然后从传播学和心理学对其进行了分类,通过找到不同UGC信息源中概念的信息分布特征,选择适宜进行应用本体构建的UGC信息源。 第3部分共分为两个小节,首先探讨了基于维基百科的本体概念获取方法,包括对维基百科中实体概念模型的分析和本体概念的抽取。接着探讨了基于UGC信息源文本的本体概念获取方法。在基于UGC信息源文本的本体概念获取方法中,首先从宏观上阐述了本文基于中文UGC信息源的本体概念获取模型,分别讨论了UGC语料库的获取与预处理和本文选用的中文分词方法;运用维基百科抽取的本体概念与UGC文本的词性规则组合建立词性组合规则库,并对UGC信息源文本中的本体概念进行抽取;利用基于互信息和左右信息熵的概念过滤方法对本体概念的独立性和完整性进行过滤,并针对过滤方法的不足,实施基于中心词的概念补充方法对获取的本体概念进行补充,最后运用领域相关度和一致度的筛选方法得到本体概念中的核心概念。 第4部分共分为两个小节,首先分析了维基百科中的分类关系,并采用中心词匹配、共标引和目录表的方法对维基百科中的分类关系进行抽取;接着通过对UGC信息源文本中分类关系获取方法的分析,采用基于包含原理、基于模板匹配和基于层次聚类的方法对UGC信息源文本中存在的分类关系进行抽取。然后针对UGC信息源中存在的非分类关系,抽取维基百科抽取中出现的可能存在关系的概念对,利用关联规则的方法提取UGC信息源文本中出现的可能存在关系的概念对,并抽取概念对之间的动词,利用CVF*IVF方法对这些动词进行过滤,找到合适的动词作为概念对的谓词,最后利用对数似然比的方法找到合适的本体三元组模型。 第5部分在基于前文研究内容的基础上,将本体概念和本体关系形式化后,依照本体维护的一般过程,提出了基于中文UGC信息源的本体变化捕捉框架,通过对本体维护操作方法和本体维护的一致性约束的分析,提出了基于UGC信息源的本体维护成本算法,并对UGC信息源中的维护需求进行了应用举例和分析。 第6部分构建了基于中文UGC信息源的应用本体构建原型系统,提出了系统在分词、概念获取、关系获取方面的具体需求,并对系统进行了总体设计以及功能和界面的展示,本文把原型系统分为三大块以及十小块功能模块并对每一功能模块的系统界面和功能进行了详细的阐述。 最后对全文进行了总结,指出了研究中存在的不足之处,并对接下来的研究进行了展望,引出作者进一步研究的基础和方向。
【学位授予单位】:武汉大学
【学位级别】:博士
【学位授予年份】:2014
【分类号】:G254
【图文】:

形式化描述,“作者”,资源标识符,资源标识


图1-1 RDF/XML形式化描述图RDF数据模型包含3种类型的元素:(1)资源(Resource)和实体(Entities),用统一资源标识符URI进行资源标识。(2)属性(Proporties),界定了网络资源的各方面,包括特征(Characteristics)、性(Attributes)或关系。比如“作者”和“主页”。

图形描述,三元组,属性值,资源


(3)属性值或声明,即已命名的属性被赋予的特定资源就是RDF的属性值或声明。RDF声明由3个组成部分,近似于汉语中的主谓宾结构:主体,一个特定的资源,用摘圆标记;谓词(Predicates),一个被命名的属性,用箭头标记;对象(Objects),在该资源中属性的取值,用矩形标记。RDF的基本构造就是<资源,属性,属性值>,总体也称之为陈述(Statement)。每一个资源的RDF描述由许多条陈述构成。由于陈述由三部分组成,所以也称为三元组。三元组中的每个元素在RDF中都有明确的名称定义。因此,RDF中描述资源的最小单元陈述的三元组模型为<主体,谓词,对象>。

模型图,实体概念,模型图


图3-1维基百科中实体概念模型图图3-1是对维基百科中实体“苹果公司”的三种特征的概念模型简图,其中实体用“Entity”标识出来,无标识的白框内的信息表示的是没有被维基百科标注的文本,连接线上的文字表示特征的类型,每个维基百科说明的事物都能够用这种概念特征模型图来表示。下文主要对同义词特征和类型特征的抽取进行介绍,关系特征只介绍如何抽取与目标事物相关的概念,而关系特征中关系的抽取将放在下一章中进行讨论。维基百科通过WIKI代码对维基百科中的条目进行描述,如图3-2所示。这段代码表示,手机并不是无绳电话,属于IT类与通讯类,在IT类中与之相关的术语有“无绳电话”、“q!绳桘妐”等

【相似文献】

相关期刊论文 前10条

1 王晶;;社会化媒体环境下下UGC质量状况的调查与分析[J];创新科技;2015年12期

2 王晓宇;郑亚琴;;社会化商业情境下UGC对品牌态度的影响述评[J];郑州航空工业管理学院学报;2014年03期

3 施夏珍;;UGC视角下的商业广告--以微商广告为例[J];农村经济与科技;2017年02期

4 王瑶瑶;;企业如何利用UGC更好地进行品牌传播[J];农村经济与科技;2017年14期

5 杨豫玲;;UGC的表现形式对娱乐新闻报道的影响——以微博为例[J];东南传播;2017年08期

6 王娜;张丽娟;;UGC社区中的信息过载防控机制研究[J];创新科技;2016年03期

7 王宁宁;;基于微博平台UGC的魔弹效果分析——以“海底捞”人性化服务为例[J];新闻世界;2015年05期

8 张振宇;喻发胜;;公共性与商业性:UGC媒体发展的两难境地——以媒介形态研究的视角[J];湖北社会科学;2015年08期

9 廖雪娟;;互联网背景下UGC网站著作权问题初探[J];智富时代;2017年03期

10 臧丽娜;;从“用户产生内容”(UGC)拓展在线广告消费者研究的新方法[J];现代传播(中国传媒大学学报);2012年10期

相关会议论文 前10条

1 华迎;王永贵;李兵;;社会化媒体中用户创造内容(UGC)采纳行为影响因素研究[A];2013中国信息经济学会学术年会暨博士生论坛论文集[C];2013年

2 苏宇;;浅析UGC认证技术在新闻报道中的应用与实践[A];中国新闻技术工作者联合会2015年度“新闻科技论文”优秀论文集[C];2015年

3 张晓莹;张桂平;王裴岩;;领域本体构建中关系辅助判断技术研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

4 孙涌;韦小丽;;领域本体构建研究及在专利信息服务中的应用[A];江苏省系统工程学会第十一届学术年会论文集[C];2009年

5 唐晋韬;王挺;周会平;;面向中文文本的时间本体构建和自动扩充[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年

6 王茹;邢毓华;;古建筑领域本体构建研究[A];首届工程设计高性能计算(HPC)技术应用论坛论文集[C];2007年

7 郗云峰;;新浪微博,Facebook和Twiteer三大社交媒体用户生成内容(UGC)议程设置研究[A];“传播与中国·复旦论坛”(2013)——网络化关系:新传播与当下中国论文集[C];2013年

8 林轶南;吕智慧;宋凡桢;封茗君;卞筱洁;;用户生成内容(UGC)支撑下的文化景观遗产数字档案系统适用性研究[A];中国风景园林学会2018年会论文集[C];2018年

9 何鹏;张旭峰;;数字博物馆网络服务及虚拟现实技术应用[A];创意科技助力数字博物馆[C];2011年

10 谌贻荣;陆勤;李文捷;崔高颖;;一种基于共享后缀术语集改进中文核心领域本体构建的方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年

相关重要报纸文章 前2条

1 山西日报工交部记者 杜鹃;UGC生产模式下“反转新闻”的危害探究[N];山西经济日报;2017年

2 中国出版传媒商报记者 王晓妍;弹幕:UGC藏巨大社交价值[N];中国出版传媒商报;2014年

相关博士学位论文 前10条

1 胡华;基于中文UGC信息源的半自动应用本体构建研究[D];武汉大学;2014年

2 肖健;军事医学本体构建的理论与方法研究[D];中国人民解放军军事医学科学院;2016年

3 陈云志;肝炎本体构建及语义相似度研究[D];浙江大学;2017年

4 蔡晓红;基于轻度认知功能障碍的中医药本体构建及应用研究[D];湖北中医药大学;2015年

5 徐华林;领域UGC文本中话题-特征关系抽取及应用研究[D];电子科技大学;2016年

6 张亚军;事件本体构建中若干关键技术的研究[D];上海大学;2017年

7 张旭洁;事件本体构建中几个关键问题的研究[D];上海大学;2013年

8 钟美;基于Web的空间本体构建方法研究[D];武汉大学;2010年

9 李蓉蓉;面向复杂语义的专利本体构建方法研究[D];武汉大学;2014年

10 董俊;基于KDD的领域本体构建若干关键问题研究[D];南京邮电大学;2011年

相关硕士学位论文 前10条

1 李照东;电影网站UGC对票房收入的影响研究[D];华中师范大学;2018年

2 宋波;传播偏向论视域下新闻UGC生产模式及发展路径研究[D];山东师范大学;2017年

3 杨玉蝶;UGC在网络学习平台设计中的应用研究[D];湖南大学;2013年

4 梁敬萍;“UGC商业性微电影”在品牌传播中的应用研究[D];湖南师范大学;2014年

5 王楚;我国网络电视台引入UGC的策略研究[D];河北大学;2015年

6 吴昊;基于UGC模式的网络课堂及其资源存储和推荐方法研究与实现[D];武汉理工大学;2014年

7 黄林橙;基于社交网络平台的正向UGC羊群效应的动力生成机制研究[D];北京邮电大学;2015年

8 冷川;高校BBS的UGC群体分类及正向激励机制研究[D];北京邮电大学;2016年

9 徐丽;用户、媒介、信息:UGC的传播模型[D];暨南大学;2015年

10 李莎;基于UGC的旅游目的地吸引力分析[D];哈尔滨工业大学;2011年



本文编号:2751836

资料下载
论文发表

本文链接:https://www.wllwen.com/tushudanganlunwen/2751836.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户84eaf***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com