基于自我意识的WEB语义结构研究

发布时间:2019-05-23 00:23
【摘要】:为了让人们在上网时能更加快速准确的找到想要浏览的信息,本文在语义web的基础上,结合动态本体及agent的自我意识理论,提出了网眼agent的概念以及基于自我意识的语义web的基本思想和整体框架,描述了它的工作流程,并对它的三个基本元素——网站agent、网眼agent以及客户agent的组成结构进行了描述。网眼agent是基于自我意识的语义web的核心,它具有用户上网时浏览网页信息留下的习惯偏好,且对由众多网站agent所组成的互联网这个动态本体的当前状态有着全面的认知,因此,网眼agent可以根据用户偏好以及互联网当前状态为用户提供个性化服务,让用户上网更加方便有效。网眼agent对互联网当前状态的认知就是web语义结构,主要包括了网眼agent对网站agent、所拥有的信息object以及网站的分类关系组成。为探究互联网中网站的分类关系,设计出web语义结构,本文提出了一种基于主题词的网站特征值排序划界聚类算法,并通过该算法将随机获取的3万多个网站划分到300个类别中。该算法可分为三个阶段,在主题词收集阶段,通过爬虫爬取百万条网页,抓取其上的主题词并进行精简优化;在网站特征值获取阶段,设计了网站特征值的结构,对主题词进行了定位赋值,并一一获取了每个网站的特征值进行文件方式存储;在网站分类阶段,使用基数排序的思想对网站进行排序,之后计算相邻网站之间的距离,根据距离值的大小对网站分类。最后,根据网站聚类的结果对WEB语义结构进行了初步设计。
[Abstract]:In order to make people find the information they want to browse more quickly and accurately when they surf the Internet, this paper combines dynamic ontology and agent's self-consciousness theory on the basis of semantic web. This paper puts forward the concept of mesh agent and the basic idea and overall framework of semantic web based on self-awareness, describes its work flow, and describes the composition and structure of its three basic elements, website agent, mesh agent and customer agent. Mesh agent is the core of semantic web based on self-consciousness. It has the habit preference of users browsing web information when they surf the Internet, and has a comprehensive understanding of the current state of the dynamic ontology of the Internet, which is composed of many websites agent. Therefore, Mesh agent can provide personalized services for users according to user preferences and the current state of the Internet, so that users can access the Internet more conveniently and effectively. The cognition of mesh agent to the current state of the Internet is the semantic structure of web, which mainly includes the information object owned by mesh agent to the website agent, and the classification relationship of the website. In order to explore the classification relationship of websites in the Internet and design the semantic structure of web, this paper proposes a classification clustering algorithm of website eigenvalues based on subject words. Through this algorithm, more than 30,000 websites are randomly divided into 300 categories. The algorithm can be divided into three stages. In the subject word collection stage, the crawler crawls millions of web pages, grabs the subject words on it and optimizes them. In the stage of obtaining the eigenvalues of the website, the structure of the eigenvalues of the website is designed, the subject words are located and assigned, and the eigenvalues of each website are obtained one by one for file storage. In the stage of website classification, the idea of cardinality sorting is used to sort the website, and then the distance between adjacent websites is calculated, and the website is classified according to the distance value. Finally, according to the results of website clustering, the semantic structure of WEB is designed.
【学位授予单位】:西安工业大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP393.0

【相似文献】

相关期刊论文 前5条

1 常勇;;基于语义结构的Web信息提取技术[J];情报杂志;2007年06期

2 刘宇驰;吴玲达;;基于HMM的足球视频语义结构分析[J];计算机工程与应用;2006年28期

3 张正强;;电子文件管理元数据中时间元素的语义结构研究[J];中国图书馆学报;2006年01期

4 郭宏蕾,,姚天顺;数词的语义结构及通用翻译算法[J];中文信息学报;1996年04期

5 梁宏昊;邵志清;孙晓星;;基于聚类算法的网页语义结构分析[J];计算机应用与软件;2012年03期

相关会议论文 前3条

1 王斌;;翻译中的语义三维[A];中国英汉语比较研究会第八次全国学术研讨会论文摘要汇编[C];2008年

2 孙道功;;基于标注语料库的兼语句语义结构模式研究[A];第二届全国学生计算语言学研讨会论文集[C];2004年

3 吴颖;;颜色形容词的语义结构和“白”“红”的语义模型[A];语言学新思维[C];2004年

相关重要报纸文章 前1条

1 王玉红 华中师范大学语言与语言教育研究中心;“隔三差五”“差”在哪儿?[N];中国社会科学报;2012年

相关博士学位论文 前4条

1 颜红菊;现代汉语复合词语义结构研究[D];首都师范大学;2007年

2 马洪海;汉语交易域框架语义系统研究[D];上海师范大学;2008年

3 邵朝阳;澳门博彩语研究[D];北京语言文化大学;2003年

4 朱彦;汉语复合词语义构词法研究[D];华东师范大学;2003年

相关硕士学位论文 前10条

1 王瑞;“V着_(zháo)”和“V到”的多角度考察[D];华中师范大学;2015年

2 王婉s

本文编号:2483419


资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/2483419.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户73c6e***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com