基于搜索日志的用户语义本体构建研究
本文关键词: 用户语义本体 用户日志 概念格 形式概念分析 WordNet 出处:《西华大学》2012年硕士论文 论文类型:学位论文
【摘要】:近年来,随着互联网信息技术的迅速发展,互联网上的信息资源已经达到海量级别,并且正呈指数级形式增长,海量网页数据的结构复杂性和用户查询词简短及语义模糊性等特点给现有搜索引擎的发展带来了极大的挑战。检索系统如何能够准确的理解用户输入查询词的信息需求,根据不同用户返回不同的检索结果,即根据不同的用户提供个性化的服务,这是用户越来越关心的问题。要为用户提供个性化的服务,就必须挖掘用户的相关领域知识背景,为搜索引擎提供一个面向用户的知识模型,即用户本体。一般情况下,搜索引擎搜集了大量的用户搜索日志,这些数据记录了用户历史查询词和对应点击网页的信息,通过分析这些历史数据,能够挖掘出用户的领域背景知识。本体(Ontology)作为语义网的关键技术,它通过提供一个领域的词汇和形式概念,使得信息的共享和交互变得容易和简单。 本文的主要工作如下: 首先,本文提出了一种新颖的用户查询词语义相似度计算方法,采用AGNES(Agglomerative Nesting)层次聚类算法,将用户查询词按用户个性化兴趣和知识背景进行主题分类。本文首先提出了基于用户搜索日志的三种用户查询词语义相似关系①基于用户原始查询词本身的相似关系,②基于用户扩展查询词的相似关系,③基于用户点击URLs的相似关系。通过分析这三种语义关系,将它们按照线性组合的方式组合,形成了一种新颖的计算用户查询词语义相似度的方法。基于这种用户查询词语义相似度函数,利用AGNES层次聚类算法,将用户查询词根据用户搜索日志中所反映的主题进行语义主题聚类,从而达到消除用户查询词语义模糊性的目的。 其次,本文提出了一种利用用户查询词语义主题聚类结果和WordNet通用本体建立一个用户查询词兴趣主题领域知识模型,即用户语义本体(User Semantic Ontology)的方法。该方法过程如下①根据用户查询词语义主题聚类结果,生成用户原始查询词-用户点击文档和扩展查询词-用户点击文档之间的形式背景,②优化扩展查询词-用户点击文档之间的形式背景,合并原始查询词和优化后的扩展查询词的形式背景,并构建概念格,通过概念格-本体转化的规则,将概念格转换为初始本体,③利用WordNet优化初始本体。该用户本体表达了一个用户的兴趣偏好,然后将其应用于主题搜索引擎,,进而可以把信息采集从基于关键词的相关度匹配技术层面提高到基于语义层面的查找。 最后,利用VC++6.0开发应用程序进行验证。实验表明,通过本文本体构建方法,用户查询词能更好的根据用户兴趣和知识背景来区分其真实语义,消除其语义模糊性。
[Abstract]:In recent years, with the rapid development of Internet information technology, the information resources on the Internet have reached a mass level, and are growing exponentially. The structural complexity of massive web page data and the short and semantic fuzziness of user query words bring great challenges to the development of existing search engines. How can the retrieval system accurately understand the information requirements of user input query words? According to different users return different retrieval results, that is, according to different users to provide personalized services, which is increasingly concerned by users. In order to provide personalized services for users, we must dig up the relevant domain knowledge background of users. In general, the search engine collects a large number of user search logs, which record the user history query words and the corresponding information of clicking on the web page, which provides a user-oriented knowledge model for the search engine. By analyzing these historical data, we can mine the domain background knowledge of the user. Ontology (Ontology) as the key technology of semantic Web, it makes the sharing and interaction of information easy and simple by providing the vocabulary and formal concept of a domain. The main work of this paper is as follows:. First of all, this paper proposes a novel method to calculate the semantic similarity of user query words, using AGNES(Agglomerative clustering hierarchical clustering algorithm. The user query words are classified according to the user's personalized interest and knowledge background. Firstly, three kinds of semantic similarity relation of user query words based on user search log are proposed. 1 based on the similarity of the original query words of the user, this paper proposes three kinds of semantic similarity relation of user query words based on user search log. Relationship 2 is based on the similarity relation of user extended query words. 3 based on the similarity relation of user clicking on URLs, this paper analyzes the three semantic relationships. A novel method of calculating the semantic similarity of user query words is formed by combining them according to linear combination. Based on this function of semantic similarity, AGNES hierarchical clustering algorithm is used. The user query words are clustered according to the topics reflected in the user search log, so as to eliminate the ambiguity of the meaning of the user query words. Secondly, this paper proposes a knowledge model of topic domain of user query word interest, which is based on the result of semantic clustering of user query words and WordNet general ontology. The process of this method is as follows: (1) clustering result according to the user query word meaning topic, Generate user original query words-user click document and extended query word-user click formal background between documents / optimize extended query word-user clicks on formal background between documents, The formal background of the original query words and the optimized extended query words is combined, and the concept lattice is constructed, which is transformed by the rules of concept lattice-ontology transformation. The concept lattice is transformed into the initial ontology 3, which uses WordNet to optimize the initial ontology. The user ontology expresses a user's interest preference and then applies it to the subject search engine. Furthermore, the information collection can be improved from keyword based correlation matching technology to semantic level based search. Finally, using VC 6.0 to develop the application program to verify. The experiment shows that the user query words can better distinguish their real semantics and eliminate their semantic fuzziness according to the user's interest and knowledge background through the method of ontology construction in this paper.
【学位授予单位】:西华大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP391.1
【相似文献】
相关期刊论文 前10条
1 马峻;一种从线性概念图中自动抽取本体概念的算法[J];计算机工程与应用;2004年23期
2 黄建华;朱才连;;基于本体的BADD原型系统研究[J];上海理工大学学报;2006年02期
3 徐剑波;王仁武;陈家训;;基于本体的概念辨析[J];现代图书情报技术;2006年06期
4 董敏红;;图书馆开展用户信息服务的探讨[J];科技情报开发与经济;2006年24期
5 袁琴;杨小虎;;基于本体分类的Web服务合成的研究及应用[J];计算机工程;2007年02期
6 全没;;数字图书馆知识服务中用户信息需求分析的存在问题及对策[J];情报探索;2007年02期
7 李宝珍;;基于知识管理的用户信息服务探讨[J];中国市场;2007年01期
8 王福成;沈记全;陈科;;基于网格的异构数据库整合研究[J];应用科技;2007年09期
9 宋涯含;延清;;基于本体的网络信息组织方法的理论研究[J];图书馆论坛;2007年04期
10 毋涛;黄宁;;基于语义的工作流过程优化[J];计算机工程与应用;2008年09期
相关会议论文 前10条
1 徐立恒;刘洋;来斯惟;刘康;田野;王渝丽;赵军;;基于多特征表示的本体概念挂载[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 缪嘉嘉;李爱平;刘志忠;吴泉源;贾焰;;一种面向语义信息集成的本体扩展方法[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
3 张德政;刘洁卉;;基于图分析的领域知识获取技术[A];着力提高高等教育质量,努力增强高校创新与服务能力——北京市高等教育学会2007年学术年会论文集(上册)[C];2008年
4 王晓光;昃琳;刘涛;;以用户为中心的图书馆——图书馆服务模式研究[A];信息时代——科技情报研究学术论文集(第三辑)[C];2008年
5 李宏伟;吴国荣;袁永华;;基于本体的Web服务自动组合方法研究[A];第四届海峡两岸GIS发展研讨会暨中国GIS协会第十届年会论文集[C];2006年
6 许勇;王智学;李宗勇;;基于图形化的本体一致性检查[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
7 李帆;夏士雄;张磊;王志愿;;基于语义划分的多层关联规则冗余处理方法[A];2010年全国开放式分布与并行计算机学术会议论文集[C];2010年
8 陈静;朱巧明;贡正仙;李培锋;;特定本体指导的信息抽取技术研究[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
9 郑萍;;数字图书馆时代用户信息需求及信息服务[A];福建省社会科学信息中心2005年年会论文集[C];2005年
10 吴国凤;吴乃鑫;;基于语义的Web服务动态组合算法[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
相关重要报纸文章 前10条
1 院图书馆 杨华;网络环境下社科信息需求的特点与服务策略[N];中国社会科学院院报;2006年
2 绍兴市委党校 罗新阳;构建网络民情分析机制[N];绍兴日报;2009年
3 廉迎战;建立新型服务体系培养优秀信息人才[N];科技日报;2007年
4 汪学群;乾嘉汉学家对理的新诠释[N];中国社会科学院院报;2008年
5 孟伟松 王万隆;专业支撑 综合落地[N];人民邮电;2007年
6 记者 张勇;“搜”里商机无限 门户化大势所趋[N];民营经济报;2006年
7 艾宇欣;搜索市场山雨欲来 群雄割据谁与争峰[N];中国工业报;2006年
8 记者 钱戈 通讯员 陆敏;安庆移动大力拓展农村市场[N];人民邮电;2006年
9 本报记者 顾克非;短信网址为服务行业点石成金[N];消费日报;2006年
10 王卫;网络图书馆服务“十化”[N];永州日报;2006年
相关博士学位论文 前10条
1 周义刚;基于本体分子的动态知识组织模型及其应用研究[D];武汉大学;2010年
2 米杨;基于顶级本体整合的医学领域语义标注研究[D];吉林大学;2012年
3 姜赢;维度本体及其应用[D];武汉大学;2009年
4 云红艳;设备功能视点下的海洋生态本体构建及应用研究[D];中国海洋大学;2012年
5 杨志和;教育资源云服务本体与技术规范研究[D];华东师范大学;2012年
6 冯莎莎;本体逻辑差的研究[D];吉林大学;2011年
7 陈雯;基于本体框架的交通出行语义轨迹建模、标记及数据库研究[D];华东师范大学;2011年
8 饶国政;基于语义WIKI的本体知识库研究[D];天津大学;2009年
9 陈立;物流信息语义匹配研究[D];北京交通大学;2011年
10 钟美;基于Web的空间本体构建方法研究[D];武汉大学;2010年
相关硕士学位论文 前10条
1 王娜;基于Silverlight技术的本体编辑器的设计与实现[D];中国海洋大学;2010年
2 范轶;基于本体推理的心电图辅助诊断系统研究[D];吉林大学;2010年
3 徐济成;面向农业领域的本体学习建模研究[D];安徽农业大学;2010年
4 李琼;基于机器学习的本体概念映射研究[D];西安工业大学;2010年
5 王刚;本体构建研究及其在火车订票系统中的应用[D];江苏科技大学;2010年
6 张义飞;基于改进的PI演算的本体演化形式化描述方法[D];吉林大学;2010年
7 孙娅彬;基于本体的物流资源检索技术研究[D];山东师范大学;2010年
8 朱颖;本体技术在陶瓷产品配置系统中的研究与应用[D];景德镇陶瓷学院;2010年
9 王松;高效的异构本体匹配技术研究[D];南开大学;2011年
10 王志俊;语义Web中基于OKQT的本体知识路由实现机制[D];太原理工大学;2010年
本文编号:1502644
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1502644.html