基于地理信息的检索和用户数据挖掘
本文选题:地理信息检索 + 数据挖掘 ; 参考:《大连理工大学》2013年硕士论文
【摘要】:Web技术的发展,使得网页中包含了大量的地理信息,挖掘网页中包含的地理信息,将其应用到传统的信息检索领域,有助于搜索引擎更好的理解用户的查询意图,产生个性化的搜索结果。移动互联网技术和基于位置服务LBS(Location-based services)的迅猛发展,催生了新的社交网络。用户在这些新的社交网络中,可以发表自己的看法,实时记录自己参加的活动和活动场所。这就使得通过大量真实的用户数据挖掘用户的活动范围、学习用户行为习惯成为可能,从而可以提供更好地广告服务和个性化推荐。 本文主要从以下三个方面对地理信息的应用进行研究: 首先,基于文档地名感知的地理信息检索模型,将地理信息应用到传统的信息检索模型中。区别于其它的地理信息检索模型,此模型不使用最小边界矩形确定文档范围,将文档索引在单一的空间索引中,而是将文档按其中出现的地名索引在多个空间范围内,计算单个地名范围与查询范围的相似度,将所有相似度的和作为地理相关性。模型融合时,考虑了地理信息的层次特征和文档的特征。实验表明本文的模型优于传统的检索模型和确定文档地理范围的地理信息检索模型。 其次,Twitter中基于用户tweet内容和社会网络的用户位置预测。如果获取到用户经常活动的范围,互联网就可以提供更加个性化的推荐服务。用户在发表tweet时都会有意或无意的泄漏一些地理词(地名或者是方言词汇),并且他们在社交网络中更关注生活在周围的人,本文提出一种融合文本模型与社会网络模型的混合概率模型来预测用户的位置。在文本模型中,提出两种识别地理词的方法,反位置频率和偏远位置过滤,同时也考虑了命名实体识别这种传统的地理词识别方法;在社会网络模型中本文考虑了用户粉丝(或者是关注)的网络关系。实验结果证明本文的方法预测效果要好于之前的方法。 最后,LBS中基于用户兴趣和时间的位置推荐。LBS中用户海量的签到数据,为学习用户的行为习惯、兴趣爱好和位置的特征提供了便捷条件,从而可以更好的为用户其推荐感兴趣的和合适的场所。本文提出一种推荐模型,它考虑了用户的访问时间、位置的时间特征和流行度、用户的兴趣、用户朋友的影响和用户所在位置等信息。在签到数据集进行的实验表明,融合时间和用户兴趣的推荐确实能提高推荐的效果。
[Abstract]:With the development of Web technology, the web pages contain a lot of geographical information, mining the geographical information contained in the web pages, and applying them to the traditional information retrieval field, which is helpful for search engines to better understand the query intention of users. Generate personalized search results. With the rapid development of mobile Internet technology and location-based services (Location-based services), new social networks have been created. In these new social networks, users can express their views and record their activities and venues in real time. This makes it possible to learn the behavior habits of users through a large amount of real user data mining the scope of user activities, so as to provide better advertising services and personalized recommendation. This paper mainly studies the application of geographical information from the following three aspects: firstly, the geographical information retrieval model based on document place name perception is applied to the traditional information retrieval model. Different from other geographic information retrieval models, this model does not use the minimum boundary rectangle to determine the document range, but indexes the document in a single spatial index. The similarity between a single geographical name range and a query range is calculated, and the sum of all similarity measures is regarded as geographical correlation. The hierarchical features of geographic information and the features of documents are taken into account when the model is fused. The experimental results show that the proposed model is superior to the traditional retrieval model and the geographic information retrieval model which determines the geographical range of documents. Secondly, the user location prediction based on user tweet content and social network. If you get a range of user activity, the Internet can provide a more personalized recommendation service. Users release geographic words (place names or dialect words) intentionally or unintentionally when they post tweet, and they pay more attention to people living around them on social networks. In this paper, a hybrid probabilistic model combining text model and social network model is proposed to predict the user's position. In the text model, two methods are proposed to recognize geographical words, inverse location frequency and remote location filtering. At the same time, named entity recognition is considered as the traditional method of geographical word recognition. In the social network model, this paper considers the relationship of user fans (or concerns). The experimental results show that the prediction effect of this method is better than that of the previous method. Finally, the massive sign-in data of users in LBS based on user interest and time recommendation. LBS provides a convenient condition for learning the behavior habits, interests and location characteristics of users. In order to better recommend for the user of their interest and the appropriate place. In this paper, a recommendation model is proposed, which considers the access time, temporal characteristics and popularity of the user, the interest of the user, the influence of the user's friends and the location of the user. The experiments in the check-in data set show that the recommendation of fusion time and user interest can improve the effect of recommendation.
【学位授予单位】:大连理工大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP391.3
【相似文献】
相关期刊论文 前10条
1 柳巧玲;米天胜;;基于语义网的智能信息检索研究[J];科技管理研究;2008年08期
2 赖茂生;屈鹏;;相关性基础理论及其在检索建模中的作用研究[J];情报理论与实践;2008年06期
3 乔亚男;齐勇;侯迪;;高阶信息检素问题相关研究进展[J];中国科技论文在线;2009年01期
4 刘静;;关于知识检索的思考[J];内江科技;2009年06期
5 李娟;;基于本体论的个性化信息检索[J];黑龙江科技信息;2009年35期
6 马文峰;杜小勇;;知识检索研究[J];情报理论与实践;2006年02期
7 丁政建;李飞;;基于本体的信息检索技术的研究[J];科学技术与工程;2008年13期
8 樊红侠;;基于粗糙—模糊集的Web信息检索改进模型[J];现代图书情报技术;2008年08期
9 杨毅超;黄璜;;基于Agent的农业信息检索系统应用研究[J];安徽农业科学;2009年11期
10 虞为;曹加恒;曾承;黄敏;陈俊鹏;;基于语义索引词的语义网信息检索模型[J];计算机工程;2007年03期
相关会议论文 前10条
1 梅伟;刘惟一;;基于可信度的信息检索模型[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
2 邓志鸿;张铭;陈捷;杨冬青;唐世渭;;基于本体的Web信息检索模型初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
3 马少平;张敏;;信息检索研究:过去三十年中我们走了多远[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
4 石敏;康耀红;;关于广义向量空间模型中布尔运算的修正[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
5 沈勇;汤兆石;;基于信息隐藏技术的音频标注与检索[A];第八届全国人机语音通讯学术会议论文集[C];2005年
6 普东航;唐常杰;元昌安;廖勇;张天庆;于中华;;一种基于相邻地址的信息检索模型AAM[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
7 盛俊;王明文;余俊英;;一种基于潜在语义的Markov网络信息检索模型[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
8 张玉连;陈琳娜;陈金森;;基于本体的个性化服务用户模型研究[A];第二届和谐人机环境联合学术会议(HHME2006)——第2届中国普适计算学术会议(PCC'06)论文集[C];2006年
9 吴晨;张全;缪建明;韦向峰;;自然语言语义理解下的信息检索模型[A];第三届学生计算语言学研讨会论文集[C];2006年
10 郭稷;骆卫华;;一种基于索引模型融合的面向问答的信息检索方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
相关博士学位论文 前10条
1 程凡;基于排序学习的信息检索模型研究[D];中国科学技术大学;2012年
2 马晖男;信息检索中浅层语义模型的研究[D];大连理工大学;2007年
3 宋峻峰;面向语义Web的领域本体表示、推理、集成及其应用研究[D];国防科学技术大学;2006年
4 杨为民;基于场论的信息检索模型的研究[D];安徽大学;2007年
5 王树梅;信息检索相关技术研究[D];南京理工大学;2007年
6 王瑞琴;基于语义处理技术的信息检索模型研究[D];浙江大学;2009年
7 高琰;基于多特征的Web社区发现关键技术研究[D];中南大学;2007年
8 江开忠;上下文感知的Web搜索关键技术研究[D];华东师范大学;2008年
9 胡志华;基于免疫系统的协同进化机制及其应用研究[D];东华大学;2009年
10 徐建民;基于术语关系的贝叶斯网络信息检索模型扩展研究[D];天津大学;2007年
相关硕士学位论文 前10条
1 汪晨;基于本体的信息检索系统研究[D];合肥工业大学;2007年
2 丁志刚;基于类别意图的信息检索模型[D];北京邮电大学;2009年
3 唐俊;基于概念格的个性化信息检索研究[D];西华大学;2006年
4 王程;语义网络环境下的信息检索模式研究[D];黑龙江大学;2006年
5 赵嫣;信息检索中结构化文档相关度计算方法的研究[D];山东大学;2007年
6 刘春泳;中文问答系统中信息检索模型的研究[D];重庆大学;2007年
7 李立;中文信息检索系统研究[D];华中师范大学;2008年
8 贾文杰;基于多Agent的个性化信息检索技术的研究[D];哈尔滨工业大学;2007年
9 顾雅枫;基于用户兴趣模型的信息检索研究[D];兰州大学;2009年
10 赵爽;基于贝叶斯网络的结构化文档检索[D];河北大学;2006年
,本文编号:2058874
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2058874.html