APP标签挖掘及应用系统的设计与实现
本文选题:标签挖掘 + 垂直搜索 ; 参考:《哈尔滨工业大学》2013年硕士论文
【摘要】:随着智能手机的广泛流行,移动互联网正不断改变着人们的生活方式,将用户从PC端带到了移动端,这一切都是因为手机应用程序(Application)的丰富,使移动终端基本上具有电脑的所有功能,并且使用更加便捷;但是随着App数量的不断增长,用户对App的检索需求也不断加大,传统的搜索引擎很难准确的返回用户所需要的信息,,浪费了大量时间。 本文的主要研究内容是通过文本挖掘的方法从网页信息与查询日志两方面获取App的概念体系、属性及语义三种不同的标签,并最终通过这些标签构建一个面向App领域的垂直搜索应用,进行App查询和推荐服务。 App的概念体系标签挖掘是通过获取App网站导航栏信息的方式实现的,通过对导航栏的解析可以获得App的分类信息,之后通过本文提出的一种基于余弦相似度和同义词扩展的分类体系融合策略将所有分类信息进行合并,使得每一个App都有自己的分类体系;对于属性标签,是将抓取到的App简介信息作为文本,通过关键词抽取技术获得而成的;语义标签的获取则是通过查询日志实现的,使用查询日志中的Query、Titile、Url和点击行为等信息,通过本文提出的一系列规则和过滤策略使得查询Query和App一一对应起来,再通过分词、词法分析、句法分析等手段对Query进行处理,获取其语义标签。以上标签挖掘方法不需要人工参与,节省了大量资源开销。 整个应用系统采用Django框架进行搭建,并通过Lucene全文搜索工具包对标签数据构建索引,实现了具有语义分析功能的检索系统。经过功能测试,满足人们对App领域检索的需求。
[Abstract]:With the popularity of smartphones, the mobile Internet is changing the way people live, bringing users from the PC to the mobile, all because of the abundance of mobile applications. The mobile terminal has almost all the functions of the computer, and it is more convenient to use. But with the increasing number of App, the search demand for App is also increasing. Traditional search engines are difficult to accurately return the information users need, wasting a lot of time. The main research content of this paper is to obtain three different tags of App from two aspects: Web page information and query log through text mining. Finally, a vertical search application oriented to the App domain is constructed through these tags, and the App query and recommendation services are carried out. The concept system tag mining of App is realized by obtaining the information of the navigation bar of the App website. The classification information of App can be obtained by analyzing the navigation bar, and then the classification information is merged by a classification system fusion strategy based on cosine similarity and synonym extension proposed in this paper. So that each App has its own classification system; for attribute tags, the captured App information is taken as text, obtained by keyword extraction technology; semantic tags are obtained through query logs. Using query Titileurl and click-behavior information in query log, query and App are matched one by a series of rules and filtering strategies proposed in this paper, and then query is processed by participle, lexical analysis, syntactic analysis and so on. Gets its semantic tag. The above label mining method does not need human participation, saving a lot of resources. The whole application system is constructed with Django framework, and the label data is indexed by Lucene Full-text search Toolkit. The retrieval system with semantic analysis function is realized. Through the function test, satisfy the people to the App domain retrieval demand.
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP391.1
【相似文献】
相关期刊论文 前10条
1 ;第七届典型应用系统及优秀软件铜牌证书(部分)[J];办公自动化;2007年24期
2 ;第七届典型应用系统及优秀软件铜牌证书(部分)[J];办公自动化;2008年01期
3 姜明媚;;完美搜索[J];互联网周刊;2007年05期
4 周作涛;;垂直搜索在电子商务中的应用分析[J];陕西理工学院学报(自然科学版);2008年03期
5 赵宏中;李亚;;垂直搜索引擎应用研究[J];现代商贸工业;2010年04期
6 尹建芬;;Sony显示应用系统拉开巡展[J];电子测试;2000年08期
7 莓荔;;OA’2001典型应用系统颁证暨2002年新春联谊会在京举行[J];办公自动化;2002年01期
8 郑力明;易平;;基于HTMLParser信息提取的网络爬虫设计[J];微计算机信息;2009年15期
9 秦茜;;期待搜狗抹平新账旧债马云张朝阳合谋垂直搜索[J];IT时代周刊;2010年17期
10 刘金亮;苏琳;石云;;基于Nutch的垂直搜索技术研究[J];电脑知识与技术;2011年24期
相关会议论文 前10条
1 彭煊;;中国科协应用系统整合的研究与设计[A];第十一届中国科协年会第33分会场新媒体与科技传播研讨会论文集[C];2009年
2 高霞;;集输总厂管线数据的采集、存储与应用[A];中国石油石化数字管道信息化建设论坛暨燃气管网安全、经济、运营技术交流研讨会论文集[C];2009年
3 彭煊;;中国科协应用系统整合的研究与设计[A];自主创新与持续增长第十一届中国科协年会论文集(4)[C];2009年
4 李千目;戚ng;孙向军;刘凤玉;;一种分布式Web应用系统研究与设计[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
5 陈丽文;廖苑晴;;国小4~6年级防灾评量之研究[A];全国教育与心理统计与测量学术年会暨第八届海峡两岸心理与教育测验学术研讨会论文摘要集[C];2008年
6 段义农;马济宏;胡新平;李荣;;《医学寄生虫学考试应用系统》简介[A];中国动物学会第八次全国寄生虫学学术讨论会论文摘要汇编[C];2001年
7 林郁;刘雄辉;;重点烟草企业的应用系统集成(EAI)的解决方案[A];中国烟草行业信息化研讨会论文集[C];2004年
8 赵韵华;;上海公路网交通调查数据处理及分析应用系统浅析[A];中国公路学会2005年学术年会论文集(上)[C];2005年
9 李永坚;;主动窗体(ActiveForm)技术在Intranet中的应用[A];广西电机工程学会第七届青年学术交流会论文集[C];2002年
10 韩健;廖之平;罗超;;传统测绘单位发展GIS应用软件服务探讨[A];中国测绘学会九届四次理事会暨2008年学术年会论文集[C];2008年
相关重要报纸文章 前10条
1 薛娟;垂直搜索盯紧风投的口袋?[N];中国经济时报;2006年
2 李永胜;垂直搜索:Google们漏掉的空档?[N];中国计算机报;2006年
3 ;移动垂直搜索开拓中国搜索新天地[N];人民邮电;2006年
4 沉风;垂直搜索:互联网服务生活新方向[N];人民邮电;2007年
5 姜蓉;垂直搜索是搜索市场的新“钱景”[N];中国经营报;2005年
6 苏娟;中移动即将上线无线音乐垂直搜索业务[N];中国计算机报;2008年
7 建平;专业垂直搜索升温[N];计算机世界;2005年
8 魏蓓;中文商业搜索引擎提供垂直搜索服务[N];市场报;2006年
9 本报记者 廖庆升;在线旅游市场格局生变 垂直搜索降低出游成本[N];通信信息报;2010年
10 任一鸣;垂直搜索:抓住细分需求[N];计算机世界;2007年
相关博士学位论文 前10条
1 管虎;普适环境下轻量级垂直搜索中数据挖掘理论研究[D];上海交通大学;2013年
2 盛柏杨;APP的异常剪切导致神经损伤的机理研究[D];清华大学;2009年
3 薛卫国;电针对APP转基因鼠脑Aβ水平及脑微血管病变影响的研究[D];北京中医药大学;2010年
4 危立飞;丁内酯衍生物3BDO通过降低脑内Aβ含量改善了APP/PS1双转基因模型小鼠的认知障碍[D];山东大学;2012年
5 林楠;雷公藤氯内酯醇(T_4)通过改善突触可塑性和APP代谢减轻SAMP8小鼠认知功能损害[D];福建医科大学;2012年
6 张忠;益智汤对APP695转基因小鼠的治疗作用及其机理研究[D];北京中医药大学;2010年
7 张永进;面向防汛抗旱指挥系统的应用集成中间件平台研究[D];西北大学;2007年
8 王萍;血管内皮生长因子改善APP转基因小鼠认知功能的作用及机制研究[D];山东大学;2011年
9 张雪英;基于粗糙集理论的文本自动分类研究[D];南京理工大学;2005年
10 张华;胰岛素样生长因子-1对PC12细胞APP代谢和BACE-1表达的影响及其机制的研究[D];重庆医科大学;2011年
相关硕士学位论文 前10条
1 冯骁骋;APP标签挖掘及应用系统的设计与实现[D];哈尔滨工业大学;2013年
2 钱守义;校园网络教学应用系统的设计与实现[D];电子科技大学;2010年
3 李海鹏;应用系统的形式化描述研究与实现[D];电子科技大学;2011年
4 王X昊;辽宁省电子地图应用系统的设计与实现[D];大连理工大学;2012年
5 龚晓瑞;通用证券应用系统的设计与实现[D];北京邮电大学;2010年
6 陈耿;基于UML的应用系统建模研究[D];武汉大学;2004年
7 原晓敏;环境应用系统业务运行管理分系统的设计与实现[D];北京交通大学;2012年
8 曹静;耳鸣治疗仪应用系统的研究与实现[D];西安科技大学;2010年
9 韩雪娇;英语试题关键词抽取算法研究[D];北方工业大学;2013年
10 廖斌;分布式应用系统的研究与开发[D];武汉理工大学;2003年
本文编号:2013074
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2013074.html