当前位置:主页 > 管理论文 > 移动网络论文 >

基于重要度与紧密度的搜索串核心词提取系统

发布时间:2016-10-27 20:54

  本文关键词:我国近期移动地图与互联网地图发展综述,由笔耕文化传播整理发布。


《哈尔滨工业大学》 2014年

基于重要度与紧密度的搜索串核心词提取系统

孔繁硕  

【摘要】:近年来随着互联网,尤其是移动互联网的广泛发展,电子地图的使用越来越广泛,而电子地图搜索引擎应运而生。电子地图提高服务质量,一方面需要更为精准、更为庞大、更为细致、更为时效的数据点信息,同时另一方面还需要可以理解用户需求,结果更为精准的搜索引擎。查询分析是搜索引擎中的重要环节,,其与用户首先接触,理解用户意图,指导后续的信息召回与排序。通过核心词提取系统,提取用户搜索串的核心词,是优化查询分析结果的重要途径。 本文以当前搜索引擎的发展为基础,自然语言处理技术为背景,分析了当前搜索引擎中基于查询日志,利用自然语言处理技术对搜索串进行处理的现状,与当前电子地图搜索引擎的业务需求相结合,给出了核心词提取系统的需求分析。同时从技术角度采用朴素贝叶斯模型与双字耦合度,提高基于统计的机器学习的准确性。 本文给出了重要度与紧密度的定义与计算方法,前者根据重要度计算公式,通过朴素贝叶斯模型找到与原文本相近的文本,并通过语素在相近文本出现的概率求得其在原文本中的重要度。后者利用近似双字耦合度的方式,通过用两个语素连续出现频率与两个语素同时出现频率之商计算两个语素间的紧密度。 本文使用C++语言、Python语言以及MapReduce平台,对核心词提取系统进行开发。从设计上分为两大部分,离线挖掘与在线处理。离线挖掘部分包括重要度挖掘模块和紧密度挖掘模块。根据重要度与紧密度的计算公式,利用MapReduce平台,实现了大数据的分布式处理,在保证计算准确性的同时,提高了数据挖掘的效率。在线使用部分包括核心词提取模块。其利用离线挖掘的重要度与紧密度词表,与实体词、黑、白名单、搜索串成分规则等策略相结合,实现了对于搜索串的核心词提取。 同时本文通过增加语料库的数量和调整融合参数,对重要度与紧密度的离线挖掘结果进行优化。通过增加调整提取策略,对核心词提取模块的准确性进行提高。最终实现了核心词提取系统的优化。 本文通过将基于统计的机器学习与人工制定的规则相结合,设计并实现了核心词提取系统,并不断优化核心词提取的结果。在最终评测中,新版系统与老版完全基于人工规则的系统相比,最终效果提高30.9%,提高效果明显。该系统已成功上线使用,为广大用户提供服务。

【关键词】:
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP311.52
【目录】:

下载全文 更多同类文献

CAJ全文下载

(如何获取全文? 欢迎:购买知网充值卡、在线充值、在线咨询)

CAJViewer阅读器支持CAJ、PDF文件格式


【参考文献】

中国期刊全文数据库 前10条

1 肖蓓;湛邵斌;尹楠;;浅谈电子地图的应用及其产品开发模式[J];吉林大学学报(地球科学版);2006年S1期

2 周侗;龙毅;;我国近期移动地图与互联网地图发展综述[J];地理与地理信息科学;2012年05期

3 李生;;自然语言处理的研究与发展[J];燕山大学学报;2013年05期

4 付博;赵世奇;刘挺;;Web查询日志研究综述[J];电子学报;2013年09期

5 孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳;利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J];计算机研究与发展;1997年05期

6 鲁松,白硕;自然语言处理中词语上下文有效范围的定量描述[J];计算机学报;2001年07期

7 王中锋;王志海;;基于条件对数似然函数导数的贝叶斯网络分类器优化算法[J];计算机学报;2012年02期

8 王灿辉;张敏;马少平;;自然语言处理在信息检索中的应用综述[J];中文信息学报;2007年02期

9 张钹;;自然语言处理的计算模型[J];中文信息学报;2007年03期

10 王思力;王斌;;基于双字耦合度的中文分词交叉歧义处理方法[J];中文信息学报;2007年05期

【共引文献】

中国期刊全文数据库 前10条

1 范生万;王浩;;贝叶斯网络在高职英语应用能力考试中的应用研究[J];安徽工程科技学院学报(自然科学版);2007年04期

2 范生万;;贝叶斯网络分类模型在教育中的应用研究[J];安徽建筑工业学院学报(自然科学版);2008年01期

3 徐文权;;基于Symbian OS系统的垃圾短信过滤器设计与实现[J];安庆师范学院学报(自然科学版);2012年02期

4 杨炳儒,周颖,张德政;KDD的研究进展及其哲学思考[J];北京航空航天大学学报(社会科学版);2000年01期

5 肖蓓;湛邵斌;尹楠;;浅谈电子地图的应用及其产品开发模式[J];吉林大学学报(地球科学版);2006年S1期

6 许长福;李雄炎;谭锋奇;于红岩;李洪奇;;任务驱动数据挖掘方法的提出及在低阻油层识别中的应用[J];吉林大学学报(地球科学版);2012年01期

7 李宁;徐虹;;基于文本分类的语义平滑在语言模型中的应用(英文)[J];成都信息工程学院学报;2008年03期

8 刘晓东;王明常;;建立城市消防信息系统的构想与评价[J];长春工程学院学报(自然科学版);2000年00期

9 刘晓东,王明常;建立城市消防信息系统的构想与评价[J];长春工程学院学报(自然科学版);2000年01期

10 窦嵘;加羊吉;黄伟;;统计与规则相结合的藏文人名自动识别研究[J];长春工程学院学报(自然科学版);2010年02期

中国重要会议论文全文数据库 前10条

1 杨波;秦锋;程泽凯;;一种新的分类学习系统评估度量[A];2005年“数字安徽”博士科技论坛论文集[C];2005年

2 黄洪纤;孙浩;;电子地图的色彩亮度等级感受研究[A];江苏省测绘学会2011年学术年会论文集[C];2011年

3 于江德;王希杰;樊孝忠;;汉语词法分析中上文和下文孰重孰轻[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

4 王雅莉;古丽拉·阿东别克;;哈萨克语通用词汇自动提取方法研究与实现[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

5 舒宁;陶建斌;;面向土地利用分类的多源遥感数据混合贝叶斯网络分类器[A];全国农业遥感技术研讨会论文集[C];2009年

6 关清平;沉培辉;;概率网络在数据挖掘上的应用[A];科技、工程与经济社会协调发展——中国科协第五届青年学术年会论文集[C];2004年

7 付国宏;王晓龙;龚永红;;基于词形的汉语文本切分方法[A];第五届全国人机语音通讯学术会议论文集[C];1998年

8 马后锋;樊兴华;;一种改进的增量贝叶斯分类算法[A];2007'仪表,自动化及先进集成技术大会论文集(一)[C];2007年

9 刘芳;侯璇;刘宁;於建峰;;《军官地图集》电子版的设计[A];地图学与GIS学术讨论会论文集[C];2002年

10 沈海峰;梁曼君;;基于贝叶斯网络的数据挖掘技术[A];全国第十四届计算机科学及其在仪器仪表中的应用学术交流会论文集[C];2001年

中国博士学位论文全文数据库 前10条

1 孟宇龙;基于本体的多源异构安全数据聚合[D];哈尔滨工程大学;2010年

2 李书艳;单点氨基酸多态性与疾病相关关系的预测及其机制研究[D];兰州大学;2010年

3 杜方;复杂网络系统间相似性识别及其应用[D];浙江大学;2010年

4 谢超;自适应地图可视化关键技术研究[D];解放军信息工程大学;2009年

5 刘运通;产品设计过程知识配送服务关键技术研究[D];浙江大学;2011年

6 魏小涛;在线自适应网络异常检测系统模型与相关算法研究[D];北京交通大学;2009年

7 祁瑞华;不完整数据分类知识发现算法研究[D];大连理工大学;2011年

8 萧毅鸿;基于本体的复杂决策任务表示方法与求解技术研究[D];南京大学;2011年

9 舒江波;面向中文信息处理的复句关系词自动标识研究[D];华中师范大学;2011年

10 梁建宁;特征选择与图像匹配[D];复旦大学;2011年

中国硕士学位论文全文数据库 前10条

1 程国斌;基于指示词语义扩展的词义识别方法的研究[D];哈尔滨工程大学;2010年

2 裴喆;防空导弹脱靶量测量方法研究[D];哈尔滨工程大学;2010年

3 许明敏;基于维基百科和web共现分析的概念关系网构建系统研究与实现[D];华东师范大学;2011年

4 江涛;基于藏文web舆情分析的热点发现算法研究[D];西北民族大学;2010年

5 李英伟;基于增量改进贝叶斯领域问句分类研究[D];昆明理工大学;2009年

6 胡家豪;基于互联网的WEB舆情问答系统[D];电子科技大学;2011年

7 王辉;计及分布式电源的配电系统可靠性评估[D];河北农业大学;2011年

8 高晓利;基于贪婪搜索的贝叶斯网络结构学习算法[D];西安电子科技大学;2011年

9 黄美兰;车辆标志自动识别方法研究[D];西安电子科技大学;2011年

10 齐保元;知识文档的语义检索方法研究与实现[D];首都师范大学;2011年

【二级参考文献】

中国期刊全文数据库 前10条

1 房世波,杨武年,潘剑君,姜小三;GIS,RS和GPS支持下的精确施肥理论技术及展望[J];成都理工大学学报(自然科学版);2003年06期

2 陈德生;郭在华;汤志亚;;基于GPRS网络的气象要素自动采集系统设计与应用[J];成都信息工程学院学报;2006年02期

3 张怀莉;基于Web GIS的房地产信息发布系统[J];测绘工程;2002年01期

4 陈建斌;朱宝山;姬渊;韩文娟;;嵌入式环境下跨平台地图显示技术[J];测绘科学;2009年02期

5 黄维;杨武年;徐强;;顾及心象地图特征的导航电子地图设计[J];测绘科学;2009年S1期

6 邓淑丹;江文浦;;网络动画类动态符号的研究[J];测绘科学;2010年01期

7 刘芳;王光霞;辛欣;侯璇;;基于Web2.0的网络地图设计研究[J];测绘科学;2010年S1期

8 徐占华;夏君;;基于SOA的网络地图服务系统设计[J];测绘技术装备;2010年04期

9 李宏利;张森;盛秀杰;杜坤;马威;;导航电子地图中的路口聚合模型与方法[J];地理信息世界;2009年05期

10 田鹏;李军;陈桂红;;海量矢量地图数据网络发布的引擎开发与应用实践[J];地理信息世界;2010年02期

【相似文献】

中国期刊全文数据库 前10条

1 李双红;李茹;钟立军;郭伟昱;;基于多词块的框架元素语义核心词自动识别研究[J];中文信息学报;2010年01期

2 张玥;张宏莉;;基于关联性的热点话题识别[J];智能计算机与应用;2014年03期

3 苑俊英;陈海山;;一种改进的特征选取方法[J];科技信息;2009年04期

4 ;[J];;年期

5 ;[J];;年期

6 ;[J];;年期

7 ;[J];;年期

8 ;[J];;年期

9 ;[J];;年期

10 ;[J];;年期

中国重要会议论文全文数据库 前3条

1 刘晓虹;;公民意识的内核是爱国——从制度经济学的角度看公民意识[A];公民意识研究[C];2008年

2 李双红;李茹;钟立军;;基于多词块的框架元素语义核心词自动识别研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年

3 余东升;;面向21世纪的本科生学习[A];“卧龙人生”文化讲演录(第二辑)[C];2012年

中国重要报纸全文数据库 前7条

1 记者 王力;[N];杭州日报;2011年

2 市委党校党史党建教研部主任 蒋儒标;[N];温州日报;2012年

3 市社科联副主席 卢达;[N];温州日报;2012年

4 中共浙江省委宣传部原副部长 浙江省社科联原主席 研究员 雷云;[N];杭州日报;2012年

5 本报记者 虞荣平;[N];黄石日报;2006年

6 周仲平;[N];舟山日报;2012年

7 临风;[N];科技日报;2014年

中国博士学位论文全文数据库 前10条

1 吴宝安;西汉核心词研究[D];华中科技大学;2007年

2 龙丹;魏晋核心词研究[D];华中科技大学;2008年

3 武晓丽;汉语核心词“人”研究[D];华中科技大学;2011年

4 刘晓静;东汉核心词研究[D];华中科技大学;2011年

5 邓春琴;南北朝核心词研究[D];华中科技大学;2012年

6 施真珍;《后汉书》核心词研究[D];华中科技大学;2009年

7 卓婷;《战国策》十二组核心词研究[D];华中科技大学;2013年

8 张芳;汉语核心词“水”研究[D];华中科技大学;2011年

9 翟颖华;面向第二语言教学的现代汉语核心词研究[D];武汉大学;2012年

10 王丽媛;俄语身体词研究[D];华中科技大学;2013年

中国硕士学位论文全文数据库 前10条

1 刘曦;《论衡》核心词研究[D];华中科技大学;2006年

2 龙丹;汉语“颜色类”核心词研究[D];华中科技大学;2005年

3 陈志国;同义词中核心词的提取[D];新疆师范大学;2006年

4 赵欣欣;《新华同义词词典》形容词的核心词提取与研究[D];河北师范大学;2011年

5 孔繁硕;基于重要度与紧密度的搜索串核心词提取系统[D];哈尔滨工业大学;2014年

6 吴晓佳;《生经》动词核心词研究[D];华中师范大学;2014年

7 马彬;事件关系识别关键技术研究[D];苏州大学;2014年

8 张玉代;“背负”类词汇历时演变研究[D];西北大学;2008年

9 冯俏;天等进结壮语与泰语核心词比较研究[D];广西民族大学;2012年

10 王龑;清塘壮语核心词研究[D];广西民族大学;2011年


  本文关键词:我国近期移动地图与互联网地图发展综述,由笔耕文化传播整理发布。



本文编号:155970

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/155970.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户3b84e***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com