面向微信内容的全文信息检索技术研究
发布时间:2020-06-15 11:26
【摘要】:随着移动互联网的快速发展,现有近1千万人注册了微信公众号,这些公众号已推送了数亿万计的微信文章。然而,目前针对如何挖掘使用大规模微信文章数据的研究较少。全文信息检索技术能够协助用户从海量的文章中找到他们想要的相关信息,基于此,本文研究了如何使用全文信息检索技术为用户提供高质量的微信内容。论文首先阐述了信息检索的关键技术。为了给用户提供高质量的微信文章,本文充分挖掘微信文章的特征,使用点赞数,阅读数等特征定义了微信文章的流行度;使用微信公众号的统计数据,比如该公众号所发布文章的日均阅读数等,定义了微信公众号的影响力;本文结合微信文章的流行度和微信公众号的影响力定义了微信文章的影响力,并结合Lucene的搜索排序算法,设计了一种新的适用于微信内容检索的文档相关度排序算法。本文并做实验对比了BM25算法、Lucene的排序算法和本文提出的文档相关度排序算法,验证了本文的算法获得的检索效果最好。本文系统地比较分析了常用的五种查询扩展方法,包括全局分析、局部分析、基于关联规则、基于用户查询日志和基于语义概念的查询扩展,总结了它们各自的优缺点。同时,本文使用词向量技术和文档主题模型算法设计了新的查询扩展方法应用于微信内容的检索。本文并做了实验比较本文提出的多种查询扩展方法,证明叠加式查询扩展方法LDA+Word2Vec对原查询扩展的效果最好。论文基于Lucene搜索引擎,设计并实现了面向微信内容的全文信息检索系统,该系统为用户提供了上传文件并建立索引、搜索微信文章、搜索微信公众号和展示微信公众号详情信息等服务。最后,论文总结了在实现面向微信内容的全文信息检索系统中所用到的技术,并对接下来的研究进行了展望。
【学位授予单位】:华东师范大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP391.3
【图文】:
第一章 绪 论 华东师范大学研究生硕士学位论文的程序)、为抓取的数据建立索引的索引器、检索索引内容的检索器和用户可以输入查询信息的用户接口 (UI: User Interface)。搜索引擎是为用户提供查询服务的工具,其使用计算机技术在整个互联网上抓取网页并建立索引,以帮助用户快速搜索信息。它的实现过程如图 1.1 所示。
图 2.1: 全文搜索引擎的工作流程它通过一种专业的计算机程序 (俗称爬虫:Spider) 无时无刻地从开放的网络寻和抓取网页内容,并对内容进行压缩处理,然后进行存储,在搜索者输入查息后,会在索引库中查找与用户查询相匹配的记录信息,最后将检索到的相关经过特定的排序算法处理后返回给用户。压缩存储在数据库中的数据可分为结构化数据和非结构数据。结构化数据,数据都是有固定格式且长度有限, 可以理解为行数据, 存储在数据库里, 其可以数据库二维表结构来逻辑表达实现,如货币、数值、日期和字符等;非结构化,这种数据与结构化数据相反,长度不固定、并且格式多样化,如网页、图音、论文等。常见的数据库系统大都属于关系型数据库,这种数据库主要是用索结构化数据,主要原因是相比较检索非结构化数据,技术实现简单。以数值
本文编号:2714349
【学位授予单位】:华东师范大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP391.3
【图文】:
第一章 绪 论 华东师范大学研究生硕士学位论文的程序)、为抓取的数据建立索引的索引器、检索索引内容的检索器和用户可以输入查询信息的用户接口 (UI: User Interface)。搜索引擎是为用户提供查询服务的工具,其使用计算机技术在整个互联网上抓取网页并建立索引,以帮助用户快速搜索信息。它的实现过程如图 1.1 所示。
图 2.1: 全文搜索引擎的工作流程它通过一种专业的计算机程序 (俗称爬虫:Spider) 无时无刻地从开放的网络寻和抓取网页内容,并对内容进行压缩处理,然后进行存储,在搜索者输入查息后,会在索引库中查找与用户查询相匹配的记录信息,最后将检索到的相关经过特定的排序算法处理后返回给用户。压缩存储在数据库中的数据可分为结构化数据和非结构数据。结构化数据,数据都是有固定格式且长度有限, 可以理解为行数据, 存储在数据库里, 其可以数据库二维表结构来逻辑表达实现,如货币、数值、日期和字符等;非结构化,这种数据与结构化数据相反,长度不固定、并且格式多样化,如网页、图音、论文等。常见的数据库系统大都属于关系型数据库,这种数据库主要是用索结构化数据,主要原因是相比较检索非结构化数据,技术实现简单。以数值
【参考文献】
相关期刊论文 前5条
1 刘兴林;;信息检索多样化排序算法研究综述[J];中国科技信息;2014年16期
2 王振振;何明;杜永萍;;基于LDA主题模型的文本相似度计算[J];计算机科学;2013年12期
3 高炜;张超;梁立;;信息检索排序算法研究综述[J];信息技术;2009年06期
4 林国俊;叶飞跃;耿冬;郑国良;;基于语义的概念查询扩展[J];计算机工程与设计;2009年06期
5 崔航,文继荣,李敏强;基于用户日志的查询扩展统计模型[J];软件学报;2003年09期
相关硕士学位论文 前3条
1 李维银;基于有监督学习的查询扩展技术研究[D];北京理工大学;2015年
2 燕泽权;基于主题模型的查询扩展技术研究[D];哈尔滨工业大学;2014年
3 殷东元;基于Lucene的Discuz站内检索设计与实现[D];南昌大学;2014年
本文编号:2714349
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2714349.html