当前位置:主页 > 经济论文 > 信息经济论文 >

面向时间敏感对象的垂直搜索引擎关键技术研究

发布时间:2020-04-14 06:17
【摘要】:随着搜索服务的逐渐普及深化,用户针对特定领域的搜索需求逐渐明确、对搜索结果的个性化程度和实时性要求逐渐增高,使得基于垂直搜索领域的高效信息检索服务已成为搜索引擎市场的热点。垂直搜索引擎通过聚焦抓取、智能调度、高维索引等技术,根据特定的领域知识和用户的搜索习惯,为用户提供特定垂直领域中时效性更高,更为个性化、专业化的搜索结果。 然而现有大多数的垂直搜索引擎中存在1)爬虫系统抓取模式被动,目标抓取与用户查询时延过长;2)爬虫系统抓取调度盲目,抓取资源利用率低;以及3)索引系统性能低下,对特定文本信息的特征提取与聚类缺乏有效算法等问题,已经严重地桎梏了垂直搜索引擎市场的健康发展。本文试图对这些热点问题及其关键技术进行系统性研究。本文的主要贡献和创新点如下: 1.爬虫系统的主动式聚焦抓取技术研究 针对爬虫系统抓取模式被动,目标抓取与用户查询时延过长的问题,提出了语义驱动的查询驱动聚焦抓取技术,基于领域知识理解用户查询,提供了查询向目标网页的语义转换,实现了针对用户查询的主动式抓取,解决了目标抓取与用户查询时延过长的问题。充分的实验和在真实项目中的初步应用表明,查询驱动聚焦抓取技术为用户提供了10秒级搜索结果,大大降低了时延,极大的提高了用户体验。 2.爬虫系统的智能调度技术研究 针对爬虫系统抓取调度盲目、利用率低的问题,基于网页文档变化的泊松过程建模,在对单个对象新鲜度进行定量估算的基础上,提出对象级细粒度资源调度算法PoissonRank,实现了针对变化的抓取调度,极大地提高了抓取资源的利用率。仿真分析和商用项目中的应用表明了该模型的有效性,该调度技术能提高抓取资源利用率并更好的捕捉对象的变化。大量真实环境中的实验验证了对象分布规律和泊松过程建模的正确性以及用户体验的提升,同时PoissonRank对系统带来的额外开销很低,具有很高的可扩展性。 3.索引系统中高维索引的在线更新技术研究 针对索引系统中多媒体高维索引在线更新效率低下的问题,对高维索引中的LSH算法进行优化,提出了基于压缩位图(Compressed Bitmap)的CB-LSH高维索引技术,通过算子布尔代数化后引入压缩位图索引对LSH的添删改性能进行了全面提升,解决了高维索引在线更新的性能问题。理论分析证明了CB-LSH在空间占用和时间复杂度上的改善;大量真实数据上的实验结果表明,与现有的LSH算法相比,CB-LSH节约了三分之一的内存占用,删除性能提高了近一个数量级,查询性能提高了数倍,插入性能提高了约一半;真实项目验证了CB-LSH应用于在线实时更新的海量多媒体对象检索系统中是有效可行的。 4.索引系统中文本信息的结果合并技术研究 针对垂直领域中文本信息长度短、专业性强、噪音多,索引系统中聚类效果差的问题,提出了一种基于自然语言触发对的文本聚类技术TrigSigs,基于一阶触发对充分挖掘词汇隐含属性的关联关系,学习领域专业词汇、去除噪音词汇并提取关键特征词汇,实现了细粒度对象级聚类技术。仿真实验表明,该算法可以过滤绝大部分噪音词汇,并且根据词汇的分辨力合理分配权重,使最终聚类结果的准确率有很大的提升。
【学位授予单位】:浙江大学
【学位级别】:博士
【学位授予年份】:2011
【分类号】:F49;F224

【参考文献】

相关期刊论文 前10条

1 王继成,萧嵘,孙正兴,张福炎;Web信息检索研究进展[J];计算机研究与发展;2001年02期

2 赵岩;王晓龙;刘秉权;关毅;;融合聚类触发对特征的最大熵词性标注模型[J];计算机研究与发展;2006年02期

3 吴伟忠;崔建英;;基于时效性的垂直搜索及其应用[J];暨南大学学报(自然科学版);2007年03期

4 谢红薇;颜小林;余雪丽;;基于本体的Web页面聚类研究[J];计算机科学;2008年09期

5 张健沛,刘洋,杨静,代坤;搜索引擎结果聚类算法研究[J];计算机工程;2004年05期

6 金芝;基于本体的需求自动获取[J];计算机学报;2000年05期

7 周立柱,林玲;聚焦爬虫技术研究综述[J];计算机应用;2005年09期

8 徐莹;;搜索引擎技术及其发展前瞻[J];科技情报开发与经济;2005年24期

9 刘畅;;综合搜索引擎与垂直搜索引擎的比较研究[J];情报科学;2007年01期

10 周佳庆;吴羽;江锦华;陈刚;董轶;;实时垂直搜索引擎对象缓存优化策略[J];浙江大学学报(工学版);2011年01期

相关博士学位论文 前1条

1 李强;基于本体论的个性化和社会化元搜索引擎的研究[D];浙江大学;2006年

相关硕士学位论文 前1条

1 程守远;基于图像检索技术的领带花型检索的研究[D];东华大学;2006年



本文编号:2626985

资料下载
论文发表

本文链接:https://www.wllwen.com/jingjilunwen/xxjj/2626985.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户2ef94***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com