当前位置:主页 > 科技论文 > 搜索引擎论文 >

面向检索信息的同义词挖掘

发布时间:2021-01-20 09:19
  随着计算机技术的飞速发展,搜索引擎的应用深入到各行各业,使用搜索引擎对信息进行检索已经深入到人民群众的日常生活当中,信息的查找与获取变得越来越频繁的同时,信息的精准查找与获取也越来越有挑战性。如何从浩如烟海的信息资源库中,更加准确的理解用户想要搜索的关键词,使得关键词搜索内容能够得到拓展和更加准确的推荐,是信息检索领域一直以来的重要研究课题。传统的信息检索服务已渐渐不能满足用户的检索需求,智能的、基于概念的信息检索系统成为未来的发展方向。识别用户搜索关键词的可替代同义词是实现智能信息检索的重要方法之一,而要实现高效的同义词拓展,就需要一个强大的同义词表。本文中定义的同义词,是在相似的上下文语境中可以相互替代的词。随着时代的变化,语言的应用日新月异,使用传统的同义词词典查询的方法对同义词进行判别或者发现已完全不适用。使用更加智能的方法进行同义词挖掘,找到新的同义词表势在必行。近年来,随着自然语言处理技术的进步,关于同义词的研究越来越多,需要用到同义词的领域涉及方方面面,研究者们提出了众多先进的配对同义词辨析和基于语料库的同义词集提取方法。本文面向检索信息进行同义词挖掘,与使用基于特定业务... 

【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校

【文章页数】:78 页

【学位级别】:硕士

【文章目录】:
摘要
ABSTRACT
第一章 绪论
    1.1 研究工作的背景
    1.2 本文研究的目的与意义
    1.3 国内外研究历史与现状
    1.4 本文章节编排
第二章 相关研究
    2.1 同义词识别的概念
    2.2 同义词识别的分类
    2.3 汉语同义词识别算法研究
        2.3.1 基于字面的相似度算法
        2.3.2 基于Ontology(世界知识)的相似度算法
        2.3.3 基于图模型的同义词集抽取算法
    2.4 词向量
        2.4.1 词向量的理解
    2.5 XGBoost模型
第三章 数据处理及对齐规则设计
    3.1 同义词挖掘具体实现流程
    3.2 数据预处理
        3.2.1 数据提取
    3.3 对齐规则设计
        3.3.1 对齐的概念
        3.3.2 规则对齐
        3.3.3 统计对齐
        3.3.4 短语对抽取
第四章 特征工程及模型训练
    4.1 特征工程
        4.1.1 统计特征提取
        4.1.2 词向量特征提取
        4.1.3 特征筛选
    4.2 模型训练及调参
    4.3 基于领域文章检索数据的同义词挖掘应用拓展
        4.3.1 候选对提取
        4.3.2 词对清洗
        4.3.3 特征工程
        4.3.4 模型训练
第五章 实验与分析
    5.1 实验结果
        5.1.1 对比实验一
        5.1.2 方法及调参实验
        5.1.3 对比实验二
        5.1.4 查询小界面
        5.1.5 本章小节
第六章 总结与展望
致谢
参考文献
攻读硕士学位期间取得的成果


【参考文献】:
期刊论文
[1]中文短文本聚合模型研究[J]. 刘震,陈晶,郑建宾,华锦芝,肖淋峰.  软件学报. 2017(10)
[2]微博文本聚类中特征扩展策略研究[J]. 段旭磊,张仰森,郭正斌.  计算机工程与应用. 2017(13)
[3]基于路径与深度的同义词词林词语相似度计算[J]. 陈宏朝,李飞,朱新华,马润聪.  中文信息学报. 2016(05)
[4]词汇相似度计算和相似词挖掘研究进展[J]. 韩普,王东波,王子敏.  情报科学. 2016(09)
[5]基于知网与词林的词语语义相似度计算[J]. 朱新华,马润聪,孙柳,陈宏朝.  中文信息学报. 2016(04)
[6]产品评论挖掘中特征同义词的识别[J]. 郗亚辉.  中文信息学报. 2016(04)
[7]基于复杂网络的汉语相似词挖掘和相似度计算研究[J]. 韩普,王东波,朱恒民.  情报学报. 2015 (08)
[8]基于词向量距离的相关词变迁研究——以《情报探索》杂志摘要为例[J]. 方延风,陈健.  情报探索. 2015(04)
[9]多策略同义词获取方法研究[J]. 宋文杰,顾彦慧,周俊生,孙玉杰,严杰,曲维光.  北京大学学报(自然科学版). 2015(02)
[10]基于维基语义图的词语语义相关度计算研究[J]. 刘晓亮.  情报学报. 2014 (11)

硕士论文
[1]基于搜索日志和点击日志的同义词挖掘的研究和实现[D]. 宋宇轩.北京交通大学 2011
[2]基于百科词典的知识获取系统的研究与实现[D]. 许勇.北京工业大学 2001
[3]智能搜索引擎中的同义词识别算法研究[D]. 朱毅华.南京农业大学 2001



本文编号:2988786

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2988786.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户a79f0***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com