当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于词向量的搜索词分类、聚类研究

发布时间:2022-10-20 17:28
  随着信息技术的极速发展,互联网信息呈现了指数型增长,人们只能在搜索引擎的帮助下从海量的信息当中获得特定的信息。搜索引擎已经成为了互联网用户不可或缺的应用。用户的搜索行为直接或间接地反应了用户的潜在兴趣及需求。用户提供的搜索词是搜索行为当中最为重要的一部分。搜索词的分析与挖掘能够为精准定向广告投放、搜索引擎性能优化及用户的个性化应用提供了坚实的基础。其中对用户提供的搜索词进行主题分类是搜索词分析技术当中应用最广泛的技术之一。然而单条搜索词往往非常短,利用传统的文本特征抽取方法往往很难抽取到有效的语言特征。并且基于有监督学习的分类方法往往需要有大量的训练标注语料。然而人工标注的方法非常昂贵且浪费时间。本文提出的搜索词分类算法及框架与之前的工作相比,主要改进如下:1)首次引入基于词向量的搜索词特征提取。搜索词文本长度短,很难抽取到有效的语言特征。为了解决这个问题,本文引入词向量的特征提出及表达,该方法能够在保证实时性的情况下显著提高了搜索词聚类、分类效果。并且只需搜索引擎的搜索日志用于训练词向量模型,无需外部数据集辅助。2)在Word2Vec算法的基础上提出CT-Word2Vec算法。CT-... 

【文章页数】:64 页

【学位级别】:硕士

【文章目录】:
摘要
ABSTRACT
第一章 绪论
    1.1 研究背景及意义
    1.2 搜索词挖掘技术的挑战和现状
    1.3 论文的主要研究内容和创新点
    1.4 本文的组织结构
    1.5 本章小结
第二章 相关研究基础
    2.1 搜索词主题分类、聚类概念
    2.2 搜索词分类、聚类相关技术
        2.2.1 搜索词表示
        2.2.2 特征选择
    2.3 词向量
    2.4 本章小结
第三章 融入用户点击模型的Word2Vec搜索词聚类
    3.1 问题引出
    3.2 CT-Word2Vec的搜索词聚类算法
        3.2.1 Word2Vec算法
        3.2.2 CT-Word2Vec算法
        3.2.3 融入CT-Word2Vec的搜索词聚类
    3.3 实验与评估
        3.3.1 实验数据描述
        3.3.2 实验评估与指标
        3.3.3 实验过程
        3.3.4 结果分析与评估
    3.4 本章小结
第四章 基于CT-Word2Vec聚类的搜索词主题标注和分类方法
    4.1 问题引出
    4.2 基于CT-Word2Vec搜索词主题标注方法
        4.2.1 基于CT-Word2Vec的搜索词聚类
        4.2.2 聚类中心主题标注
    4.3 基于词向量的搜索词分类
    4.4 实验与评估
        4.4.1 实验过程与数据
        4.4.2 对比实验
        4.4.3 实验评估与指标
        4.4.4 实验结果与分析
    4.5 本章小结
第五章 融入主题信息Word2Vec搜索词分类
    5.1 问题引出
    5.2 Topic-Word2Vec算法
    5.3 实验与评估
        5.3.1 实验数据描述
        5.3.2 实验结果与分析
    5.4 本章小结
第六章 总结与展望
    6.1 本文总结
    6.2 下一步工作与展望
附录一 作者攻读硕士学位期间发表的学术论文
参考文献
后记


【参考文献】:
期刊论文
[1]融合广告主行为的拍卖词实时触发[J]. 解忠乾,常笑,姬东鸿.  计算机应用. 2014(09)
[2]基于URL主题的查询分类方法[J]. 张宇,宋巍,刘挺,李生.  计算机研究与发展. 2012(06)

硕士论文
[1]互联网搜索词分类关键技术研究[D]. 吕靖.浙江大学 2011



本文编号:3694991

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3694991.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户91790***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com