基于神经网络的印尼语相似新闻推荐的研究

发布时间:2021-05-06 18:44
  相似文本推荐在信息的检索和自然语言处理等相关领域都有着重要的应用,在个性化服务时代,其进化升级版的个性化推荐更是为个人提供着更高效和直接的信息资源。在某些领域对用户隐私或行为信息要求较严,因此需要只在纯文本的信息中进行相似文本推荐。最为传统的方法仅仅依靠基于统计信息的关键词,没有考虑文本中词的语义信息和文本本身的语义信息。随着近年来机器学习和深度学习兴起,词向量在表示词汇语义信息上取得了较好的结果。利用词向量表示文本,通过距离度量函数来寻找相似文本。这种词汇上语义信息的叠加表示文本信息还是不能很好的总结长文本的信息。本文主要考虑统计与神经网络的结合,提出了关键词与其带权关键词量化文本相结合的相似文本度量方式,实验结果表明了这种方法的有效性和可行性。本文主要研究基于神经网络的印尼相似新闻推荐,在纯文本上提出了新的相似度量方式。神经网络主要是利用其词向量模型在词汇语义上的有效表示,印尼语为应用的语种。全文的工作内容如下:(1)在使用关键词表示文本进行推荐和甄别中,详细介绍了基于统计信息的关键词提取算法TF-IDF、基于主题模型的关键词提取算法LDA以及基于词图模型的关键词提取算法TextR... 

【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校

【文章页数】:77 页

【学位级别】:硕士

【文章目录】:
摘要
abstract
第一章 绪论
    1.1 研究工作的背景及意义
    1.2 国内外研究现状
    1.3 本文的主要研究内容和组织结构
第二章 文本关键词提取
    2.1 关键词提取概述
    2.2 无监督模型
    2.3 基于文本中的统计特征的关键词提取
        2.3.1 常用的几种单词“重要性”量化指标
        2.3.2 关键词提取
    2.4 基于文本构建的词图模型的关键词提取
        2.4.1 PageRank
        2.4.2 TextRank
    2.5 基于文本隐含主题模型的关键词提取
        2.5.1 概率潜在语义分析(PLSA)
        2.5.2 隐狄利克雷分布(LDA)
    2.6 本章小结
第三章 词的特征表示
    3.1 词量化表示
    3.2 语言模型概述
    3.3 基于神经网络的词向量模型
        3.3.1 NNLM
        3.3.2 C&W模型
        3.3.3 CBOW和 Skip-gram模型
    3.4 本章小结
第四章 无标签文本推荐算法研究
    4.1 文本关键词作为文本特征
    4.2 基于神经网络的文本向量作为文本特征
        4.2.1 基于词向量
        4.2.2 Doc2vec
        4.2.3 以文本向量作为文本特征推荐
    4.3 关键词与词向量共同作为文本特征
    4.4 实验结果与分析
    4.5 本章小结
第五章 实验与结果分析
    5.1 关键词提取实验
        5.1.1 实验环境和数据集
        5.1.2 实验与结果分析
    5.2 印尼语的更多处理
        5.2.1 印尼语的特点
        5.2.2 印尼语关键词处理
    5.3 文本向量实验
        5.3.1 数据集
        5.3.2 实验与结果分析
    5.4 印尼新闻文本推荐实验
        5.4.1 数据集
        5.4.2 实验与结果分析
    5.5 中文推荐实验
    5.6 本章小结
第六章 全文总结与展望
    6.1 本文总结
    6.2 未来展望
致谢
参考文献
攻硕期间取得的研究成果


【参考文献】:
期刊论文
[1]基于改进的TextRank的自动摘要提取方法[J]. 余珊珊,苏锦钿,李鹏飞.  计算机科学. 2016(06)
[2]基于互信息改进算法的新词发现对中文分词系统改进[J]. 杜丽萍,李晓戈,于根,刘春丽,刘睿.  北京大学学报(自然科学版). 2016(01)
[3]基于LDA主题模型的文本相似度计算[J]. 王振振,何明,杜永萍.  计算机科学. 2013(12)
[4]基于词跨度的中文文本关键词自动提取方法[J]. 谢晋.  现代物业(中旬刊). 2012(04)
[5]基于双字哈希的PAT树词典机制的研究[J]. 赵丽,郭宏文.  黑龙江生态工程职业学院学报. 2011(01)
[6]关键词提取[J]. 朱涛.  考试(高考·语文版). 2010(Z4)

硕士论文
[1]基于主题模型的关键词抽取算法研究[D]. 刘啸剑.合肥工业大学 2016
[2]Web文本挖掘技术研究及应用[D]. 李晓笛.北京交通大学 2015
[3]无监督中文实体关系抽取研究[D]. 施琦.中国地质大学(北京) 2015
[4]基于LDA和Word2Vec的推荐算法研究[D]. 董文.北京邮电大学 2015
[5]大数据环境下文本聚类与摘要提取[D]. 孟繁宇.北京邮电大学 2015



本文编号:3172432

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3172432.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户cd261***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com