基于机器学习的自然语言处理和传输技术的研究
发布时间:2022-01-07 13:02
随着信息技术的高速发展,各种服务和应用软件不断涌现,人们日益普遍地使用计算机来完成日常生活中的任务。然而,缺乏计算机科学方面的专业知识,使得非专业人士难以与系统交互并获得有用的信息。因此,自然语言处理作为一种可以使计算机分析与理解人类语言的方法吸引了来自世界各地研究人员的兴趣。本文以机器学习为核心,在自然语言的处理和传输两个领域开展研究。在自然语言处理中,首先探索了一种通用的生成词向量的技术,即集成词嵌入,通过集成已有词嵌入向量集和语义知识库来生成一种更高质量的词嵌入向量集。进而,探索了两种特定的自然语言处理任务:在线学习中的语法问题检索技术和个性化推荐技术,分别提出基于模糊树匹配的检索方法和基于内容的推荐方法。其中,集成词嵌入均作为辅助技术可以进一步改善检索和推荐结果。在自然语言传输中,探索了基于深度学习的物理层传输技术。具体研究内容包括4个方面:首先,研究了集成不同词嵌入向量集和语义知识库的方法。现有的方法大多根据大型语料库中的词分布信息学习得到词嵌入向量集。这种方法虽然可以得到语料库中包含的语义信息,但忽略了包含在语义知识库中有价值的信息,例如ConceptNet。而且,不同词嵌...
【文章来源】:东南大学江苏省 211工程院校 985工程院校 教育部直属院校
【文章页数】:142 页
【学位级别】:博士
【部分图文】:
维度对词相似结果的影响
维度对词类比结果的影响
生或具有同等学历的考生参加的选拔性考试。在这些实验数据集中,我们随机提取产生400 个语法 MCQ 作为查询 MCQ,剩余的 4180 个 MCQ 将作为数据库中的待检索的问题。图3.7给出了实验数据集中语法 MCQ 题干的长度分布,其中语法 MCQ 题干的平均长度是 16.36 个字。每一对语法 MCQ 的相似度由 10 位英语为母语的专业人士人工标注,相似度分为5 个等级(“极差”,“一般”,“良好”,“优秀”,“完美”)。这里“极差”表示两个语法MCQ 完全不相关,“完美”表示两个语法 MCQ 相关度最高。在实验中,我们认为相关度为“极差”的两个语法 MCQ 不相关,其它的相关度为相关。对于每个查询 MCQ,数据库中平均有 12.9% 的语法 MCQ 和它相关。我们使用 200 个查询 MCQ 进行训练
本文编号:3574594
【文章来源】:东南大学江苏省 211工程院校 985工程院校 教育部直属院校
【文章页数】:142 页
【学位级别】:博士
【部分图文】:
维度对词相似结果的影响
维度对词类比结果的影响
生或具有同等学历的考生参加的选拔性考试。在这些实验数据集中,我们随机提取产生400 个语法 MCQ 作为查询 MCQ,剩余的 4180 个 MCQ 将作为数据库中的待检索的问题。图3.7给出了实验数据集中语法 MCQ 题干的长度分布,其中语法 MCQ 题干的平均长度是 16.36 个字。每一对语法 MCQ 的相似度由 10 位英语为母语的专业人士人工标注,相似度分为5 个等级(“极差”,“一般”,“良好”,“优秀”,“完美”)。这里“极差”表示两个语法MCQ 完全不相关,“完美”表示两个语法 MCQ 相关度最高。在实验中,我们认为相关度为“极差”的两个语法 MCQ 不相关,其它的相关度为相关。对于每个查询 MCQ,数据库中平均有 12.9% 的语法 MCQ 和它相关。我们使用 200 个查询 MCQ 进行训练
本文编号:3574594
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3574594.html