基于深度学习的中文文档检索的应用
本文关键词:基于林业科学数据的语义检索研究,由笔耕文化传播整理发布。
《吉林大学》 2015年
基于深度学习的中文文档检索的应用
孙建文
【摘要】:社会的进步往往伴随着生产资料的提高,人们通过各种各样的社会手段不断来满足自身的需求的方式也变得越来越智能。随着近些年互联网技术的普及,人们从网络上搜寻所需求的信息的机会也就越来越多。随着人们需求的提高,信息检索技术也就广大的人民大众摆在了聚光灯下。特别是近10年以来,随着大数据时代的到来,文本、图片、语音等等越来越多的资源不断地填充着网络数据库,有资料表明,这10年产生的数据是人类历史上产生数据之和[1]。这样就带来了一个问题,如何从浩瀚的数据中快速高效地挖取有用的信息。很显然,传统老套的信息检索模型已经难以满足广大人群的迫切需求,人们需要找寻另一种方式来处理,机器学习技术应运而生。本文针对大数据背景下平行文档难以快速被挖掘的问题,提出了机器学习技术中最前沿的深度学习技术,用于快速准确抽取中文相关性文档,并且充分分析了实际检索系统中可能出现的一些情况的影响。 首先,分析中文平行文档的特性,接着全面解析深度学习技术的特点。并通过实验了解传统信息检索模型和目前使用较为广泛的信息检索模型在应对中文平行文档检索的优缺点,以及各方面的效率。接着通过实验验证深度神经网络在这个方面的各项指标;实验证明通过控制隐藏层的层数,和每一层的结点个数可以更加准确,全面的检索大量含有隐含信息的中文平行文档。 其次,,本文将深度学习技术与传统信息检索模型相结合的新模型来解决深度学习模型训练时间较长的问题。本文通过参数调整具体包括调整深度神经网络中隐藏层的个数及其每一个隐藏层所对应的结点的个数,来优化整个神经网络。最后本文提出利用Google最新深度学习工具Doc2Vec,将每一篇文章都转化为词向量的形式,通过深度神经网络重新训练,结果表明通过将文章转化为词向量的形式可以在某些方面更好反映出文档内在具体含义,从而更加准确、全面地检索出平行文档针对某一个特定的用户返回与其对应的个性化检索信息。 最后,通过可视化编程设计并实现了基于深度学习的中文平行文档的信息检索系统。该系统支持用户通过某些检索词,更加快速全面地检索出所需要的中文平行文档。
【关键词】:
【学位授予单位】:吉林大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.3
【目录】:
下载全文 更多同类文献
CAJ全文下载
(如何获取全文? 欢迎:购买知网充值卡、在线充值、在线咨询)
CAJViewer阅读器支持CAJ、PDF文件格式
【参考文献】
中国期刊全文数据库 前2条
1 刘建伟;刘媛;罗雄麟;;深度学习研究进展[J];计算机应用研究;2014年07期
2 徐恺英;王硕;张射;常改;;基于人工神经网络的个性化检索模型[J];图书情报工作;2011年02期
【共引文献】
中国期刊全文数据库 前10条
1 王益明;崔莎;王婧文;;2011年我国情报学研究进展[J];国家图书馆学刊;2012年03期
2 马宁;刘怡君;;基于超网络中超边排序算法的网络舆论领袖识别[J];系统工程;2013年09期
3 左欣;罗立民;沈继锋;于化龙;;基于多源异质特征的紧致二进制编码学习(英文)[J];Journal of Southeast University(English Edition);2013年04期
4 马宝君;张楠;孙涛;;智慧城市背景下公众反馈大数据分析:概率主题建模的视角[J];电子政务;2013年12期
5 易军凯;田立康;;基于类别区分度的文本特征选择算法研究[J];北京化工大学学报(自然科学版);2013年S1期
6 代宽;赵辉;韩冬;宋天勇;;基于向量空间模型的中文网页主题特征项抽取[J];吉林大学学报(信息科学版);2014年01期
7 吴瑞红;吕学强;;基于互联网的术语定义辨析[J];北京大学学报(自然科学版);2014年01期
8 罗琦;;一种最大分类间隔SVDD的多类文本分类算法[J];电讯技术;2014年04期
9 刘莉;朱丹浩;;公安信息资源整合中的统一检索自动加权系统研究[J];江苏警官学院学报;2014年02期
10 方跃胜;姚宏亮;;基于电力公司的多格式文档智能信息检索系统的设计与实现[J];重庆科技学院学报(自然科学版);2014年04期
中国重要会议论文全文数据库 前1条
1 刘权;郭武;;基于核主成分分析的话题跟踪系统[A];第十二届全国人机语音通讯学术会议(NCMMSC'2013)论文集[C];2013年
中国博士学位论文全文数据库 前10条
1 王宝勋;面向网络社区问答对的语义挖掘研究[D];哈尔滨工业大学;2013年
2 张俊三;Web中相关实体发现研究[D];北京交通大学;2013年
3 张乃静;基于林业科学数据的语义检索研究[D];中国林业科学研究院;2013年
4 刘浏;基于内容的重排列视频检索技术研究[D];上海交通大学;2013年
5 吕英杰;网络健康社区中的文本挖掘方法研究[D];上海交通大学;2013年
6 张琦;基于聚合场模型的数据竞争算法及其应用研究[D];哈尔滨工程大学;2013年
7 谭琦;面向跨领域文档分类的异构迁移学习算法研究[D];华南理工大学;2013年
8 李金城;大规模图像检索和识别中的神经网络学习及其应用[D];华南理工大学;2013年
9 张琳;基于引用聚类的多文档自动文摘技术研究[D];大连海事大学;2013年
10 萧筝;客户需求信息处理理论和方法研究[D];武汉理工大学;2013年
中国硕士学位论文全文数据库 前10条
1 董锦霞;基于菱形思维的概念检索模型研究[D];大连理工大学;2011年
2 郑晓洁;苹果树腐烂病预测模型研究[D];西北农林科技大学;2011年
3 张涛;支持个性化的海运货代服务系统的设计与实现[D];哈尔滨工业大学;2011年
4 常改;图书馆3.0个性化服务模型研究[D];吉林大学;2012年
5 李东亮;不确定多媒体数据个性化查询处理系统设计与实现[D];华中科技大学;2012年
6 谢娜娜;基于不均衡数据集的文本分类算法研究[D];重庆大学;2013年
7 王强;非均衡文本分类的特征选择研究[D];南京师范大学;2013年
8 项峻求;文本分类在电子政务平台中的应用与研究[D];南昌大学;2013年
9 陈方琼;融合多特征的专家列表排序学习方法研究[D];昆明理工大学;2013年
10 余峰;项目评审专家推荐方法研究[D];昆明理工大学;2013年
【二级参考文献】
中国期刊全文数据库 前2条
1 朱前东;庞弘燊;;搜索引擎个性化检索研究综述[J];图书馆学刊;2008年06期
2 詹越;;基于BP人工神经网络的知识管理战略选择研究[J];图书情报工作;2009年12期
【相似文献】
中国期刊全文数据库 前10条
1 吴丽华;罗云锋;张宏斌;;信息检索模型及相关性算法的研究[J];情报杂志;2006年12期
2 钟振鸿;印润远;于庆梅;;基于本体驱动的法律信息检索模型[J];微计算机信息;2007年30期
3 刘伟成;孙吉红;;跨语言信息检索模型应用研究[J];情报杂志;2007年10期
4 张小芳;;几种常见信息检索模型的分析与评价[J];情报杂志;2008年03期
5 张艳;;信息检索模型的比较研究[J];电脑知识与技术;2009年08期
6 邢国林;王基一;岑婷婷;;覆盖粒计算在信息检索模型中的应用[J];河南师范大学学报(自然科学版);2009年02期
7 李清茂;杨兴江;周相兵;马洪江;;基于主题图的本体信息检索模型研究[J];计算机应用;2010年01期
8 田欢;;浅析信息检索模型的现状及趋势[J];计算机光盘软件与应用;2012年01期
9 於晓庆;;信息检索模型研究概述[J];成功(教育);2012年12期
10 胡兆芹;;传统信息检索模型及其优化策略研究[J];情报探索;2013年02期
中国重要会议论文全文数据库 前9条
1 梅伟;刘惟一;;基于可信度的信息检索模型[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
2 黄名选;严小卫;张师超;;基于完全加权关联规则挖掘的信息检索模型[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
3 黄国斌;王明文;叶浩;;一种新的基于中间语义的跨语言信息检索模型[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
4 张文雅;宋大为;赵晓朝;张鹏;李竞飞;;基于可读性的信息检索模型研究[A];第十二届全国人机语音通讯学术会议(NCMMSC'2013)论文集[C];2013年
5 李广原;冯嘉礼;;基于属性坐标的文本信息检索模型[A];广西计算机学会2005年学术年会论文集[C];2005年
6 普东航;唐常杰;元昌安;廖勇;张天庆;于中华;;一种基于相邻地址的信息检索模型AAM[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
7 盛俊;王明文;余俊英;;一种基于潜在语义的Markov网络信息检索模型[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
8 吴晨;张全;缪建明;韦向峰;;自然语言语义理解下的信息检索模型[A];第三届学生计算语言学研讨会论文集[C];2006年
9 孙斌;吕学强;苏祺;;义项矩阵模型SMM简介[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
中国博士学位论文全文数据库 前7条
1 杨为民;基于场论的信息检索模型的研究[D];安徽大学;2007年
2 徐建民;基于术语关系的贝叶斯网络信息检索模型扩展研究[D];天津大学;2007年
3 陈圣兵;基于商空间理论的海量信息检索模型的研究[D];安徽大学;2010年
4 程凡;基于排序学习的信息检索模型研究[D];中国科学技术大学;2012年
5 涂新辉;基于概念的信息检索模型研究[D];华中师范大学;2012年
6 梁作鹏;面向Web的XML检索关键技术研究[D];东南大学;2005年
7 高琰;基于多特征的Web社区发现关键技术研究[D];中南大学;2007年
中国硕士学位论文全文数据库 前10条
1 丁志刚;基于类别意图的信息检索模型[D];北京邮电大学;2009年
2 任克江;基于地理信息的检索和用户数据挖掘[D];大连理工大学;2013年
3 王庆华;用户个性化信息检索模型的设计与实现[D];大连理工大学;2004年
4 黄果;文本信息检索模型研究[D];西南大学;2007年
5 张东伟;中英文跨语言信息检索模型研究[D];黑龙江大学;2006年
6 廖亚男;基于多层Markov网络的信息检索模型[D];江西师范大学;2014年
7 左家莉;基于Markov网络的信息检索模型[D];江西师范大学;2005年
8 王艳萍;基于XML的移动信息检索模型研究[D];大连理工大学;2006年
9 甘丽新;基于Markov概念的信息检索模型[D];江西师范大学;2007年
10 姜鹏;Kullback-Leibler距离检索框架下文摘在检索中的应用[D];昆明理工大学;2011年
本文关键词:基于林业科学数据的语义检索研究,由笔耕文化传播整理发布。
本文编号:177061
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/177061.html