当前位置:主页 > 管理论文 > 移动网络论文 >

基于Web的异构学术信息抽取与聚合方法研究

发布时间:2020-04-10 11:26
【摘要】:互联网时代,海量网页信息层出不穷,科技学术领域更是如此。每年有大量的学术期刊论文发表,也有很多学术人物信息在互联网上公开。如果想了解某个学术期刊或学术人物,并不能轻松获得,需要在互联网上点击一系列超链接才有可能找到。对于科研人员而言,能否快速获得学术信息非常必要。在此背景下,本文研究了基于Web的异构学术信息抽取与聚合方法,提出自动化的算法框架以帮助研究人员从互联网大量的异构网页中迅速挖掘所需信息。本文的主要工作如下:1.针对基于web的学术期刊信息抽取与聚合问题,本文提出了C-HMM算法框架。该框架中的正文提取算法(Content Extraction)可提取网页中的主要信息,实现了降噪的效果;隐马尔可夫模型(HMM)可同时对多个网站进行抽取,相较于现有的启发式算法提升了模型的泛化能力。C-HMM算法框架分为三个步骤:首先,通过爬虫爬取期刊主页;然后,对主页信息进行预处理和正文提取;最后,利用HMM对期刊信息进行抽取与聚合。2.针对基于web的学术人物信息抽取与聚合问题,本文提出了F-HMM算法框架。该框架中的fastText算法可对网页信息块进行预标注,此算法解决了关键字词典无法对人物多种信息块预标注的问题;隐马尔可夫模型(HMM)刻画了信息块的时序信息,提升了模型效果。F-HMM算法框架与C-HMM框架有以下三点不同:(1)采用SVM对学术人物主页进行选择,取代期刊主页选择时采用的关键词匹配策略;(2)由于学术人物主页结构复杂,正文提取算法可能会过滤有用信息,因此舍弃;(3)采用fastText算法取代了原有的关键词匹配方法,对信息块进行预标注。3.上述两个工作是吉林省重点科技研发项目“大数据和移动互联时代的快速知识共享系统研究、开发与应用”的重要组成部分。作者将上述工作以及论文、新闻和征稿信息的自动化爬虫系统加入到《学术头条》APP的开发中,方便了研究人员快速获取学术信息。目前APP拥有7000多名用户、400多万篇论文、6000多种期刊以及670多万个学术人物,实际测试结果表明,本文工作取得了良好的效果。
【图文】:

隐马尔可夫模型,半结构化,移除,语音识别


图 2.2 隐马尔可夫模型M 被认为 是 处理语音识别 (Speech Recognition )POS)任务相对成功的模型。然而,对于半结构化的网美。一般情况下,人们将移除了 HTML 标签的网页信

框架图,框架图,架构,科学家


图 2.3 CBOW 和 Skip-gram 框架图fastText 模型是 Facebook 的科学家 Tomas Mikolov 在 2016 年提出的模型,如图 2所示,它的架构和 Word2Vec 中的 CBOW 的架构类似,,所以称 fastText 是 words2ve所衍生的。
【学位授予单位】:吉林大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP391.1;TP393.092

【相似文献】

相关期刊论文 前10条

1 罗丹;钱志刚;卢东兵;王辅之;;某校医学研究生学术信息素养影响因素分析[J];济宁医学院学报;2016年03期

2 占南;;科研人员个人学术信息再现行为影响因素研究[J];情报资料工作;2016年05期

3 孙学军;;读文献要重视非学术信息[J];科技导报;2014年36期

4 沈芸;;微学术信息的采集、传播与服务模式研究[J];图书馆工作与研究;2015年06期

5 ;《马克思主义哲学研究》稿约[J];马克思主义哲学研究;2016年02期

6 刘彩娥;;论研究生学术信息素养的培养与提高[J];大学图书情报学刊;2014年05期

7 王禹;;图书馆网上免费学术信息资源的挖掘与建设[J];农业图书情报学刊;2012年09期

8 王卓;;从学术信息服务角度解析图书馆开架借阅的问题及相应对策[J];科技情报开发与经济;2012年24期

9 姜晓曦;;学术信息素养在信息类型与获取方式方面的变化分析[J];情报杂志;2011年09期

10 陈云梅;;网上免费学术信息资源的挖掘[J];农业图书情报学刊;2011年12期

相关会议论文 前9条

1 李海东;;浅析学术信息资源的共享与开放[A];信息时代的学术交流——中国科协第四届学术交流理论研讨会论文集[C];2009年

2 韩跃平;;信息技术在学术交流中的应用研究[A];信息时代的学术交流——中国科协第四届学术交流理论研讨会论文集[C];2009年

3 王孝达;;再论学报学术信息系统[A];科技编辑出版研究文集(第五集)[C];1998年

4 Patrice Malard;;专注科学,关爱母婴,关注心理发展与早期教育[A];第十八届全国心理学学术会议摘要集——心理学与社会发展[C];2015年

5 ;2005年主要工作情况[A];《圆明园》学刊第十七期——庆祝中国圆明园学会成立35周年特刊[C];2014年

6 肖兵;塔世根·加帕尔;;我国学术信息资源标准化建设的蓝本——学习《中国学术期刊(光盘版)检索与评价数据规范》[A];庆祝中华人民共和国成立50周年编辑学论文集[C];1999年

7 ;投稿须知[A];实证社会科学(第五卷)[C];2018年

8 李单丹;;浅析信息化环境下学术交流形式的变革[A];信息时代的学术交流——中国科协第四届学术交流理论研讨会论文集[C];2009年

9 俞祖华;;序[A];中国近现代史料专题研究[C];2011年

相关重要报纸文章 前10条

1 记者 孙海悦;深度解读学术信息开放与共享[N];中国新闻出版广电报;2018年

2 陈君;开创少数民族文字学术信息全文数据服务[N];科技日报;2007年

3 本报记者 杨光;用云计算技术构建丰富的学术信息资源[N];中国信息化周报;2013年

4 陈玉梅 焦宝 社会科学战线杂志社;提升传播中华文化的能力[N];中国社会科学报;2015年

5 吉林省社会科学院《社会科学战线》杂志社 焦宝 陈玉梅;大数据背景下的综合性学术期刊[N];中国社会科学报;2016年

6 杨莉;怎样帮助学生戒除“网”瘾[N];铜仁日报;2007年

7 记者  李含;建设研究型、数字化的一流图书馆[N];新清华;2006年

8 中国科协副主席、中国工程院院士 胡启恒;开放获取是科学家的责任[N];光明日报;2005年

9 记者 周凡恺;CALIS三期项目建设在津启动[N];天津日报;2010年

10 曾军;有反馈才是真推广[N];医药经济报;2013年

相关博士学位论文 前3条

1 叶磊;数字环境下学术信息生态系统健康研究[D];华中师范大学;2017年

2 占南;科研人员个人学术信息管理行为研究[D];武汉大学;2015年

3 杜晖;基于耦合关系的学术信息资源深度聚合研究[D];武汉大学;2013年

相关硕士学位论文 前10条

1 刘子玉;基于Web的异构学术信息抽取与聚合方法研究[D];吉林大学;2019年

2 陈梦鸽;河北省高校硕士研究生学术信息素养提升研究[D];河北经贸大学;2019年

3 杨林;基于微信的高校师生学术信息分享驱动因素研究[D];河北大学;2019年

4 胡方丹;我国学术信息资源产业发展策略研究[D];南昌航空大学;2017年

5 罗丹;医学研究生学术信息素养评价体系研究[D];山东大学;2015年

6 李淳;研究生学术信息查寻行为研究[D];南京航空航天大学;2007年

7 宋敏霞;基于学术博客的图书馆学术信息服务研究[D];华中师范大学;2011年

8 王振华;学术信息开放存取政策研究[D];黑龙江大学;2009年

9 梁子栋;基于ISP模型的学生用户学术信息查询模式研究[D];南京大学;2015年

10 李洋;网上学术信息质量评价研究[D];吉林大学;2010年



本文编号:2622168

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2622168.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户4d0a6***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com