当前位置:主页 > 科技论文 > 自动化论文 >

面向自动问答的中学历史知识库构建

发布时间:2018-04-05 20:06

  本文选题:知识库 切入点:word2vec 出处:《哈尔滨工业大学》2017年硕士论文


【摘要】:随着人工智能在围棋方面的突破,“阿尔法狗”进入了大众的视野并且热度居高不下,与此同时人工智能以及深度学习越来越被大众熟知,家喻户晓。那么人工智能的一大目标就是让机器理解人的自然语言,也是目前的难点重点。所以对于问答系统的研究是必要的,现在有很多种问答系统,比如百度知道或搜狗问问的社区问答、一站到底等知识问答及小度聊天机器人等,这些系统尤其是知识问答系统往往都有知识库。因而对知识库的构建进行研究是必要的。对于高中历史学科问答系统来说研究的意义在于探究人工智能的极限,之所以这么说的原因是,让机器理解人的自然语言是目前的一大难点。到目前为止不论是传统的机器学习方法还是目前大热的深度学习,都无法真正的了解人类的自然语言,而高考历史的问答恰恰是在检测人工智能在理解人类的自然语言方面的进展。本文研究的主要研究内容如下:一.对中学历史题进行分析,针对中学历史题的特点进行知识库结构的设计。二.构建历史分词词表,因为对于历史材料难以精准分词,经常容易把相关事件、专业名词等在分词时分隔开,因而需要构建一个分词词表。在构建词表时运用了新词发现技术。三.高中历史知识库的扩充。为了能够全面准确地回答高考历史题,仅仅采用历史课本内容构建知识库是不够的,因此必须对其进行扩充。待扩充的资料为爬取的百度百科历史相关条目。使用了word2vec、doc2vec模型训练语义向量,与LR、SVM、Random Forest、GBDT等四种统计分类模型结合。最终利用最优的分类器选出在诸多条目中适合扩充进中学历史知识库的条目。四.高中历史知识库内容分类标注。通过对高考历史题的分析,每个历史实体的属性大致可以分为七类如影响类、背景类等。所以在历史实体扩充进知识库的时候,需要将其内容进行分类。使用训练好的词向量作为分类模型的输入,分类模型选择朴素贝叶斯、LSTM、BLSTM、C-LSTM等四种模型进行对比实验,最终选出最优的分类器进行高中历史知识库内容分类标注。
[Abstract]:With the breakthrough of artificial intelligence in go, "AlphaGo" has entered the public's field of vision and high fever, at the same time, artificial intelligence and in-depth learning are becoming more and more familiar to the public, household name.So one of the major goals of artificial intelligence is to make machines understand human natural language, which is also a difficult point at present.Therefore, it is necessary to study the question and answer system. Now there are many kinds of question answering systems, such as the community question and answer system that Baidu knows or Sogou asks, the one stop waiting for knowledge question answering and small chat robot, and so on.These systems, especially the Q & A system, often have a knowledge base.Therefore, it is necessary to study the construction of knowledge base.The significance of the research is to explore the limits of artificial intelligence for senior high school history subject question and answer system. The reason for this is that it is difficult for machines to understand human natural language.So far, neither the traditional machine learning methods nor the current hot deep learning have been able to truly understand the natural language of human beings.And the history of the gaokao quiz is precisely to test artificial intelligence in understanding the natural language of human progress.The main contents of this paper are as follows: 1.This paper analyzes the history problems in middle schools and designs the knowledge base structure according to the characteristics of the history questions in middle schools.II.Because it is difficult to be precise participle for historical materials, it is often easy to separate the relevant events and specialized nouns in the segmentation time, so it is necessary to construct a word segmentation list.The new word discovery technology is used in the construction of the lexicon.III.The expansion of high school history knowledge base.In order to answer the history questions of college entrance examination comprehensively and accurately, it is not enough to construct the knowledge base by using the contents of history textbooks, so it is necessary to expand them.To expand the data for crawling Baidu encyclopedia history related items.The word2vectdoc2vec model is used to train the semantic vector, which is combined with four statistical classification models, such as LRX SVM random Forester GBDT and so on.Finally, the optimal classifier is used to select the items that are suitable to be extended to the knowledge base of history in middle school.IV.High school history knowledge base content classification annotation.Through the analysis of the history questions of the college entrance examination, the attributes of each historical entity can be divided into seven categories, such as influence class, background class and so on.Therefore, when the historical entity is expanded into the knowledge base, it is necessary to classify its contents.The trained word vector is used as the input of the classification model, and the naive Bayesian LSTM / BLSTM C-LSTM model is selected to carry out the comparative experiments. Finally, the optimal classifier is selected for the content classification and tagging of the high school history knowledge base.
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.1;TP18

【相似文献】

相关期刊论文 前10条

1 世雄;《中学历史复习大全》即将出版[J];史学月刊;1984年04期

2 ;《中学历史基础知识》出版发行[J];贵州师范大学学报(社会科学版);1985年03期

3 於以传;;上海市教育委员会教学研究室专稿(四) 关于改进中学历史学科学业评价的建议[J];现代教学;2010年Z1期

4 马建生;;多媒体教学在中学历史与社会教学中的运用[J];时代教育;2013年12期

5 学文;中学历史学习资源[J];电脑技术;2003年02期

6 於以传;;上海市教育委员会教学研究室专稿(四) 关于改进中学历史学科教学辅导的建议[J];现代教学;2009年Z2期

7 闫长安;;计算机多媒体与中学历史整合的理性思考[J];网络科技时代(信息技术教育);2002年02期

8 上海市中学历史学科育人价值研究课题组;於以传;;知真 求通 立德——中学历史学科育人价值概述[J];现代教学;2013年Z2期

9 朱丽媛;;中学历史《美国内战》整合教学例谈[J];网络科技时代(信息技术教育);2002年02期

10 郎宇飞;;上海市敬业中学:在改革中推进 以科研促发展[J];现代教学;2008年11期

相关会议论文 前2条

1 章年海;;中学历史课程改革问题再探讨[A];浙江史学论丛(第一辑)[C];2004年

2 玉占宾;;浅谈如何教好中学历史[A];2014年6月现代教育教学探索学术交流会论文集[C];2014年

相关重要报纸文章 前10条

1 黎平县第三中学 张宾辉;中学历史“生活化”教学刍议[N];贵州民族报;2014年

2 黄安年;国情、球情与历史教材[N];北京日报;2000年

3 孙刚;新学期学校建设全面启动[N];天津日报;2008年

4 见习记者 刘佳;感恩母校 共谱华章[N];天津教育报;2009年

5 茅卫东;一个网络骑士的追梦之旅[N];中国教师报;2005年

6 特约通讯员 王公球;熊化良:喜欢富有挑战性的生活[N];成才导报.教育周刊;2007年

7 远 鹏;10年探索开出教改花[N];中国教育报;2003年

8 俞吾金 复旦大学教授;“学历史”,还是“学考历史”?[N];文汇报;2002年

9 栾永平;教材透腐败 垄断是根源[N];厂长经理日报;2000年

10 本报特派记者 周元;文化看海南[N];海南日报;2014年

相关博士学位论文 前1条

1 王智昊;面向知识库问答的自然语言语义特征表示研究[D];山东师范大学;2017年

相关硕士学位论文 前10条

1 李依尘;面向自动问答的中学历史知识库构建[D];哈尔滨工业大学;2017年

2 秦珍珍;基于社交网络模型的智能个人知识库构建[D];南昌大学;2017年

3 周博通;基于知识库的自动问答关键技术研究[D];哈尔滨工业大学;2017年

4 徐丽;论中学历史学科研究性学习及其教师作用[D];东北师范大学;2008年

5 卢德明;中学历史常规试题命制研究[D];山东师范大学;2014年

6 王帅;中学历史学科创新型教师的培养[D];渤海大学;2015年

7 蔡红梅;中学历史名师培养的实践探索[D];四川师范大学;2015年

8 李静;乌海市海勃湾区中学历史教育发展状况研究[D];内蒙古师范大学;2015年

9 乔英;中学历史乡土课程资源的利用[D];聊城大学;2015年

10 曹晓鹤;中学历史导言设计的价值与路径[D];陕西师范大学;2015年



本文编号:1716269

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/1716269.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户1f4fa***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com