基于海量新闻数据的重大事件趋势预测研究
发布时间:2020-12-19 03:17
重大事件趋势预测是指对影响国家或地区和平稳定的时政或军事事件演化规律的预测,是国际关系领域的一个热点研究问题。大数据时代的来临以及人工智能技术的发展,使得基于公开新闻数据的重大事件趋势预测成为可能。本文借鉴国际关系研究领域“事件数据分析法”的量化思想,为满足现有研究方法存在的特征指标构建以及事件趋势因果溯源上的需求,针对朝鲜核行为的趋势预测,南海争端中的征候事件检测与预测两方面开展研究。基于网络爬虫技术获取海量事件专题新闻数据,利用自然语言处理(Nature Language Processing,NLP)、机器学习等技术进行处理,构建预测模型并进行实验结果分析。论文主要内容如下:首先,由于当前基于海量新闻数据的重大事件趋势预测方法在特征指标构建方面严重依赖专家知识,这极大制约了相关方法的普适性与时效性。针对这一问题,本文提出一种融合语义与事件特征的重大事件趋势预测方法。分别利用潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)模型与基于模式匹配规则的事件抽取技术从语义及事件两方面进行相关特征指标的自动化构建,针对LDA主题模型在特征词提取上存在偏向性的...
【文章来源】:杭州电子科技大学浙江省
【文章页数】:73 页
【学位级别】:硕士
【部分图文】:
KBS中文网北韩专题新闻列表页
杭州电子科技大学硕士学位论文(b)中新网国际专题新闻列表页展示图4.1部分数据源网站新闻列表页表4.1新闻数据表字段说明字段名类型长度备注TIMEdate0新闻发布时间URLvarchar255新闻链接(主键索引)NEWSTYPEvarchar255新闻类型TITLEvarchar255新闻标题CONTENTvarchar8192新闻报道正文利用SQL查询语句对获取新闻数据进行噪声过滤,基于项目合作单位分析结果,设计了5类查询语句进行数据过滤,用于抽取更加细粒度的南海专题新闻数据集,5类查询过滤语句如表4.2所示。表4.25类查询过滤语句SELECT*FROMnanhai_ztWHERECONTENTLIKE"%中国%南海%岛礁建设%"ORCONTENTLIKE"%中国%5G技术%美国%"ORCONTENTLIKE"%中国%军演%美国%"ORDERBYTIMESELECT*FROMnanhai_ztWHERECONTENTLIKE"%美国%司令%南海%派遣%"ORCONTENTLIKE"%美国%将军%南海%巡航%"ORDERBYTIMESELECT*FROMnanhai_ztWHERECONTENTLIKE"%中美%部长级%对话%"ORCONTENTLIKE"%中美%贸易战%制裁%"ORDERBYTIMESELECT*FROMnanhai_ztWHERECONTENTLIKE"%朝鲜%核实验%"ORCONTENTLIKE"%朝美%威胁%美国%"ORDERBYTIMESELECT*FROMnanhai_ztWHERECONTENTLIKE"%菲律宾%南海%主权%争端%"ORCONTENTLIKE"%越南%南海%主权%"ORDERBYTIME37
杭州电子科技大学硕士学位论文结合SQL查询语句噪声过滤的南海专题新闻数据表共包含10万条数据,数据表存储内容展示如图4.2所示。图4.2南海专题新闻数据表内容展示参照CAMEO(ConflictandMediationEventObservations)事件分类体系编码规范[78]以及项目合作单位领域先验知识定义20类可能引发南海争端的征候事件类型,并对事件类型进行编码,征候事件类型编码与事件描述如表4.3所示。表4.3定义征候事件类型编码与事件描述01公开声明02呼吁03表达合作意向04商议05进行外交合作06进行实质合作07提供援助08让步09调查10要求11不赞成12拒绝13威胁14集会抗议15展示军事姿态16降低关系17强迫18侵犯19作战20大规模暴力基于相关事件句在句法规则搭配上的不同,为每类征候事件设计一组模式匹配规则模板用于新闻报道中的事件句识别,各征候事件类型对应模式匹配规则如表4.4所示。表4.4各征候事件类型对应模式匹配规则事件类型模式匹配规则01公开声明source(宣布宣称){负责}、source{向}target(求证承诺表示)、source(祝贺)target{就任当选}、source{就}{向}target(表示致以){慰问哀悼}、…02呼吁(希望)source{与和同}target{进行}{协商合作}、source(呼吁鼓励希望)target{和平}{解决}{问题}、…03表达合作意向(期待希望愿愿意)srctgt{合作}、source(欢迎希望愿愿意)target{投资开发}、source(邀请欢迎)target{出席}{会议峰会论坛}、…04商议(主持参加举行)srctgt+{事务}{磋商}、source(抵达到达位)evtloc{与}target{会见磋商讨论}、source(率){团}{访问拜会访到访出访}target、…05进行外交合作source+{与和同跟}target+{在位}evtloc(签署签签订达成签定)、source{与同和跟}target(建立){合作}{伙伴}{关系}、source{与和同}target(?
本文编号:2925152
【文章来源】:杭州电子科技大学浙江省
【文章页数】:73 页
【学位级别】:硕士
【部分图文】:
KBS中文网北韩专题新闻列表页
杭州电子科技大学硕士学位论文(b)中新网国际专题新闻列表页展示图4.1部分数据源网站新闻列表页表4.1新闻数据表字段说明字段名类型长度备注TIMEdate0新闻发布时间URLvarchar255新闻链接(主键索引)NEWSTYPEvarchar255新闻类型TITLEvarchar255新闻标题CONTENTvarchar8192新闻报道正文利用SQL查询语句对获取新闻数据进行噪声过滤,基于项目合作单位分析结果,设计了5类查询语句进行数据过滤,用于抽取更加细粒度的南海专题新闻数据集,5类查询过滤语句如表4.2所示。表4.25类查询过滤语句SELECT*FROMnanhai_ztWHERECONTENTLIKE"%中国%南海%岛礁建设%"ORCONTENTLIKE"%中国%5G技术%美国%"ORCONTENTLIKE"%中国%军演%美国%"ORDERBYTIMESELECT*FROMnanhai_ztWHERECONTENTLIKE"%美国%司令%南海%派遣%"ORCONTENTLIKE"%美国%将军%南海%巡航%"ORDERBYTIMESELECT*FROMnanhai_ztWHERECONTENTLIKE"%中美%部长级%对话%"ORCONTENTLIKE"%中美%贸易战%制裁%"ORDERBYTIMESELECT*FROMnanhai_ztWHERECONTENTLIKE"%朝鲜%核实验%"ORCONTENTLIKE"%朝美%威胁%美国%"ORDERBYTIMESELECT*FROMnanhai_ztWHERECONTENTLIKE"%菲律宾%南海%主权%争端%"ORCONTENTLIKE"%越南%南海%主权%"ORDERBYTIME37
杭州电子科技大学硕士学位论文结合SQL查询语句噪声过滤的南海专题新闻数据表共包含10万条数据,数据表存储内容展示如图4.2所示。图4.2南海专题新闻数据表内容展示参照CAMEO(ConflictandMediationEventObservations)事件分类体系编码规范[78]以及项目合作单位领域先验知识定义20类可能引发南海争端的征候事件类型,并对事件类型进行编码,征候事件类型编码与事件描述如表4.3所示。表4.3定义征候事件类型编码与事件描述01公开声明02呼吁03表达合作意向04商议05进行外交合作06进行实质合作07提供援助08让步09调查10要求11不赞成12拒绝13威胁14集会抗议15展示军事姿态16降低关系17强迫18侵犯19作战20大规模暴力基于相关事件句在句法规则搭配上的不同,为每类征候事件设计一组模式匹配规则模板用于新闻报道中的事件句识别,各征候事件类型对应模式匹配规则如表4.4所示。表4.4各征候事件类型对应模式匹配规则事件类型模式匹配规则01公开声明source(宣布宣称){负责}、source{向}target(求证承诺表示)、source(祝贺)target{就任当选}、source{就}{向}target(表示致以){慰问哀悼}、…02呼吁(希望)source{与和同}target{进行}{协商合作}、source(呼吁鼓励希望)target{和平}{解决}{问题}、…03表达合作意向(期待希望愿愿意)srctgt{合作}、source(欢迎希望愿愿意)target{投资开发}、source(邀请欢迎)target{出席}{会议峰会论坛}、…04商议(主持参加举行)srctgt+{事务}{磋商}、source(抵达到达位)evtloc{与}target{会见磋商讨论}、source(率){团}{访问拜会访到访出访}target、…05进行外交合作source+{与和同跟}target+{在位}evtloc(签署签签订达成签定)、source{与同和跟}target(建立){合作}{伙伴}{关系}、source{与和同}target(?
本文编号:2925152
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2925152.html