国际资讯中的中国元素提取系统的设计与实现
发布时间:2021-08-01 17:06
随着互联网技术的飞速发展,各类信息巨增,在互联网上每天都有海量信息在生成、传播和存储,人类面临前所未有的信息膨胀。越来越多的人喜欢看一些英文国际资讯,但是读者往往希望看一些关于中国的报道。面对如此庞大的信息网络,人们往往无法在英文资讯中快速定位到有关中国元素的信息。如何设计一个系统,能够科学有效的提取出国际资讯中的中国元素信息,以节省用户的阅读时间,是当下研究者比较关注的问题。本论文首先根据实际需求明确中国元素提取的需求,对系统架构和功能模块进行了详细设计。其次深入研究了中国元素提取的技术方案,提出了中国元素提取回溯策略,采用基于中国元素词典库的匹配方法对条件随机场模型的提取结果进行二次提取操作。最后实现了一个中国元素提取系统。本系统使用了网页信息采集、命名实体识别、文本检索等相关技术。根据用户输入的网址,系统自动采集网页信息,通过训练好的模型对原始文本进行中国元素提取,最终以web形式展示给用户。用户可以使用本系统方便快捷的查看英文国际资讯中的中国人名、地名、美食、文化、机构等信息。另外为了方便一些信息咨询公司的人员进行批量提取操作,本系统还提供了提取本地英文文本的中国元素的服务。基...
【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校
【文章页数】:67 页
【学位级别】:硕士
【部分图文】:
图3-1系统整体架构图??3.2.1系统数据层功能??数据层提供数据采集和数据存储服务
本系统基于MySql设计了数据库的整体结构,主要有9张表,分别存储采??集模块采集的信息、中国元素提取结果汇总、中国人名、地名、美食、机构、文??化以及系统的用户表。数据库的实体关系如图3-4所示。??name?!?'?.??content??咖':?urt_?:??二:—????V?J?1?J-.'?id?:;??^??__采??1?严?—e??:ajm?-le^?!???id?-?P|ace?se ̄- ̄??crg?;丨?丄?〇rg??<?utle?^?^?food?1??-vv*?food?.??Uf,?訕咖??.le??k^?Url?丨.‘?ur|??titl-e?^?^??doc_user?.?.?^???^___?1?^??place?:厂.id????title?^?name?.??url?passed??n?y?email?.,.'卜灰满二;??sex??cjime??\?y??图3-7数据库实体关系示意图??26??
4.1数据层模块??由第三章中对存储层模块的设计可知,系统的数据层包含数据采集模块和数??据存储模块。本层的主要模块为数据采集模块,对数据采集模块的实现分为两部??分:??(1)分析常见国际资讯网站的网页结构(这里以环球时报为例)。??(2)部署爬虫程序。??4.1.1网页结构分析??第一步是分析环球时报的网页结构,获得所需信息所在的标签。打开环球时??报选择dements查看器,可以看到如图4-1所示的,所有的类别文章的URL都??是以网站URL+文章所属类别构成,所以可以设定两个正则匹配器。??patteml?=?'http://www\.globaltimes\.cnV[a-zO-9V\.]*¥';??pattem2?=?'http://ww\v\.globaltimes\.cnVunameV[0-9]*\.shtml¥'o??uname为一个变量名,然后利用深度优先搜索(dfs)即可遍历环球时报网下所??有文章的URL。??GI?tieir-eits?CoRsct???euf?s?Vewcry?Audits??r?s'v'sss-nsvsar-svsrsf??
【参考文献】:
期刊论文
[1]一种基于语料的词汇语义相似度认知算法[J]. 吴华,罗顺,孙伟晋. 计算机与数字工程. 2019(02)
[2]面向事件的中文指代语料库的构建[J]. 张亚军,刘宗田,李强,周文. 上海大学学报(自然科学版). 2018(06)
[3]结合有监督广度优先搜索策略的通用垂直爬虫方法[J]. 高峰,刘震,高辉. 计算机工程. 2018(11)
[4]基于词典匹配的蒙古文命名实体识别研究[J]. 包敏娜,斯·劳格劳. 中央民族大学学报(哲学社会科学版). 2017(03)
[5]基于条件随机场的中文领域分词研究[J]. 朱艳辉,刘璟,徐叶强,田海龙,马进. 计算机工程与应用. 2016(15)
[6]基于Solr的分布式全文检索系统的研究与实现[J]. 李戴维,李宁. 计算机与现代化. 2012(11)
[7]基于局部特征和隐条件随机场的场景分类方法[J]. 李玲玲,金泰松,李翠华. 北京理工大学学报. 2012(07)
[8]从客户评论中识别命名实体——基于最大熵模型的实现[J]. 余传明,黄建秋,郭飞. 现代图书情报技术. 2011(05)
[9]藏语命名实体识别研究[J]. 金明,杨欢欢,单广荣. 西北民族大学学报(自然科学版). 2010(03)
[10]论自然语言处理的发展趋势[J]. 殷杰,董佳蓉. 自然辩证法研究. 2008(03)
博士论文
[1]面向图像标记的条件随机场模型研究[D]. 徐丽.长安大学 2013
[2]基于本体的自适应Web信息抽取方法研究[D]. 李传席.中国科学技术大学 2012
[3]非遍历马尔科夫过程大偏差及相关问题[D]. 邓晓雪.清华大学 2011
[4]最大熵方法及其在自然语言处理中的应用[D]. 周雅倩.复旦大学 2005
硕士论文
[1]科技信息分类聚合系统的设计与实现[D]. 陈冬凯.北京邮电大学 2018
[2]基于规则和条件随机场的中文命名实体识别方法研究[D]. 程志刚.华中师范大学 2015
[3]越南语新闻事件元素抽取方法研究[D]. 潘清清.昆明理工大学 2014
[4]基于条件随机场的命名实体识别[D]. 祁日秀.北京邮电大学 2013
[5]网页抓取策略研究[D]. 翁岩青.哈尔滨工程大学 2010
本文编号:3315909
【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校
【文章页数】:67 页
【学位级别】:硕士
【部分图文】:
图3-1系统整体架构图??3.2.1系统数据层功能??数据层提供数据采集和数据存储服务
本系统基于MySql设计了数据库的整体结构,主要有9张表,分别存储采??集模块采集的信息、中国元素提取结果汇总、中国人名、地名、美食、机构、文??化以及系统的用户表。数据库的实体关系如图3-4所示。??name?!?'?.??content??咖':?urt_?:??二:—????V?J?1?J-.'?id?:;??^??__采??1?严?—e??:ajm?-le^?!???id?-?P|ace?se ̄- ̄??crg?;丨?丄?〇rg??<?utle?^?^?food?1??-vv*?food?.??Uf,?訕咖??.le??k^?Url?丨.‘?ur|??titl-e?^?^??doc_user?.?.?^???^___?1?^??place?:厂.id????title?^?name?.??url?passed??n?y?email?.,.'卜灰满二;??sex??cjime??\?y??图3-7数据库实体关系示意图??26??
4.1数据层模块??由第三章中对存储层模块的设计可知,系统的数据层包含数据采集模块和数??据存储模块。本层的主要模块为数据采集模块,对数据采集模块的实现分为两部??分:??(1)分析常见国际资讯网站的网页结构(这里以环球时报为例)。??(2)部署爬虫程序。??4.1.1网页结构分析??第一步是分析环球时报的网页结构,获得所需信息所在的标签。打开环球时??报选择dements查看器,可以看到如图4-1所示的,所有的类别文章的URL都??是以网站URL+文章所属类别构成,所以可以设定两个正则匹配器。??patteml?=?'http://www\.globaltimes\.cnV[a-zO-9V\.]*¥';??pattem2?=?'http://ww\v\.globaltimes\.cnVunameV[0-9]*\.shtml¥'o??uname为一个变量名,然后利用深度优先搜索(dfs)即可遍历环球时报网下所??有文章的URL。??GI?tieir-eits?CoRsct???euf?s?Vewcry?Audits??r?s'v'sss-nsvsar-svsrsf??
【参考文献】:
期刊论文
[1]一种基于语料的词汇语义相似度认知算法[J]. 吴华,罗顺,孙伟晋. 计算机与数字工程. 2019(02)
[2]面向事件的中文指代语料库的构建[J]. 张亚军,刘宗田,李强,周文. 上海大学学报(自然科学版). 2018(06)
[3]结合有监督广度优先搜索策略的通用垂直爬虫方法[J]. 高峰,刘震,高辉. 计算机工程. 2018(11)
[4]基于词典匹配的蒙古文命名实体识别研究[J]. 包敏娜,斯·劳格劳. 中央民族大学学报(哲学社会科学版). 2017(03)
[5]基于条件随机场的中文领域分词研究[J]. 朱艳辉,刘璟,徐叶强,田海龙,马进. 计算机工程与应用. 2016(15)
[6]基于Solr的分布式全文检索系统的研究与实现[J]. 李戴维,李宁. 计算机与现代化. 2012(11)
[7]基于局部特征和隐条件随机场的场景分类方法[J]. 李玲玲,金泰松,李翠华. 北京理工大学学报. 2012(07)
[8]从客户评论中识别命名实体——基于最大熵模型的实现[J]. 余传明,黄建秋,郭飞. 现代图书情报技术. 2011(05)
[9]藏语命名实体识别研究[J]. 金明,杨欢欢,单广荣. 西北民族大学学报(自然科学版). 2010(03)
[10]论自然语言处理的发展趋势[J]. 殷杰,董佳蓉. 自然辩证法研究. 2008(03)
博士论文
[1]面向图像标记的条件随机场模型研究[D]. 徐丽.长安大学 2013
[2]基于本体的自适应Web信息抽取方法研究[D]. 李传席.中国科学技术大学 2012
[3]非遍历马尔科夫过程大偏差及相关问题[D]. 邓晓雪.清华大学 2011
[4]最大熵方法及其在自然语言处理中的应用[D]. 周雅倩.复旦大学 2005
硕士论文
[1]科技信息分类聚合系统的设计与实现[D]. 陈冬凯.北京邮电大学 2018
[2]基于规则和条件随机场的中文命名实体识别方法研究[D]. 程志刚.华中师范大学 2015
[3]越南语新闻事件元素抽取方法研究[D]. 潘清清.昆明理工大学 2014
[4]基于条件随机场的命名实体识别[D]. 祁日秀.北京邮电大学 2013
[5]网页抓取策略研究[D]. 翁岩青.哈尔滨工程大学 2010
本文编号:3315909
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3315909.html
最近更新
教材专著