基于Web的新词语发现研究
发布时间:2022-01-02 08:47
随着互联网的兴起,Internet几乎进入了人们生活的各个角落,在给人们带来巨大便利的同时也不断影响着人们所使用的语言,特别是语言中的词语,越来越多的中文新词语出现在网络上,影响着人们的日常交流用语。中文新词的出现丰富了语言的色彩,同时也给词库更新、自然语言处理、词典编纂等领域带来了很多困难。鉴于当前新词语并没有一个准确的、公认的定义,如何快速、准确的查找出新词语成了一个比较麻烦的问题。本文根据语言学和词法分析中关于新词语的定义,将新词语分为词形新的词语、命名实体和意义用法发生变化的已有词语这三大类。本文主要研究的是对于词形新的词语的自动发现。从当前来看,国内外对于词形新的新词语识别研究还不多见,而且现有的研究提取的新词语一般都是限于词长或者是限于领域。本文提出了自己的方法——从互联网上采集大量的新闻网页,然后从新闻内容中提取新词语。我们的目标是从全局角度寻找在指定日期后出现的不限领域和词长的新词语。本文提出的方法实现的系统分为三个部分:网页采集、网页分析和新词语的提取。在网页采集部分用网页爬虫程序下载指定网页;网页分析部分提取网页的新闻内容和新闻日期,对内容用分词程序进行分词,重复串...
【文章来源】:安徽大学安徽省 211工程院校
【文章页数】:55 页
【学位级别】:硕士
【部分图文】:
新浪新闻网页经过我们的研究发现每个新闻网站都有一些网页格式模板,这些模板会定期更新
是不被显示在正文中的,在此标签中可以插入其它标记,用以说明文件的标题和整个文件的一些公公属性。 <BODY></BODY>标签之间的文本是正文,是在浏览器要显示的页面内容仁l幻。图3一14中的新闻网页源文件结构如下图所示:(份DOCT甲 PEhtnlPUBLIC”一 llU3CllDTDXHT月 L1.0TransitionalllEH,,”httP:11”叨”二3.orgITRlxhtmlllDTDlxhtnll一tran,itional.dtd”>《 ht.1xmlns二”httP:11毋.”二 3.orgll999lxhtnl”)《he己d)《 .etahttp一eq<titie>国资委ui妙=”Content一T梦Pe”content=”text/htnl;eharset=gb2312”I):78家央企将退出房地产业务浙闻中心浙浪网 </title》《Ihe〕d)《bod,id二”conBodg”><卜一sUD自_CODE_STnRT一) <diuelas弓=”Nain”)<,一内容列加gin一) <diUCl日55=”blkContainer,’>{<卜一正文块begin一) ;<diUCl日55=”blkContainerPblk”> ;;(diUel日55=”blkContainersbl阮.,》;;;:};<di”class二”artlnfo”》 (SPanid=”art_Souree’ .>(ahref=”http:11.树二sina.eon.cn”)httP:11”“”.sina.con.en<la><IsPan>胜nbsp;胜 nb5P;(‘ Panid=二。 ubdate二)日砚国目目曰翻日15:07(lsoan)‘nbsp:胜nbs。:《 soanid=二 nediana.e’·>(anref=”nttp:Ilhouse·people·co二cnl‘61111116耳绍·nt凡1”target=”_Dlan“”少八氏阴‘Ia之 (ahref=”httP:/lhouse·pe0Ple·co二cnlgBllll716匆助·ht.1”target=’._blank”>《la》(lsPan>(Idiu)《p>3月1黝翼黔糯燃翼豁雏提孵除家占兀16在︸图3一巧网页结构示意图从图3一15的网页结构示意图我们分析发现新闻的内容都是整段整段的位于html标签<P》二</p>之间
【参考文献】:
期刊论文
[1]网络新词的产生与发展研究[J]. 李妍妍. 新闻爱好者. 2009(03)
[2]基于统计-规则方法的网页层次分类技术研究[J]. 谭金波,杨晓江,李艺. 现代图书情报技术. 2007(08)
[3]一种基于大规模语料的新词识别方法[J]. 贺敏,龚才春,张华平,程学旗. 计算机工程与应用. 2007(21)
[4]一种利用BC方法的关键词自动提取算法研究[J]. 张敏,耿焕同,王煦法. 小型微型计算机系统. 2007(01)
[5]一种快速获取领域新词语的新方法[J]. 刘华. 中文信息学报. 2006(05)
[6]基于大规模语料的新词语识别方法[J]. 施水才,俞鸿魁,吕学强,李渝勤. 山东大学学报(理学版). 2006(03)
[7]基于大规模语料库的新词检测[J]. 崔世起,刘群,孟遥,于浩,西野文人. 计算机研究与发展. 2006(05)
[8]词表的自动丰富——从元数据中提取关键词及其定位[J]. 王军. 中文信息学报. 2005(06)
[9]一个中文新词识别特征的研究[J]. 秦浩伟,步丰林. 计算机工程. 2004(S1)
[10]面向Internet的中文新词语检测[J]. 邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇. 中文信息学报. 2004(06)
硕士论文
[1]基于词语网络的关键词自动提取方法及在中文网页分类中的应用研究[D]. 温安国.复旦大学 2009
[2]中文名实体识别与新词发现技术研究[D]. 刘利刚.哈尔滨工业大学 2007
[3]中文新词语自动检测研究[D]. 邹纲.中国科学院研究生院(计算技术研究所) 2004
[4]汉语语境下的网络新词语研究[D]. 李薇薇.汕头大学 2003
本文编号:3563871
【文章来源】:安徽大学安徽省 211工程院校
【文章页数】:55 页
【学位级别】:硕士
【部分图文】:
新浪新闻网页经过我们的研究发现每个新闻网站都有一些网页格式模板,这些模板会定期更新
是不被显示在正文中的,在此标签中可以插入其它标记,用以说明文件的标题和整个文件的一些公公属性。 <BODY></BODY>标签之间的文本是正文,是在浏览器要显示的页面内容仁l幻。图3一14中的新闻网页源文件结构如下图所示:(份DOCT甲 PEhtnlPUBLIC”一 llU3CllDTDXHT月 L1.0TransitionalllEH,,”httP:11”叨”二3.orgITRlxhtmlllDTDlxhtnll一tran,itional.dtd”>《 ht.1xmlns二”httP:11毋.”二 3.orgll999lxhtnl”)《he己d)《 .etahttp一eq<titie>国资委ui妙=”Content一T梦Pe”content=”text/htnl;eharset=gb2312”I):78家央企将退出房地产业务浙闻中心浙浪网 </title》《Ihe〕d)《bod,id二”conBodg”><卜一sUD自_CODE_STnRT一) <diuelas弓=”Nain”)<,一内容列加gin一) <diUCl日55=”blkContainer,’>{<卜一正文块begin一) ;<diUCl日55=”blkContainerPblk”> ;;(diUel日55=”blkContainersbl阮.,》;;;:};<di”class二”artlnfo”》 (SPanid=”art_Souree’ .>(ahref=”http:11.树二sina.eon.cn”)httP:11”“”.sina.con.en<la><IsPan>胜nbsp;胜 nb5P;(‘ Panid=二。 ubdate二)日砚国目目曰翻日15:07(lsoan)‘nbsp:胜nbs。:《 soanid=二 nediana.e’·>(anref=”nttp:Ilhouse·people·co二cnl‘61111116耳绍·nt凡1”target=”_Dlan“”少八氏阴‘Ia之 (ahref=”httP:/lhouse·pe0Ple·co二cnlgBllll716匆助·ht.1”target=’._blank”>《la》(lsPan>(Idiu)《p>3月1黝翼黔糯燃翼豁雏提孵除家占兀16在︸图3一巧网页结构示意图从图3一15的网页结构示意图我们分析发现新闻的内容都是整段整段的位于html标签<P》二</p>之间
【参考文献】:
期刊论文
[1]网络新词的产生与发展研究[J]. 李妍妍. 新闻爱好者. 2009(03)
[2]基于统计-规则方法的网页层次分类技术研究[J]. 谭金波,杨晓江,李艺. 现代图书情报技术. 2007(08)
[3]一种基于大规模语料的新词识别方法[J]. 贺敏,龚才春,张华平,程学旗. 计算机工程与应用. 2007(21)
[4]一种利用BC方法的关键词自动提取算法研究[J]. 张敏,耿焕同,王煦法. 小型微型计算机系统. 2007(01)
[5]一种快速获取领域新词语的新方法[J]. 刘华. 中文信息学报. 2006(05)
[6]基于大规模语料的新词语识别方法[J]. 施水才,俞鸿魁,吕学强,李渝勤. 山东大学学报(理学版). 2006(03)
[7]基于大规模语料库的新词检测[J]. 崔世起,刘群,孟遥,于浩,西野文人. 计算机研究与发展. 2006(05)
[8]词表的自动丰富——从元数据中提取关键词及其定位[J]. 王军. 中文信息学报. 2005(06)
[9]一个中文新词识别特征的研究[J]. 秦浩伟,步丰林. 计算机工程. 2004(S1)
[10]面向Internet的中文新词语检测[J]. 邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇. 中文信息学报. 2004(06)
硕士论文
[1]基于词语网络的关键词自动提取方法及在中文网页分类中的应用研究[D]. 温安国.复旦大学 2009
[2]中文名实体识别与新词发现技术研究[D]. 刘利刚.哈尔滨工业大学 2007
[3]中文新词语自动检测研究[D]. 邹纲.中国科学院研究生院(计算技术研究所) 2004
[4]汉语语境下的网络新词语研究[D]. 李薇薇.汕头大学 2003
本文编号:3563871
本文链接:https://www.wllwen.com/wenyilunwen/yuyanxuelw/3563871.html