维吾尔文网页正文抽取系统的研究与实现
【图文】:
2 维文网页正文抽取系统的研究与设计图1即为本文基于python语言[14]实现得维文网页正文抽取系统的整体架构图。整个文本抽取系统的具体实现分为5个模块:网络连接管理模块、维文编码处理模块、网页预处理模块、文本提取模块和后期处理模块。
图2 一个维文网页和相应解码后的网页源代码nicode编码不在标准维文编码范围,而是在Unicode编展区中。因此本文在采用网页正文提取算法之前,对范的维文编码进行了标准化处理。相应的编码转化规表1所示。表1 维文编码转换字符 扩展编码 标准编码0xFE8D 0xFE8E 0x06270xFEE9 0xFEEA 0x06D50xFE8F 0xFE90 0xFE91 0xFE92 0x0628… … …在网页源码经标准化处理之后,我们将网页解码代码给网页预处理模块。 网页预处理模块在网页预处理阶段中,我们首先分析研究网页源码的ML标签结构和属性,而后通过制定过滤规则尽可能地规则4:用自定义标签<tag></tag>替换段落如:<body></body>、<div></div>、<tabletable>等;规则5:简化链接标签<a href=…>为<a>;经过以上规则处理后的源码相对预处理前的源码大幅减少,文本内容只包含<tag>和<a>标签,结化明了,方便了后面的文本段的提取。2.4 正文抽取模块正文模块抽取经过预处理后的网页文本内容中的各段,并存放到一个线性字符串数组中。由于多数网页存签嵌套性,如:<tag>…<tag>…</tag>…</tag>以不能只是简单地抽取标签<tag>和</tag>内的内容须对文本标签做线性化处理[15]。本文中,我们对文本中除首尾<tag>和</tag>外的其它标签做如下处理:在<tag>标签前插入</标签,,在</tag>标签后插?
【作者单位】: 中国科学院新疆理化技术研究所;中国科学院研究生院;新疆维吾尔自治区经济和信息化委员会;
【基金】:中国科学院“西部行动计划高新技术基金项目”(KGCX2-YW-507)
【分类号】:H215;TP391.1
【参考文献】
相关期刊论文 前10条
1 张成洪,肖军建,张诚;Web内容抽取及其数据管理方法[J];复旦学报(自然科学版);2001年02期
2 杨敬伟;杨文柱;高悦;;基于DOM的Web信息抽取规则的构造与实现[J];河北大学学报(自然科学版);2007年02期
3 张霞亮;陈家骏;;基于逻辑行和最大接纳距离的网页正文抽取[J];计算机工程与应用;2009年25期
4 王利;刘宗田;王燕华;廖涛;;基于内容相似度的网页正文提取[J];计算机工程;2010年06期
5 王敬普;林亚平;周顺先;岳文;;基于包装器模型的文本信息抽取[J];计算机应用;2006年03期
6 王磊;蒋建中;郭军利;;基于扩展DOM树的Web页面信息抽取[J];计算机应用与软件;2007年06期
7 梅雪;程学旗;郭岩;张刚;丁国栋;;一种全自动生成网页信息抽取Wrapper的方法[J];中文信息学报;2008年01期
8 周佳颖;朱珍民;高晓芳;;基于统计与正文特征的中文网页正文抽取研究[J];中文信息学报;2009年05期
9 李培峰;朱巧明;钱培德;;基于Web的大规模语料库构建方法[J];计算机工程;2008年07期
10 张裕钦;李振坤;吴永杰;;基于规则模型的网页主题文本提取方法[J];计算机工程与设计;2009年20期
【共引文献】
相关期刊论文 前10条
1 袁鸿雁;;基于本体的HTML表格识别技术的研究[J];长春工程学院学报(自然科学版);2010年01期
2 蒋邵衡;;WEB信息的抽取与集成研究[J];电脑知识与技术;2009年30期
3 付保红;李玉春;;油田测井曲线数据管理系统需求性分析[J];大庆师范学院学报;2011年03期
4 游贵荣;陆玉昌;;基于统计和机器学习的中文Web网页正文内容抽取[J];福建商业高等专科学校学报;2009年02期
5 夏天;;基于扩展标记树的网页正文抽取[J];广西师范大学学报(自然科学版);2011年01期
6 刘晓星;胡畅霞;;WEB中文本信息检索的关键技术研究[J];硅谷;2011年16期
7 杨波;张立娜;;基于C#正则表达式的农业文献管理系统的研究与应用[J];安徽农业科学;2012年05期
8 张敏;;基于确定性树自动机技术的信息抽取研究[J];才智;2011年36期
9 宋健豪;赵刚;;基于启发式规则优化的网页元素提取方法[J];信息安全与技术;2012年06期
10 刘丰;韩辉;周蕾;齐峻瑶;徐宝梁;;网络信息技术在传染病舆情监测中的应用[J];中国国境卫生检疫杂志;2012年04期
相关博士学位论文 前3条
1 要丹;石油地质实验信息自动管理与评价系统[D];吉林大学;2008年
2 谭红叶;中文事件抽取关键技术研究[D];哈尔滨工业大学;2008年
3 王肃;基于多Agent的突发事件信息智能监测系统研究[D];北京邮电大学;2011年
【二级参考文献】
相关期刊论文 前10条
1 贺令亚;柳佳刚;;基于Web的包装器技术的现状与发展[J];电脑开发与应用;2007年06期
2 杨敬伟;杨文柱;高悦;;基于DOM的Web信息抽取规则的构造与实现[J];河北大学学报(自然科学版);2007年02期
3 王琦,唐世渭,杨冬青,王腾蛟;基于DOM的网页主题信息自动提取[J];计算机研究与发展;2004年10期
4 张树瑜,朱仲英;基于MT决策树的Web信息抽取研究[J];计算机工程与应用;2004年13期
5 李蕾;王劲林;白鹤;胡晶晶;;基于FFT的网页正文提取算法研究与实现[J];计算机工程与应用;2007年30期
6 周源远,王继成,郑刚,张福炎;Web页面清洗技术的研究与实现[J];计算机工程;2002年09期
7 朱永盛;武港山;;基于Web的新闻信息抽取[J];计算机工程;2006年10期
8 黄健斌;姬红兵;孙鹤立;;Web网页中动态数据区域的识别与抽取[J];计算机工程;2007年11期
9 时达明;林鸿飞;杨志豪;;基于网页框架和规则的网页噪音去除方法[J];计算机工程;2007年19期
10 李效东,顾毓清;基于DOM的Web信息提取[J];计算机学报;2002年05期
【相似文献】
相关期刊论文 前10条
1 杨行;;语料库工具与英语词汇教学之light Vs.heavy[J];科技信息;2011年16期
2 谷婧;;语料库在中学英语词汇教学中的应用[J];新教育;2011年08期
3 梁健丽;;“英语作为通用语”语料库介评(英文)[J];语文学刊(外语教育与教学);2011年08期
4 刘艺;;英语职业教育中语料库作用探讨[J];黑龙江科技信息;2011年21期
5 吴军莉;;二语习得与语料库英语教学[J];佳木斯教育学院学报;2011年04期
6 李安玲;张晓雁;;探究语料库在英语写作教学中的应用[J];校园英语(教研版);2011年06期
7 董娜;;语料库与翻译教学[J];语文学刊;2011年09期
8 米歇尔·保尔;海伦·夏普维拉;迪莱塔·迪·洛克;斯戴芬妮亚·格拉斯亚尼;徐洁;;CoDiSV:奥斯塔山谷地区学校儿童书面作业的数字语料库[J];中国儿童文化;2010年00期
9 张敏;李学宁;;西方主要英语语料库结构代表性分析[J];赤峰学院学报(汉文哲学社会科学版);2011年06期
10 范然;叶兴敏;张慧艳;;基于语料库的现代大学英语课程词汇改革初探[J];成功(教育);2011年08期
相关会议论文 前10条
1 吐尔根·依布拉音;阿里甫·库尔班维尼拉·木沙江;;面向汉维机器翻译的双语对齐语料库设计与实现[A];第十届全国少数民族语言文字信息处理学术研讨会论文集[C];2005年
2 郭曙纶;;基于语料库的HSK多功能例解字典:设想与样例[A];2004年辞书与数字化研讨会论文集[C];2004年
3 梁红梅;尹晓霞;李宇庄;;有关语料库驱动下的外语在线自主学习的工作底稿[A];全国大学英语教学改革暨网络环境下外语教学学术研讨会论文集[C];2004年
4 许小星;亢世勇;孙茂松;刘金凤;;语料库语义成分标注的若干问题[A];第三届学生计算语言学研讨会论文集[C];2006年
5 宋鸿彦;刘军;姚天f ;刘全升;黄高辉;;汉语意见型主观性文本标注语料库的构建[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
6 黄玉;李生;孟遥;丁华福;;基于大规模语料库的英语从句识别[A];第一届学生计算语言学研讨会论文集[C];2002年
7 李明;;语料库·蓝本·双语词典[A];中国辞书学会双语词典专业委员会第五届年会暨学术研讨会论文集[C];2003年
8 郭启新;;论语料库与英汉词典配例[A];中国辞书学会双语词典专业委员会第四届年会暨学术研讨会论文集[C];2001年
9 蔡莲红;蔡锐;吴志勇;陶建华;;语音合成语料库的设计与声学特征分析[A];中国声学学会2002年全国声学学术会议论文集[C];2002年
10 孙述学;;新词语语料库建设的一些构想[A];2004年辞书与数字化研讨会论文集[C];2004年
相关重要报纸文章 前10条
1 记者 王靖;本报蝉联自治区“双十佳”报纸[N];兵团日报(汉);2003年
2 ;“我们也想过安稳的日子”[N];人民日报;2009年
3 记者 杨立洋;新疆开通维吾尔文版手机报[N];人民邮电;2009年
4 杨萌;全球第一款维吾尔文手机问世[N];中国信息报;2004年
5 本报记者 葛瑞金;好书众人读 精品人人爱[N];中国新闻出版报;2006年
6 记者 方云静;首款维吾尔文无线通讯方案推出[N];新疆日报(汉);2009年
7 本报记者 周建华;数字战略打造核心竞争力[N];中国图书商报;2001年
8 记者 王坤宁;商务方正合作开发辞书语料库及编纂系统[N];中国新闻出版报;2002年
9 卢伟;文学语言的语料库研究方法[N];文艺报;2004年
10 本报评论员;普及科学知识 发展先进文化[N];新疆日报(汉);2001年
相关博士学位论文 前10条
1 张廷香;基于语料库的3-6岁汉语儿童词汇研究[D];山东大学;2010年
2 夏云;基于语料库的英汉翻译小说常规化研究:历时的视角[D];山东大学;2010年
3 何婷婷;语料库研究[D];华中师范大学;2003年
4 王青;基于语料库的《尤利西斯》汉译本译者风格研究[D];山东大学;2010年
5 唐斌;《人民日报》中(1987-2007)农民工的话语再现[D];上海外国语大学;2010年
6 徐欣;基于语料库的英汉小说语篇中话语标记功能研究[D];山东大学;2011年
7 张建梅;基于语料库的现代蒙古语简单陈述句句型分析研究[D];内蒙古大学;2010年
8 王丽;基于语料库的中国学习者英语口语中语用标记语研究[D];上海交通大学;2008年
9 郑泽芝;基于动态流通语料库(DCC)的汉语字母词语识别及考察研究[D];北京语言大学;2005年
10 杨石乔;基于语料库的汉语医患会话修正研究[D];上海外国语大学;2010年
相关硕士学位论文 前10条
1 岳炳词;面向语言学研究的大规模汉语生语料库检索工具CCRLT[D];北京工业大学;2001年
2 徐琰;基于语料库的ONLY研究[D];大连海事大学;2003年
3 杨丽萍;基于语料库的英语专业大学生议论文限时写作中的四字词块研究[D];江西师范大学;2010年
4 毕丽克孜;现代维吾尔语语料库词频统计实验性研究[D];新疆大学;2003年
5 李淼;用先进的语料库工具推进英语教学[D];首都师范大学;2004年
6 李春青;[D];电子科技大学;2004年
7 王蓉;新闻英语的批评性语篇分析[D];上海师范大学;2010年
8 刘鼎甲;连接成分的显化:基于语料库的中英文翻译文本对比[D];燕山大学;2010年
9 刘露露;汉语衍名的双事件隐喻分析[D];四川外语学院;2011年
10 黄洁;基于语料库的商务英语词汇特点的研究[D];大连海事大学;2010年
本文编号:2552391
本文链接:https://www.wllwen.com/wenyilunwen/yuyanxuelw/2552391.html