正则表达式在汉语语料检索中的应用
本文关键词:正则表达式在汉语语料检索中的应用
【摘要】:正则表达式能充分描述检索的条件,实现语言数据的精确提取。本文探讨正则表达式用于汉语语料检索的问题,分析了汉语元字符使用的特殊性,提出了反映汉语词汇和语法特点的表达式编写方法,并以实例展示了正则表达式在汉语语料检索时的使用效果。
【作者单位】: 曲阜师范大学外国语学院;北京外国语大学中国外语教育研究中心;
【关键词】: 语料库 正则表达式 元字符 数据检索
【基金】:国家社科基金重大项目“大规模英汉平行语料库的建立与加工”(10&ZD127);国家社科基金课题“历时语料类比中的翻译与现代汉语互动研究”(10BYY008)的阶段性基础研究成果
【分类号】:H136;H146
【正文快照】: 1.引言语言符号按先后关系有序排列,这种线性(linearity)是语言的基本特征。根据该特征,我们可以使用各种型式(pattern)来匹配字符串或者有序排列的间隔字符。如果型式使用了元代码,并以公式的形式使用,那就是有规则的表达形式,故称正则表达式(regular expression,常写作regex
【参考文献】
中国期刊全文数据库 前1条
1 秦洪武;;英译汉翻译语言的结构容量:基于多译本语料库的研究[J];外国语(上海外国语大学学报);2010年04期
【共引文献】
中国期刊全文数据库 前6条
1 宋庆伟;匡华;吴建平;;国内语料库翻译学20年述评(1993—2012)[J];上海翻译;2013年02期
2 袁国廷;任和;;目的论视角下的英语硬新闻导语的汉译[J];山东工业技术;2013年09期
3 刘泽权;张冰;;我国翻译质量评价研究的现状与趋势[J];燕山大学学报(哲学社会科学版);2012年03期
4 王克非;秦洪武;;英汉翻译与汉语原创历时语料库的研制[J];外语教学与研究;2012年06期
5 赵秋荣;王克非;;英译汉翻译语言的阶段性特点——基于历时类比语料库的考察[J];中国翻译;2013年03期
6 秦洪武;王克非;;重译评估的语料库方法:Robinson Crusoe的两个中译本[J];燕山大学学报(哲学社会科学版);2013年04期
中国硕士学位论文全文数据库 前7条
1 高敏;企业对外宣传文本的英译[D];曲阜师范大学;2011年
2 王绵绵;研究生翻译作业质量评估的结构容量视角[D];曲阜师范大学;2012年
3 李娇;基于语料库对杨必翻译中女性特质的研究[D];曲阜师范大学;2013年
4 张丹;基于语料库对汉语翻译语言结构容量的研究[D];曲阜师范大学;2013年
5 王蓉;基于语料的英汉翻译语言风格对比研究[D];南京师范大学;2013年
6 吕孟巧;基于平行语料库的汉语译文语言分析[D];广西大学;2013年
7 赵佳佳;基于语料库翻译学理论的译者风格研究[D];辽宁师范大学;2013年
【二级参考文献】
中国期刊全文数据库 前3条
1 王克非;秦洪武;;英译汉语言特征探讨——基于对应语料库的宏观分析[J];外语学刊;2009年01期
2 王克非;英汉/汉英语句对应的语料库考察[J];外语教学与研究;2003年06期
3 秦洪武;王克非;;基于对应语料库的英译汉语言特征分析[J];外语教学与研究;2009年02期
【相似文献】
中国期刊全文数据库 前10条
1 崔刚,盛永梅;语料库中语料的标注[J];清华大学学报(哲学社会科学版);2000年01期
2 马永腾;;基于语料库的《红楼梦》中“V个VP”结构分析[J];现代语文(语言研究版);2007年02期
3 孙咏梅;吴松林;;旅游语料库模糊搜索翻译等效[J];科技资讯;2007年08期
4 董芳;蒙景村;罗刚;;水族水书语料库的建立原则研究[J];黔南民族师范学院学报;2007年06期
5 刘丽娜;;基于语料库的英汉谚语文化对比研究[J];科技信息;2009年17期
6 任梅梅;;基于语料库的典故词语修辞效果分析[J];当代小说(下);2010年03期
7 金稀玉;;基于语料库的中日韩同形异义语比较[J];语文学刊(外语教育与教学);2010年07期
8 董娜;;语料库与翻译教学[J];语文学刊;2011年09期
9 杨建军;;汉语古籍语料库的建立原则[J];辞书研究;2006年02期
10 何常丽;;语料库语言学研究综述[J];复旦外国语言文学论丛;2008年01期
中国重要会议论文全文数据库 前10条
1 郭曙纶;;基于语料库的HSK多功能例解字典:设想与样例[A];2004年辞书与数字化研讨会论文集[C];2004年
2 宋鸿彦;刘军;姚天f ;刘全升;黄高辉;;汉语意见型主观性文本标注语料库的构建[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
3 黄玉;李生;孟遥;丁华福;;基于大规模语料库的英语从句识别[A];第一届学生计算语言学研讨会论文集[C];2002年
4 李明;;语料库·蓝本·双语词典[A];中国辞书学会双语词典专业委员会第五届年会暨学术研讨会论文集[C];2003年
5 孙述学;;新词语语料库建设的一些构想[A];2004年辞书与数字化研讨会论文集[C];2004年
6 张建梅;赵玉荣;包晓荣;高娃;哈斯图雅;;构建“尹湛纳希辞典”的设想[A];第三届学生计算语言学研讨会论文集[C];2006年
7 安娜;侯敏;;基于传媒语言语料库的话语标记自动识别与消歧研究[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
8 陈国华;梁茂成;Adam Kilgarriff;;语料库与词典编纂的接口——词典编纂辅助工具Sketch Engine剖析[A];中国辞书学会双语词典专业委员会第6届年会暨学术研讨会论文专辑[C];2005年
9 马永腾;亢世勇;;非典型成员的语义标注策略和问题[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
10 亢世勇;李毅;孙道功;张楠;;汉语系统语料库的建设与词典编纂[A];2004年辞书与数字化研讨会论文集[C];2004年
中国重要报纸全文数据库 前10条
1 顾曰国;语料库语言学的发展[N];中国社会科学院院报;2003年
2 ;探索普通话自然连续语音之规律[N];光明日报;2001年
3 文枫;打开语言的窗口[N];中国社会科学院报;2009年
4 本报记者 王继晟 张然;流行语多少财富在流行[N];市场报;2003年
5 记者 宋晖;语言研究创新源于问题意识[N];中国社会科学报;2011年
6 周诺;让语言学“热”起来[N];中国教育报;2004年
7 国家语委副主任、教育部语信司司长 李宇明;《通用规范汉字表》的研制情况[N];语言文字周报;2009年
8 教育部语言文字信息管理司司长李宇明;语言文字工作应当与时俱进[N];中国教育报;2001年
9 本报记者 路艳霞;《现代汉语常用词表》(草案)面世[N];北京日报;2009年
10 吴晶 董豆豆;“释放”部分异体字,政策体现人文关怀[N];新华每日电讯;2009年
中国博士学位论文全文数据库 前10条
1 张廷香;基于语料库的3-6岁汉语儿童词汇研究[D];山东大学;2010年
2 刘建鹏;语料库支撑的系统功能语法研究[D];西南大学;2012年
3 李斌;用ELAN自建汉语方言多媒体语料库及其应用研究[D];湖南师范大学;2013年
4 何婷婷;语料库研究[D];华中师范大学;2003年
5 李毅;基于语料库的隐喻普遍性与变异性研究[D];山东大学;2012年
6 唐斌;《人民日报》中(1987-2007)农民工的话语再现[D];上海外国语大学;2010年
7 徐欣;基于语料库的英汉小说语篇中话语标记功能研究[D];山东大学;2011年
8 张建梅;基于语料库的现代蒙古语简单陈述句句型分析研究[D];内蒙古大学;2010年
9 郑泽芝;基于动态流通语料库(DCC)的汉语字母词语识别及考察研究[D];北京语言大学;2005年
10 隋岩;基于“动态流通语料库”的“有效字符串”提取研究[D];北京语言大学;2004年
中国硕士学位论文全文数据库 前10条
1 刘露露;汉语衍名的双事件隐喻分析[D];四川外语学院;2011年
2 杜雪玲;基于语料库的科技论文摘要体裁分析[D];大连理工大学;2008年
3 张艳;政治演讲中立场性状语的情态研究[D];大连海事大学;2011年
4 吕艳辉;基于语料库的现代汉语准口语计量研究[D];山东大学;2005年
5 洪丹凤;基于语料库的名转动词现象研究[D];北京交通大学;2011年
6 樊小玲;基于“时间”、“频率”概念和“新词语发现软件”的报刊新词语研究[D];华东师范大学;2005年
7 赵玉荣;《青史演义电子词典》形容词分库构建[D];内蒙古大学;2009年
8 邹清华;学术论文中第一人称代词的使用研究[D];吉林大学;2008年
9 徐芳;个性化语料库在语文教学中的应用研究[D];湖南师范大学;2008年
10 陈忠;现代汉语惯用语研究及在对外汉语教学中的应用[D];山东大学;2008年
,本文编号:1038662
本文链接:https://www.wllwen.com/wenyilunwen/hanyulw/1038662.html