基于语料库的汉语历时高频词对比研究
本文关键词:基于语料库的汉语历时高频词对比研究,,由笔耕文化传播整理发布。
【摘要】:词频统计是一种词汇分析研究方法,通过统计一定容量的语料库中每个词出现的次数,计算得到它们出现的频率,用以了解用词规律。词频统计在语言学、情报学、信息学和文献计量学等领域都有所运用。而在词频统计中,高频词是尤为重要的一类词。高频词是指在实际生活中使用频繁的一类词,它对于了解一种语言的使用和发展有着重要作用,具有一定的研究价值。本文所做工作,主要是根据不同的时间段建立不同的语料库,通过统计不同时间段语料库中的高频词,对比分析高频词的使用和发展情况,了解汉语发展的规律,并且尝试解释高频词使用情况的个别差异,以验证汉语发展的延续性和传承性,从而进一步揭示中文词频历时分布机理。文本一共分为六章:第一章为绪论,主要介绍了国内外关于语料库和词频研究的现状,简单介绍了本文的选题缘由、研究目的、意义、研究方法和研究思路以及文章组织结构。第二章主要介绍了汉语词语切分,包括它的基本定义,切分的重难点以及主要算法。同时,介绍了评价切分效果的三个标准:正确率,召回率,F指标,并以此为标准证明本文选择使用的分词软件准确性较高,具有可操作性。第三章主要介绍了如何实现词频统计,由于本文所使用的汉语语料库具有一定的时间跨度,根据汉语发展的规律将语料库分为两个时间段,根据两者的不同情况,使用不同的词频统计方法。第一个时间段为先秦到宋代,文言词多以单音节形式出现,字即是词,该时段中语料使用MyZiCiFrep字词频率统计工具,该统计工具能自动统计语料库中每个字出现的次数并且按频次的大小输出结果。第二个时间段为明清及明清以后,双音节词使用率提高,该时间段语料使用程序算法来统计词频,同时也通过算法来实现词频排序。本章最后介绍了本文所使用的相关词频算法。第四章是本论文的重点,也是本文的主要部分。本章首先简要介绍了本文语料库的语料来源,全部语料根据作品时期的顺序,分成先秦,两汉,魏晋南北朝,唐,宋,明清等六个不同的部分。选择TONP方法来确定本文高频词低频词分界。然后分析了从先秦到宋代的数据,制成一张词频对比表,通过全距对比和方差对比等方法发现大部分的高频词在语言发展中较稳定,波动较小。最后加入明清数据,对比从先秦到明清的高频词,利用EXCEL自带的数据分析工具中的“方差分析”,分析得出高频词序号与时间段的关联较小的结论,说明大部分高频词不会随着时间的变化有较大的变化,这也就能证明语言的发展具有一定的传承性和延续性,高频词的使用情况具有一定的相似性。第五章主要将英语和汉语两种不同的语种做了个简单的相关分析,发现英汉使用率前1000个词之间存在着一定的线性关系,两者之间有一定的正相关性,从而验证了语言的发展具有一定的相似性和共同点。第六章为总结与展望,总结了本论文的主要内容结论,并指出本文中存在的不足以及对将来的进一步研究的展望。
【关键词】:语料库 汉语 高频词 词频
【学位授予单位】:安徽大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:H13
【目录】:
- 摘要3-5
- Abstract5-10
- 第一章 绪论10-17
- 第一节 写作缘由10
- 第二节 相关研究简述10-14
- (一) 关于语料库的研究现状10-12
- (二) 关于汉语词频统计的研究现状12-14
- 第三节 论文研究的目的、意义和研究方法14-15
- (一) 研究的目的和意义14
- (二) 研究的方法及研究思路14-15
- 第四节 论文的组织结构15-17
- 第二章 汉语词语切分17-24
- 第一节 汉语词语切分的定义及重要性17-18
- 第二节 汉语词语切分的算法18
- 第三节 汉语词语切分的技术难点18-20
- (一) 歧义识别18-19
- (二) 未登录词识别19-20
- 第四节 汉语词语切分软件评测20-23
- (一) 评测标准20-21
- (二) 实验及测评结果21-23
- 第五节 小结23-24
- 第三章 词频统计24-32
- 第一节 先秦到宋代词频统计24
- 第二节 明清以及明清之后词频统计24-31
- (一) 统计词频的算法25-29
- (二) 词频排序算法29-31
- 第三节 小结31-32
- 第四章 汉语历时词频对比分析实验32-54
- 第一节 语料库语料说明32-33
- 第二节 数据统计33-50
- (一) 先秦到宋代数据33-47
- (二) 明清时期数据47-50
- 第三节 汉语历时词频对比50-53
- (一) 实验数据选取原则50-51
- (二) 数据分析51-53
- 第四节 小结53-54
- 第五章 英汉词频对比54-68
- 第一节 实验数据54-58
- 第二节 数据分析58-66
- (一) 利用序号差分析数据58-61
- (二) 利用相关分析分析数据61-66
- 第三节 小结66-68
- 第六章 总结与展望68-71
- 第一节 本文研究总结68-69
- 第二节 不足和展望69-71
- 参考文献71-74
- 致谢74-75
- 攻读硕士学位期间发表的论文75
【相似文献】
中国期刊全文数据库 前10条
1 罗黎丽;;五周岁儿童高频词的个案和群案比较研究[J];大家;2012年05期
2 毕淑敏;;教养的证据[J];刊授党校;2009年02期
3 岳立静;钱曾怡;;口语高频词比较的方言分区意义[J];文史哲;2012年03期
4 毕淑敏;;教养的证据[J];成才之路;2008年25期
5 王保平;;你“爽”吗? 我很“郁闷”![J];会计之友(中旬刊);2007年06期
6 赵予;;语义迁移假设下的高频词非核心义项习得研究[J];西安外国语大学学报;2011年03期
7 马园艺;;高职高专新生高频词表学习效果研究[J];英语广场(学术研究);2013年03期
8 曹津源,楚女;生命的舞蹈[J];中学生读写;2005年04期
9 佚名;生命的高度[J];中学生读写;2005年04期
10 史春柳;;英语高频词的搭配习得研究[J];牡丹江教育学院学报;2009年01期
中国重要会议论文全文数据库 前2条
1 高海洋;;北京话高频词使用状况分析[A];中国社会语言学(2013年第1期)[C];2003年
2 刘荣;王丽娟;张志平;刘健文;胡竟伟;;面向特定领域的多字词表达式的提取[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
中国重要报纸全文数据库 前10条
1 记者 刘敏 侯大伟 赵仁伟;高频词“公平”,勾勒深化改革走向[N];新华每日电讯;2013年
2 欧甸丘;“老板跑路”成高频词 企业如何健康成长引关注[N];企业家日报;2014年
3 孟然;《历史转折中的邓小平》三个高频词[N];组织人事报;2014年
4 本报记者 杨祖荣邋钱晓虎;“高频词”背后的深情关注[N];解放军报;2008年
5 陈志龙;“高频词”点出的新思维[N];新华日报;2006年
6 本报记者 高渊采集;两会高频词[N];人民日报;2003年
7 朱艳冰 赵兵 曹阳葵;创新:成就报道的“活力突破口”[N];中华新闻报;2002年
8 本报记者 贺骏;阿里加速打造云计算生态圈 阿里云成IPO后第一高频词[N];证券日报;2014年
9 本报记者 朱殿勇 王屹立 赵力文 陈小平;关爱民生 倾情百姓[N];河南日报;2006年
10 李亮 李力轩 本报记者 辛士红;别拿“模糊词汇”打马虎眼[N];解放军报;2009年
中国硕士学位论文全文数据库 前8条
1 高榛英;《人民日报》国庆社论(1978-2014)话语变迁研究[D];河北大学;2015年
2 刘晓丽;《人民日报》社论词汇统计与分析[D];广西师范学院;2015年
3 董竞;用高频词提高小学生英语阅读能力的实践研究[D];浙江大学;2016年
4 程珏;基于语料库的汉语历时高频词对比研究[D];安徽大学;2016年
5 金罗成;从高频词看中国义务教育课程政策的变迁(1978-2010)[D];宁波大学;2013年
6 任日方;大学生英语演讲中高频词的研究[D];湖南大学;2011年
7 廖良敏;基于语料库的《政府工作报告》高频词英译实证研究[D];湖南师范大学;2013年
8 夏忠燕;二语核心概念共享词的表征质量对其在汉英翻译中词汇提取的影响[D];扬州大学;2010年
本文关键词:基于语料库的汉语历时高频词对比研究,由笔耕文化传播整理发布。
本文编号:288484
本文链接:https://www.wllwen.com/wenyilunwen/yuyanyishu/288484.html