当前位置:主页 > 文艺论文 > 语言学论文 >

汉语的熵及其在语言本体研究中的应用

发布时间:2018-10-08 15:49
【摘要】:语言是信息的载体,具有信息属性。随着社会信息化程度的不断提高,运用信息理论和方法研究语言的熵成为语言信息研究的重要任务。目前关于汉语信息熵的研究主要集中在汉语的信息化,却极少发现有人运用信息理论来研究语言本体。本文从语言的信息属性出发,系统梳理了信息学、语言学、数学、教育学、计算机科学等专业领域内关于汉语汉字信息熵研究的理论、观点和方法,结合语料库语言学阐述了书面汉语的“字熵”、“词熵”等概念和计算方法。运用书面汉语“字熵”“词熵”的原理和算法,在经过分词标注词性等“熟语料库”支持下,分别对介词的语法化、文本风格比较、红楼梦作者考证等问题进行了“典型案例分析”,为汉语本体和应用研究提供了“信息熵”视角的研究范式。并从信息视角,验证了齐普夫分布的普遍性,对于缩略、简称以及词汇双音化等语言演化规律都将具有令人信服的解释力。全文共分为五章:第一章导言;第二章汉字的熵及其在汉语本体研究中的应用;第三章汉语的词熵及其在汉语本体研究中的应用;第四章汉语的熵和齐普夫定律;第五章结论。 第一章从语言的信息属性入手,对利用熵理论来研究语言本体的可行性、研究的意义、历史、现状和存在的问题做了综述;介绍了本研究的指导理论及研究方法,并对研究过程中的一些问题做了必要的说明。 第二章首先总结了前人关于汉字熵研究的成果和结论,论述了汉字平均熵的测定方法和历史,对字频和熵两种方法做了比较,结合不同类型的汉语抽样语料进行汉字熵的定量分析,得出了语料的平均字熵,并结合古龙、金庸的武侠作品风格的分析,提出了汉字熵在语言本体研究中的应用方法。 第三章是本研究的重点和中心。词是语言中最小的可以自由运用的单位。由于书面汉语以汉字为书写单位,因此,以往都以汉字熵的研究结论代替了汉语的信息熵。本章首先区分了汉字熵与汉语熵的不同,给出了词熵的测定数值,并在此基础上,讨论了汉语的冗余度,对词熵在汉语本体研究中的应用进行了重点阐述,对词熵在语法化研究、不同语体之间的比较、文本历时比较、计算风格学等领域中的应用,结合大量的语料库给出了实证。 第四章介绍了语言中一个重要的统计分布规律——齐普夫定律。运用齐普夫定律分析汉字熵和汉语熵的关系,结合多个汉语语料库文本熵的统计结果,论证了汉语字词熵的分布符合齐普夫定律。同时,发现不同文体的样本的熵分布具有很高的一致性,进一步提高了本研究的学术价值。 余论部分对本论文进行了总结和概括,并指出研究中存在的不足,同时对进一步的研究提出了设想。
[Abstract]:Language is the carrier of information and has the information attribute. With the development of information technology, it is an important task to use information theory and method to study the entropy of language. At present, the research on Chinese information entropy is mainly focused on Chinese information, but very few people use information theory to study language ontology. Based on the information properties of language, this paper systematically combs the theories, viewpoints and methods of the information entropy research of Chinese characters in the fields of informatics, linguistics, mathematics, pedagogy, computer science, etc. Combined with corpus linguistics, this paper expounds the concepts and calculation methods of "word entropy" and "word entropy" in written Chinese. With the help of the principle and algorithm of "word entropy" and "word entropy" in written Chinese, with the support of "familiar corpus", such as tagging part of speech, this paper compares the grammaticalization of prepositions and the style of text, respectively. The author of the Dream of Red Mansions makes a typical case study, which provides the research paradigm of "information entropy" for the study of Chinese ontology and application. From the perspective of information, this paper verifies the universality of the Zipf distribution, which will have a convincing explanation for the evolution laws of acronyms, abbreviations and lexical dichotomies. The full text is divided into five chapters: the first chapter is the introduction; the second chapter is the entropy of Chinese characters and its application in the study of Chinese ontology; the third chapter is the entropy of Chinese words and its application in the study of Chinese ontology; the fourth chapter is the entropy of Chinese and Zipf's law; and the fifth chapter concludes. The first chapter summarizes the feasibility, significance, history, current situation and existing problems of language ontology research by entropy theory, and introduces the guiding theory and research methods of this study. Some problems in the research process are also explained. The second chapter summarizes the achievements and conclusions of the previous researches on the entropy of Chinese characters, discusses the measuring methods and history of the entropy of Chinese characters, and compares the methods of frequency and entropy of characters. Combined with the quantitative analysis of Chinese character entropy of different types of Chinese sample corpus, the average character entropy of the corpus is obtained, and the application method of Chinese character entropy in the study of language ontology is put forward in combination with the analysis of the style of the martial arts works by Gu long and Jin Yong. The third chapter is the focus and center of this study. Words are the smallest unit of language that can be freely used. Since written Chinese is written in Chinese characters, the information entropy of Chinese is replaced by the research conclusion of Chinese character entropy in the past. This chapter first distinguishes the difference between Chinese entropy and Chinese entropy, and gives the measurement value of word entropy. On the basis of this, the redundancy of Chinese is discussed, and the application of word entropy in the study of Chinese ontology is discussed. The application of word entropy in grammaticalization research, comparison between different styles, text diachronic comparison, computational stylistics and so on, is illustrated by a large number of corpus. Chapter four introduces an important law of statistical distribution in language-Zipf's law. This paper analyzes the relationship between Chinese character entropy and Chinese entropy by using Zipf's law, and proves that the distribution of Chinese word entropy conforms to Zipf's law, combined with the statistical results of text entropy of several Chinese corpora. At the same time, it is found that the entropy distribution of different stylistic samples is highly consistent, which further improves the academic value of this study. In the last part, the author summarizes and generalizes the thesis, points out the shortcomings of the research, and puts forward some tentative ideas for further research.
【学位授予单位】:山东大学
【学位级别】:博士
【学位授予年份】:2013
【分类号】:H087;H1

【相似文献】

相关期刊论文 前10条

1 张新;王丛容通过运动生理学博士学位论文答辩[J];北京体育大学学报;1994年03期

2 朱丽丽;《新时期现实主义:困境中的突围》(博士学位论文)[J];当代作家评论;2001年02期

3 彭志敏;;对现代音乐独奏典范的专门研究——再读徐昌俊教授的博士学位论文及有关情况的说明[J];人民音乐;2008年04期

4 张超;康静雯;;脚踏中西文化两“船”的人——全国优秀博士学位论文入选者李伟f 访淡[J];中国研究生;2008年06期

5 尤寅灵;;近代音研究方向与述评——以博士学位论文为例[J];安徽文学(下半月);2011年05期

6 ;厦门大学历史学博士学位论文目录[J];中国社会经济史研究;1992年04期

7 彭守建;;风雨十载 春华秋实[J];中国研究生;2007年03期

8 郭英德;;北美地区中国古典戏曲研究博士学位论文述评(1998-2008)[J];文艺研究;2009年09期

9 陈微;张彦华;;桃李不言,下自成蹊——访全国“百篇优秀博士学位论文”入选者唐炬教授[J];中国研究生;2009年09期

10 陈正权;肖旭;;灾区学生心理调节系统的文化要素分析[J];上海精神医学;2010年S1期

相关会议论文 前10条

1 曹盼盼;阎春宁;;人类通信模式的幂律分布和Zipf定律[A];第五届全国复杂网络学术会议论文(摘要)汇集[C];2009年

2 石磊;卫琳;古志民;石云;;Web对象流行度模型研究[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年

3 马克平;;国内近年来生物多样性方面出版物简介(续Ⅴ)[A];中国生物多样性保护与研究进展Ⅵ—第六届全国生物多样性保护与持续利用研讨会论文集[C];2004年

4 ;关于推荐2009年CCF优秀博士学位论文的通知[A];2009年全国开放式分布与并行计算机学术会议论文集(下册)[C];2009年

5 ;关于推荐2009年CCF优秀博士学位论文的通知[A];2009年全国开放式分布与并行计算机学术会议论文集(上册)[C];2009年

6 孙建一;;现代汉语字频测定及分析[A];语言文字应用研究论文集(Ⅰ)[C];1995年

7 刘冰;;沈阳农业大学博士学位论文引文分析[A];西部大开发 科教先行与可持续发展——中国科协2000年学术年会文集[C];2000年

8 陈俊钦;;我国体育学博士生学位论文选题分析[A];首届中国体育博士高层论坛论文集[C];2006年

9 金武刚;;博士生人文精神群体性缺失与学术制度修正——基于博士学位论文“致谢”的内容分析[A];中国的前沿 文化复兴与秩序重构——上海市社会科学界第四届学术年会青年文集(2006年度)[C];2006年

10 ;在语言文字规范化工作学术研讨会开幕式上的讲话[A];《中国长城博物馆》2008年第1期(许嘉璐会长文化论谈专辑)[C];2008年

相关重要报纸文章 前10条

1 田红 记者 胥茜;论文无创新 一票能否决[N];中国教育报;2005年

2 王握文邋周珞晶 吴丹;11篇全国优秀博士学位论文的启示[N];科技日报;2008年

3 记者 欧阳春艳;全国百篇优秀博士学位论文评选揭晓[N];长江日报;2005年

4 本报特约通讯员  汤宏;播撒创新的种子[N];解放军报;2006年

5 学位办;研究生院奖励优秀博士学位论文[N];中国社会科学院院报;2008年

6 徐宜军;哈工大博士学位论文实行匿名评议制度[N];新华每日电讯;2005年

7 周玲玲;2007年全国优秀博士学位论文评选结果公布[N];中国教育报;2007年

8 王曼;充分利用院图书馆特色文献信息资源[N];中国社会科学院院报;2005年

9 记者 王坤宁;国图馆藏博士学位论文陆续结集[N];中国新闻出版报;2007年

10 记者  杨晨光;创新体制机制提高研究生教育质量[N];中国教育报;2006年

相关博士学位论文 前10条

1 徐先蓬;汉语的熵及其在语言本体研究中的应用[D];山东大学;2013年

2 洪晓梅;转型时期中国社团功能研究[D];东北大学;2008年

3 熊明;真理和价值[D];华中师范大学;2012年

4 高博;省域“文化馆”建筑计划研究[D];西安建筑科技大学;2011年

5 胥秋;大学学科文化的冲突与融合[D];华中科技大学;2010年

6 罗敏;基于资源配置的研究生招生机制研究[D];华中科技大学;2011年

7 邱秧琼;基于知识体的资历框架研究[D];浙江大学;2012年

8 王庆东;中国学位授权体系的委托代理问题研究[D];东北大学;2009年

9 吴剑卿;新型高效重组腺相关病毒载体的构建及其在肺癌基因治疗中的应用研究[D];南京医科大学;2006年

10 王守林;人致癌物代谢酶及其自然变异体的功能研究[D];南京医科大学;2006年

相关硕士学位论文 前10条

1 王倩;中文文本分类技术的研究[D];北京化工大学;2007年

2 刘思源;科技论文下载次数的统计性质研究[D];郑州大学;2009年

3 王会霞;Web流量特征模型的研究和应用[D];郑州大学;2007年

4 杨文斌;基于本体研究的汉语中动句教学设计[D];华东师范大学;2011年

5 曲直娇;从近十年文献变化看马克思主义哲学研究热点的变化及其学科发展趋势[D];上海师范大学;2012年

6 吴弘萍;医学学科全国优秀博士学位论文产出分析[D];浙江大学;2007年

7 高瑞;2001-2010年我国高等教育学博士学位论文选题现状分析[D];西北师范大学;2011年

8 杨玲;高等教育学专业博士学位论文的研究[D];浙江师范大学;2012年

9 赵苁蓉;2000年以来我国高等教育学博士学位论文文献计量分析[D];苏州大学;2010年

10 宋迎;评析中国十年跨文化交际博士论文[D];上海外国语大学;2009年



本文编号:2257341

资料下载
论文发表

本文链接:https://www.wllwen.com/wenyilunwen/yuyanxuelw/2257341.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户77561***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com