当前位置:主页 > 文艺论文 > 语言艺术论文 >

基于依存语法的中文即时消息作者识别研究

发布时间:2021-11-11 19:05
  对于可用于司法作者识别的有效的判别特征,学界一向有强烈的研究热情,尤其当其涉及最有挑战性且频繁作为司法证据使用的文本体裁之一——即时消息的时候。本研究致力于为中文即时消息作者识别开展一项任务,检验一系列基于依存语法抽取得到的句法特征的判别力,以提供更多在司法作者识别任务中可供选择使用的候选特征。提出的特征包括平均依存距离、平均等级距离和各依存关系类型的相对频数。方法上,研究开展了一系列分类实验以证实所提出特征的判别能力:特征提取自人工标注的微信消息,微信消息产生于作者的自然语言,作者间既存在社会语言学相似性又存在社会语言学相异性;特征输入至分类算法中以训练模型,基于模型对特征的判别能力进行评估;实验考虑了不同的特征集和作者组合。统计显著的结果证实了特征在中文即时消息作者识别中的判别能力。对于存在社会语言学相似性和社会语言学相异性的作者识别任务,这些特征都作出了不同的贡献。值得一提的是,在一个涉及高达五名作者且作者间存在社会语言学相似性的案例中,这些特征有令人满意的表现。此外,包含更多特征的特征集和包含更少作者的作者组合能带来更好的结果。最后,对作者们的一些代表性句子的深入句法分析阐明了... 

【文章来源】:广东外语外贸大学广东省

【文章页数】:103 页

【学位级别】:硕士

【文章目录】:
ACKNOWLEDGEMENT
ABSTRACT
摘要
LIST OF ABBREVIATIONS
CHAPTER ONE INTRODUCTION
    1.1 RESEARCH TOPIC
    1.2 RATIONALE
    1.3 RESEARCH QUESTIONS
    1.4 ORGANIZATION OF THE THESIS
CHAPTER TWO LITERATURE REVIEW
    2.1 THEORETICAL ASSUMPTION UNDERLYING AUTHORSHIP ATTRIBUTION
    2.2 EMPIRICAL OBSERVATION OF IDIOLECTAL STYLES
    2.3 DEMONSTRATION OF CONSISTENCY AND DISTINCTIVENESS
    2.4 METHODOLOGICAL PROCEDURE FOR FORENSIC AUTHORSHIP ATTRIBUTION
    2.5 THE DAUBERT CRITERIA AND ADMISSIBLE EXPERT EVIDENCE
    2.6 DISCRIMINANT FEATURES PREVIOUSLY IDENTIFIED FOR AUTHORSHIP ATTRIBUTION FOR SHORT TEXTS
CHAPTER THREE THEORETICAL FRAMEWORK
    3.1 TESNIèRE'S DEPENDENCY GRAMMAR
    3.2 DEPENDENCY RELATION AND DEPENDENCY ANALYSIS
CHAPTER FOUR METHODOLOGY
    4.1 ANALYTIC FRAMEWORK
    4.2 ANNOTATION GUIDELINES
    4.3 FEATURES
        4.3.1 MEAN DEPENDENCY DISTANCE
        4.3.2 MEAN HIERARCHICAL DISTANCE
        4.3.3 RELATIVE FREQUENCIES OF EACH DEPENDENCY RELATION TYPE
        4.3.4 SUMMARY OF FEATURES
    4.4 MODEL EVALUATION
    4.5 SAMPLE
    4.6 VARIABLES
CHAPTER FIVE EXPERIMENTS AND RESULTS
    5.1 RESULTS OF THE EXPERIMENTS FOR AUTHOR SET 1
        5.1.1 PATTERNS OF THE FEATURES’ DISCRIMINATING POWER FROM THE PERSPECTIVE OF FEATURE SETS
        5.1.2 PATTERNS OF THE FEATURES’ DISCRIMINATING POWER FROM THE PERSPECTIVE OF AUTHOR COMBINATIONS
    5.2 RESULTS OF THE EXPERIMENTS FOR AUTHOR SET 2
    5.3 SUMMARY
CHAPTER SIX DISCUSSIONS
    6.1 DISCUSSIONS ON THE FEATURES’ DISCRIMINATING POWER FOR AUTHOR SET 1
    6.2 DISCUSSIONS ON THE FEATURES’ DISCRIMINATING POWER FOR AUTHOR SET 2
    6.3 POSSIBLE LINGUISTIC MECHANISM UNDERLYING THE FEATURES’ DISCRIMINATING POWER
    6.4 SUMMARY
CHAPTER SEVEN CONCLUSION
    7.1 MAJOR FINDINGS OF THE PRESENT STUDY
    7.2 LIMITATIONS AND SUGGESTIONS FOR FURTHER RESEARCH
REFERENCES


【参考文献】:
期刊论文
[1]适应多领域多来源文本的汉语依存句法数据标注规范[J]. 郭丽娟,李正华,彭雪,张民.  中文信息学报. 2018(10)
[2]一起涉案打印文件言语人的同一认定[J]. 王志家,贾玉文,王艳玲,冯明帅.  中国司法鉴定. 2003(01)



本文编号:3489362

资料下载
论文发表

本文链接:https://www.wllwen.com/wenyilunwen/yuyanyishu/3489362.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户2aaf5***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com