基于主动学习的中文分词方法研究
发布时间:2021-07-29 15:14
中文分词是中文信息处理应用的基础工作,分词结果好坏直接影响相关应用的后续环节。目前基于有监督学习的中文分词方法在工业界得到了广泛应用并取得了良好的效果,但是有监督学习方法依赖于大量的人工标注数据。在特殊领域的中文文本分词任务中,标注数据非常稀少,同时标注大量文本需要巨大的人工标注成本,使得基于有监督学习的中文分词方法在这些文本上并不实用。在缺少标注数据的情况下,如何保持分类模型的性能优良得到了大量的研究,主动学习方法就是一种有效实用的解决方法。本文采用主动学习方法对中文分词进行研究,并改进主动学习框架中模型训练环节,并基于本文研究内容实现半自动标注系统以优化传统的数据标注形式。本文的主要研究工作有以下三方面:(1)基于主动学习的中文分词方法研究:利用条件熵度量样本的不确定性,并选择出不确定性最高的数据作为最具标注价值的数据推荐给人工标注,从而实现在小规模标注数据集下,训练出高性能的中文分词器。(2)采用半监督学习训练中文分词器:(1)中描述方法仅利用少量的标注数据训练中文分词器,而忽略了大量未标注数据中的重要信息。在主动学习框架下,采用EM算法训练中文分词器,能够充分地利用了标注数据集...
【文章来源】:成都信息工程大学四川省
【文章页数】:53 页
【学位级别】:硕士
【部分图文】:
特征抽取示例
成都信息工程大学硕士学位论文第15页共46页段,即图中5、6、7、8、9、10、3、4步骤,利用已有分类模型对整个未标注数据集U进行预测,得到分词结果,然后利用主动学习的抽样方法Q对所有实例进行信息量度量,并推荐信息量最大的数据成为待标注数据,然后让标注人员S对数据进行标注,然后将标注后的数据追加到训练数据集L中,利用现有训练数据集L通过机器学习方法训练模型得到新的分类模型C,直到达到预先设置的停止条件,该循环阶段结束。主动学习框架如表3-1描述。图3-1主动学习框架根据主动学习的描述,可以知道主动学习的重点在于选择策略以及模型训练部分,选择策略即是如何从未标注数据集中选择出少量的典型数据。模型训练部分即是利用已标注数据集如何训练分类模型。表3-1主动学习框架输入:初始数据集U,抽样方法Q输出:标注数据集L,分类模型C步骤:从U中随机抽取少量数据作为待标注数据将待标注数据标注后追加入标注数据集L中进入主动学习迭代过程,不断迭代直到满足停止条件1使用现有的标注数据集L训练一个分类模型C2使用当前的分类模型C标注未标注数据集U每一条实例3利用抽样方法Q去度量初始数据集U中的每一条实例的不确定性4抽取不确定性高的少量实例作为待标注数据5将待标注数据标注后追加如标注数据集L中初始数据集U随机抽取待标数据标注专家S标注数据集L分类模型C分类模型学习抽样算法Q分类结果①②③④⑤⑥⑦⑨⑧⑩
成都信息工程大学硕士学位论文第19页共46页图3-2采用半监督学习训练模型的主动学习框架表3-2采用半监督学习训练模型的主动学习框架描述输入:初始数据集U,抽样方法Q输出:标注数据集L,分类模型C步骤:从U中随机抽取少量数据作为待标注数据将待标注数据标注后追加入标注数据集L中进入主动学习迭代,不断迭代直到满足停止条件1使用现有的标注数据集L训练一个分类模型C2使用当前的分类模型C标注未标注数据集U每一条实例3进入EM迭代,直到收敛4利用抽样方法Q去度量初始数据集U中的每一条实例的不确定性5抽取不确定性高的少量实例作为待标注数据6将待标注数据标注后追加如标注数据集L中主动学习和半监督学习都是为了解决人工标注瓶颈问题而产生,其中主动学习能够在任何分布和任何领域下的数据进行选择数据,而半监督学习的前提是已标注数据和未标注数据在同一个分布下,通过主动学习去在特定分布的数据中选择数据刚好也满足半监督学习的前提假设。另外主动学习仅仅抽取最有信息量的数据,即只有少量的标注数据,通过半监督学习方法进行模型训练,能够极大提升分类模型的精度以及泛化能力。初始数据集U随机抽取待标数据标注专家S标注数据集L分类模型CEM迭代抽样算法Q分类结果①②③④⑤⑥⑦⑨⑧⑤⑩
【参考文献】:
期刊论文
[1]基于字典和统计的分词方法[J]. 陈平,刘晓霞,李亚军. 计算机工程与应用. 2008(10)
[2]中文分词十年回顾[J]. 黄昌宁,赵海. 中文信息学报. 2007(03)
[3]书面汉语的自动分词与一个自动分词系统—CDWS[J]. 梁南元. 北京航空学院学报. 1984(04)
博士论文
[1]主动学习算法中采样策略研究[D]. 吴伟宁.哈尔滨工业大学 2013
本文编号:3309561
【文章来源】:成都信息工程大学四川省
【文章页数】:53 页
【学位级别】:硕士
【部分图文】:
特征抽取示例
成都信息工程大学硕士学位论文第15页共46页段,即图中5、6、7、8、9、10、3、4步骤,利用已有分类模型对整个未标注数据集U进行预测,得到分词结果,然后利用主动学习的抽样方法Q对所有实例进行信息量度量,并推荐信息量最大的数据成为待标注数据,然后让标注人员S对数据进行标注,然后将标注后的数据追加到训练数据集L中,利用现有训练数据集L通过机器学习方法训练模型得到新的分类模型C,直到达到预先设置的停止条件,该循环阶段结束。主动学习框架如表3-1描述。图3-1主动学习框架根据主动学习的描述,可以知道主动学习的重点在于选择策略以及模型训练部分,选择策略即是如何从未标注数据集中选择出少量的典型数据。模型训练部分即是利用已标注数据集如何训练分类模型。表3-1主动学习框架输入:初始数据集U,抽样方法Q输出:标注数据集L,分类模型C步骤:从U中随机抽取少量数据作为待标注数据将待标注数据标注后追加入标注数据集L中进入主动学习迭代过程,不断迭代直到满足停止条件1使用现有的标注数据集L训练一个分类模型C2使用当前的分类模型C标注未标注数据集U每一条实例3利用抽样方法Q去度量初始数据集U中的每一条实例的不确定性4抽取不确定性高的少量实例作为待标注数据5将待标注数据标注后追加如标注数据集L中初始数据集U随机抽取待标数据标注专家S标注数据集L分类模型C分类模型学习抽样算法Q分类结果①②③④⑤⑥⑦⑨⑧⑩
成都信息工程大学硕士学位论文第19页共46页图3-2采用半监督学习训练模型的主动学习框架表3-2采用半监督学习训练模型的主动学习框架描述输入:初始数据集U,抽样方法Q输出:标注数据集L,分类模型C步骤:从U中随机抽取少量数据作为待标注数据将待标注数据标注后追加入标注数据集L中进入主动学习迭代,不断迭代直到满足停止条件1使用现有的标注数据集L训练一个分类模型C2使用当前的分类模型C标注未标注数据集U每一条实例3进入EM迭代,直到收敛4利用抽样方法Q去度量初始数据集U中的每一条实例的不确定性5抽取不确定性高的少量实例作为待标注数据6将待标注数据标注后追加如标注数据集L中主动学习和半监督学习都是为了解决人工标注瓶颈问题而产生,其中主动学习能够在任何分布和任何领域下的数据进行选择数据,而半监督学习的前提是已标注数据和未标注数据在同一个分布下,通过主动学习去在特定分布的数据中选择数据刚好也满足半监督学习的前提假设。另外主动学习仅仅抽取最有信息量的数据,即只有少量的标注数据,通过半监督学习方法进行模型训练,能够极大提升分类模型的精度以及泛化能力。初始数据集U随机抽取待标数据标注专家S标注数据集L分类模型CEM迭代抽样算法Q分类结果①②③④⑤⑥⑦⑨⑧⑤⑩
【参考文献】:
期刊论文
[1]基于字典和统计的分词方法[J]. 陈平,刘晓霞,李亚军. 计算机工程与应用. 2008(10)
[2]中文分词十年回顾[J]. 黄昌宁,赵海. 中文信息学报. 2007(03)
[3]书面汉语的自动分词与一个自动分词系统—CDWS[J]. 梁南元. 北京航空学院学报. 1984(04)
博士论文
[1]主动学习算法中采样策略研究[D]. 吴伟宁.哈尔滨工业大学 2013
本文编号:3309561
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3309561.html