当前位置:主页 > 社科论文 > 图书档案论文 >

基于条件随机场的中文图书主题自动标引研究

发布时间:2020-05-05 07:48
【摘要】:在当前信息量呈爆炸式增长的背景下,为充分有效的利用信息资源,我们必须对信息资源进行良好的组织和描述,以建立高效的信息检索系统。图书作为最重要的信息资源载体之一,对其进行良好的信息描述,包括分类标引和主题标引都具有重要的现实意义。与西文不同,中文一是没有明显的分隔标记,二是语义上的复杂性,故中文图书的主题自动标引存在较大的困难。对此,本文尝试将该问题转化为序列标注问题,从而引入了信息抽取领域的机器学习方法,通过对大量已有的中文图书主题手工标引数据的训练和学习,产生序列实体之间语义关系和规则特征的模板,然后利用该模板进行机器预测,从而产生图书主题词。另外,在机器学习模型的选择中,考虑到朴素贝叶斯模型和最大熵模型需要条件独立性假设,忽视了随机变量之间事实存在的联系;而隐马尔可夫模型又存在标记偏置问题,且不能反映实体之间的长距离依赖,但幸运的是条件随机场模型能避免上述问题,在序列标注领域有很好的表现,故而本文采用条件随机场模型。同时,注意到条件随机场模型的参数选择会影响到系统的标注性能,故而笔者从多个方面进行了多组对比试验,确定了针对中文图书主题标引这一特定问题的条件随机场模型最佳参数,包括训练集大小、特征模板字长窗口数、特征模板特征元数、特征函数频次阈值、模型软边界参数。并用实验探讨了不同的观察特征对主题标引的影响,确定了四个能够提高标引性能的观察特征。最终笔者建立了基于条件随机场的中文图书主题自动标引模型,用实验证明了模型的可行性和实用性。然后总结了模型建立过程所需要注意的一些关键问题,并对后续工作进行了展望。
【学位授予单位】:南京大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP391.1;G254.361

【相似文献】

相关期刊论文 前10条

1 研;;WD—ZBJ中文文献自动标引检索系统通过鉴定[J];图书情报知识;1987年03期

2 江孝感;中文部件词组配特性的完备性问题[J];现代图书情报技术;1990年02期

3 叶志清,刘瑞红,袁庆,胡修兰;文献信息计算机全文全自动标引方法[J];情报学报;2003年02期

4 顾燕萍;侯汉清;王晓红;;中文图书自动标引与分类加权设计研究[J];中国图书馆学报;2006年06期

5 王继华,王怀惠,,吴泽宜;中文农业科技文献自动标引系统SDIC/CASDAIS[J];情报学报;1995年05期

6 朱丽;自动标引在自然语言提问中的应用[J];情报理论与实践;1998年03期

7 高崇谦;汉语文献自动处理、标引和检索系统的开发[J];现代图书情报技术;1989年02期

8 史继红,赖茂生;汉语自动标引加权方法试验研究[J];现代图书情报技术;1994年03期

9 黄庆红;自动标引与机辅标引[J];现代图书情报技术;2002年S1期

10 杨学山;;词典在汉语科技文献自动标引中的作用[J];情报科学;1987年03期

相关会议论文 前10条

1 章成志;周冬敏;苏新宁;;自动标引通用评价模型研究[A];2007年中国索引学会年会暨学术研讨会论文集[C];2007年

2 王兰成;;基于MM最小回溯和词义规则的知识标引研究[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年

3 刘桐菊;于浩;赵铁军;;基于标引技术的特定领域XML文本自动生成[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年

4 王兰成;田梅;侯双;;PLS:一种基于信息自动标引的最小推进分词算法及其实现[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年

5 章成志;;基于集成学习的自动标引方法研究[A];中国索引学会第三次全国会员代表大会暨学术论坛论文集[C];2008年

6 谢坤生;;关于后四年索引工作趋向的几点思考[A];中国索引学会第三次全国会员代表大会暨学术论坛论文集[C];2008年

7 贺七一;;黄页分类计算机自动标引的实现[A];2004年度中国索引学会年会暨学术讨论会论文集[C];2004年

8 彭莉;;研制中医药文献自动标引系统的设想[A];中国中医药信息研究会第二届理事大会暨学术交流会议论文汇编[C];2003年

9 李素建;李芸;纪鹭宁;徐睿峰;;词典匹配和串频统计相结合在自动主题分析中的应用[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年

10 薛春香;夏祖奇;侯汉清;;基于语料和基于标引经验的自动分类模式比较[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年

相关重要报纸文章 前10条

1 王萍;Web文本的知识化管理[N];计算机世界;2006年

2 记者 舒晋瑜;在家也能续借“国图”中文书[N];中华读书报;2005年

3 肖港;谷歌在港推广图书搜寻服务[N];中国新闻出版报;2007年

4 记者  李晋悦;Google图书搜索上线[N];中华读书报;2007年

5 ;“博库”网的“O”们[N];中国信息报;2000年

6 本报记者 王玉梅;李祖泽 爱国出版50年[N];中国新闻出版报;2010年

7 陈万雄;华文出版10年风雨历程[N];中国图书商报;2005年

8 本报记者 马国仓;“全民读书月”:冬天里燃起一把火[N];中国新闻出版报;2005年

9 本报记者 杨春凌;点击鼠标把图书馆搬回家[N];贵州日报;2009年

10 江山;超星欲退出数图行业[N];中华工商时报;2007年

相关博士学位论文 前10条

1 刘磊;概念内涵属性计算研究[D];上海交通大学;2011年

2 段建勇;多词表达抽取及其应用[D];上海交通大学;2007年

3 杨为民;基于场论的信息检索模型的研究[D];安徽大学;2007年

4 魏立飞;基于随机场模型的遥感影像变化检测方法研究[D];武汉大学;2011年

5 邵晓鹏;红外纹理生成方法研究[D];西安电子科技大学;2005年

6 储节旺;企业应对危机的知识管理问题研究:能力、体系、机制与技术[D];南昌大学;2006年

7 y囈黄

本文编号:2649783


资料下载
论文发表

本文链接:https://www.wllwen.com/tushudanganlunwen/2649783.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户25e9d***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com