基于N元分析与词频统计的文本复合标引研究
【学位授予单位】:南开大学
【学位级别】:硕士
【学位授予年份】:2009
【分类号】:G254.361
【图文】:
在这一方面,章成志f’〕对这三个领域分别从自动化程度维度和知识复杂程度维度(先后经历字、词、短语、语块、句法、语义、篇章结构等不同颗粒度的多种知识。)这两个维度对自动标引进行了较为全面的概括总结形成图2.3如下:深层算杂知祺磁欲阿娜润,严撬徽徽‘…“兜全人工标弓犷分家择引合由振弓曰叫,’‘口翻.,二‘层圈,厂‘撬默圈,·厂语块魏烈熊l}道滋场诚厂兜全自动悔弓耳「而砰蔽〕,厂辱平牢厂一厂~假泌层碑单知识图2.3自动标引研究路线图资料来源:章成志.白动标引研究的回顾与展望.现代图书情报技术,2007(n):35,」章成志.自动标引研究的回顾
缩冗余的N一gram数量。(2)从文本库中载入待标引处理的文本。在本文中,这一部分要求建立相应的处理程序相关的人工干预机制,相关程序输出界面如图4.1所示。图4.1从文本库中载入待标引处理文本界面资料来源:作者整理(3)对载入的文本进行预处理。此过程分为两步,首先,凡是遇到空格、数字、英文单词等,将字符串折为两段并存入某一数组中;其次,对上一步处理结果的语段进行再处理,凡是遇到汉语中的标点、虚词等停用词时,再次拆分并存入数组。(4)从载入的文本开始按n=2,3,4,步长为l
【相似文献】
相关期刊论文 前10条
1 江孝感;中文部件词组配特性的完备性问题[J];现代图书情报技术;1990年02期
2 叶志清,刘瑞红,袁庆,胡修兰;文献信息计算机全文全自动标引方法[J];情报学报;2003年02期
3 王继华,王怀惠,吴泽宜;中文农业科技文献自动标引系统SDIC/CASDAIS[J];情报学报;1995年05期
4 朱丽;自动标引在自然语言提问中的应用[J];情报理论与实践;1998年03期
5 高崇谦;汉语文献自动处理、标引和检索系统的开发[J];现代图书情报技术;1989年02期
6 史继红,赖茂生;汉语自动标引加权方法试验研究[J];现代图书情报技术;1994年03期
7 黄庆红;自动标引与机辅标引[J];现代图书情报技术;2002年S1期
8 杨学山;;词典在汉语科技文献自动标引中的作用[J];情报科学;1987年03期
9 李远志,何晓华;中文书目的自动标引与检索[J];应用科技;1995年01期
10 杨则正;信息检索中人工标引和自动标引的组合应用[J];管理科学文摘;1997年03期
相关会议论文 前10条
1 章成志;周冬敏;苏新宁;;自动标引通用评价模型研究[A];2007年中国索引学会年会暨学术研讨会论文集[C];2007年
2 王兰成;;基于MM最小回溯和词义规则的知识标引研究[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
3 刘桐菊;于浩;赵铁军;;基于标引技术的特定领域XML文本自动生成[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
4 王兰成;田梅;侯双;;PLS:一种基于信息自动标引的最小推进分词算法及其实现[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
5 章成志;;基于集成学习的自动标引方法研究[A];中国索引学会第三次全国会员代表大会暨学术论坛论文集[C];2008年
6 谢坤生;;关于后四年索引工作趋向的几点思考[A];中国索引学会第三次全国会员代表大会暨学术论坛论文集[C];2008年
7 贺七一;;黄页分类计算机自动标引的实现[A];2004年度中国索引学会年会暨学术讨论会论文集[C];2004年
8 彭莉;;研制中医药文献自动标引系统的设想[A];中国中医药信息研究会第二届理事大会暨学术交流会议论文汇编[C];2003年
9 李素建;李芸;纪鹭宁;徐睿峰;;词典匹配和串频统计相结合在自动主题分析中的应用[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
10 薛春香;夏祖奇;侯汉清;;基于语料和基于标引经验的自动分类模式比较[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
相关重要报纸文章 前5条
1 王萍;Web文本的知识化管理[N];计算机世界;2006年
2 李蓬涛;非结构化视频搜索技术[N];计算机世界;2006年
3 吴文剑;加强信息建设 提升服务水平[N];山西经济日报;2006年
4 本报记者 张亮;让网络生活更轻松[N];科技日报;2006年
5 记者 刘艳华;检验检疫文书与档案管理有望“电子”联姻[N];中国国门时报;2006年
相关博士学位论文 前4条
1 刘磊;概念内涵属性计算研究[D];上海交通大学;2011年
2 段建勇;多词表达抽取及其应用[D];上海交通大学;2007年
3 杨为民;基于场论的信息检索模型的研究[D];安徽大学;2007年
4 储节旺;企业应对危机的知识管理问题研究:能力、体系、机制与技术[D];南昌大学;2006年
相关硕士学位论文 前10条
1 杲晓锋;基于N元分析与词频统计的文本复合标引研究[D];南开大学;2009年
2 崔涛;基于检准率分析中文自动标引方式存在问题及对策[D];河北大学;2011年
3 邹杰利;基于条件随机场的中文图书主题自动标引研究[D];南京大学;2013年
4 罗绵川;基于PS格式数字报刊标引反解技术研究[D];华南理工大学;2010年
5 张敏;生物学文献的自动标引系统的研究与开发[D];东华大学;2006年
6 黄默丽;NLP技术在中文全文信息处理中的应用研究[D];郑州大学;2010年
7 袁文勤;基于本体的生物学文献网络知识管理系统研究[D];东华大学;2006年
8 杜慧平;自然语言叙词表自动构建研究[D];南京农业大学;2007年
9 王爽;基于知识库的自动分类系统设计与实现[D];厦门大学;2007年
10 康艳;中文图书内容索引计算机编制的研究与系统实现[D];南京农业大学;2008年
本文编号:2739067
本文链接:https://www.wllwen.com/tushudanganlunwen/2739067.html