基于统计语言学模型的中文文本信息检索
【学位单位】:第二军医大学
【学位级别】:硕士
【学位年份】:2004
【中图分类】:G354
【部分图文】:
硕士研究生毕业论文 引言(Knowledge Mining)、知识发现(Knowledge Discovery)、内容管理(Contentnagement)、内容计算(Content Computing)等等新名词、新学科,有些其实就 IR,有些可能学科渊源或者处理内容有所不同,但是 IR 技术是这些名词的主内容,或者说这些都是传统 IR 的拓展,是现代 IR 的内容。可以说,现代 IR发展可以说是百花齐放、绚丽多彩,引无数英雄尽折腰。1.2 信息检索的基本流程信息检索的基本流程如图 0.1 所示。首先,用户提出检索需求,系统为用户需求生成查询表达式,然后对查询表达式进行分析处理,产生检索系统的查询言。在后台,通过索引器对文档集建立索引,并生成文档表示。这样,查询语和文档表示就是一个匹配的过程,产生检索结果。通过相关反馈机制,调整查表达式,从而使检索结果更加符合用户的需求。
本文总体上分为三个部分,第一部分包括文本检索模型概述、SLM-IR相关的工作、基于SLM-IR的中文文本检索。第二部分是实验与结论,通过几种类型的实验来验证我们的设想。第三部分是总结和展望,探讨未来的研究方向。如图0.3所示。
图 2.1.1 马尔科夫模型-图示尔科夫模型-定义隐马尔科夫模型(HMM)是一个五元组: ( ,,A,B,πXO :{ }:状态的有限集合Nq ,...q1{ }:观察值的有限集合Mv ,...v1{ },(|):转移概率ijijt1 jtiaa=pX=qX=q+ } :输出概率,(|)ikiktktibb=pO=vX=q }, :初始状态分布()ii1 iππ=p X=q{ }为 给定的参数= A, B,πHMM。
【相似文献】
相关期刊论文 前10条
1 徐志明,王晓龙,关毅;汉语大词表N-gram统计语言模型构造算法[J];计算机应用研究;1999年06期
2 高升,徐志明;统计语言模型中词的自动聚类技术研究[J];计算机工程与应用;2003年11期
3 郭燕慧,钟义信;统计语言模型中句子的语义连贯性判别[J];情报学报;2003年04期
4 赵正文;康耀红;;统计语言模型在信息检索中的应用[J];计算机工程与应用;2006年36期
5 田斌;田红心;易克初;;一种结合声学匹配信息的汉语统计语言模型新方法[J];模式识别与人工智能;1999年04期
6 田斌,田红心,易克初;一种改进的汉语N元文法统计语言模型[J];西安电子科技大学学报;2000年01期
7 郑洪静;韩卓平;;统计语言模型的手机数码中文输入法研究[J];苏州市职业大学学报;2008年02期
8 耿立中;贾惠波;;基于统计语言模型的低耗时入侵检测方法[J];计算机工程;2010年05期
9 苏绥;林原;林鸿飞;;语言模型在信息检索中的应用[J];情报学报;2011年07期
10 王轩,王晓龙,张凯;语音识别中统计与规则结合的语言模型[J];自动化学报;1999年03期
相关会议论文 前10条
1 袁里驰;钟义信;;统计语言模型在语言信息处理中的应用[A];中国自动化学会、中国仪器仪表学会2004年西南三省一市自动化与仪器仪表学术年会论文集[C];2004年
2 刘昆;张建平;颜永红;;统计语言模型中语料的选择[A];中国声学学会2005年青年学术会议[CYCA'05]论文集[C];2005年
3 袁里驰;钟义信;;一种新颖的词聚类算法[A];中国自动化学会、中国仪器仪表学会2004年西南三省一市自动化与仪器仪表学术年会论文集[C];2004年
4 罗智勇;宋柔;荀恩东;;一种基于可信度的人名识别方法[A];第二届全国学生计算语言学研讨会论文集[C];2004年
5 牟晓隆;詹津明;郑方;吴文虎;;基于修正退化频度估计算法的n-gram语言模型[A];第五届全国人机语音通讯学术会议论文集[C];1998年
6 郭丽;蔡东风;季铎;白宇;;统计与语义相融合的词语相似度计算[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
7 陈丕海;冯建华;邢春晓;郑晓慧;;SiteSearch的关键技术分析及汉化设计[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
8 黄昌宁;高剑峰;李沐;;对自动分词的反思[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
9 施水才;肖诗斌;都云程;王洪俊;;TRS中文信息检索技术的发展(摘要)[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
10 赵军;敖其尔;吉仁尼格;巩政;葡萄;陈建东;;基于统计语言模型蒙古文词汇分析校正器的设计与实现[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
相关重要报纸文章 前10条
1 记者 贺建业 侯利红;拓尔思拟发行3000万股[N];上海证券报;2011年
2 付之;百度:技术制胜[N];网络世界;2001年
3 ;非门户网站的信息建设[N];网络世界;2001年
4 本报记者 赵齐;慧聪今秋对决GOOGLE[N];国际商报;2003年
5 本报记者 侯闯;让企业不再“眼花”[N];计算机世界;2003年
6 李冬梅 萧倩;软件触网慎思量[N];北京日报;2000年
7 本报记者 刘红鹰;搜索引擎还有戏?[N];信息时报;2000年
8 本报记者 李晓萍;个性订制——打开未来信息服务之门[N];经济参考报;2001年
9 安徽 张来东;在JAVA开发中的中文处理问题及解决办法[N];中国计算机报;2001年
10 施水才;内容管理打造电子政务[N];中国计算机报;2002年
相关博士学位论文 前10条
1 文娟;统计语言模型的研究与应用[D];北京邮电大学;2010年
2 孙越恒;基于统计的NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
3 刘政怡;中文整句智能输入方法研究[D];安徽大学;2007年
4 刘向威;NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
5 高红;基于统计语言模型的汉语浅层分析研究[D];大连理工大学;2007年
6 田萱;基于上下文的信息检索关键技术研究[D];中国人民大学;2007年
7 姜维;统计中文词法分析及其强化学习机制的研究[D];哈尔滨工业大学;2007年
8 马瑞;非限制手写字符分割中相关技术与算法的研究[D];南京理工大学;2007年
9 吴应良;网络计算中的智能信息处理方法研究[D];华南理工大学;2000年
10 陈博;WEB文本情感分类中关键问题的研究[D];北京邮电大学;2008年
相关硕士学位论文 前10条
1 王志勇;基于统计语言学模型的中文文本信息检索[D];第二军医大学;2004年
2 李贞;基于统计语言模型的中文网页信息检索研究[D];华中师范大学;2012年
3 王平;小型中文信息检索测试集的构建与分析[D];河北大学;2009年
4 代建英;汉语自动分词系统的研究与实现[D];重庆大学;2005年
5 甄天桥;基于统计和潜在语义分析的混合语言模型的研究[D];哈尔滨工业大学;2007年
6 刘志文;基于trigger对的长距离蒙古语语言模型的研究[D];内蒙古大学;2008年
7 张美香;贝叶斯文本分类器的研究与改进[D];太原理工大学;2005年
8 黄s
本文编号:2817964
本文链接:https://www.wllwen.com/tushudanganlunwen/2817964.html