当前位置:主页 > 科技论文 > 信息工程论文 >

基于独立分量分析的语义聚类技术在信息检索中的应用研究

发布时间:2016-10-09 19:05

  本文关键词:基于独立分量分析的语义聚类技术在信息检索中的应用研究,,由笔耕文化传播整理发布。


《电子科技大学》 2010年

基于独立分量分析的语义聚类技术在信息检索中的应用研究

蒲强  

【摘要】: 随着计算机技术及网络技术的飞速发展,世界上的数据正以惊人的速度增长着。面对现代纷繁复杂的海量信息资源,人们反而有了“淹没在信息海洋中”的困惑。如何快捷、准确地得到所需信息已成为人们关注的焦点问题。信息检索技术能够帮助不同领域的人们从文本、图像、声音等庞大的数据资料中寻找其所需的信息。以信息检索技术为核心技术的Web搜索引擎已经成为人们从互联网发现所需信息的最依赖的工具,显示出这一领域巨大的市场价值和经济利益。在庞大用户需求的驱动下,信息检索技术不断发展和创新,成为近年来信息领域研究的热点。 本文的研究基于统计信号处理技术和信息检索技术的结合,这是源于将文本文档看成不同主题信号混合的产物,利用统计信号领域中独立分量分析(Independent Component Analysis,ICA)技术对文档进行处理,分离的独立分量能很好地表示文档的语义主题结构。基于这一认识,全文以概率模型、信息论、线性代数及有关统计方法为理论基础,配合大量详实的实验分别研究了基于ICA的语义聚类理论模型及其应用、基于ICA语义聚类的相关模型和查询模型的估计,同时还对信息检索领域最常用的查询扩展技术进行了研究。论文主要的贡献和创新之处包括五个方面: 1.提出ICA语义聚类激活的概念,并在理论上证明了利用激活ICA语义聚类下文档估计的语义主题在语义距离上比使用全部反馈文档估计的语义主题更接近于真实语义主题。以用户查询为导向的激活方式在语义上将聚类下的文档与查询关联起来,克服了反馈文档主题分散同现带来的风险。由于激活语义聚类下文档数量是确定的,因此查询扩展或者语言模型估计中避免了设置反馈文档数量这个参数,查询扩展和模型估计更为强健。 2.在相关模型和查询模型的估计中,提出了利用ICA语义聚类信息配合语料集对文档模型估计进行语义平滑的概念,利用语义关键词条聚类强化反馈文档主题模型估计部分,给出了文档未出现词条的语义关键词条聚类概率,克服了传统文档模型估计中只使用语料集模型平滑的不合理性,即未出现词条以相同语料集概率出现在不同文档中的假设的不合理性。 3.利用了文档属于语义聚类的概率作为文档先验概率参与模型估计,一方面区别对待了每个文档在相关模型或查询模型估计中的作用,克服了语言模型估计中所有文档先验概率服从均匀分布这个假设的不合理性;另一方面利用了语义聚类模型参与了相关模型或查询模型的估计,改变了传统模型的估计只使用单一文档模型这一现象,可利用的统计语言模型总集得到扩展。 4.提出了利用语义聚类在用户兴趣和文档之间建立动态语义映射关系,这种映射关系将文档和用户组织在同一类别下,克服了现有文档和用户兴趣之间松散的关系。信息推荐系统利用映射关系主动发现同类中的文档信息推荐给用户。 5.基于潜在语义空间能发现词条同现关系的原理,发现了潜在语义索引技术和独立分量分析技术配合使用时,一方面同现词条可以较好地弥补短文档词条重叠度低的问题,另一方面短文档在ICA语义空间中分类能够改善其分类准确率。

【关键词】:
【学位授予单位】:电子科技大学
【学位级别】:博士
【学位授予年份】:2010
【分类号】:TP391.3
【目录】:

  • 摘要5-7
  • ABSTRACT7-13
  • 第一章 绪论13-20
  • 1.1 研究背景13-14
  • 1.2 研究动机14-16
  • 1.2.1 不同聚类空间文档结构表示问题14-15
  • 1.2.2 传统查询扩展技术存在的问题15
  • 1.2.3 统计语言模型的灵活性15-16
  • 1.2.4 传统的相关模型和查询模型估计中存在的问题16
  • 1.3 主要工作16-17
  • 1.4 创新点17-18
  • 1.5 本文章节安排18-20
  • 第二章 相关研究工作与理论基础20-44
  • 2.1 检索性能主要评测指标21
  • 2.2 信息检索中的相关反馈技术与查询扩展技术21-29
  • 2.2.1 相关反馈方法23-27
  • 2.2.1.1 向量空间模型的有关定义23-25
  • 2.2.1.2 词条权重计算25-26
  • 2.2.1.3 基于向量空间模型的查询向量变形法26-27
  • 2.2.1.4 基于概率模型的查询词条权重计算法27
  • 2.2.2 查询扩展词条的选择技术27-28
  • 2.2.3 同现关系发现查询扩展词条28
  • 2.2.4 选择性查询扩展28-29
  • 2.2.4.1 查询清晰度函数29
  • 2.2.4.2 平均反向文档频率29
  • 2.3 信息检索中统计语言模型的研究现状29-39
  • 2.3.1 信息检索中统计语言模型和概率模型的区别31
  • 2.3.2 查询似然语言模型31-34
  • 2.3.2.1 文档语言模型的定义32
  • 2.3.2.2 文档语言模型的估计32-33
  • 2.3.2.3 文档语言模型的平滑方法33-34
  • 2.3.3 查询语言模型34-37
  • 2.3.4 基于聚类的统计语言模型37-39
  • 2.4 信息检索中的潜在语义索引技术39-40
  • 2.5 文本数据处理中的独立分量分析技术40-42
  • 2.6 本章小结42-44
  • 第三章 基于独立分量分析的语义聚类理论研究44-65
  • 3.1 潜在语义空间44-48
  • 3.1.1 潜在语义空间的相关定义44-46
  • 3.1.2 潜在语义空间的生成46-48
  • 3.1.2.1 奇异值分解46-47
  • 3.1.2.2 主分量分析47-48
  • 3.2 独立分量分析48-55
  • 3.2.1 分量统计独立性及判据函数49-53
  • 3.2.1.1 Kullback-Leibler 散度49-50
  • 3.2.1.2 互信息极小化判据函数50-51
  • 3.2.1.3 信息极大化判据函数51-52
  • 3.2.1.4 极大似然判据函数52-53
  • 3.2.2 独立分量分析常用算法53-55
  • 3.2.2.1 信息极大算法53
  • 3.2.2.2 负熵固定点算法53-55
  • 3.3 基于独立分量分析的语义聚类模型55-64
  • 3.3.1 潜在语义空间到ICA 语义空间的变换55-57
  • 3.3.2 语义聚类模型57-59
  • 3.3.2.1 语义聚类与主题距离的相关定义57-58
  • 3.3.2.2 基于ICA 的语义聚类模型58-59
  • 3.3.3 语义聚类可靠性分析59-64
  • 3.3.3.1 语义聚类可靠性分析的必要性59-60
  • 3.3.3.2 独立分量估计的可靠性分析60-62
  • 3.3.3.3 语义聚类可靠性分析实验62-64
  • 3.4 本章小结64-65
  • 第四章 基于独立分量分析的语义聚类应用研究65-86
  • 4.1 自定义语料库的构建方法65-69
  • 4.1.1 Web 主题文本提取方法65-67
  • 4.1.2 Web 主题文本提取实验67-69
  • 4.1.3 相关结论69
  • 4.2 图书馆个性化服务69-74
  • 4.2.1 语义聚类建立动态映射关系70-71
  • 4.2.2 系统体系结构71-72
  • 4.2.3 个性化服务实验72-74
  • 4.2.4 相关结论74
  • 4.3 用户信息推荐服务74-80
  • 4.3.1 用户兴趣模型的表示74-75
  • 4.3.2 词条权重计算的改进75-77
  • 4.3.3 用户信息推荐服务实验77-80
  • 4.3.4 相关结论80
  • 4.4 短文档分类问题80-84
  • 4.4.1 短文档面临的问题80-81
  • 4.4.2 实验设计81-82
  • 4.4.3 实验结果与分析82-84
  • 4.4.4 相关结论84
  • 4.5 本章小结84-86
  • 第五章 查询扩展技术应用研究86-99
  • 5.1 查询扩展概述86-87
  • 5.1.1 向量空间中的理论解释86-87
  • 5.1.2 查询扩展时机87
  • 5.2 查询扩展在地理信息检索中的应用研究87-98
  • 5.2.1 基于地理坐标抽取与聚类的地理查询扩展系统88-92
  • 5.2.2 基于维基百科的地理查询扩展系统92
  • 5.2.3 实验结果与分析92-98
  • 5.2.3.1 查询扩展词条的主题距离92-93
  • 5.2.3.2 实验数据集与工具93-95
  • 5.2.3.3 实验结果95-96
  • 5.2.3.4 实验分析96-98
  • 5.3 本章小结98-99
  • 第六章 基于统计语义聚类的语言模型研究99-130
  • 6.1 语义聚类的激活99-102
  • 6.1.1 激活理论99-101
  • 6.1.2 激活过程101-102
  • 6.1.2.1 主题距离激活方法101-102
  • 6.1.2.2 查询和文档词条同现关系激活方法102
  • 6.2 基于统计语义聚类的相关模型估计102-118
  • 6.2.1 相关模型估计方法的改进102-104
  • 6.2.2 相关模型估计方法104-105
  • 6.2.3 实验设计105-108
  • 6.2.3.1 实验数据集与工具105-107
  • 6.2.3.2 实验参数和术语设定107-108
  • 6.2.3.3 实验内容108
  • 6.2.4 实验结果与分析108-118
  • 6.2.4.1 语义聚类相关模型改善查询性能108-115
  • 6.2.4.2 语义聚类的质量测试115-118
  • 6.2.5 相关结论118
  • 6.3 基于统计语义聚类的查询模型估计118-128
  • 6.3.1 查询模型概述118-119
  • 6.3.2 查询模型估计方法119-121
  • 6.3.3 实验设计121-123
  • 6.3.3.1 实验数据集与工具121-122
  • 6.3.3.2 实验参数设定122
  • 6.3.3.3 实验内容122-123
  • 6.3.4 实验结果与分析123-128
  • 6.3.4.1 语义聚类对反馈文档质量的影响123-124
  • 6.3.4.2 语义聚类反馈文档数量对检索结果的影响124-125
  • 6.3.4.3 基于聚类的检索方法检索效果比较125-126
  • 6.3.4.4 语义关键词条聚类对检索结果的影响126-127
  • 6.3.4.5 语义聚类文档先验概率对检索结果的影响127-128
  • 6.3.5 相关结论128
  • 6.4 本章小结128-130
  • 第七章 全文总结及未来工作130-132
  • 7.1 全文总结130-131
  • 7.2 未来工作131-132
  • 致谢132-134
  • 参考文献134-145
  • 攻博期间取得的研究成果145-147
  • 下载全文 更多同类文献

    CAJ全文下载

    (如何获取全文? 欢迎:购买知网充值卡、在线充值、在线咨询)

    CAJViewer阅读器支持CAJ、PDF文件格式


    【参考文献】

    中国期刊全文数据库 前5条

    1 崔宇红;基于手机短信平台的图书馆信息推送服务[J];大学图书馆学报;2004年04期

    2 蒲强;何大庆;杨国纬;;一种基于统计语义聚类的查询语言模型估计[J];计算机研究与发展;2011年02期

    3 周源远,王继成,郑刚,张福炎;Web页面清洗技术的研究与实现[J];计算机工程;2002年09期

    4 李效东,顾毓清;基于DOM的Web信息提取[J];计算机学报;2002年05期

    5 封化民,刘飚,刘艳敏,方勇,宋国森;含有位置坐标树的Web页面分析和内容提取框架[J];清华大学学报(自然科学版);2005年S1期

    【共引文献】

    中国期刊全文数据库 前10条

    1 王春腾;杨厚群;符传谊;邢洁清;;基于独立成分分析的谱聚类方法[J];安徽电子信息职业技术学院学报;2011年03期

    2 张彦超;刘云;李勇;沈波;;基于自动生成模板的Web信息抽取技术[J];北京交通大学学报;2009年05期

    3 廉捷;刘云;;网络舆情中的信息预处理与自动摘要算法[J];北京交通大学学报;2010年05期

    4 杨德斌;杨聚星;阳建宏;章立军;;基于声信号分析的齿轮故障诊断方法[J];北京科技大学学报;2008年04期

    5 王茹,宋瀚涛,陆玉昌;基于树自动机的网页数据抽取[J];北京理工大学学报;2004年09期

    6 金明生;;关于倡导在县级以上公共图书馆开通“手机短信服务平台”的建议案[J];图书与情报;2008年03期

    7 徐忻;娄路;;基于3G的手机图书馆服务系统构建研究[J];图书与情报;2009年03期

    8 张敏;;基于确定性树自动机技术的信息抽取研究[J];才智;2011年36期

    9 冯海军;祝华;章艺;柳瑞锋;;基于独立分量的信息极大化法机械振动盲分离研究[J];船舶工程;2008年01期

    10 张毅;张辉;罗元;胡豁生;;采用Emotiv感知的智能轮椅运动控制的研究[J];重庆邮电大学学报(自然科学版);2012年03期

    【二级参考文献】

    中国期刊全文数据库 前4条

    1 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期

    2 王继成,萧嵘,孙正兴,张福炎;Web信息检索研究进展[J];计算机研究与发展;2001年02期

    3 曲卫民,张俊林,孙乐;基于主题的汉语语言模型的研究[J];计算机研究与发展;2003年09期

    4 王强 ,王继成 ,武港山 ,张福炎;Web文档清洗系统中HTML解析器的开发[J];计算机应用研究;2002年02期

    【相似文献】

    中国期刊全文数据库 前10条

    1 曹建荣;蔡安妮;;基于支持向量机的语义视频摘要[J];北京邮电大学学报;2006年04期

    2 李亚丽;徐为群;颜永红;;语义类的提取及其在语音搜索系统中的应用[J];声学学报;2011年05期

    3 周笑天;;决策树中数字型连续属性的语义化研究[J];计算机系统应用;2009年02期

    4 梁晓弘;杨文安;;分词技术在信息处理中的研究综述[J];电脑知识与技术(学术交流);2007年22期

    5 温苗苗;吴云芳;;基于SVM融合多特征的介词结构自动识别[J];中文信息学报;2009年05期

    6 ;汉语语义范畴的计算机模拟[J];中文信息;1994年04期

    7 张晶,姚建民,赵铁军,李生;基于Word Net和How Net建设双语语义词典[J];高技术通讯;2001年12期

    8 黄鸿森;;这样的辞书,何必引进——评《建宏成语义类辞典》[J];中国出版;2007年10期

    9 董明楷;张明义;;语义类比:AI的一个重要发展方向[J];计算机科学;1996年06期

    10 孙广路;郎非;薛一波;;基于条件随机域和语义类的中文组块分析方法[J];哈尔滨工业大学学报;2011年07期

    中国重要会议论文全文数据库 前10条

    1 贾玉祥;俞士汶;;语义选择限制的自动获取及其在隐喻处理中的应用[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年

    2 王惠;苏新春;;XHK基于语法知识的汉语词义描述[A];第六届汉语词汇语义学研讨会论文集[C];2005年

    3 王惠;;汉英机器翻译中基于大型语义词典的汉语词义消歧[A];机器翻译研究进展——2002年全国机器翻译研讨会论文集[C];2002年

    4 邱立坤;;现代汉语动名语串结构关系的判定[A];第六届汉语词汇语义学研讨会论文集[C];2005年

    5 王萌;贾玉祥;俞士汶;;基于语料统计的量词对名词语义选择倾向的研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年

    6 海银花;那顺乌日图;;面向“蒙古语语义信息词典”的名词语义分类体系[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年

    7 吴平;;“NP+在+处所+VP”句式的逻辑语义分析[A];2004年逻辑研究专辑[C];2004年

    8 李斌;曲维光;陈小荷;;名词转喻的自动理解[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年

    9 刘秉权;张凯;王晓龙;;语音识别中基于规则的语言模型的研究[A];第五届全国人机语音通讯学术会议论文集[C];1998年

    10 李向阳;张亚非;;一种基于语义的汉语短语识别方法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年

    中国博士学位论文全文数据库 前10条

    1 颜红菊;现代汉语复合词语义结构研究[D];首都师范大学;2007年

    2 侯锋;中文报业出版的文字质量智能辅助控制技术研究[D];国防科学技术大学;2010年

    3 曹海龙;基于词汇化统计模型的汉语句法分析研究[D];哈尔滨工业大学;2006年

    4 荚济民;基于互联网数据集的图像标注技术研究[D];中国科学技术大学;2009年

    5 王欣;类型逻辑语法与现代汉语“是”和“的”[D];北京语言大学;2009年

    6 吴尉林;可移植的稳健口语理解方法研究[D];上海交通大学;2007年

    7 凌坚;新闻视频主题识别与跟踪的研究[D];浙江大学;2007年

    8 孟凯;现代汉语“X+N_(役事)”致使复合词研究[D];北京语言大学;2009年

    9 李线宜;上海手语类标记结构调查研究[D];复旦大学;2010年

    10 海银花;面向信息处理的蒙古语名词语义研究[D];内蒙古大学;2010年

    中国硕士学位论文全文数据库 前10条

    1 方利;“外X”词语的多角度考察[D];华中师范大学;2012年

    2 韩娟;《韩非子》形容词研究[D];河南大学;2008年

    3 陈文慧;HSK名词的图片可表达性和表达方法研究[D];北京语言大学;2004年

    4 沈新宇;基于直推式支持向量机的图像分类算法研究与应用[D];北京交通大学;2008年

    5 刘丽丽;汉英民用陆地交通工具词语语义对比研究[D];鲁东大学;2008年

    6 刘宗保;形、名语素构成复合词的语义类组合分析[D];南京师范大学;2008年

    7 高研博;汉语动词论元约束优选信息的获取[D];上海交通大学;2008年

    8 刘蓉;违反合作原则的汉语语义类修辞格及其语用功能研究[D];湖南农业大学;2011年

    9 贾晓东;汉语动宾搭配识别研究[D];大连理工大学;2008年

    10 张涛;中文文本中未知词语的词义知识获取[D];山西大学;2005年


      本文关键词:基于独立分量分析的语义聚类技术在信息检索中的应用研究,由笔耕文化传播整理发布。



    本文编号:135271

    资料下载
    论文发表

    本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/135271.html


    Copyright(c)文论论文网All Rights Reserved | 网站地图 |

    版权申明:资料由用户c5f41***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com