基于非结构化文本检索模型综述
本文选题:相似度计算 切入点:检索模型 出处:《计算机应用研究》2017年06期 论文类型:期刊论文
【摘要】:随办公信息化、生活网络化不断推进,诸如企业产品问题描述、Web用户评论、通信文本信息等新生的非结构化文本数据也伴随着快速的增长以及其不断积累。这对于如何能准确、高效地检索到用户真实需求的文本信息提出了新的要求和挑战。检索模型对检索准确度、效率等具有决定性影响。近年来,大量新兴方法融入到文本的检索模型中,使模型本身变得纷繁复杂,同时传统模型间的界限变得模糊。从非结构化文本数据的检索需求出发,归纳检索模型的定义和通用框架;进而基于检索词项相似性计算采用的数学理论,对检索模型进行分类,并详细阐述各类模型的发展脉络、分析其优缺点及适用场景。最后,讨论了新环境下海量文本检索模型面临的挑战及相关研究问题思考。
[Abstract]:With the development of office information and network, new unstructured text data, such as enterprise product problem description, Web user review, communication text information and so on, are growing rapidly and accumulating. In recent years, a large number of new methods have been integrated into the text retrieval model, which has a decisive effect on retrieval accuracy and efficiency. The model itself becomes complicated and the boundary between the traditional models becomes blurred. Based on the retrieval requirements of unstructured text data, the definition and general framework of the retrieval model are summarized. Then, based on the mathematical theory of similarity calculation, the retrieval model is classified, and the development of each model is described in detail, and its advantages and disadvantages and applicable scenarios are analyzed. This paper discusses the challenge of massive text retrieval model in the new environment and some related research issues.
【作者单位】: 桂林电子科技大学广西云计算与大数据协同创新中心;桂林电子科技大学广西可信软件重点实验室;桂林电子科技大学广西自动检测技术与仪器重点实验室;
【基金】:国家自然科学基金资助项目(U1501252,61462017,61363005) 广西区自然科学基金资助项目(2014GXNSFAA118353,2014GXNSFAA118390,2014GXNSFDA118036) 广西自动检测技术与仪器重点实验室基金资助项目(YQ15110) 广西高等学校高水平创新团队及卓越学者计划资助项目
【分类号】:TP391.3
【相似文献】
相关期刊论文 前10条
1 印鉴;一种对象检索模型[J];小型微型计算机系统;2000年08期
2 李卫红,万建成;书面汉语全切分算法中的并发检索模型[J];计算机应用;2004年05期
3 王珂;廖文和;郭宇;刘金山;;基于位索引的多层次实例检索模型研究[J];中国机械工程;2007年16期
4 吴楠;;计算机检索模型与分析[J];科技信息(学术研究);2007年28期
5 刘玉琴;刘嵩;于波;;面向审查任务的中文专利检索模型与实验[J];计算机应用研究;2008年05期
6 黄颖臻;情报检索模型的演变过程及其评价[J];现代图书情报技术;1989年01期
7 胡军,耿国华,周明全;一个图像检索模型及其应用[J];西北大学学报(自然科学版);1999年06期
8 印鉴,李师贤;一种基于事例推理的检索模型[J];中山大学学报(自然科学版);1999年02期
9 许锡春;基于相似性的检索模型[J];上海海运学院学报;2000年03期
10 谢桂芳;;一种网络学习资源的检索模型研究[J];信息技术;2008年10期
相关会议论文 前8条
1 杨小锐;林磊;孙承杰;刘秉权;;基于结构挖掘的论坛检索模型[A];第六届全国信息检索学术会议论文集[C];2010年
2 申展;王建会;吴爱华;胡运发;;互关联后继树模型——一种新颖的全文检索模型[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年
3 沈水荣;;建立计算机知识点检索模型探索语义自动识别的相关问题——关于“人民金典”语义自动识别系列产品研发的理论思考[A];中国新闻技术工作者联合会2011年学术年会论文集(上篇)[C];2011年
4 王宗文;彭亮;赵奇;;一种互助检索模型的设计[A];提升知识产权服务能力 促进创新驱动发展战略——2014年中华全国专利代理人协会年会第五届知识产权论坛优秀论文集[C];2014年
5 汪明;熊璋;吴晶;;基于LDAP的多语言概念检索模型的研究[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
6 谢祖铭;张亮;周向东;叶剑烨;陈恋;;一种基于概念的贝叶斯网络图像检索模型[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
7 刁宇峰;林鸿飞;;基于LDA模型的博客垃圾评论发现[A];第六届全国信息检索学术会议论文集[C];2010年
8 徐建民;陈富节;朱松;;基于量化同义词扩展的贝叶斯网络结构化检索模型[A];2007'仪表,,自动化及先进集成技术大会论文集(二)[C];2007年
相关博士学位论文 前2条
1 蔡柯柯;基于查询特征上下文的检索模型研究[D];浙江大学;2007年
2 丁国栋;基于统计语言建模的信息检索及相关研究[D];中国科学院研究生院(计算技术研究所);2006年
相关硕士学位论文 前10条
1 温大军;复杂工程系统监测数据检索模型研究与应用[D];重庆大学;2015年
2 刘春蔚;日地空间系统领域科学数据检索模型研究[D];中国科学院国家空间科学中心;2016年
3 孙霞;大数据环境下分子检索与药物候选物识别研究[D];新疆大学;2016年
4 杨清泉;基于文摘的LDA检索模型[D];昆明理工大学;2016年
5 李珊珊;数学表达式相似检索的扩充规则研究[D];河北大学;2016年
6 杨樝;需求概念图导引下的检索模型研究[D];上海交通大学;2013年
7 董锦霞;基于菱形思维的概念检索模型研究[D];大连理工大学;2011年
8 龚小龙;结合邻近度的语义位置语言检索模型[D];江西师范大学;2014年
9 胡威;基于本体的教育资源检索模型的研究及其本体库的构建[D];内蒙古大学;2014年
10 吴建波;基于内容的多媒体图像检索模型的研究[D];浙江师范大学;2012年
本文编号:1647363
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1647363.html