当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于特征和隐马尔可夫模型的文本信息抽取

发布时间:2018-01-19 05:14

  本文关键词: 文本分块 特征提取 隐马尔可夫模型 出处:《河南科技大学学报(自然科学版)》2008年02期  论文类型:期刊论文


【摘要】:基于文本分块提出一种新的文本信息抽取技术,该技术利用文本的语义特征和结构特征,抽取具有特征的状态,以此结果为基础,进一步运用改进的隐马尔可夫模型,抽取剩余的无特征状态。对美国CMU大学CORA搜索引擎研制组提供的数据集中的100篇进行测试,结果显示精确度和召回率比基于单词和传统隐马尔可夫模型的方法都有所提高,并进一步提高了效率。
[Abstract]:This paper proposes a new text information extraction technique based on text partitioning, which utilizes the semantic and structural features of the text to extract the characteristic states, and based on the results. Using the improved hidden Markov model to extract the remaining non-feature state, we tested 100 pieces of data set provided by the CORA search engine development team of CMU University in the United States. The results show that the accuracy and recall rate are higher than those based on word and traditional hidden Markov models, and the efficiency is further improved.
【作者单位】: 河南交通职业技术学院 河南交通职业技术学院 河南交通职业技术学院 吉林大学计算机科学与技术学院
【基金】:吉林省科技发展计划项目(20050527)
【分类号】:TP391.1
【正文快照】: 0前言目前的电子资源含有大量的有用信息,但是欠结构化,不能为传统的数据库型查询系统所利用。针对这一问题,出现了信息抽取技术。信息抽取(Information Extraction)是指从文本中自动抽取相关的或特定类型的信息。信息抽取包括规则法、统计法以及规则和统计相结合的方法等。

【共引文献】

相关期刊论文 前3条

1 李蕾;周延泉;王菁华;;基于全信息的中文信息抽取系统及应用[J];北京邮电大学学报;2005年06期

2 郭庆琳,樊孝忠;基于NLU的智能搜索和信息提取技术的研究[J];计算机应用研究;2004年02期

3 邓尚民;孙玉伟;;信息抽取系统的研究现状[J];现代图书情报技术;2006年03期

相关博士学位论文 前1条

1 杨尔弘;突发事件信息提取研究[D];北京语言大学;2005年

相关硕士学位论文 前6条

1 温锐;中文命名实体识别及其关系抽取研究[D];苏州大学;2005年

2 杨蓓虹;基于企业协作信息网平台的信息检索系统的设计与实现[D];苏州大学;2005年

3 姜涛;蛋白质相互作用信息提取算法研究[D];西北工业大学;2006年

4 徐超;基于种子自扩展的命名实体关系抽取方法的研究[D];华中师范大学;2006年

5 王颖;应用于中文人名搜索引擎的Web信息提取技术研究[D];兰州大学;2006年

6 王ZMr,

本文编号:1442784


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1442784.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户46b98***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com