基于GATE的中文信息抽取系统的开发和实现

发布时间：2020-03-30 04:52

【摘要】：面对网络化、数字化、海量分布、复杂的信息资源,数字图书馆还不能有效地揭示和发现信息之间内在的知识联系。信息抽取技术的出现,使将海量的无结构数据自动转化为有结构信息的过程成为可能。作者在大量技术调研基础上,针对目前国内外信息抽取系统主要针对英文抽取的现状,经过实验分析比较提出了中文信息抽取的解决方案:在 GATE 框架下,开发中文信息抽取插件,其中利用了 ICTCLAS 分词工具。解决中文信息抽取有 3 个难点,分别是中文分词、中文语料词表和中文命名实体识别。除了利用 ICTCLAS 解决中文分词问题外,作者针对不同领域收集制作了上百兆符合 GATE 格式的中英文语料词表,并针对中文的语言特点撰写了上百条 JAPE 规则来提高中文命名实体识别的准确率。系统实现后,作者还将基于 GATE 的中文信息抽取系统对 RSS 科技信息聚合系统采集的数据进行了应用:对已经采集到本地的数百条无结构科技新闻进行了信息抽取实验,验证了系统的可用性。通过实验,我们认为基于 GATE 的中文信息抽取系统是对批量的中文信息抽取、英文信息抽取以及中英文混合信息抽取的一次非常有意义的尝试,初步解决了中英文命名实体识别的问题,并为后续的信息抽取研究打下了良好的基础。
【图文】：

知识发现

召开了第一届的 KDD 的 Workshop，1991、1993、1994 年又接着举行 KDD 专题讨会。从 1995 年开始，每年都举办一次 KDD 国际会议。从 1997 年开始，KDD 也有自己的专门杂志《Knowledge Discovery and Data Mining》。1995 年以来，外在知识发现和数据挖掘方面的论文非常多，，已形成了热门研究方向。基于 KDD 的知识发现是从大量结构化数据中提取出可信的、新颖的、有效并能被人最终理解的模式的高级处理过程，通过综合运用统计学、模糊数学、经网络、机器学习和专家系统等方法，从大量的数据中提炼抽象的知识，揭示蕴涵在数据背后的客观世界的内在联系和本质规律，实现知识的自动获取。基于 KDD 的知识发现过程是多个步骤相互连接、反复进行人机交互的过程它的基本流程有：1）问题定义。了解相关领域的有关情况，熟悉背景知识、弄清用户要求。2）数据提取。根据要求从数据库中提取相关的数据。3）数据预处理。主要对前一阶段产生的数据进行再加工，检查数据的完整及数据的一致性．对其中的噪音数据进行处理，对丢失的数据进行填补4）数据挖掘。运用选定的知识发现算法。从数据中提取用户所需的知识，些知识可以用一种待定的方式表示或使用一些常用的表示方式。5）知识评估。将发现的知识以用户能了解的方式呈现，根据需要对知识发过程中的某些处理阶段进行优化，直到满足要求。如下图所示

信息抽取,知识建模,知识获取

图 2 基于信息抽取的知识获取和知识建模（Hamish Cunningham etc. Metadata Extraction）实际上，信息抽取属于基于自然语言处理的知识发现的范畴，它具备了自然语言处理和知识技术的双重属性，接下来的内容会深入探讨信息抽取技术的概念、与知识技术的关系、发展情况以及对数字图书馆的意义。1．2 信息抽取技术的概念1．2．1 信息抽取的概念信息爆炸正发生在我们身边，为了应对信息爆炸带来的严峻挑战，迫切需要一些自动化的工具帮助人们在海量信息源中迅速找到真正需要的信息。信息抽取（Information Extraction）研究正是在这种背景下产生的。信息抽取系统的主要功能是从文本中抽取出特定的事实信息（factual information）[4]。比如，从新闻报道中抽取出恐怖事件的详细情况：时间、地点、作案者、受害者、袭击目标、使用的武器等，与信息检索不同（功能、技术、领域），信息抽取直接从自然语言文本中抽取事实信息。中文信息抽取方面的研究起步较晚，主要的研究工作集中在对中文命名实体的识别方面，在设计实现完整的中文信息抽取系统方面还处在探索阶段。信息抽取是一个把无结构的文本作为输入，生产出固定格式，无二意的数据的
【学位授予单位】：中国科学院研究生院（文献情报中心）
【学位级别】：硕士
【学位授予年份】：2006
【分类号】：G250.76

【引证文献】