人工智能机器学习方法及应用研究
发布时间:2015-03-25 07:21
1、人工智能机器学习
学习是生物中枢神经系统的高级整合技能之一,是人类获取知识的重要途径和人类智能的重要标志,按照人工智能大师H•Simon的观点[1]:学习就是系统在不断重复的工作中对本身能力的增强或改进,使得系统在下一次执行同样或相类似的任务时,会比原来做得更好或效率更高。
人工智能机器学习则是计算机获取知识的重要途径和人工智能的重要标志,是一门研究怎样用计算机来模拟或实现人类学习活动的学科,是研究如何使机器通过识别和利用现有知识来获取新知识和新技能。一般认为,人工智能机器学习是一个有特定目的的知识获取过程,其内部表现为从未知到已知这样一个知识增长过程,其外部表现为系统的某些性能和适应性的改善,使得系统能完成原来不能完成或更好地完成原来可以完成的任务。它既注重知识本身的增加,也注重获取知识的技能的提高。
1.1人工智能机器学习基本模型
以H•Simon的学习定义作为出发点,建立如图1的基本模型。在人工智能机器学习的过程中,首要的因素是外部环境向系统提供信息的质量。外部环境是以某种形式表达的外界信息集合,它代表外界信息来源;学习是将外界信息加工为知识的过程,先从环境获取外部信息,然后对这些信息加工形成知识,并把这些知识放入知识库中;知识库中存放指导执行部分动作的一般原则,由于环境向学习系统提供的信息形形色色,信息质量的优劣直接影响到学习部分容易实现还是杂乱无章。而知识库则是影响学习系统设计的第二个因素,由于知识库可能不同,表达方式各有特点,在选择表示方式上要兼顾表达能力强、易于推理、易于完善及扩展知识表示等几个方面的要求。执行环节是利用知识库中的知识完成某种任务的过程,并把完成任务过程中所获得的一些信息反馈给学习环节,以指导进一步的学习。
1.2人工智能机器学习的发展和研究目标
人工智能机器学习是人工智能研究较为年轻的分支,它的发展过程大体上分为四个时期[2]。
第一阶段是20世纪50年代中叶到60年代中叶,属于热烈时期。在这个时期,所研究的是“没有知识”的学习,即“无知”学习。其研究目标是各类自组织系统和自适应系统,其主要研究方法是不断修改系统的控制参数和改进系统的执行能力,不涉及与具体任务有关的知识。本阶段的代表性工作是:塞缪尔(Samuel)的下棋程序。但这种学习的结果远不能满足人们对人工智能机器学习系统的期望。
第二阶段是在60年代中叶到70年代中叶,被称为人工智能机器学习的冷静时期。本阶段的研究目标是模拟人类的概念学习过程,并采用逻辑结构或图结构作为机器内部描述。本阶段的代表性工作有温斯顿(Winston)的结构学习系统和海斯罗思(Hayes-Roth)等的基本逻辑的归纳学习系统。
第三阶段从20世纪70年代中叶到80年代中叶,称为复兴时期。在此期间,人们从学习单个概念扩展到学习多个概念,探索不同的学习策略和方法,且在本阶段已开始把学习系统与各种应用结合起来,并取得很大的成功,促进人工智能机器学习的发展。1980年,在美国的卡内基—梅隆(CMU)召开了第一届人工智能机器学习国际研讨会,标志着人工智能机器学习研究已在全世界兴起。
当前人工智能机器学习围绕三个主要研究方向进行:
1.面向任务:在预定的一些任务中,分析和开发学习系统,以便改善完成任务的水平,这是专家系统研究中提出的研究问题;
2.认识模拟:主要研究人类学习过程及其计算机的行为模拟,这是从心理学角度研究的问题;
3.理论分析研究:从理论上探讨各种可能学习方法的空间和独立于应用领域之外的各种算法。
这三个研究方向各有自己的研究目标,每一个方向的进展都会促进另一个方向的研究。这三个方面的研究都将促进各方面问题和学习基本概念的交叉结合,推动了整个人工智能机器学习的研究。
人工智能机器学习的研究目标大致有三个方向,一个方向是基础性训究,发展各种适合机器特点的学习理沦,探讨所有可能的学习方法,比较人类学习与人工智能机器学习的异同与联系;一个方向是以模拟人类的学习过程出发,试图建立学习的认识生理学模型,这个方向与认知科学的发展密切相关;一个方向是应用研究,建立各种实用的学习系统或知识获取辅助工具,在人工智能科学的应用领域建立自动获取知识系统,积累经验,完善知识库与控制知识,进而能使机器的智能水平像人类一样。
2.人工智能机器学习方法
2.1机械学习
机械学习就是记忆,即把新的知识存储起来,供需要时检索调用,而无须计算和推理。任何学习系统都必须记住它们获取的知识。在机械学习系统中,知识的获取以较为稳定和直接的方式进行,不需要系统进行过多的加工。而对于其他学习系统,需要对各种建议和训练例子等信息进行加工处理后,才能存储起来。当机械学习系统的执行部分解决好问题之后,系统就记住该问题及其解。可以把学习系统的执行部分抽象地看成某个函数,该函数在得到自变量输入值(X1,X2,…,Xn)之后,计算并输出函数值(Y1,Y2,…,Yp)。机械学习在存储器中简单地记忆存储对((X1,X2,…,Xn),(Y1,Y2,…,Yp))。当需要f(X1,X2,…,Xn)时,执行部分就从存储器中把(Y1,Y2,…,Yp)简单地检索出来而不是重新计算它。这种简单的学习模式如下:
对于机械学习,需要注意:采用适当的存储方式,使检索速度尽可能地快;保证所保存的信息适应于外界环境变化的需要;不能降低系统的效率。
2.2归纳学习
归纳推理是应用归纳方法,从足够多的具体事例中归纳出一般性知识,提取事物的一般规律,是从个别到一般的推理。归纳学习是应用归纳推理进行学习的方法,根据归纳学习有无教师指导,可分为示例学习和观察与发现学习。前者属于有师学习,后者属于无师学习。
归纳学习系统的模型如图2所示。实验规划过程通过对实例空间的搜索完成实例选择,并将这些选中的活跃实例提交给解释过程。解释过程对实例加以适当转换,把活跃实例变换为规则空间中的特定概念,以引导规则空间的搜索。
2.2.1示例学习
示例学习又称实例学习,是通过环境中若干与某概念有关的例子,经归纳得出一般性概念的学习方法。在这种学习方法中,外部环境提供的是一组例子,每一个例子表达了仅适用于该例子的知识。示例学习就是要从这些特殊知识中归纳出适用于更大范围的一般性知识,以覆盖所有的正例并排除所有反例。例如,如果用一批动物作为示例,并且告诉学习系统哪一个动物是"马",哪一个动物不是。当示例足够多时,学习系统就能概括出关于"马"的概念模型,使自己能够识别马,并且能将马与其他动物区别开来。
2.2.2观察发现学习
观察发现学习又称描述性概括,其目标是确定一个定律或理论的一般性描述,刻画观察集,指定某类对象的性质。观察发现学习可分为观察学习与机器发现两种。前者用于对事例进行聚类,形成概念描述;后者用于发现规律,产生定律或规则。概念聚类的基本思想是把事例按照一定的方式和准则分组,如划分为不同的类或不同的层次等,使不同的组代表不同的概念,并对每一个组进行特征概括,得到一个概念的语义符号描述。机器发现是指从观察事例或经验数据中归纳出规律或规则的学习方法,也是最困难且最富创造性的一种学习。机器发现又可分为经验发现与知识发现两种,前者是指从经验数据中发现规律和定律,后者是指从已观察的事例中发现新的知识。
2.3类比学习
类比能清晰、简洁地描述对象间的相似性。类比学习就是通过类比,即通过对相似事物加以比较所进行的一种学习。例如,当教师要向学生讲授一个较难理解的新概念时,总是用一些学生已经掌握且与新概念有许多相似之处的例子作为比喻,使学生通过类比加深对新概念的理解。像这样通过对相似事物的比较所进行的学习就是类比学习。
类比学习主要包括4个过程:
(1)输入一组已知条件和一组未完全确定的条件。
(2)对输入的两组条件,根据其描述,按某种相似性的定义寻找两者可类比的对应关系。
(3)根据相似变换的方法,将已有问题的概念、特性、方法、关系等映射到新问题上,以获得待求解新问题所需的新知识。
(4)对类推得到的新问题的知识进行校验。验证正确的知识存入知识库中,而暂时还无法验证的知识只能作为参考性知识,置于数据库中。
类比学习的关键是相似性的定义与相似变换的方法。相似定义所依据的对象随着类比学习的目的发生变化,如果学习目的是获得新事物的某种属性,那么定义相似时应依据新、旧事物的其他属性间的相似对应关系。如果学习目的是获得求解新问题的方法,那么应依据新问题的各个状态间的关系与老问题的各个状态间的关系来进行类比。相似变换一般要根据新、老事物间以何种方式对问题进行相似类比而决定
2.4解释学习
基于解释的学习简称解释学习。解释学习根据任务所在领域知识和正在学习的概念知识,对当前实例进行分析和求解,得出一个表征求解过程的因果解释树,以获取新的知识。在获取新知识的过程中,通过对属性、表征现象和内在关系等进行解释而学习到新的知识。
1986年Mitchell等人提出了基于解释的概括方法,该算法建立了基于解释的概括过程,并运用知识的逻辑表示和演绎推理进行问题求解,如图3所示。
在解释学习中,为了对某一目标概念进行学习,从而得到相应的知识,必须为学习系统提供完善的领域知识以及能够说明目标概念的一个训练实例。在系统进行学习时,首先运用领域知识找出训练实例为什么是目标概念之实例的证明,然后根据操作准则对证明进行推广,从而得到关于目标概念的一般性描述,即可供以后使用的形式化表示的一般性知识。
2.5基于神经网络的学习
神经网络的性质主要取决于两个因素:网络的拓扑结构;网络的权值、工作规则。二者结合起来就可以构成一个网络的主要特征。
神经网络的学习问题就是网络的权值调整问题。神经网络的连接权值的确定一般有两种方式:一种是通过设计计算确定即所谓死记式学习;另一种是网络按一定的规则通过学习得到的。大多数神经网络使用后一种方法确定其网络权值。比较出名的网络模型和学习算法有反向传播算法、Hopfield网络等。
2.5.1基于反向传播网络的学习
误差反向传播学习由两次通过网络不同层的传播组成:一次前向传播和一次反向传播。在前向传播中,一个活动模式作用于网络感知结点,它的影响通过网络一层接一层地传播,最后产生一个输出作为网络的实际响应。在前向传播中,网络的突触权值全被固定了。在反向传播中,突触权值全部根据突触修正规则来调整。特别是网络的目标响应减去实际响应而产生误差信号,这个误差信号反向传播通过网络,与突触连接方向相反,因此叫"误差反向传播"。突触权值被调整使得网络的实际响应从统计意义上接近目标响应。误差反向传播算法通常称为反向传播算法,由算法执行的学习过程称为反向传播学习。反向传播算法的发展是神经网络发展史上的一个里程碑,因为反向传播算法为训练多层感知器提供了一个有效的计算方法。
2.5.2基于Hopfield网络模型的学习
前向神经网络,从学习的观点看,是强有力的学习系统,结构简单,易于编程。从系统的观点看,属于静态的非线性映射,通过简单非线性处理单元的复合映射可获得复杂的非线性处理能力,但它们因缺乏反馈,所以并不是一个强有力的动力学系统。Hopfield模型属于反馈型神经网络,从计算的角度讲,具有很强的计算能力。系统着重关心的是系统的稳定性问题。稳定性是这类具有联想记忆功能神经网络模型的核心,学习记忆的过程就是系统向稳定状态发展的过程。Hopfield网络可用于解决联想记忆和约束优化问题的求解。
2.6知识发现
数据库中的知识发现是从大量数据中辨识出有效的、新颖的、潜在有用的、可被理解的模式的高级处理过程。知识发现过程如图4所示:
数据选择是根据用户需求从数据库中提取相关数据。数据预处理是对数据进行再加工,检查数据的完整性及一致性,对其中的噪音数据进行处理,对丢失的数据利用统计方法进行填补,形成发掘数据库。数据变换即从发掘数据库里选择数据。变换的方法主要是利用聚类分析和判别分析。数据挖掘是根据用户要求,确定知识发现的目标是发现何种类型的知识,运用选定的知识发现算法,从数据库中提取用户所需要的知识。知识评价主要用于对所获得的规则进行价值评定,以决定所得到的规则是否存入基础知识库。
上述知识发现过程可以进一步归纳为3个步骤,即数据挖掘预处理、数据挖掘、数据挖掘后处理。
知识发现已在银行业、保险业、零售业、医疗保健、工程和制造业、科学研究、卫星观察和娱乐业等行业和部门得到成功应用,为人们的科学决策提供了很大帮助。
3.人工智能机器学习方法的应用
研究表明,目前在众多涉及计算机处理的技术应用中,人工智能机器学习在许多领域都取得了很大的进步,如用于人工智能、数据挖掘、自然语言处理、汉字识别、机器翻译、专家系统以及商业领域等。可以说,一个系统是否具有“学习”功能己成为是否具有“智能”的一个重要标志。
20世纪90年代逐渐成熟的基于人工智能机器学习的文本分类方法,更注重分类器的模型自动挖掘和生成及动态优化能力,在分类效果和灵活性上都比之前基于知识工程和专家系统的文本分类模式有所突破,成为相关领域研究和应用的经典范例[3,4]。近年来,人工智能机器学习与自然语言处理的结合越来越紧密,相应的自然语言学习技术的发展也越来越快。在自然语言处理及机器翻译方而,比较流行和传统的人工智能机器学习方法是基于实例的学习。这种方法给定一些有代表性的实例,从中总结出一些规律,使其具有代表性和高精确度,并把学习得到的这些特性作为系统,赋给另一个从未见过的新事物。比较典型的应用有基于人工智能机器学习方法的自动文摘问题以及用于进行智能中文关联词语识别,中文语句生成和诊断系统等。
人工智能机器学习方法在专家系统及智能决策系统方而的典型应用也很普遍,这方面的研究有:机械设备智能诊断系统的人工智能机器学习机制、故障诊断专家系统中人工智能机器学习方法的研究、基于人工智能机器学习理论的智能决策支持系统模型操纵方法的研究,智能制造系统中人工智能机器学习方法的应用研究等。
人工智能机器学习技术应用于市场营销、金融、网络分析和电信领域[5]。在市场营销领域,人工智能机器学习技术较广泛地应用于分类型和关联型任务;在金融领域,人工智能机器学习技术较广泛地应用于预测型任务;在网络分析领域,人工智能机器学习技术应用较为广泛的是关联型任务。在电信领域,人工智能机器学习技术在分类、预测、侦查的任务方面均有广泛的应用。
此外,人工智能机器学习应用于数据挖掘领域[5]或与其它应用技术的结合,比较典型的有基于人工智能机器学习的神经网络初始化方法、进化计算在人工智能机器学习中的应用研究、层次分类中的人工智能机器学习方法研究、基于Rough集方法的数据约简与人工智能机器学习、预测支持系统中的人机界面Agent及其人工智能机器学习。
目前,我们试图把人工智能机器学习应用到用户模型的建立更新中。但仍然存在很多难点,如在用户建模中需要什么样的人工智能机器学习方法,怎样获得大量的人工智能机器学习所需要的训练样本,怎样既能提高用户模型的精度又能降低运算的复杂度等,这些都还有待进一步研究和探讨。
4.小结与展望
人工智能机器学习是人工智能发展中一个十分活跃的领域,其研究目的是希望计算机具有如同人类一样从现实世界中获取知识的能力,同时,以模拟人类的学习过程出发点,建立学习的计算理论,构造各种学习系统并将之应用到各个领域中去。发展各种适合机器特点的学习理论,进行基础性研究。
当前,人工智能机器学习的研究仍继续向纵深方向发展,研究者从各自不同的研究环境和领域提出多种学习体制、学习方法。但总体来看,为了使人工智能机器学习达到较高水平,应该采用多种学习体制下的集成学习系统,以便解决复杂任务和模拟人脑的思维过程,同时在学习机制和学习方法上争取有质的突破。
在算法研究方面,由于集成学习(EnsembleLearning)可以有效地提高模型的推广能力,因此从20世纪90年代开始,对集成学习理论和算法的研究成为了人工智能机器学习的一个热点。早在1997年,国际人工智能机器学习界的权威T.G.Dietterich就将集成学习列为人工智能机器学习四大研究方向之首。四个大方向指通过集成学习方法提高学习精度、扩大学习规模、强化学习和学习复杂的随机模型。而在今天,集成学习仍然是人工智能机器学习中最热门的研究领域之一,研究人员众多、成果层出不穷。现在已经有很多集成学习算法,比如:Bagging算法、Boosting算法、Arcing算法、RandomForest算法等等。
目前的计算机只能是一种初级智能机,人工智能要向前迈进,就不应把自己局限于今天的计算机科学体系。要加强智能与思维的规律性研究,即加强思维学研究。在人工智能机器学习的研究中,要让机器从事创造性的思维工作,让机器从输入的大量知识中,善于总结、善于学习,善于发现,才能为人类的技术革命做出更大的贡献。随着计算机能力的不断增强,我们有可能只利用计算机强大的计算能力只通过相对简单和固定的方法达到传统统计方法无法达到的效果和目的。
5.参考文献
[1]徐立本.人工智能机器学习引论[M].长春:吉林大学出版社.1993.
[2]刘琴.人工智能机器学习[J].武钢职工大学学报,2001(6):41-44.
[3]苏金树,张博锋,徐昕.基于人工智能机器学习的文本分类技术研究进展[J].软件学报.2006,17(9):1848-1859.
[4]王晓晔,张继东,孙济洲.一种高效的分类规则挖掘算法[J].计算机工程与应用,2006(,33):174-176.
[5]黄林军,张勇,郭冰榕.人工智能机器学习技术在数据挖掘中的商业应用[J].中山大学学报论丛.2005,25(6):145-148.
本文编号:18781
本文链接:https://www.wllwen.com/kejilunwen/rengongzhinen/18781.html