首页 理论教育 神经网络性能评价技术及应用探索

神经网络性能评价技术及应用探索

时间:2023-10-17 理论教育 版权反馈
【摘要】:例如,当神经网络用于对印刷体字母分类时,不存在判断标准的不确定性问题。在用神经网络检测癫痫棘波时,6位神经科医生中任何两位共同认定的单个棘波的平均一致率仅为60%。由于平均节点方均误差主要用于反向传播算法,所以它主要用于BP网络的性能评价。当样本学习结束后,En的值趋向于零,其速度取决于神经网络的结构。

神经网络性能评价技术及应用探索

为评价一个系统的运行质量,需要把对系统进行测试运行时得到的数据和已建立的标准相比较。为研究有关神经网络的运行质量,必须首先建立一些能反映其质量的性能指标,这些指标应对不同的网络具有通用性和可比性。目前在这方面尚缺乏系统而深入的研究,但仍可借鉴相关领域的运行检测技术。下面简要介绍关于神经网络性能评价的几个常用指标,而应用时选用哪一种指标取决于系统的类型以及使用者的技术水平等因素。

(1)百分比正确率。神经网络运行的百分比正确率就是根据某种分类标准做出正确判断的百分比。神经网络用于模式识别和分类等问题时,常用到该指标。但在某些神经网络应用中,百分比正确率的概念不太适用,应采用其他指标。为计算正确率,应选择合适的分类标准和有代表的训练集和测试集。有两个因素会影响以上选择的合理性:一个是分类标准本身的不确定问题,另一个是样本集的代表性。例如,当神经网络用于对印刷体字母分类时,不存在判断标准的不确定性问题。但是有些分类任务会存在较大的主观因素,如烤烟烟叶质量定级的分类,随专家的观点不同分类结果会略有差异。在用神经网络检测癫痫棘波时,6位神经科医生中任何两位共同认定的单个棘波的平均一致率仅为60%。因此,在分类之前统一观点十分重要,这需要系统最终用户的积极参与,才能正确建立统一的分类标准,训练集和测试集样本的代表性是目前神经网络开发工作正在研究的课题之一。训练集和测试集的样本以及由专家认定的代表类必须分布在所有类的范围内,包括那些在判断临界点附近的样本。设计者的人为因素也非常重要,应该避免设计者自己闭门造车地进行代表样本的分类确定工作,而要让系统的用户参与这一过程。虽然设计人员能为用户提供系统运行的技术要求等信息,但在样本设计和整个设计过程中都应该让用户尽可能发挥作用。在测试和训练中要使用不同的样本集,当样本数不充足时,可以循环利用已有的样本进行训练和测试。

此外,所选的训练集应该使每种样本的分类结果具有相同的数目。即如果神经网络有三个输出节点,对于每一次分类有一个相应的节点激活,训练样本集中每种分类结果的样本数目应该定为总样本数目的1/3。

(2)方均误差。神经网络的方均误差为总误差除以样本总数,而总误差定义为:

在应用方均误差时,应注意两种情况:第一,方均误差的定义公式中包括乘积因子1/2,但是在许多应用场合都省略了该因子,因此在比较各种不同的神经网络时,应注意方均误差的计算中是否包含乘积因子1/2。第二,误差项对所有输出节点求和时会产生一个潜在的问题,方均误差无法精确地反映具有不同节点数的神经网络结构之间的差别。如果训练一个单输出节点的神经网络能达到一固定误差,而训练一个结构基本相同的多输出节点的神经网络时,误差可能会增大,这是因为方均误差定义为除以训练集或测试集中的样本数而不是除以节点数。在某些应用场合,用户要求计算每个节点的误差,可以定义节点平均方均误差为(样本平均)方均误差除以输出节点数。由于平均节点方均误差主要用于反向传播算法,所以它主要用于BP网络的性能评价。

(3)归一化误差。Pinda提出了一种与神经网络结构无关,取值为0~1的误差标准Emm。定义为

式中,img为所有样本在第j个输出节点的期望输出值的平均值;img是第j个输出节点的期望输出值;P为样本总数;m为输出节点数。

则归一化误差En定义为总误差E除以上式的Emean

En =E/Emean(www.xing528.com)

归一化误差对BP神经网络十分有用。当神经网络“猜测”正确的输出值是平均目标值时,出现“最坏的情况”(En=1)。当样本学习结束后,En的值趋向于零,其速度取决于神经网络的结构。归一化误差反映的是基于误差的输出方差的比例,而与神经网络本身的结构(包括初始化的随机权值)无关。因此,在大多数场合,归一化误差标准是BP神经网络中最有价值的误差标准之一。

(4)接收操作特性曲线。评价神经网络系统的另一个途径是接收操作特性(ROC)曲线。ROC曲线用来反映系统某一个输出节点在做出一个判断时的正确性,因此下面的讨论集中于单输出节点网络。若用判断的阳性和阴性表示将某一输入样本判断为某类的肯定与否定,一个给定输出神经元所表示的判断存在四种可能性,见表7-1。

表7-1 ROC曲线定义中的可能性

第一种可能性称为真阳性判断(TP),即系统的阳性判断与根据标准得到的阳性判断相一致,如系统鉴别出神经科医生确认的癫痫棘波;第二种可能性称为假阳性判断(FP),即系统做出阳性判断而标准做出阴性判断;第三种可能性是假阴性判断(FN),即标准做出阳性判断而系统做出阴性判断,如神经科医生鉴别出的癫痫棘波系统却未找出;第四种可能性是真阴性判断(TN),即系统和标准都做出阴性判断,如系统和神经科医生都判断不存在癫痫棘波。

图7-4 ROC曲线示例

利用上述这四种可能性的两种比例可绘出ROC曲线如图7-4所示。第一种比例是TP/(TP+FN),称为真阳性率(在某些应用场合称为灵敏度)。第二种比例是FP/(FP+TN),称为假阳性率。ROC曲线由真阳性率轴和假阳性率轴上的点连接而成。为了画出真阳性率/假阳性率坐标轴中的点,可对输出节点设置不同的判断阈值。对于每个选定的阈值,统计出系统判断结果的真阳性率和假阳性率作为ROC曲线上点的坐标值。图7-4给出了两种不同结构的神经网络的ROC曲线,曲线NNT2代表的系统比NNTI所代表的系统整体运行性能更好。坐标轴对角线上的虚线表示真/假阳性率相等,即无法判断的情况。

如果用单一指标来评价系统的运行情况,可以通过计算ROC曲线下所包围的面积来决定,这实际上是用ROCf}11线来评价系统运行性能的主要方法。整图的面积是一个单位方格,ROC曲线以下的面积是整图的一个部分,曲线以下的面积必定在0.5~1.0之间,前者是当系统无法判断时对角线以下部分的面积,后者是当系统判断完全正确时曲线以下的面积。一种简单的计算方法是用直线线段连接相邻的点,并计算梯形折线以下的面积。为得到较光滑的ROC曲线,大约需要9~10个点。

(5)灵敏度、精度和特异度。灵敏度是指实际存在的事物能被检测到的可能性,也称为回忆度,其定义与ROC曲线定义中的真阳性率相同。在某些要求防止出现漏检事件的场合,如在预后严重的AIND病检测中,该指标变得非常重要。精度是系统所做出的正确的阳性判断数目除以系统做出的所有阳性判断的总数,在表7-1中,就是TP/(TP+FP),它包含着假阳性判断的强度。特异度是指一件实际不存在的事物被检测为不存在的可能性,定义为TN/(FP+TN),或称为真阴性率。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈