首页 理论教育 DET曲线:网络舆情中识别错误的权衡

DET曲线:网络舆情中识别错误的权衡

时间:2023-11-04 理论教育 版权反馈
【摘要】:图2-3和图2-4是针对相同数据分别绘制的ROC曲线和DET曲线,可以发现在DET曲线中,其性能图接近于线性,并且DET曲线能更为明显地表示出不同系统的性能差别。在理想的情况下,如果识别系统100%拒绝漏报和误报,则DET曲线仅为坐标原点。

DET曲线:网络舆情中识别错误的权衡

除了归一化识别代价外,通常将其计算结果结合识别错误权衡曲线(DET曲线)[69,70]来更加直观地刻画漏报率和误报率之间的一种关系。识别任务可认为是对漏报和误报两种错误类型的权衡,例如一个语音处理的任务是识别这段语音是谁说的或者这段语音是哪种语言。一个识别系统可能会弄错说话者或者语言类型,或者目标不存在时做出这样的识别结果。当存在不同类型错误的权衡时,采用一个性能指标对系统描述是不合理的,针对这种情况,较早出现的描述曲线是ROC曲线(受试者工作特征曲线),该曲线的横轴为误报率,纵轴为识别率。Martin等对ROC曲线评估方法进行了改进,提出DET曲线,该曲线的横轴仍然为误报率,纵轴修改为漏报率,图2-4给出了一个DET曲线示例。DET曲线上的点代表某一识别方法在不同阈值下的漏报率和误报率。图2-3和图2-4是针对相同数据分别绘制的ROC曲线和DET曲线,可以发现在DET曲线中,其性能图接近于线性,并且DET曲线能更为明显地表示出不同系统的性能差别。

漏报率和误报率均是系统尽量避免的参数,其值越低越好。DET曲线离坐标原点越近,两个参数值越小,其性能越好。在理想的情况下,如果识别系统100%拒绝漏报和误报,则DET曲线仅为坐标原点。通过对DET曲线的分析,可以找到与性能相关的评价结果,包括寻找最佳操作点和计算DET曲线下的面积,下文对其进行详细介绍。

1.最佳操作点

由于DET曲线描述了所有可能阈值下的漏报率和误报率,所以它的一个重要作用就是可以找到识别的最佳操作点。对一个系统来说,漏报是非常危险的,它的重要程度高于误报,因为如果系统将一个重大的新闻报道漏报,可能造成难以预测的后果。同时,误报也是需要被竭力制止的,如果系统将某个正常事件作为危害性事件,同样也要付出代价。综上,可运用代价比来寻找最佳操作点,其计算公式如下:

其中,Cσ表示代价比,Cα表示误报代价,Cβ表示漏报代价。(www.xing528.com)

2.DET曲线下的面积

依据实验数据绘制DET曲线,很多情况下并不是一条曲线完全位于另一条曲线之下,可能一条曲线的某些部分位于另一条曲线之上,其余部分位于另一条曲线之下,这种情况下,可在每一个DET工作点做垂线至横轴,构成一个不规则梯形,通过计算其面积大小比较性能优劣。

首先将不规则梯形分割成若干个梯形,设曲线上的点为(xi,yi)(i=0,1,…,n),其中xi为误报率,yi为漏报率,n为DET曲线上的总点数,则曲线面积的计算方法如下:

DET曲线下的面积取值范围为(0,0.5),面积越小代表系统性能越好。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈