首页 理论教育 支持向量机:利用分类超平面区分不同样本

支持向量机:利用分类超平面区分不同样本

时间:2023-06-21 理论教育 版权反馈
【摘要】:支持向量机于1964年被提出,在20世纪末期得到迅猛发展,因为SVM具有良好的分类性能,从而很快占据了数据挖掘领域,而且在很长一段时间里领先于其他算法。SVM提出之初,其被用来解决二分类问题。假设数据类标签为{-1,+1},与所有线性模型一样,支持向量机使用分类超平面作为两个类之间的决策边界。使用SVM的目的是通过结构风险最小化原则构建一个目标函数,从而将两类样本尽可能正确地区分开[2]。

支持向量机:利用分类超平面区分不同样本

支持向量机(Support Vector Machine,SVM)于1964年被提出,在20世纪末期得到迅猛发展,因为SVM具有良好的分类性能,从而很快占据了数据挖掘领域,而且在很长一段时间里领先于其他算法。如果不考虑集成学习的算法和特定的训练数据集,SVM在分类算法中的表现是数一数二的。

SVM提出之初,其被用来解决二分类问题。二分类问题可以推广到多类的情况下。假设数据类标签为{-1,+1},与所有线性模型一样,支持向量机使用分类超平面作为两个类之间的决策边界。在SVM算法中,利用边界的概念建立了分类超平面的优化问题[1]

分离两个类,并且在边界的每个边上存在一个大区域(或边距),其中没有训练数据点。为了理解这个概念,首先讨论数据线性可分离的非常特殊的情况。在线性可分离的数据中,有可能构造一个最优线性超平面,如图6-1所示,超平面可以准确地分离两个类的数据点。当然,图6-1中所示的仅是一种理想情况,因为实际数据很少是完全可分离的,而且至少有一些数据点如错误标记的数据点或异常值可能会违反线性可分离性。然而,线性可分公式对于理解最大余量的重要原理是至关重要的。在讨论线性可分离的情况之后,我们会对更一般的(和现实的)方案进行讨论。(www.xing528.com)

图6-1 最优线性超平面展示图

设训练样本输入为xi(i=1,2,…,n),对应的期望输出为yi∈{-1,+1},其中+1,-1分别代表两类的类别标识。使用SVM的目的是通过结构风险最小化原则构建一个目标函数,从而将两类样本尽可能正确地区分开[2]。通常,可将其分为线性可分、线性不可分两类情况。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈