首页 理论教育 支持向量机提升个性化推荐

支持向量机提升个性化推荐

时间:2023-11-24 理论教育 版权反馈
【摘要】:而传统SVM使用非线性核函数分类时,存在着巨大的约束和参数;同时在TWSVM和STWSVM中也存在,但相比SVM,它们具有较少的约束条件和参数。对于核函数矩阵K和也有类似的情况。为验证RSTWSVM算法的有效性和可行性,在无约束最优化问题和中,采用较小的随机样本集作为整个样本集C的代表。

支持向量机提升个性化推荐

在现实应用中,经常需要处理大规模数据问题,例如:文本分类以及电子商务的个性化推荐等。特别在大数据时代,大规模数据分析越来越普遍。而传统SVM使用非线性核函数分类时,存在着巨大的约束和参数;同时在TWSVM和STWSVM中也存在,但相比SVM,它们具有较少的约束条件和参数。为解决大规模数据分类,产生非线性分类超平面,采用与RSVM和RTWSVR类似的思想,求解小部分数据来代替整个数据集。采用非线性核函数进行大规模数据分类存在两重困难:

①在求解潜在大规模无约束最优化问题(5.25)时采用完整的核函数K(B,C′)和K(A,C′),将造成计算上的困难,并且在开始求解前就有可能导致内存空间不够;这样的问题在无约束问题(5.26)中也是一样存在。

②当利用非线性分类超平面对一个未知的新样本进行分类时,存在高昂的存储代价和时间代价。无约束最优化问题(5.25),将存储整个数据集C,它由具有相同类标签+1数据集A和具有相同标签-1数据集B组成。若矩阵C非常大,可能导致高昂的存储代价和计算代价。例如:假设矩阵A的大小为20 000×100,矩阵B的大小为15 000×100,那么矩阵C的大小就是35 000×100。对于一个具有100维的数据集,意味着非线性平面(5.25)和(5.26)需要存储35 000×100=3 500 000个数据。(www.xing528.com)

为解决这两个难题,采用原始样本数据集m中一个非常小的随机样本子集,称之为,并用代替无约束优化问题(5.25)中的C;同时采用原始样本集m中的一个非常小的随机样本子集,称之为,并采用代替无约束优化问题(5.26)中的C。这样问题的规模和计算复杂度都将得到降低。

在STWSVM中,核函数矩阵K(B,C′)是一个大小为m2×m的矩形矩阵,并且第(i,j)个实体由确定。其中,Bi和Cj分别表示第i个和第j个模式。在RSTWSVM中,矩形矩阵的大小为,并且第(i,j)个实体由确定。其中,大小为,是从原始训练样本集中C随机选择的训练样本子集。特别地,可能只有m大小的10%,甚至更小。对于核函数矩阵K(A,C′)和也有类似的情况。为验证RSTWSVM算法的有效性和可行性,在无约束最优化问题(5.25)和(5.26)中,采用较小的随机样本集作为整个样本集C的代表。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈