基于聚类分析的食用油种类鉴别方法研究

时间：2026-01-23 理论教育小霍霍版权反馈

【摘要】：聚类分析法便是无监督模式识别法的代表，其应用十分广泛。使用OPUS6.5光谱分析软件进行聚类分析，样本间的距离采用欧氏距离法，类间距采用Ward算法。模型校验为考察聚类分析模型的预测能力，使用预测集样本纯花生油、纯橄榄油、纯大豆油、纯菜籽油和纯棕榈油对该模型进行预测，验证模型的预测准确率。

1.聚类分析原理介绍

在对众多样本进行模式识别时，人们通常事先并不知道样品内在的分类。其中无监督模式识别方法在未知训练集样本的类别的情况下，同样可以对样本进行分类识别。聚类分析法便是无监督模式识别法的代表，其应用十分广泛。分析流程如图8-1所示。

在多维空间中，相似的样本彼此距离应小些，反之，不相似的样本彼此间的距离会相对较大。也即常说的“物以类聚”，有效地将同类与异类分开，合理地按样本独有的特性来进行合理的分类。

这里的样本相似表示样本间的亲疏程度，通常用相似系数和距离来表征，将每一个样本看成n个变量的一个点，在这样的空间中计算样本间的亲疏程度。相似系数用夹角的余弦值或相关系数表示。

夹角余弦如式（8-1）所示：

式中，x_ik是第i个样本的第k个特征变量。

相似系数如式（8-2）所示：

式中，x-i是第i个样本所有特征变量的均值；x-j是第j个样本所有特征变量的均值。

距离则多用欧式距离和马氏距离来表示。

图8-1 聚类分析流程

注：G1～G6代表6个不同的样本类，把距离最近的两个类聚成新类（如G1和G2合成新类G7），再在新类中寻找距离最近的合成另一个新类（如G8和G9合成新类G10）。

根据类间距离的不同定义方式，系统聚类法可分为最短距离法、最长距离法、中间距离法、重心法和方差平方和法。

最短距离法：两个不同类中最短距离的两个样本间的距离定义为两类之间的距离，其计算如式（8-3）所示：

D_γi=min{D_pi，D_qi}，（i≠p，q）（8-3）

最长距离法：两个不同类中最长距离的两个样本间的距离定义为两类之间的距离，其计算如式（8-4）所示：

D_γi=max{D_pi，D_qi}，（i≠p，q）（8-4）

中间距离法：类与类间的距离采取折中的方法，既不选取两类中距离最近的两个样本，也不选取两类中距离最远的两个样本的距离。

重心法：每类在物理意义上都会存在重心，两类的重心间的距离作为类间的相似性。

方差平方和法：也称为Ward法，该法认定准确的分类应满足类内方差尽可能小，而类间方差尽可能大，其计算如式（8-5）所示：

(https://www.xing528.com)

式中，γ是类p和类q聚成的新类；D_pi是类p和类i的光谱距离；D_qi是类q和类i的光谱距离；D_γi是类γ和类i的光谱距离；n_p是类p中聚类光谱的数量；n_q是类q中聚类光谱的数量；n_i是类i中聚类光谱的数量。

2.样品制备与光谱采集

本实验收集17个食用植物油样本（在超市购买的不同品牌不同批次样本），其中纯花生油（福临门、鲁花、龙大等品牌）4个、纯大豆油（福临门等品牌）4个、纯橄榄油（多力等品牌）9个。将其编号，分为校正集和预测集样品。1～15号为校正集样本，其中hs01～hs04为纯花生油，dd01～dd04为纯大豆油，gl01～gl09为纯橄榄油。另外收集5个不同的植物油样品，即纯花生油（hs00）、纯橄榄油（gl00）、纯大豆油（dd00）、纯菜籽油（cz00）、纯棕榈油（zl00）作为预测集样本。

采用德国Bruker 公司生产的VERTEX70近红外光谱分析仪对原始样本进行全谱测定。检测器为Bruker公司的专利数字检测器。将原始样品分别装入50mm的实验用白色塑料瓶内，采集光谱时，将光纤探头探入样本内部，采用透反射采样模式，对4000～12500^-1谱区扫描，分辨率为8cm^-1，扫描32次。

22个食用油样本未经任何化学处理，将光纤探头伸入装有样本的小瓶中，逐一扫描样本，每次测量前均用石油醚清洗探头，避免样本间交叉污染。测得的样品近红外光谱如图8-2所示。

图8-2 样品近红外光谱图

由图8-2可以看出，食用油谱图的峰形、峰位有一定的差别，利用化学计量学的方法对光谱进行预处理，采用系统聚类的算法进行鉴别，可以突出样本之间化学组成含量上的微小差别，从而达到分类的目的。

3.模型建立与测试

（1）模型建立

17个食用油样本采集光谱图后，经过SNV的预处理方法，去除干扰信号，光谱范围选择为4000～9000cm^-1。使用OPUS6.5光谱分析软件进行聚类分析，样本间的距离采用欧氏距离法，类间距采用Ward算法。

从图8-3分析可得，样本集可以准确地分为3类，即花生油、大豆油和橄榄油，识别率达到了100%。

（2）模型校验

为考察聚类分析模型的预测能力，使用预测集样本纯花生油（hs00）、纯橄榄油（gl00）、纯大豆油（dd00）、纯菜籽油（cz00）和纯棕榈油（zl00）对该模型进行预测，验证模型的预测准确率。预测结果如图8-4所示。

图8-3 聚类分析结果

图8-4 预测集样本分析结果图

图8-4 预测集样本分析结果图（续）

从预测集样本的预测结果可以得出，当聚类模型类间距确定在0.01～0.04时，纯花生油（hs00）、纯橄榄油（gl00）、纯大豆油（dd00）均能被正确识别和归类，纯菜籽油（cz00）和纯棕榈油（zl00）则可以被确认为不属于花生油、大豆油和橄榄油的任意一种，因此综合建模和预测两者的结果，可将聚类模型的类间距确定在0.01～0.04，则模型的识别率和预测率均可达100%。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈

工作计划

年度工作

工作规划

教学计划

实施方案

工作方案

教学工作

发展计划

德育工作

管理工作

发展规划

工作总结

教育工作

体育教师

年度计划

后勤工作

安全教育

工作思路

教育计划

小学教师

幼儿教师

数学教师

食品安全

英语教学

基于聚类分析的食用油种类鉴别方法研究

相关推荐

基于聚类分析的食用油种类鉴别方法研究

相关文章：

相关推荐