首页 理论教育 基因表达谱提取结肠癌特征的实用数学方法研究

基因表达谱提取结肠癌特征的实用数学方法研究

时间:2023-11-17 理论教育 版权反馈
【摘要】:本文建立了特征基因筛选模型,该模型主体部分可分为四个分模型:基因初步筛选模型、特征子集生成模型、特征基因提取模型、基因表达谱去噪模型。取两种检验方法均有最佳SVM识别效果的特征子集作为该聚类准则下的特征基因组合,由此得到三个特征基因集合。基于小波包原理,建立基因表达谱去噪模型,对第一步提取出的信息基因去噪,对去噪后的数据进行分析,得到了4个与结肠癌肿瘤分类识别直接相关的特征基因。

基因表达谱提取结肠癌特征的实用数学方法研究

【摘要】本文建立了特征基因筛选模型,该模型主体部分可分为四个分模型:基因初步筛选模型、特征子集生成模型、特征基因提取模型、基因表达谱去噪模型。

基因初步筛选模型主要由单因素方差分析法和巴氏距离分析法构建,在2000个基因中筛选出了324个信息基因。

特征子集生成模型由K均值聚类和主基因提取两部分构成。K均值聚类采用了欧氏距离准则、皮尔森相关准则、余弦相似度准则同时对信息基因进行聚类;在按每种聚类准则进行分类时,类数从2到100,三个聚类准则共得到297个聚类结果。对于某个聚类结果,在单独一类的基因中选择巴氏距离最大的基因作为该类主基因,由此得到297个分类特征子集。

特征基因提取模型用支持向量机作为分类器,同时用留一交叉验证和独立验证两种方法求解。取两种检验方法均有最佳SVM识别效果的特征子集作为该聚类准则下的特征基因组合,由此得到三个特征基因集合。对三个特征基因集合取交集,最终得到了6个与结肠癌肿瘤分类识别直接相关的特征基因。(www.xing528.com)

基于小波包原理,建立基因表达谱去噪模型,对第一步提取出的信息基因去噪,对去噪后的数据进行分析,得到了4个与结肠癌肿瘤分类识别直接相关的特征基因。这4个基因包含于去噪前分析所得到的6个特征基因之中。说明了噪声对基因表达谱数据的处理会造成负面影响,去噪后可以更加精确地提取出与肿瘤分类直接相关的特征基因。

本文对先验信息如何融入数学模型进行了初步探索,认为可在特征子集生成后,直接选取含有先验信息基因的组合进行基因表达能力测试。这样既保证了先验信息基因不在表达能力测试时丢失,又保证了特征基因选取后的分类准确率。

【关键词】单因素方差分析;巴氏距离;K均值聚类;SVM;小波包软阈值降噪

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈