您当前的位置:
首页 > 文献资料
所属专业:
块缺失文献资料
-
多组学联合缺失数据填补方法的评价
目的 本研究旨在评价不同平台间“块缺失”数据的填补方法.如何在保证方差-协方差结构相对稳定的前提下提高多组学数据填补的精确度,对于后期数据挖掘有重要的意义.方法 利用癌症基因组图谱(TCGA)数据库的肺癌数据(甲基化数据、基因表达数据),构建不同缺失比例的数据集(缺失比例分别为5%、20%、35%、50%和65%).采用统计学填补方法均值法,马尔科夫蒙特卡洛法(MCMC)和机器学习填补法[邻近法(kNN),随机森林法(RF),多层感知机法(MLP)]对缺失数据进行填补,填补后数据集与原数据集进行比较.评价指标包括估计偏差和矩阵-2-范数.根据评价指标和填补时间,比较出填补效果优、填补时间较短的方法.结果 MLP和kNN算法在各种缺失比例下均比其他填补方法有更优的效果,填补时间也相对较短.均值法的时间短,在数据集缺失比例较小时(≤5%),填补效果与其他填补方法相当,但在高比例缺失情况下表现较差.在数据集高比例缺失情况下,RF和MCMC的填补效果优于均值法,但填补时间过长,不适用于实际工作.结论 综合比较,机器学习填补方法中的MLP和kNN两法适合于甲基化数据和表达数据的填补.