东北大学学报(自然科学版) ›› 2022, Vol. 43 ›› Issue (5): 639-645.DOI: 10.12068/j.issn.1005-3026.2022.05.005
李建华1, 朱泽阳1, 徐礼胜1,2, 孙国哲3
LI Jian-hua1, ZHU Ze-yang1, XU Li-sheng1,2, SUN Guo-zhe3
摘要: 电子病历数据经常存在缺失,严重影响分析结果.基于MIMIC数据库中的重症监护单元(intensive care unit,ICU)患者数据研究缺失值插补,数据集由23组临床常用生理变量以及不存在缺失的5260例样本构成.提出了一种基于深度嵌入聚类的K近邻插值方法.该方法以深度嵌入聚类为核心,通过多次聚类构造样本邻近度矩阵,再选择缺失样本的K个近邻样本,以这些近邻样本的平均值填补缺失.与均值插补、中值插补、后验分布估算插补和条件均值插补相比,该方法插补后的结果与原数据相似度更高,且更好地保留了样本间的差异性.
中图分类号: