赛后数据分析
天池精准医疗大赛——人工智能辅助糖尿病遗传风险预测
大赛概况
进入21世纪,生命科学特别是基因科技已经广泛而且深刻影响到每个人的健康生活,于此同时,科学家们借助基因科技史无前例的用一种全新的视角解读生命和探究疾病本质。人工智能(AI)能够处理分析海量医疗健康数据,通过认知分析获取洞察,服务于政府、健康医疗机构、制药企业及患者,实现个性化,可以循证的智慧医疗,推动创新,实现价值。
心血管病、糖尿病等慢性疾病,每年导致的死亡人数占总死亡人数的80%,每年用于慢病医疗费用占中国公共医疗卫生支出的比例超过13%。作为一种常见慢性疾病,糖尿病目前无法根治,但却能通过科学有效的干预、预防和治疗,来降低发病率和提高患者的生活质量。阿里云联合青梧桐健康科技有限公司主办天池精准医疗大赛——人工智能辅助糖尿病遗传风险预测,希望用人工智能的方法和思想处理、分析、解读和应用糖尿病相关大数据,让参赛选手设计高精度,高效,且解释性强的算法来挑战糖尿病精准预测这一科学难题,为学术界和精准医疗提供有力的技术支撑,帮助我们攻克糖尿病。
dtype='object')
id | 年龄 | *天门冬氨酸氨基转换酶 | *丙氨酸氨基转换酶 | *碱性磷酸酶 | *r-谷氨酰基转换酶 | *总蛋白 | 白蛋白 | *球蛋白 | 白球比例 | ... | 血小板计数 | 血小板平均体积 | 血小板体积分布宽度 | 血小板比积 | 中性粒细胞% | 淋巴细胞% | 单核细胞% | 嗜酸细胞% | 嗜碱细胞% | 血糖 | |
count | 5642.000000 | 5642.000000 | 4421.000000 | 4421.00000 | 4421.000000 | 4421.000000 | 4421.000000 | 4421.000000 | 4421.000000 | 4421.000000 | ... | 5626.000000 | 5619.000000 | 5619.000000 | 5619.000000 | 5626.000000 | 5626.000000 | 5626.000000 | 5626.000000 | 5626.000000 | 5642.000000 |
mean | 2866.184155 | 45.580468 | 26.805892 | 27.65202 | 87.482278 | 38.823762 | 76.771108 | 45.822504 | 30.948604 | 1.502538 | ... | 253.085318 | 10.653444 | 13.304414 | 0.267907 | 56.718468 | 33.778546 | 6.856772 | 2.043797 | 0.603697 | 5.631925 |
std | 1655.555649 | 12.961946 | 13.563003 | 22.61152 | 25.630897 | 40.788282 | 4.016055 | 2.617401 | 3.565997 | 0.220621 | ... | 59.586828 | 0.985484 | 2.173716 | 0.060503 | 7.799940 | 7.253097 | 1.567583 | 1.710901 | 0.291760 | 1.544882 |
min | 1.000000 | 3.000000 | 10.040000 | 0.12000 | 22.980000 | 6.360000 | 57.320000 | 29.540000 | 7.060000 | 0.520000 | ... | 37.000000 | 7.100000 | 8.000000 | 0.042000 | 14.400000 | 7.500000 | 3.100000 | 0.000000 | 0.000000 | 3.070000 |
25% | 1433.250000 | 35.000000 | 20.250000 | 15.13000 | 70.370000 | 17.810000 | 74.190000 | 44.130000 | 28.570000 | 1.360000 | ... | 213.000000 | 10.000000 | 11.700000 | 0.230000 | 51.600000 | 28.800000 | 5.800000 | 0.900000 | 0.400000 | 4.920000 |
50% | 2870.500000 | 45.000000 | 23.890000 | 21.48000 | 84.470000 | 26.190000 | 76.630000 | 45.820000 | 30.780000 | 1.490000 | ... | 249.000000 | 10.600000 | 12.900000 | 0.260000 | 56.700000 | 33.600000 | 6.700000 | 1.600000 | 0.600000 | 5.290000 |
75% | 4302.750000 | 54.000000 | 29.270000 | 32.30000 | 100.210000 | 43.850000 | 79.530000 | 47.570000 | 33.180000 | 1.630000 | ... | 289.000000 | 11.300000 | 14.600000 | 0.300000 | 62.000000 | 38.500000 | 7.700000 | 2.600000 | 0.700000 | 5.767500 |
max | 5732.000000 | 93.000000 | 434.950000 | 498.89000 | 374.320000 | 736.990000 | 100.410000 | 54.080000 | 66.180000 | 7.120000 | ... | 745.000000 | 15.200000 | 25.300000 | 0.710000 | 88.500000 | 76.300000 | 23.200000 | 22.500000 | 3.500000 | 38.430000 |
8 rows × 40 columns
可以看出与乙肝相关的特征,缺失值到达了75%以上,于是决定删除乙肝5项,id与血糖无关,也删除,然后将data分为特征和结果标签,并将空缺值用平均值代替,之前打算剔除了体检日期这一特征,想了想等等吧



剔除血糖超過20的









填补空缺值
















