1. 引言

对于流行实证分析的经管等学科而言,每逢毕业季,大家都会殚精竭虑的寻找数据,以满足自己的研究需求,所谓“上穷碧落下黄泉,动手动脚找数据”,不外如是。但是,近年来,也有一些现成的微观数据,为大家提供了不少便利。如西南财大的中国家庭金融调查 (CHFS) 、北大国发院的中国健康与养老追踪调查 (CHARLS) 、北大中国社科调查中心的中国家庭追踪调查 (CFPS) 等。很多学界大佬都拿这些数据发过顶刊,数据质量十分可靠;多数数据对外公开,数据获取也较为便利。

但是,有时候拿到数据仅仅意味着开始,数据清洗也是一头来势汹汹的拦路虎。那么,我们该怎么清洗微观数据呢?下面我们就以北京大学的中国家庭追踪调查 (CFPS) 为例,详细讲一下怎么清洗微观数据,并构造一些较为复杂的变量。