在利用原始数据分析前,需要进行大量的数据清洗工作,其中可能会涉及数据的提取、合并等工序,上篇文章介绍了如何利用MID函数进行数据的提取,本文将为大家介绍如何在excel中进行数据的合并。
如果仅是简单的将两个文本框的内容进行合并,直接用符号&便可轻松实现。当面临更复杂的合并时,比如需要一些判断条件才可决定是否将两个文本框的内容进行合并时,符号&便不足以满足我们的需求,这时还需要借助判断IF函数。
场景一:从网络上爬下浩如瀚海的帖子后,其包含的信息维度有正文,评论等,且存在一篇正文多条评论的情况,如果仅研究帖子文本内容,为了保持信息的完整和准确,需对正文和评论进行对应加总。
图1 一个标题对应多条正文评论
如果使用符号&对标题内容和正文评论加总,会导致标题内容大量重复,面临这种情况,如何运用excel中的函数实现想要的效果呢?
首先,观察文本信息,明确需达到的效果——标题+对应的所有正文帖子,即在标题相同的情况下,将评论内容累加,如图1中A3中标题加上F3、F4、F5、F6、F7的内容。
先用IF条件语句筛选,再用符号&完成文本内容合并。
具体操作如下:
如果A2中的标题与A1框中标题内容一致,便将H1列的值与F2中的正文评论内容进行合并,若不一致,则对第二行的标题、正文和评论内容进行合并。
从第三行来看,其标题与第二行不一致,那么我们想要返回的信息为第三行标题+正文评论内容,而第四行和第三行的标题内容一致,我们想要得到的结果是标题加上第三行的正文评论+第四行的正文评论,而在第三行H列中我们已经得到标题+第三行正文评论的内容了,在判断完第四行标题与第三行相同后,期待得到的结果是H3+F4的结果,于是我们便可得到筛选合并规则。
图2 用IF函数实现条件合并
在运用IF函数实现标题和内容的合并后,观察到通过上述操作得到的结果仍有“杂音”,H列中结果并非都是理想结果。我们想要的是标题+对应所有评论的合并,即两个不同标题交界处的那一条包含标题+所有评论的合并内容。
图3 期望的理想结果
如何提取想要的结果呢?
接下来,仍然使用功能强大的IF函数对想要的结果进行筛选,但应注意IF条件的选取。
在进行文本内容合并时,我们是利用A2是否等于A1作为是否合并的判断条件,在这里,我们为了得到标题+所有评论结尾端和另一个标题的开端,筛选条件应设置为A2=A3,若仍沿用A2=A1这个条件,我们得到便是H3中的值而非想要的H7中的值。
图4 筛选得到的理想结果
实际工作中,除了需要在一张表中对文本内容进行筛选合并外,还可能面临将不同表中的信息进行合并。
场景二:对不同表中同一客户的信息进行合并。两张表中数据有相同的字段也有不同的字段,需要将不同的字段合并到一张表格中,进行数据分析。
图5 待合并的原始数据表
如何实现呢?
如果两张表中的客户编码位置一致,可采用复制粘贴的方式,采取到另一张表中2018年的销售额数据;若是客户编码位置不一致,手动复制粘贴的方式便不值得提倡了,这时我们便需要借助vlookup函数实现数据匹配。
图6 Vlookup函数实现数据匹配
小黑板:VLOOKUP函数规则
VLOOKUP(要查找的值,查找区域,返回数据在查找区域的第几列,模糊匹配/精确匹配)
比如上例中,想要查找A2客户编码所对应的2018年销售额的值,首先在VLOOKUP函数中输入第一个参数为A2,后在2018年销售额表中选中A-C列作为查找的区域,2018年销售额在待查找区域的第三列,参数三便设置为3,若想要精准匹配,参数四便输入0,便能得到想要的结果。
注意:
1)参数二中待查找区域中一定要包含与参数一相同的字段值,否则无法识别参数一所对应的值,将会报错。
2)VLOOKUP中第4个参数,0为精确匹配,1为模糊匹配;
3)VLOOKUP是纵向查找函数,与其相对应的HLOOKUP是横向查找函数。
最后教大家一个小窍门,如果想将两张sheet页中包含的所有内容合并到一个表中,在表名单击右键,选择是否建立副本,便可将工作表移动至任何excel表中。
图7 实现excel表的瞬移