数据分析师面试35个经典问题

转载

mob64ca1416b5a8 2024-07-18 21:35:14

导读

今天参加了一场数据分析师面试，遴选3道记录以资后鉴。

1. SQL求两表差集

数据分析师面试35个经典问题_数据分析师面试35个经典问题

用SQL实现黄色部分查询

求差集在其他SQL语句中存在关键词Except的用法，而MySQL中没有，所以需要用其他方法折中实现。但实现本身也不难。

以公共字段为id示例，提供两种常规思路：

用最常规的语法（说人话的实现语句）是用in：

1SELECT * 
2FROM A 
3WHERE id not in (SELECT id FROM B)

当然，能用关键字in实现的语句基本上都可以用exists实现：

1SELECT * 
2FROM A 
3WHERE not exists (SELECT 1 FROM B WHERE A.id=B.id)

用子查询实现逻辑简单，语句更为直接，但执行效率一般较差，至于用in还是exists又要取决于索引情况和A、B两表数据规模情况。

实现两表差集更为可取的做法是用表连接：

1SELECT A.* 
2FROM A left join B 
3    using(id)
4WHERE B.id is null

表连接方式更为高效，如果当B表较大但id列存在有效索引时，实际上还存在一点优化的空间和技巧：

1SELECT A.* 
2FROM A left join 
3    (SELECT id FROM B) C 
4    using(id) 
5WHERE C.id is null

这里假定B表id字段已建立索引，进而通过覆盖索引查询B表id字段形成衍生表C，会大大加速查询过程，进而优化表连接查询结果。

2. 64匹马竞技取前4

实话说，这道题曾经见过，但无奈当时并未仔细思考。面试现场，脑中想到了可能的解决框架：

实际上，实现起来却尽是浆糊，剪不断理还乱。最后，只能给出中规中矩的晋级策略，也是最常规和最差的方案：每8匹马取前4，逐轮晋级，64→32→16→8→4，共需15轮。

而更为理想的策略仅需10-11轮：

数据分析师面试35个经典问题_人工智能_02

第1-8轮竞技

数据分析师面试35个经典问题_人工智能_03

第9轮竞技

经过此轮，能得到很多信息量：

9匹马中，选择其中的8匹竞技，取前3。这里，9选8的策略有很多，但最好的方案是期望经过此轮后无需考虑剩下的那匹马，也就是说将最不可能进入总排名前4的马作为备选。因此，最为理想的选择是将总冠军那一组的第4名作为备选马，确保该组第2名或第3名未进入8选3结果中，无需再考虑备选的第4名，否则才需加赛。当然，将第二列的第三名作为备选也会得到相同的期望。

数据分析师面试35个经典问题_数据分析师面试35个经典问题_04