一雷惊蛰始,春天到了,是时候脱去笨重的羽绒服,换上美美的春装了。
女神节就在眼前,那不妨来一次网购女装的数据分析,想想看假如你已结婚或者有女朋友,最好能及时帮助她们筛选,不然谁也不能保证她会拉出一份超长的采购清单;如果你还是单身,可以尝试给身边的姑娘们提出不错的建议,说不定会得到女神的刮目相看。
数据获取
1.数据来源
现在买衣服的主要战场就是淘宝,所以我们当然要从淘宝获取此次分析所需的数据,应该说在爬取过程中遇到了很多困难。
首先,对于淘宝这种反爬措施完善的网站使用普通方法肯定是不行的,所以我先是尝试了自己最喜欢的一款爬虫工具web_scrapy,结果不到10页就被限制访问。
接着祭出大招selenium,想不到被登陆验证卡住了,而且现在淘宝使用的拖拽滑块的验证方式破解起来很麻烦。
最后尝试了另外一款爬虫工具,虽然效率很低但是总算成功获取了需要的数据:
2.数据的清洗
数据的清洗一方面要看原始数据有哪些干扰因素,另一方面还要看我们的具体分析需求。
从上图中的数据来看:
-
根据店铺名称我们可以获取到服装品牌信息;
-
根据地理位置可以通过分割和填充的方法获取店铺所在的省份和城市;
-
对于产品名称,可以使用正则表达式匹配的方式提取到服装类别(大衣、羽绒服、牛仔裤等);
-
对于产品价格和付款人数,我们关注的是他们的数字,只需要把其他字符去掉就好。
当然,在进行这些操作之前,还需要对数据进行整体去重。通过pandas,上面这些需求都可以轻易实现。
基本分析
要想进行有效的选择,先要对基本情况有一个整体把握,经过上面的步骤,我们拿到了一份4000条左右的淘宝女装商品数据,下面我们就选几个主要指标看看他们的基本情况。
1.服装种类
说起来淘宝上的女装种类真的好多,长裙、短裙、风衣、夹克、卫衣、针织等等,如果再区分款式、材质真的是数不胜数,这里只好对它们进行粗略分类。
从图中可以看出:
-
打底衫由于季节跨度较长、搭配容易等原因,购买人数一骑绝尘;
-
卫衣、连衣裙、针织衫等紧随其后;
-
毛呢大衣、羽绒衣、毛衣、风衣等都是秋冬季节需求量比较大的服装;
-
至于其他的林林总总说也说不完...
感觉女人只要想打扮,就没有搭不上的衣服。
2.服装品牌
女装种类多、品牌也多,优衣库店大、类多、价格实惠,成为被广泛接受的服装品牌,好孩子、浪衫妮等品牌购买人数也很多(虽然我都没有听说过)。
有趣的是在淘宝上品牌的受欢迎程度和品牌价格像是两个绝缘体,其实这也可以理解,我们去淘宝购物除了样式多、挑选方便外,更主要的原因是它的价格便宜,有大几千或者上万预算买一件衣服的人,恐怕更倾向于去商场购物吧。
3.价格分布
既然提到了价格,就来看看淘宝女装的价格分布情况吧。
可以看到,女装的价格多集中于几十元至一千元之间,三四百元的区间商品尤其集中,另外199、299、399这类的定价受到大量店家的青睐,莫非让价1元真的能让买家产生不一样的心理感受么。
4.地理分布
最后再来看看店铺的地理位置分布,应该说我国的服装供应地还是比较集中的,浙江、广东、上海三省的店铺数量占据总量约80%。
其中浙江自清代以来就是服装生产大省,而上海、广东物流贸易及其发达,由此产生了大量的淘宝商家。
不管怎么说,这对东南沿海地区的小伙伴们也算是件好事,毕竟花同样的钱,能够早点收货也是好的。
选择攻略
经过对上面几项数据的基本分析,想必已经可以在一定程度上进行女装导购了吧,如果还不行那我们继续来看实例演示。
1.品牌选择
假如现在已经确定要购买某种服装(比如牛仔裤,她已经在购物车里加了一堆牛仔裤),筛选品牌是缩小选择范围、清减购物车的最好办法。
图中的两条线分别代表了各品牌购买人数和商品价格的平均线,如果建议对象是自己妻子、女朋友,那么为了能够帮她买到物美价廉(主要为了省钱)的衣服。
我们可以推荐一些受欢迎程度高、价格相对较低的品牌,也就是位于图中第二象限的品牌,比如特一、薇伦、好孩子、优衣库、没如卿等。
如果推荐对象不太在意价格,又不喜欢跟别人撞衫,那么可以推荐位于第四象限的品牌,比如雅莹、珂莱蒂尔、cos等。当然各品牌服装对应的年龄段也不尽同,还要根据情况灵活选择。
2.种类选择
如果还没想好需要买什么衣服,单纯是为买而买的话,个人建议还是先对服装种类进行筛选。与品牌选择的思路相同,通过两条平均线将所有衣服划分到四个象限,然后根据情况推荐服装种类。
本次分析结果仅供参考,毕竟女人购物思维男人很难完全理解,不过只要用心挑选,相信她能够感受到你的诚意的!
- DataCastle -