本
文
摘
要
我们在做一个项目分析时,可以通过以下三个步骤来实现,
第1步,数据背景和理解数据
第2步,提出问题
第3步,使用excel工具来实现分析
数据源:阿里巴巴天池
数据集-阿里云天池tianchi.aliyun.com/dataset/dataDetail?dataId=45一、数据背景和理解数据
数据来自淘宝和天猫上购买婴儿用户,本数据集包括2个excel文件
(1)表1购买商品(sample)sam_tianchi_mum_baby_trade_history.csv)
用户ID:user_id
商品编号(item_id):auction_id
商品二级分类:cat_id,商品种类ID,表示商品属于哪个类别)
商品一级分类:cat1,商品种类ID,表示商品属于哪个类别)
(商品的一级分类和二级分类,比如上衣和衣服,汽车和玩具汽车这样的关系。虽然都是数字串id,但是根据这层关系,就可以用数据透视表来展示逻辑关系。比如商品大类下面,哪个分类更畅销)
商品属性:property(属性值可以是大小,可以是尺码、毫升等数字,还可以指品牌等,一切可以描述商品特征的都可以称为属性值)
购买数量:buy_mount
购买时间:day(可以通过excel将时间戳显示未日期格式)
(2)表2婴儿信息((sample)sam_tianchi_mum_baby.csv)
用户ID:user_id
出生日期:birthday
性别:gender(0女性;1男性;2未知的性别)
二、提出问题
1.全年总销量波动情况如何?
2.销量增长较高或下滑较大的原因?
3.销售旺季在哪些月份?
4.不同年龄段的购买情况分析
5.不同年龄段的男女比例购买情况分析
6.各大类产品不同年龄段受欢迎程度
三、使用excel工具来实现分析
1.清洗数据
(1)选择所需字段列
(2)列名重命名
(3)删除重复值
(4)缺失值处理
(5)一致化处理
(6)数据排序
(7)异常值处理
表1购买商品(sample)sam_tianchi_mum_baby_trade_history.csv),总共数据29971条,为了保障后续数据分析中异常值带来的影响,首先对异常值进行相关处理。
通过四分位数,可以得出单次购买数量超过1的都将作为异常值来处理,但这显然与实际情况不符,因为单次购买情况存在大于1的数量,于是通过将单次购买数次和购买人次统计,计算购买人次累计总占比得到
通过上表,我们的取值范围,保留了购买人次累计总占比小于等于99.0%的部分,即单次购买数量为1,2,3,4,5,6,8,10,12,20,这样既保留了购买人次累计总占比99%的部分,剔除了剩余1%的部分,排除了单次购买数量巨大值对分析结果的影响
(2)表2婴儿信息((sample)sam_tianchi_mum_baby.csv),总共数据954条,为了保障后续数据分析中异常值带来的影响,首先对异常值进行相关处理。
通过四分位数,通过Tukeys test估算异常值方法,取k=1.5得到,取值范围0-8岁之间
通过年龄人数总占比,取占比小于等于99.1%,排除剩余1%的部分,与估算异常值结果相吻合,取值范围0-8岁之间,排除其他异常值影响
(一)产品角度
总体销量情况
图1:所有商品随时间变化的销量情况
图2:所有产品每年按月的销量分布情况
从图1和图2可以看出,每年销量的高峰出现在11月份,5月也是上半年的销量高峰,2月份时全年中销售最低的,通过整体销量图和按年销量分布图,可以得出每年销售情况与总体基本保持一致趋势
众所周知,双十一已经成为人们心中一个重要的购物节日,因此在每年11月份时,销量有所增长也是与实际情况相符的,接下来我们来分析一下2月下滑原因和5月增长的原因
先使用多维度拆解分析,对总销量这个指标拆解,总销量=人均购买量*人数,这里有两个变量,人均购买量和人数
图3:所有产品每年按月下单人数分布情况
图4:所有产品每年按月人均购买量分布情况
2月数据下滑,总销量(下滑)=人均购买量(上升)*人数(下滑),很有意思的是,总销量下滑了,人数也跟着下滑,人均购买量反而上升,这是为什么呢?
再用假设检验分析方法,来逐个验证哪个指标影响了总销量
先假人均购买量造成了销售量的波动,即2月销量下降很多,通过图4我们可以看出,人均购买量上升,然而却出现相反的结果,销售量却下降了,同样情况11月销量上升,人均购买量却下降,所以总销量的波动原因并不是用户人均购买量波动造成的
然后我们在假设总销量波动是购买人数引起的,可以通过图3我们看出,2月购买人数下滑,销售量也跟着下滑,11月购买人数上升,销量也跟着提升,同样5月购买人数上升,5月销量也跟着上升,因此总销量波动原因是由于购买用户数引起的
图5::2013年-2015年1月、2月每日销量情况
图5可以看出,根据时间判断,这段时间是临近春节或春节期间,很显然,受物流快递和春节影响,购物的人数急剧下降,因此购物量也随之受到影响,这也可以解释前面提到有意思的地方,为什么购买人数下降,销量下降,人均购买量反而提升的原因,购买年货回家过年
图6:2013-2014年5月每日销量情况
5月购物小高峰,可以看到5月有多个小高峰,其中有母亲节、护士节促销活动,520节日促销,儿童节前促销活动,这些都是影响5月购物小高峰的因素
图7:2012年-2014年11月每日销量情况
由图7可以看出,双十一是一个购物狂欢的节日,很明显每年都在逐年增长,单日激增异常凸显,购买力也逐年增大的原因
(二)用户角度
图8:不同年龄段的购买情况分析
从图上可以看出,购买产品主要集中在0-1岁的乳儿期,可以针对这部分用户做一些优惠活动,加强她们的购买力,对1-2岁的婴儿期和3-7岁的学龄前期也需重点关注,通过一些政策和活动,提升这部分用户的购买力,随着年龄的增长,购买力随之而下降,可以看出婴幼儿产品占有很大的比重,因此针对这部分人群,活动力度要加强
图9:不同年龄段的男女比例购买情况分析
通过上图可以看出,每个时期,女孩产品受欢迎程度高于男孩,随着年岁的增长,产品销量也随之下降,需要把重点放在0-3岁的婴幼儿阶段,吸引更多的关注,提升购买力
图10:各大类产品不同年龄段受欢迎程度
从图上可以得出,50008168产品更偏向于男孩,在学龄前男孩是其主要购买人群,50014815产品更受女孩喜欢,尤其是0-1岁的女婴是其主要受众人群
总结:
1.2月销量下滑原因是购买人数减少并且恰逢过年期间购买力降低,受物流因素导致
2.5月销售小高峰,是由于5月中节日众多,母亲节,护士节,520活动,儿童节前期促销活动,带动销量的增加
3.11月销量增加原因,购买人数增加,加之双十一购物节带动销售激增
4.婴幼儿主要购买人群集中在0-3岁,需要把更多的关注放在这里,加大她们活动的投放力度,其中女孩的购买程度高于男孩,这也是需要对相关男孩产品进行优化,提升男孩受众的购买力