一、分析背景和目的
在一段时间内找到主流电子商务平台母婴行业的销售数据,挖掘可以通过数据分析改进的地方,为商家的运营和利润提供数据支持意见。
理解数据
1.数据源:
知乎 - 安全中心天池数据集中的描述是
Ali_Mum_Baby is a dataset that contains more than 9 million children’s info (birthday and gender) provided by consumers who share the infor ** tion in order to receive better recommendations or search results.【这个数据集是由消费者提供的他们孩子的信息,为了获得更好的推荐和搜索结果】Tianchi_mum_baby:It contains more than 9,000,000 children’s birthday and gender provided by consumers in Taobao or T ** ll.【这个excel淘宝和天猫消费者提供的儿童生日和性别信息Tianchi_mum_baby_trade_history:The table contains historical trade info of Taobao members.【这个excel包括淘宝用户历史交易信息两份Excel字段:
婴儿信息表字段交易信息表字段2.了解数据的行业背景
母婴产业贯穿整个孕产周期和婴幼儿成长周期,可根据消费群体进一步分为孕妇产品、孕妇服务、婴幼儿用品、婴幼儿服务等。
分为:
在线渠道:电子商务 社区/工具是互联网母婴市场的两大分类
线下渠道:线下连锁店为主要阵地
根据数据来源,本文主要讨论在线渠道的电子商务母婴产品市场
2018年母婴消费市场研究报告三、提出问题
分析思路这是整体分析思路。首先,将目标分为两个维度:产品和用户。利润问题在这里用逻辑树分析:利润=销售总额-成本-成本=销售量*价格。然后使用假设检查,AARRR,RFM,对比分析等方法进行分解细化。由于数据和客观条件的限制,无法对客户服务、线下数据、用户划分、历史价格和银行间价格、成本等进行数据分析,首先提出了现有数据可以解决的具体问题:
1.分析销售趋势,给出商家选择和库存安排的建议
2.分析用户性别、年龄和销售关系,提出准确的营销建议
四、数据清洗
1.设计分析表,统一格式名称
1)商品销量及类型分析表【
分析表采用商品信息表中以上五个字段,其他隐藏。
2)商品与用户分析表(与婴儿出生和性别有关)
使用VLOOKUP函数将婴儿信息表中的婴儿生日和性别两个字段分别关联到购买商品信息表中。使用上述7个字段,其他隐藏。
2.重复值处理
在这里,选择所有内容区域,重新列出所有内容。当两行内容完全相同时,表示重复记录。最后,删除一个重复值。
3.缺失值处理
这里没有缺失值
4.一致处理
1)将【购买时间】和【婴儿生日分成日期格式datedif计算年龄,将NUM用未出生代替。
2)性别列,用男生代替1,用女生代替0
5.处理异常值
1)将婴儿信息搜索插入商品信息表,会发现大量无法匹配的信息N/A报错,去掉这部分,只留下匹配。
2)筛选性别,26行数据为2(性别不明),视为异常值去除。
3)剔除10岁以上的数据
清洗后剩余926行有效数据五、分析过程
问题1。分析销售趋势,同比给出商家选择建议和库存安排建议从上图可以看出,销量从第一季度到第四季度呈上升趋势,在第四季度达到高峰,明年第一季度大幅下降,开始新一轮的上升周期。在现有数据中,2012年和2015年的数据并不完整,2013年和2014年的年销售额也呈上升趋势。但2015年第一季度销量较前一年有所下降,2014年第四季度销量快速增长,值得注意。
看完这个趋势,又出现了两个问题:
1)为什么整体销售变化分布如此规律?
每年的销量都有明显的时间周期分布。双十一促销可以解释当天、附近几天甚至当月,但如何解释近半年的上涨?事实上,有些婴儿用品出生后不会购买。父母几个月前就兴奋地准备好了,也就是说,购买母婴用品的时间是一定程度的先驱。因此,在检查了中国人口出生时间特征的相关信息后,我们找到了一些可以作为解释的证据:这过去两年的趋势特征。从人口普查报告和中国人口统计年鉴来看,有证据表明每个时代都有人口聚在一起出生。一般来说,高峰期是11月。美国也有这种情况,但时间不同。具体原因如下:
①气候和温度对受孕的影响
②人口流动和习俗的影响
详见本文:http://k.sina.com.cn/article_2860998382_aa875eee01900e6em.html?from=baby
2)销量每年三四季度上升,是大部分品类上升还是少数品类上升?
将root category字段总结统计显示,累计热销排名前三(类别28、50014815、50008168)的比例接近总销量的90%。其中,28远远领先于其他产品,第二和第三的销量相对接近热销top进一步分析商品:
平时50014815的销量低于28和50008168,但2014年11月销量大幅上升,需要找出原因
28在每个季度都会有一个小的高峰,这意味着与其他商品相比,一年的需求相对较高和稳定,是一个刚性类别(奶粉或尿布等),回购率可能更高,明星 现金牛产品。
品类50008168整体销量稳定,但用户173701616,2014年9月购买2748,销量大幅增长。
228834467用户下了一个大订单,购买量为1万元,大大提高了商品销量。
热销top3.商品遵循季度上涨的一般规律,销量相对较高稳定,属于库存必需品。然而,50014815和50008168在9月和11月有一个大订单,客户服务有必要找到这两个用户进行研究,是个人还是批发?购买原因?是否可以 ** 制造第二次机会提升销量?能否向其他用户推广?能否与其他商品合作,增加相关产品的销量?能否推出会员增加如此高价值的用户粘性?……
此外,在29970次购买中,有24名用户回购,占比较小,回购商品主要分为28和50008168两类。
问题2。分析用户性别、年龄和销售关系,给出准确的营销建议①婴儿出生前几个月到两岁是父母购物量最大的时候
②商品28、38、50008168、50014815年销量较小,随着年龄的增长而减少,但这不是发现,毕竟,这是母婴产品,年龄增长肯定会下降。
性别与销售的关系③从年龄、性别和购买时间的角度来看,女孩的父母在已知数据集中的大部分时间内都比男孩的父母购买更多。由于购买总量也减少,差距随着年龄的增长而缩小。
④只有50022520件商品,男生的购买量少于女生。类似的产品可以推荐给男生的父母。
但由于填写婴儿信息的用户总数仍然很少,只有3%,这种分析和事实可能会有很大的不同。
六、分析结论和建议
1.母婴产品销量在1-4季度呈上升趋势。除了购物节和促销原因外,最重要的是中国人口出生特征的基本规律。因此,这也是销售变化的基本逻辑。有必要在6月和7月提前增加热销产品的库存。
2.对于热销商品,28类促销的作用不会太强,但有些人还是会囤积一些。随时要有足够的库存,第四季度可以提高到平时的1.5-2倍。5000816868和50014815是一样的,但有必要对用户228834467和用户173701616进行用户研究,这可能有助于企业完善客户运营,改进营销策略。
3.分析热销和一般销售商品是否有组合销售的可能性,并在促销过程中进行体验式活动,如涨价和购买,以促进整体销售。
4。数据中婴儿信息远不足,清洗后填写婴儿信息的用户相对于总量还是很少,仅有3%。可以从客服或者填单购买的地方加入用户可以填写信息的途径,一遍搜集数据进行更准确分析和营销信息投放。