1.分析背景
淘宝、京东、亚马逊等主流电商平台逐渐成为了我们日常生活中经常接触的平台,而用户的购买行为的数据则成为了分析用户习惯、特征的最可靠的数据来源。本文主要通过Mysql对庞杂的用户数据进行分析,探讨用户行为体现出的购买趋势,并通过AARRR漏斗模型等方法对数据进行研究,结合excel进行可视化分析,为商家提供有理论、数据支撑的运营建议和策略参考。
2.研究问题
本文将对以下研究问题进行分析探讨:
商品方面:
哪些商品销量最好?分析热销商品的类别和具体的商品ID。
这些商品的购买数据有何特征?哪些商品的转化率较高、哪些较低?
用户方面:
各阶段用户的转化率如何?是什么原因导致了各阶段的转化率较高/较低?
核心付费用户占比多少?核心付费用户更喜爱购买哪些商品?
用户的购买时间有什么规律?从每天、每周的角度考虑是否存在显著的规律?
本文中涉及、使用的指标体系如下图所示:
3. 数据介绍
3.1.数据来源
本文中使用的淘宝用户数据来源于天池,包含2017年11月25日至2017年12月3日之间,有行为的约一百万随机用户的所有行为(行为包括点击、购买、加购、喜欢)。
User Behavior Data from Taobao for Recommendation-数据集-阿里云天池tianchi.aliyun.com/dataset/dataDetail?dataId=649&userId=1
3.2.数据介绍
在本文中,我们选取了前10万条数据,详细的字段信息,数据大小如下表所示:
其中,用户的行为类型共4种,分别为:pv(浏览商品详情页)、buy(购买商品)、cart(将商品放入购物车)、fav(收藏商品)
3.3 数据处理
3.3.1 日期数据处理
首先我们需要将epoch格式的时间戳数据分开处理为“日期”和“时间”两列,使用的sql语句如下所示:
#在userbehavior表增加date和time两列字段:
alter table userbehavior add date char(10) not null;
alter table userbehavior add time char(10) not null;
#将date和time设置来源为时间戳数据并给定数据格式:
update userbehavior set date=from_unixtime(timestamps,'%y-%m-%d');
update userbehavior set time=from_unixtime(timestamps,'%H:%i:%s');
结果如图所示:
3.3.2 缺失值、异常值处理
(1)首先我们检查是否有不在给定日期范围的数据:
SELECt
*
FROM
userbehavior
WHERe
date < '17-11-25' OR date > '17-12-03';
结果显示共有44条记录符合给定的sql查询语句,之后我们将这些记录删除。
如上图所示,成功删去了不在给定时间范围的异常值;
(2)使用如下语句,通过更改列名排查是否存在含有空值的列:
SELECt
*
FROM
userbehavior
WHERe
user_id = NULL;
结果显示剩余的记录中不存在含有空值的列;
(3)由于原始数据中包含用户的所有相关行为,所以同一用户id下可能包含有多条信息,因此这里我们不对重复值进行处理。
4.AARRR模型指标分析
每日活跃点击量PV
首先我们通过如下sql语句对每日活跃点击量进行统计
SELECt
date,
count(*) AS PV
FROM
userbehavior
WHERe
behavior = 'PV'
GROUP BY
date
ORDER BY
date ASC;
结果导入excel并绘成柱状图后如下所示
从中我们可以发现12月2日、3日的浏览量较高,结合下图日期对应的星期数我们预测这两日的较高数值是因为正值周末,主要购买群体上班族、学生都有足够的时间浏览、购买。之后我们会结合每日访客量UV和平均访问量一同分析。
每日访客量UV
我们使用如下语句对每日有记录的用户id进行统计:
SELECt
date,
count( DISTINCT user_id ) AS UV
FROM
userbehavior
GROUP BY
date
ORDER BY
date ASC;
结果导入excel并绘成柱状图后如下所示:
平均访问量PV/UV
通过计算每日的PV/UV的值,我们得到了如下平均访问量的折线图:
对应到UV,平均访问量中我们可以发现2017年12月2日、3日的各项指标同样较为突出,我们首先怀疑这是由于周末节假日用户的浏览、购买意愿较强,但是同样是周末的11月25日、26日相较于其他日期并不突出,受限于数据的有效时间范围,我们没有更多的日期数据以供分析,但是通过查询对应日期的信息,我们发现,2017年12月1日-6日正值淘宝“服饰焕新”活动,再次观察数据,我们发现不管是UV,PV,还是平均访问量,我们都可以看到12月1日之后各项指标的增长,因此,尽管周末假期可能是导致指标增长的原因,我们更倾向于是节日活动导致了数据的增长。
每小时点击量
为分析不同时间段点击量是否存在差异,我们将24小时的点击量通过如下语句分别汇总:
SELECt
sum( CASE WHEN time BETWEEN '00:00:00' AND '00:59:59' THEN 1 ELSE 0 END ) AS '00',
sum( CASE WHEN time BETWEEN '01:00:00' AND '01:59:59' THEN 1 ELSE 0 END ) AS '01',
sum( CASE WHEN time BETWEEN '02:00:00' AND '02:59:59' THEN 1 ELSE 0 END ) AS '02',
sum( CASE WHEN time BETWEEN '03:00:00' AND '03:59:59' THEN 1 ELSE 0 END ) AS '03',
sum( CASE WHEN time BETWEEN '04:00:00' AND '04:59:59' THEN 1 ELSE 0 END ) AS '04',
sum( CASE WHEN time BETWEEN '05:00:00' AND '05:59:59' THEN 1 ELSE 0 END ) AS '05',
sum( CASE WHEN time BETWEEN '06:00:00' AND '06:59:59' THEN 1 ELSE 0 END ) AS '06',
sum( CASE WHEN time BETWEEN '07:00:00' AND '07:59:59' THEN 1 ELSE 0 END ) AS '07',
sum( CASE WHEN time BETWEEN '08:00:00' AND '08:59:59' THEN 1 ELSE 0 END ) AS '08',
sum( CASE WHEN time BETWEEN '09:00:00' AND '09:59:59' THEN 1 ELSE 0 END ) AS '09',
sum( CASE WHEN time BETWEEN '10:00:00' AND '10:59:59' THEN 1 ELSE 0 END ) AS '10',
sum( CASE WHEN time BETWEEN '11:00:00' AND '11:59:59' THEN 1 ELSE 0 END ) AS '11',
sum( CASE WHEN time BETWEEN '12:00:00' AND '12:59:59' THEN 1 ELSE 0 END ) AS '12',
sum( CASE WHEN time BETWEEN '13:00:00' AND '13:59:59' THEN 1 ELSE 0 END ) AS '13',
sum( CASE WHEN time BETWEEN '14:00:00' AND '14:59:59' THEN 1 ELSE 0 END ) AS '14',
sum( CASE WHEN time BETWEEN '15:00:00' AND '15:59:59' THEN 1 ELSE 0 END ) AS '15',
sum( CASE WHEN time BETWEEN '16:00:00' AND '16:59:59' THEN 1 ELSE 0 END ) AS '16',
sum( CASE WHEN time BETWEEN '17:00:00' AND '17:59:59' THEN 1 ELSE 0 END ) AS '17',
sum( CASE WHEN time BETWEEN '18:00:00' AND '18:59:59' THEN 1 ELSE 0 END ) AS '18',
sum( CASE WHEN time BETWEEN '19:00:00' AND '19:59:59' THEN 1 ELSE 0 END ) AS '19',
sum( CASE WHEN time BETWEEN '20:00:00' AND '20:59:59' THEN 1 ELSE 0 END ) AS '20',
sum( CASE WHEN time BETWEEN '21:00:00' AND '21:59:59' THEN 1 ELSE 0 END ) AS '21',
sum( CASE WHEN time BETWEEN '22:00:00' AND '22:59:59' THEN 1 ELSE 0 END ) AS '22',
sum( CASE WHEN time BETWEEN '23:00:00' AND '23:59:59' THEN 1 ELSE 0 END ) AS '23'
FROM
userbehavior
WHERe
behavior = 'PV';
将结果导出并整理后我们得到了如下所示的折线图:
在对分时点击量进行分析时,我们可以看到每日3点为最低值,21点左右为最高值。这与通常人作息习惯大致相同,21点左右夜间消费者的浏览欲望最强,而在3点左右,基本的用户群体,不论是学生、上班族还是中老年人基本在这个时间段已经开始休息。因此我们继续了解了淘宝的推荐机制,常见的推广方式包括直通车、钻展、交换友情链接、宝贝类目优化、社交平台推广、自然搜索排名等,绝大部分都可以设置开始推送的时间,并且针对包含一定共同特征的群体进行定向推广,因此参考上文的结论,我们可以提出如下建议,在上架、下架时间上应考虑到浏览集中密集的时段,在设定目标群体时,若主要客户群体为上班族,应考虑在周末,以及工作日晚九点左右进行推广。
漏斗模型
首先,使用如下sql语句对4种不同的用户行为进行计数统计:
SELECt
behavior,
count(*)
FROM
userbehavior
GROUP BY
behavior
ORDER BY
count(*) DESC;
将结果转化为漏斗图并计算相应占比后得到如下图表:
其中,图片左侧为对应的用户行为,模型中白色数字为具体行为数,白色数字左侧占比为该类行为占所有行为总数的比重,右侧占比为该列行为占上列行为的比重,即我们通常说的转化率,从图中我们可以看出,购买行为占整体比重约为2.1%,占浏览行为的比重约为2.34%,根据调查,排除行业因素对转化率的影响,大型电商平台的转化率一般都在1%-3%左右,但是考虑到电商平台相较于实体店铺的特殊性,即用户很难在购买前实际体验商品,并且电商平台为用户提供了更多的商品选择,这一结果大致是合理的,因此我们认为针对数据中2%左右的转化率,商家应该关注于自身店铺的各项方面以提高对顾客的吸引力,比如商家应注意自身店铺的包装、宣传、关于免运费的设定、店铺宣传图、商品详情页的构建等方面。
独立用户行为统计
注意到上文我们并没有统计独立用户个数,而是统计了所有用户行为,某一用户可能既浏览,又继续收藏、喜爱,最后购买。因此我们继续研究相应的独立用户行为统计,sql查询语句如下所示:
SELECt
behavior,
count( DISTINCT user_id )
FROM
userbehavior
GROUP BY
behavior
ORDER BY
count( DISTINCT user_id ) DESC;
将得到的结果导出并处理后,我们得到了如下图表:
从独立用户数目统计来看,有购买行为的用户占总用户数的占比约为24.51%,占浏览用户数的占比约为68.47%,这证明了绝大部分用户(大于50%)都有或多或少的购买行为,这说明用户并非只在淘宝平台浏览而并不购买,因此我们认为,平台若要提升转化率,应进一步完善商品搜索机制和商品排序,提升用户的搜索体验,提供更智能的匹配结果。
跳失率
在独立用户行为统计的基础上,我们需进一步通过如下语句统计只有浏览的用户数:
SELECt
count( DISTINCT user_id )
FROM
userbehavior
WHERe
user_id NOT IN ( SELECt DISTINCT user_id FROM userbehavior WHERe behavior = 'fav' )
AND user_id NOT IN ( SELECt DISTINCT user_id FROM userbehavior WHERe behavior = 'cart' )
AND user_id NOT IN ( SELECt DISTINCT user_id FROM userbehavior WHERe behavior = 'buy' );
结果证明共有69个用户仅有浏览行为,考虑到用户总数为983.我们可以计算出对应的跳失率=只有浏览行为的用户数/用户总数 = 7.02%,之后我们进一步统计了复购率,有购买行为的用户数为671.有多次购买的用户数为442.复购率为65.87%,百分之六十五的用户存在复购行为,可见转化率低并不是用户黏性降低导致的。
热销商品类别和商品ID分析
a.热销商品类别、用户群体分析:
首先我们进一步通过如下语句对商品销售数量进行了研究:
SELECt
category_id,
count(category_id)
FROM
userbehavior
GROUP BY
category_id
ORDER BY
count(category_id) DESC;
在将结果导出并整理后我们得到了如下所示的商品销售数量前十的商品类别id以及对应的销量:
第二,我们使用了如下语句对用户的购买数量同样进行了统计排序,相应的语句,图标如下所示:
SELECt
user_id,
count(user_id)
FROM
userbehavior
WHERe
behavior = 'buy'
GROUP BY
user_id
ORDER BY
count(user_id) DESC
第三,我们还可以分析购买次数较多的用户主要购买哪类商品:
SELECt
category_id,
count( category_id )
FROM
userbehavior
WHERe
behavior = 'buy'
AND user_id IN ( '1003983', '1003901', '100101', '1000488', '1000723', '1002031', '1001305', '1001866', '100134', '100116' )
GROUP BY
category_id
ORDER BY
count( category_id ) DESC;
总结:我们需要额外重视ID为3002561的商品类别,虽然该类商品在总计商品销量排名中位于第十位,但是该类商品却是销量较多用户购买数量最多的商品,可见该类商品的用户黏性较强,复购率较高。我们还应注意4145813、2355072这两类商品,也为在“商品销量排名前十”和“较多购买用户购买的商品前十”两表中重复出现的商品类别。除此以外,如果有关于用户的具体信息,还可以进一步对用户群体进行画像,为下一步精准推送提供帮助,该处更多用户信息有待补充。
b. 热销商品分析
首先我们使用如下语句对各种商品的浏览次数进行统计:
SELECt
item_id,
count( item_id )
FROM
userbehavior
WHERe
behavior = 'PV'
GROUP BY
item_id
ORDER BY
count( item_id ) DESC;
将得到的结果导出到EXCEL并绘制成图标后我们得到下图:
之后我们使用如下语句对购买量前十的商品ID同样进行统计并绘图:
SELECt
item_id,
count( item_id )
FROM
userbehavior
WHERe
behavior = 'buy'
GROUP BY
item_id
ORDER BY
count( item_id ) DESC;
通过比较上述语句得到的图表,我们可以看出浏览量较高的商品并没有出现在购买数量前十商品中,因此我们需要进一步分析是什么原因导致了这些商品浏览量高但是购买量并不出色,以及购买数量较高的商品,其转化率较高的原因,这里我们推测浏览量较多的商品应该商品详情页,商品缩略图较为精致,但是可能价格偏高,售后,商品质量存在问题,这些推断有待更多详细的数据以进一步分析。
5. 结论
a.用户方面:从浏览到收藏、喜爱的转化率为9.13%,从浏览到购买的转化率为2.34%,但是主要浏览、购买的时间大多为工作日的睡觉前和周末,因此我们认为商家应关注商品介绍页面的完善,多参与淘宝的各项活动、多渠道增加自身产品推广,并且最好将推广时间设定为用户浏览最多的时段,以提高自身产品的吸引力,增强用户的购买欲望。绝大部分用户都有复购行为,但是用户行为以浏览为主,转化率并不高,因此除商家外,我们认为对于平台也应进一步完善竞价排名和商品推荐机制。
b.商品方面,我们注意到核心用户群体(用户ID分别为 '1003983', '1003901', '100101', '1000488', '1000723', '1002031', '1001305', '1001866', '100134', '100116' )喜爱的3002561、4145813和2355072这三类商品也同时出现在商品销售量前十的图表中,因此我们认为接下来的研究可以进一步这三类商品进行分析,探讨其购买率高的原因。而对于具体的商品,1910706、4395247、667682、855191也是值得研究的对象。
6.建议
建议卖家注重以下几个方面:商品缩略图、商品详情页、商品评价的维护、商品质量的保证、退换商品的及时处理,从而增强产品自身的吸引力,提高用户从浏览到购买的转化率。
建议商家在购买推广时最好选择每日的晚间和每周周末进行,这些时段是用户浏览的高峰期,我们认为可以有助于提升购买率;
平台也应关注于用户群体的意见和看法,积极完善平台的搜索、推荐机制,避免用户花费大量时间浏览;
商家应注意3002561、4145813和2355072这三类商品以及1910706、4395247、667682、855191这四种具体商品的推广方法和运营细则,以降低跳失率。
商家应注意参加平台组织的各种促销活动,数据证明了这些活动的强大引流能力。
通过后续对用户资料的研究,商家还应关注于 '1003983', '1003901', '100101', '1000488', '1000723', '1002031', '1001305', '1001866', '100134', '100116' 这十位用户ID的共同特征,为核心群体画像提供参考。
乐发网超市批发网提供超市货源信息,超市采购进货渠道。超市进货网提供成都食品批发,日用百货批发信息、微信淘宝网店超市采购信息和超市加盟信息.打造国内超市采购商与批发市场供应厂商搭建网上批发市场平台,是全国批发市场行业中电子商务权威性网站。
本文来源: 淘宝用户数据分析报告