第一部分、梳理数据分析步骤及实操工具学习
数据分析的5个关键步骤:
明确问题→理解数据→数据清洗→数据分析或者构建模型→数据可视化
1、明确问题
2、理解数据
3、数据清洗
数据重复-删除重复项
数据抽取-left/right/mid
数据计算-average/sum/max/min/date/if/or/countif
清洗步骤
选择子集→列名重命名→删除重复值→缺失值处理→一致化处理→数据排序→异常值处理
函数3个功能:功能、输入、输出
比如:平均值average
截取字符串函数:
①left-字符串所在单元格位置,从左开始到XX位置进行截取
②right-字符串所在单元格位置,从右开始到XX位置进行截图
③mid-字符串所在单元格位置,开始位置,截取长度
④find(要查找的字符串,字符串所在的单元格位置)
薪水 (7k-9k)
位置 | 1 | 2 | 3 | 4 | 5 |
---|---|---|---|---|---|
字符串 | 7 | k | - | 9 | k |
最低薪水=left(A2.2)
最高薪水=mid(A2.起始位置,截取长度)
起始位置=find(“-”,A2)+1
截取长度
①find(“-”,A2)
②len(A2)-find(“-”,A2)
③len(A2)-find(“-”,A2)-1
最高薪水=mid(A2.find("-",A2)+1.len(A2)-find("-",A2)-1)
异常值处理常用工具excel透视表
数据透视表的原理:数据分组(split)→应用函数(apply)→组合结果
对数据进行分类,如大学专业的分组
每组函数进行计算
对几组数据进行组合
异常值处理
①find({“数据运营”,”数据分析“,“分析师”},L2)
②count(find({“数据运营”,”数据分析“,“分析师”},L2))
③IF(COUNT(FIND({"数据运营","数据分析","分析师"},L3)),"是","否")
4、数据分析或者构建模型(解决某一类问题的办法都可以叫模型)
分组汇总-数据透视表
描述统计分析-分析工具库
多表关联查询-vlookup
vlookup(找什么,在哪找,第几列,是准确找还是近似找)
三种引用方式及快捷操作
绝对引用、$A$1-按一次F4
混合引用、A$1-按二次F4、$A1-按三次F4
相对引用、A1+A2.按四次F4
第二部分、淘宝天猫数据数据分析
1、明确问题
本次数据分析主要关注以下几个问题:
①用户群的分布情况?
②用户对于商品的使用习惯是什么样?
③用户对于商品购买习惯是什么样?
2、理解数据
从购买商品的数据表里可知主要包含以下信息:谁买的-用户ID、什么样的商品-商品编号/商品二级分类/商品一级分类/商品属性、购买的数量与时间。
从婴儿信息的数据表里可知主要包含以下信息:用户ID、出生日期、性别
3、数据清洗
选择子集→列名重命名→删除重复值→缺失值处理→一致化处理→数据排序→异常值处理
第一步:对表1和表2数据进行初步关联,表1共2万于条数据,表2共952条数据;
第二步:将表2中数据通过vlookup关联至表1中;
第三步:根据用户ID将重复项进行删除;
第四步:针对缺失值、异常值进行补充,做一致化与排序处理;
4、数据分析或者构建模型
第一步:借助数据透视表进行多维度分析
根据以上分析可知:2万余名用户中使用该商品的群体主要以2013年出生的女生居多。
第二步:2万余名的用户中使用商品最多的是“12310741985”号商品,一类商品中“50008168”用户使用最多,二类商品中“50013636”用户使用最多
第三步:用户在14年第四季度的购买力是最大的,其中主要是双十一期间的购买量很多
以上是对本次数据的初步,烦请指正!灰常感谢!
乐发网超市批发网提供超市货源信息,超市采购进货渠道。超市进货网提供成都食品批发,日用百货批发信息、微信淘宝网店超市采购信息和超市加盟信息.打造国内超市采购商与批发市场供应厂商搭建网上批发市场平台,是全国批发市场行业中电子商务权威性网站。
本文来源: 淘宝天猫相关数据分析