平台背景
Ozon是俄罗斯最早的电子商务公司之一,有时被称为“俄罗斯的亚马逊”。Ozon成立于1998年,最初是一家在线书店,到2019年已成为该国三大在线零售平台之一。它被《福布斯》评为2020年最有价值的俄罗斯互联网公司第三名。
采集介绍
近年来,美妆行业在全球迎来蓬勃发展,海外美妆市场体量在不断提升,不少国产美妆也在塑造自身品牌的同时寻求出海机遇。
以前科技并不怎么发达,不仅没有这么多形形色色的化妆品,也不知道哪些化妆品卖得好? 化妆品的价格分布是怎样的呢? 什么地方的化妆品销量最高呢? 简直有十万个为什么,希望别人给我们解答。
随着科技的飞速发展,互联网沟通了你我他。我们通过Ozon上美妆的销量,就可以解决我们想要知道的好多问题。基于此,我爬取了平台上3000多条美妆的销售数据,为大家展示了一幅漂亮的可视化大屏,解决大家心目中的问题。
数据采集
该平台采集有个5s盾反爬,我们不做逆向分析,抓不到数据的童鞋们可以通过Selenium自动化脚本抓取数据。
部分代码展示
with sync_playwright() as p:browser = p.chromium.launch(headless=False, proxy={'server': 'http://127.0.0.1:58889'})context = browser.new_context()cookies = []for p in range(1, 100):try:page = context.new_page()page.route(re.compile(r"(\.png)|(\.jpg)|(\.js)"), cancel_request)context.add_cookies(cookies)print(p)page.goto(f"https://www.ozon.ru/category/makiyazh-6501/?page={p}")web_html = page.content()selector = etree.HTML(web_html)data = selector.xpath('//div[@id="state-searchResultsV2-252189-default-1"]/@data-state')[0]data = json.loads(data)
元数据展示
采集数据量查看
df.shape
国外站点好多都没有按销量排序,该网站也不例外!
本次共采集了100页彩妆的热门推荐商品,采集商品数量为3211款;
数据清洗
数据清洗很重要,这个对于我们后续做可视化展示,极其重要。因此我们需要根据后面要做的图形,然后进行对应的进行数据清洗。
元数据整个数据看上去算是比较干净,但是还是有几个地方指的我们处理一下。
1、解析返回的元数据,抽出需要的字段;
2、处理价格乱码,替换卢比标志;
3、匹配店铺名称,抽取有用的字符串;
4、将打分人数为空的记录,替换成0人打分;
5、将标题一样的做去重;
数据清洗部分代码如下:
df = df.drop_duplicates('title') df['current_price'] = df['current_price'].apply(lambda x:int(x.replace('\u2009','').replace('₽',''))) df['original_price'] = df['original_price'].apply(lambda x:int(x.replace('\u2009','').replace('₽',''))) df = df.fillna(0)
现在来看看,清洗后的数据是啥样的?
本次采集是根据平台的受欢迎产品来排序采集的,采集结果重复的占比较高,去重后商品为2085款;
数据可视化展示
可视化是整个文章的亮点所在,所谓“字不如表、表不如图”。整个可视化大屏我们基于以下五个问题开展而来。
- 评价数量Top10的美妆柱形图;
- 评价数量Top10的店铺柱形图;
- 不同价格区间的美妆评价数圆环图;
- 美妆销售关键字的词云图;
1. 评价数量Top10的美妆柱形图;
from cutecharts.charts import Bar from cutecharts.components import Pagedef bar_base() -> Bar:chart = Bar("评价数量Top10的商品柱形图",width="1000px",height="800px")chart.set_options(labels=labels, x_label="商品名", y_label="评价人数")chart.add_series("series-A", value)return chartbar_base().render_notebook()
结论:
销量Top10的美妆,其实对于我们做产品还是挺有指导意义的。从图中可以看到这个VivienneSabo,在国外卖的还是极其好的,销量排名前10的产品中,VivienneSabo品牌的产品占据了7个位置。还有一个名字特别熟悉:妮维雅,只知道他家的洗面奶做的好,原来唇膏做的也不错,所以说品牌效应还是很好的。国产美妆也在塑造自身品牌的同时寻求出海机遇!
2. 评价数量Top10的店铺柱形图;
毋庸置疑,ozon自营的产品遥遥领先。可能是因为ozon起初以自营为主,是近几年采开始转向跨境电商和第三方平台的原因。
3. 不同价格区间的美妆圆环图
from cutecharts.charts import Pie from cutecharts.components import Page bins=[0,200,300,500,1000,2000,10000000] # 按分段离散化数据 segments=pd.cut(df['current_price'],bins,right=False) # 统计各分段人数 counts=pd.value_counts(segments,sort=False) label = ["200卢币以下","200-300卢币","300-500卢币","500-1000卢币","1000-2000卢币","2000卢币以上" ]def pie_base() -> Pie:chart = Pie("不同价格区间的美妆圆环图")chart.set_options(labels=label)chart.add_series(list(counts.to_dict().values()))return chartpie_base().render_notebook()
当然,价格才是大家关注的焦点。观察上面的圆环图可以发现,大多数产品的价格都是处在中间的、能被大家接受的范围(200-500卢币),毕竟日常化妆护肤的一些产品,适中的价格才能被大家接受,薄利多销才是王道。
从词云图中可以简单的看出,睫毛、眉毛、化妆笔、眼线笔相关的产品在ozon平台上比较受欢迎。
EVELINE、Vivienne、LUXVISAGE等品牌名称出现在标题中占比较重,商品、卖家也比较多。
不同评价分数的产品圆环图
百分之九十以上的商品评分都在4.5以上,极少数商品在1-3分之间,看来各位商家对客户维护的都不错!
产品评分不止是个评分,它能给与客户那份安全感和信任在平台直接购买。
如果你也想开店或者做产品,一定要从差评中找到客户抱怨的点从而优化产品,提升服务,做大做强!
总结
产品分析的用处有很多:
- 可以通过分析竞品对象,优化自己的产品或者给新产品提供思路;(产品设计)
- 采集自己店铺的评价,放大好评中的卖点,优化差评中的缺点;(店铺运营)
- 做行业监控,为投资决策做参考;
- 分析跨境产品的产地国、发货地;
- 等等很多…
由于时间精力有限,很多分析都没有做完:
没有抓取评论分析该行业的差评吐槽点
没有分析那个产地的商品卖的好,为什么好
…
<!DOCTYPE html> <html lang="en"> <head><meta charset="UTF-8"><title>私人订制</title> </head> <body><div>V:</div><div>17610352720</div></body> </html>
乐发网超市批发网提供超市货源信息,超市采购进货渠道。超市进货网提供成都食品批发,日用百货批发信息、微信淘宝网店超市采购信息和超市加盟信息.打造国内超市采购商与批发市场供应厂商搭建网上批发市场平台,是全国批发市场行业中电子商务权威性网站。
本文来源: ozon美妆类目怎么样