推广 热搜： 公司快速上海中国未来金企业政策教师系统

数据分析—淘宝用户行为分析

日期：2024-11-09 作者：xinet caijiyuan 评论：0 移动：http://zhiwen.bhha.com.cn/news/344.html

核心提示：关键词：数据分析；项目；Python；numpy；pandas；SQL；Mysql；前言本篇分析报告为巩固所学知识，内容详尽，为各位热衷于数据

数据分析—淘宝用户行为分析

关键词：

数据分析；项目；Python；numpy；pandas；SQL；Mysql；

前言

本篇分析报告为巩固所学知识，内容详尽，为各位热衷于数据分析的小伙伴提供参考。

简洁的报告文将另起一篇。

本文分析基础的数据集来源：天池数据

该数据集是阿里巴巴官方公开的淘宝用户行为历史数据，用于反馈推荐问题的研究

文件名称 说明 包含特征 UserBehavior.csv 包含所有的用户行为数据用户ID，商品ID，商品类目ID，行为类型，时间戳

本数据集包含了2017年11月25日至2017年12月3日之间，有行为的约一百万随机用户的所有行为（行为包括点击、购买、加购、喜欢）。数据集的每一行表示一条用户行为，由用户ID、商品ID、商品类目ID、行为类型和时间戳组成，并以逗号分隔。关于数据集中每一列的详细描述如下：

列名称（Field） 说明（Explanation） User ID 整数类型，序列化后的用户ID Item ID 整数类型，序列化后的商品ID Category ID 整数类型，序列化后的商品所属类目ID Behavior type 字符串，枚举类型，包括('pv', 'buy', 'cart', 'fav') Timestamp 行为发生的时间戳

行为类型（Behavior type）共有四种，分别是

行为类型（Behavior type） 说明（Explanation）

pv

商品详情页pv，等价于点击 buy 商品购买 cart 将商品加入购物车 fav 收藏商品

数据集大小的一些说明如下

维度数量用户数量 987,994 商品数量 4,162,024 商品类目数量 9,439 所有行为数量 100,150,807

1.2.1 随机抽取

鉴于计算机硬件原因，分析实用数据将从原数据集不放回随机抽样2%的数据，约为200W条。

并查看数据信息

以新文件名UserData导出为新CSV：

1.2.2 数据观察

笔者本想通过Excel观察数据集UserData，但是有以下两个问题：

1.Excel处理行数存在上限，打开CSV文件不完全，打开时间缓慢

2.虽然不可以导入全部数据，但也可以观察到UserData数据集出现需删除的首列，且缺少标题值

因此笔者将直接借用Pandas修改数据集，代码如下：

数据展示如下：

1.2.3 数据格式修整

首先删除首列序号：

设置列索引名

修改后：

保存：

1.2.4 导入Mysql

首先创建名为datauser的数据库，这里使用Mysql命令行创建

接下来为了方便选择，采用图形交互界面workbench创建表，命名为taobaodata。

不幸的是创建完表后，导入数据发现数据集有很多大问题。

一是pandas导出发现数据集首行为char型的索引名，所以需要重读和重导设置参数header=False，不保存首行，也可以加上index=False。

其二是复制十行做测试的时候发现，excel保存UTF-8 会自带Bom文件,即首行首个字段会带不可见字符：/FEFE ，所以，需要下载 notepad++ 将其格式保存为UTF-8。

其三，打开csv文件会发现其每行的字段间的分隔符是‘，’所以需将其按逗号分隔，且每行按换行符' '分隔，代码如下：

其四，还有个注意的地方是，一开始还有'%secure_file_priv%'的权限问题，查找工具书设置好就行。（将另写文章）

本文地址：http://i.bhha.com.cn/news/344.html 康宝晨 http://i.bhha.com.cn/ , 查看更多

标签： 数据分析行为用户

更多>同类最新资讯

0 条相关评论

新闻列表

企业新闻

推荐企业新闻

推荐图文

推荐最新资讯

点击排行

• 如何撰写一份优秀的数据分析报告？就按这个模板	• 抖音直播带货如何做好数据分析？
• 直播电商行业数据分析： 86.50%消费者经常观看	• Python数据分析实战：降雨量统计分析报告分析
• 虎牙直播数据分析如何帮助您了解他人的直播	• 电商企业如何才能通过直播数据分析来帮助提升流
• Excel点击数据分析工具没反应 excel分析数据点	• 达多多数据分析平台
• 电商运营基本知识与常见的数据分析要素	• excel表数据分析技巧，打工人的必备法则！——