您当前的位置:首页 > IT编程 > 数据集
| C语言 | Java | VB | VC | python | Android | TensorFlow | C++ | oracle | 学术与代码 | cnn卷积神经网络 | gnn | 图像修复 | Keras | 数据集 | Neo4j | 自然语言处理 | 深度学习 | 医学CAD | 医学影像 | 超参数 | pointnet | pytorch | 异常检测 | Transformers |

自学教程:淘宝展示广告点击率预估数据集

51自学网 2023-10-18 18:21:00
  数据集
这篇教程淘宝展示广告点击率预估数据集写得很实用,希望能帮到您。

淘宝展示广告点击率预估数据集

天池小喵萌2018-04-0236756629CC-BY-SA-NC 4.0

内容
Notebook
评论

描述

Ali_Display_Ad_Click是阿里巴巴提供的一个淘宝展示广告点击率预估数据集。

数据列表

  • 数据名称上传日期大小下载
  • behavior_log.csv.tar.gz2018-04-0215.84MB
  • raw_sample.csv.tar.gz2018-04-02231.38MB
  • ad_feature.csv.tar.gz2018-04-029.51MB
  • user_profile.csv.tar.gz2018-04-025.80MB

文档

介绍

Ali_Display_Ad_Click是阿里巴巴提供的一个淘宝展示广告点击率预估数据集。

数据集介绍

数据名称 说明 属性
raw_sample 原始的样本骨架 用户ID,广告ID,时间,资源位,是否点击
ad_feature 广告的基本信息 广告ID,广告计划ID,类目ID,品牌ID
user_profile 用户的基本信息 用户ID,年龄层,性别等
raw_behavior_log 用户的行为日志 用户ID,行为类型,时间,商品类目ID,品牌ID

原始样本骨架raw_sample
我们从淘宝网站中随机抽样了114万用户8天内的广告展示/点击日志(2600万条记录),构成原始的样本骨架。
字段说明如下:
(1) user_id:脱敏过的用户ID;
(2) adgroup_id:脱敏过的广告单元ID;
(3) time_stamp:时间戳;
(4) pid:资源位;
(5) noclk:为1代表没有点击;为0代表点击;
(6) clk:为0代表没有点击;为1代表点击;
我们用前面7天的做训练样本(20170506-20170512),用第8天的做测试样本(20170513)。

广告基本信息表ad_feature
本数据集涵盖了raw_sample中全部广告的基本信息。字段说明如下:
(1) adgroup_id:脱敏过的广告ID;
(2) cate_id:脱敏过的商品类目ID;
(3) campaign_id:脱敏过的广告计划ID;
(4) customer_id:脱敏过的广告主ID;
(5) brand:脱敏过的品牌ID;
(6) price: 宝贝的价格
其中一个广告ID对应一个商品(宝贝),一个宝贝属于一个类目,一个宝贝属于一个品牌。

用户基本信息表user_profile
本数据集涵盖了raw_sample中全部用户的基本信息。字段说明如下:
(1) userid:脱敏过的用户ID;
(2) cms_segid:微群ID;
(3) cms_group_id:cms_group_id;
(4) final_gender_code:性别 1:男,2:女;
(5) age_level:年龄层次;
(6) pvalue_level:消费档次,1:低档,2:中档,3:高档;
(7) shopping_level:购物深度,1:浅层用户,2:中度用户,3:深度用户
(8) occupation:是否大学生 ,1:是,0:否
(9) new_user_class_level:城市层级

用户的行为日志behavior_log
本数据集涵盖了raw_sample中全部用户22天内的购物行为(共七亿条记录)。字段说明如下:
(1) user:脱敏过的用户ID;
(2) time_stamp:时间戳;
(3) btag:行为类型,  包括以下四种:

类型 说明
ipv 浏览
cart 加入购物车
fav 喜欢
buy 购买

(4) cate:脱敏过的商品类目;
(5) brand: 脱敏过的品牌词;
这里以user + time_stamp为key,会有很多重复的记录;这是因为我们的不同的类型的行为数据是不同部门记录的,在打包到一起的时候,实际上会有小的偏差(即两个一样的time_stamp实际上是差异比较小的两个时间)。

典型科研场景


根据用户历史购物行为预测用户在接受某个广告的曝光时的点击概率。


返回列表
机器学习多模态分析数据集(Multimodal Dataset)
51自学网自学EXCEL、自学PS、自学CAD、自学C语言、自学css3实例,是一个通过网络自主学习工作技能的自学平台,网友喜欢的软件自学网站。
京ICP备13026421号-1